从海量数据到大数据-数据挖掘算法、过程及应用案例110

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

从海量数据到大数据-数据挖掘算法、过程及应用案例BOC曾立平一、数据挖掘需求二、数据挖掘流程三、常用算法介绍四、模型应用案例五、大数据挖掘技术六、大数据应用案例目录几个问题•数据挖掘是什么?•数据挖掘与统计学的区别•数据挖掘与数据分析的区别数据挖掘几大核心问题一、数据挖掘需求二、数据挖掘流程三、常用算法介绍四、模型应用案例五、大数据挖掘技术六、大数据应用案例目录数据挖掘项目流程1:businessunderstanding:即商业理解。•根据客户的消费行为进行聚类,为营销人员提供用户的实际消费特征;2.dataunderstanding:数据的理解、收集、对可用的数据进行评估.•在数据仓库中收集客户的消费、语音、数据业务数据,并分析评估数据的有效性;3:datapreparation:数据的准备•对可用的原始数据进行一系列的组织以及清洗,使之达到建模需求;4:modeling:即应用数据挖掘工具建立模型•如,根据实际数据情况,我们采用聚类分析TWO-STEP模型进行分析;5:evaluation:模型评估•重点具体考虑得出的结果是否符合第一步的商业目的6:deployment:部署•即将其发现的结果以及过程组织成为可读文本形式.(数据挖掘报告)CRISP-DM过程问题理解问题理解数据准备数据准备模型准备模型准备模型建立模型建立模型应用模型应用数据提取数据提取数据检验数据检验变量筛选变量筛选算法选择算法选择数据挖掘数据挖掘亚联数据挖掘建模流程模型测试模型测试数据加工数据加工变量变换变量变换建模流程——问题理解清晰地定义出业务问题,认清数据挖掘的目的是挖掘的重要一步;挖掘的最后结果具有不可预见性,但要解决的问题应是明确的;为了数据挖掘而数据挖掘则带有盲目性,是不会成功的行业•国内外环境•行业特征•目前状态•…企业•市场份额•用户情况•竞争对手•…部门•部门职责•研究对象•相关部门•…问题产生的背景•理解业务问题•理解客户需求•定义商业目标•定义数据挖掘目标问题理解建模流程——数据准备数据准备确保建模数据的可用性和完整性•了解数据字段含义•提取建模所需数据数据提取•数据来源检验•数据统计口径检验•数据统计错误检验数据检验•缺失值处理•噪声值处理•极值处理数据加工建模流程——模型准备筛选建模变量、根据模型要求进行数据变换字段过滤•变异系数•标准差•最大类别数•最小类别数数据探索•数据分布•双变量分析•正态性检验相关性分析•卡方分析•方差分析•相关分析•自相关分析建模筛选•通过建模分析字段的重要性•决策树模型,信息增益旁别•逻辑回归模型,回归系数显著性检验数据变换•标准化变换•对数变换•正态变换方法选择建模流程——模型建立数据准备方法选择参数设置模型计算建模过程具体方法选择可参见挖掘模型的常见算法介绍模型计算可自行开发算法或利用工具,如SAS、SPSS、Clementine、R、Weka等参数设置根据选择的算法根据模型类型不同可能需要对数据抽样分组建模流程——模型评估建模结果建模阶段评估上线测试评估营销应用评估评估结果评估结果评估结果第一次优化第二次优化模型上线营销应用第三+N次优化建模流程——模型评估收益图横轴为模型筛选用户在候选用户中占比,按筛选用户质量从高到低排序。纵轴为查全率筛选用户中目标用户在候选用户中所有目标用户中的占比。表明模型筛选用户所花费的代价(模型筛选用户在候选用户中占比)和与之对应的查全率,查全率相对于代价的增幅,就是收益。提升图横轴为模型筛选用户在候选用户中占比,按筛选用户质量从高到低排序。纵轴为筛选用户的准确率和目标用户渗透率(目标用户数/候选用户数)的比值。表明应用模型筛选目标用户后准确率的提升。评估指标准确率:预测流失且实际流失的客户数/预测流失的客户数。查全率(覆盖率):预测流失且实际流失的客户数/实际流失的客户数。提升度:准确率/流失率,也就是使用模型后预测准确率的提升倍数。建模流程——模型固化底层数据表数据计算流前台应用层数据表SQL系统界面一、数据挖掘背景二、数据挖掘流程三、常用算法介绍四、模型应用案例五、大数据挖掘技术六、大数据应用案例目录数据挖掘任务四类任务是对数据挖掘的高度概括分类分类(classification)是这样的过程:使用类标签已知的样本建立一个分类函数或分类模型(也常常称作分类器),应用分类模型,能把数据库中的类标签未知的数据进行归类。分类在数据挖掘中是一项重要的任务,目前在商业上应用最多。分类是过程,预测是目的分类算法:决策树逻辑回归神经网络支持向量机贝叶斯分类判别分析KNN(K近邻)……典型应用:流失预测精确营销客户获取个性偏好信用分析欺诈预警……•决策树是描述分类过程的一种数据结构,从上端的根节点开始,每一层节点依照某一属性值向下分为子节点,待分类的实例在每一节点处与该节点相关的属性值进行比较,根据不同的比较结果向相应的子节点扩展,这一过程在到达决策树的叶节点时结束。•从根节点到叶节点的每一条路经都对应着一条合理的规则,规则间各个部分(各个层的条件)的关系是合取关系。整个决策树就对应着一组析取的规则。•决策树学习算法的最大优点是,它可以自学习。在学习的过程中,不需要使用者了解过多背景知识,只需要对训练例子进行较好的标注,就能够进行学习。根结点个子大可能是松鼠可能是老鼠可能是大象在水里会吱吱叫鼻子长脖子长个子小不会吱吱叫鼻子短脖子短可能是长颈鹿在陆地上可能是犀牛可能是河马分类--决策树决策树算法有ID3、C5.0、CHAID、QUEST、C&RTREE(分类回归树)……建模应用分类--决策树位列十大算法之首国际权威的学术组织theIEEEInternationalConferenceonDataMining(ICDM)2006年12月评选出了数据挖掘领域的十大经典算法:1.C4.52.Thek-meansalgorithm即K-Means算法3.Supportvectormachines4.TheApriorialgorithm5.最大期望(EM)算法6.PageRank7.AdaBoost8.kNN:k-nearestneighborclassification9.NaiveBayes10.CART:分类与回归树深入理解决策树算法关于决策树算法的几个问题:1.决策树分支的基本原则是什么?id3增益计算有什么缺点?2.决策树停止生长的几个条件是什么?3.c5算法能处理缺失值吗?怎么处理缺失值?4.如果防止决策树的过度拟合?逻辑回归分类算法深入理解逻辑回归算法关于逻辑回归算法的几个问题:1.怎么逻辑?怎么回归?2.逻辑回归的建模变量有什么要求?3.如何检验回归的效果?4.如何理解回归系数?3.逻辑回归筛选变量的方法有什么区别?分类(逻辑回归vs决策树)•逻辑回归(LogisticRegression)模型:也称定性变量回归,类似于线性回归,但是目标字段使用字符型字段而不是数值型字段。Logistic回归建立一组方程,把输入属性值与输出字段每一类的概率联系起来。一旦生成模型,便可用于估计新记录属于某类的概率。概率最大的目标类被指定为该记录的预测输出值优点①泛化能力较好,精度较高②能精确控制用户数量缺点①对数据的要求高②多重共线性问题③不能处理复杂的用户特征优点①可以生成可以理解的规则②健壮性好③能处理非线性关系缺点①当类别太多时,错误可能就会增加的比较快②一般的算法分类的时候,只是根据一个字段来分类③泛化能力较差VS神经网络-神经元的结构InputsignalSynapticweightsSummingfunctionActivationfunctionOutputyx1x2xnw2wnw1)(f-θ)sgn()(1niiixwzfy响应函数:神经网络的学习过程(A)模型的特点1、有指导的学习2、前馈网络3、反向传播算法(B)可变参数1、隐含层的数目2、学习效率3、动态常量4、停止准则支持向量机确定分类函数f(x)=w.x+b(w.x表示w与x的内积)中的两个参数w和b那如何确定w和b呢?答案是寻找两条边界端或极端划分直线中间的最大间隔把寻求分类函数f(x)=w.x+b的问题转化为对w,b的最优化问题。核函数高维空间转换线性可分SVM算法的优点SVM在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势,SVM在很多诸如文本分类,图像分类,生物序列分析和生物数据挖掘,手写字符识别等领域有很多的应用,SVM可以成功应用的领域远远超出现在已经在开发应用了的领域。朴素贝叶斯分类•朴素贝叶斯分类的工作过程如下:•(1)每个数据样本用一个n维特征向量X={x1,x2,……,xn}表示,分别描述对n个属性A1,A2,……,An样本的n个度量。•(2)假定有m个类C1,C2,…,Cm,给定一个未知的数据样本X(即没有类标号),分类器将预测X属于具有最高后验概率(条件X下)的类。也就是说,朴素贝叶斯分类将未知的样本分配给类Ci(1≤i≤m)当且仅当P(Ci|X)P(Cj|X),对任意的j=1,2,…,m,j≠i。这样,最大化P(Ci|X)。其P(Ci|X)最大的类Ci称为最大后验假定。根据贝叶斯定理)()()|()|(XPCPCXPXCPiii(3)由于P(X)对于所有类为常数,只需要P(X|Ci)*P(Ci)最大即可。如果Ci类的先验概率未知,则通常假定这些类是等概率的,即P(C1)=P(C2)=…=P(Cm),因此问题就转换为对P(X|Ci)的最大化(P(X|Ci)常被称为给定Ci时数据X的似然度,而使P(X|Ci)最大的假设Ci称为最大似然假设)。(4)为降低计算P(X|Ci)的开销,可以做类条件独立的朴素假定。给定样本的类标号,假定属性值条件地相互独立。即,在属性间,不存在依赖关系。这样,概率P(X1|Ci),P(X2|Ci),...,P(Xn|Ci)可以由可以由训练样本计算K近邻法k-近邻法:最近邻法的扩展,其基本规则是,在所有N个样本中找到与测试样本的k个最近邻者,其中各类别所占个数表示成ki,i=1,…,c。定义判别函数为:gi(x)=ki,i=1,2,…,c。决策规则为:argmax(),1,...,iijgicxk-近邻一般采用k为奇数,跟投票表决一样,避免因两种票数相等而难以决策。在N→∞的条件下,k-近邻法的错误率要低于最近邻法。最近邻法和k-近邻法的错误率上下界都是在一倍到两倍贝叶斯决策方法的错误率范围内。K近邻错误率聚类聚类(clustering)是指根据“物以类聚”的原理,将本身没有类别的样本聚集成不同的组,这样的一组数据对象的集合叫做簇,并且对每一个这样的簇进行描述的过程。它的目的是使得属于同一个簇的样本之间应该彼此相似,而不同簇的样本应该足够不相似。与分类规则不同,进行聚类前并不知道将要划分成几个组和什么样的组,也不知道根据哪些空间区分规则来定义组。聚类算法:1.划分法(partitioningmethods)  K-MEANS算法、K-MEDOIDS算法、CLARANS算法;2.层次法(hierarchicalmethods)  BIRCH算法、CURE算法、CHAMELEON算法等;3.基于密度的方法(density-basedmethods)DBSCAN算法、OPTICS算法、DENCLUE算法等典型应用:客户细分客户研究市场细分价值评估精细营销……聚类分析--TwoStep特点原理1.层次聚类的计算开销较大,但经过改进的层次聚类大大提升了处理速度。2.可自动确定或者根据业务需要人工指定分类数目。第一步,预聚类、准聚类过程:把某个观测量放在树的根节点处,它记录有该观测量的变量信息,然后根据指定的距离测度作为相似性依据,使每个后续观测量根据它与已有节点的相似性,放到最相似的节点中,如果没有找到某个相似性的节点,就为它形成一个新的节点。第二步,层次聚类:将以第一步完成的预聚类作为输入,对之使用分层聚类的方

1 / 110
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功