数据挖掘现阶段最常用的算法

xj00281087
1 ℃
2019-12-05

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

数据挖掘最常见的十种方法下面介绍十种数据挖掘（DataMining）的分析方法，以便于大家对模型的初步了解，这些都是日常挖掘中经常遇到的算法，希望对大家有用！（甚至有数据挖掘公司，用其中的一种算法就能独步天下）1、基于历史的MBR分析（Memory-BasedReasoning；MBR）基于历史的MBR分析方法最主要的概念是用已知的案例（case）来预测未来案例的一些属性（attribute），通常找寻最相似的案例来做比较。记忆基础推理法中有两个主要的要素，分别为距离函数（distancefunction）与结合函数（combinationfunction）。距离函数的用意在找出最相似的案例；结合函数则将相似案例的属性结合起来，以供预测之用。记忆基础推理法的优点是它容许各种型态的数据，这些数据不需服从某些假设。另一个优点是其具备学习能力，它能藉由旧案例的学习来获取关于新案例的知识。较令人诟病的是它需要大量的历史数据，有足够的历史数据方能做良好的预测。此外记忆基础推理法在处理上亦较为费时，不易发现最佳的距离函数与结合函数。其可应用的范围包括欺骗行为的侦测、客户反应预测、医学诊疗、反应的归类等方面。2、购物篮分析（MarketBasketAnalysis）购物篮分析最主要的目的在于找出什么样的东西应该放在一起？商业上的应用在藉由顾客的购买行为来了解是什么样的顾客以及这些顾客为什么买这些产品，找出相关的联想（association）规则，企业藉由这些规则的挖掘获得利益与建立竞争优势。举例来说，零售店可藉由此分析改变置物架上的商品排列或是设计吸引客户的商业套餐等等。购物篮分析基本运作过程包含下列三点：（1）选择正确的品项：这里所指的正确乃是针对企业体而言，必须要在数以百计、千计品项中选择出真正有用的品项出来。（2）经由对共同发生矩阵（co-occurrencematrix）的探讨挖掘出联想规则。（3）克服实际上的限制：所选择的品项愈多，计算所耗费的资源与时间愈久（呈现指数递增），此时必须运用一些技术以降低资源与时间的损耗。购物篮分析技术可以应用在下列问题上：（1）针对信用卡购物，能够预测未来顾客可能购买什么。（2）对于电信与金融服务业而言，经由购物篮分析能够设计不同的服务组合以扩大利润。（3）保险业能藉由购物篮分析侦测出可能不寻常的投保组合并作预防。（4）对病人而言，在疗程的组合上，购物篮分析能作为是否这些疗程组合会导致并发症的判断依据。3、决策树（DecisionTrees）决策树在解决归类与预测上有着极强的能力，它以法则的方式表达，而这些法则则以一连串的问题表示出来，经由不断询问问题最终能导出所需的结果。典型的决策树顶端是一个树根，底部有许多的树叶，它将纪录分解成不同的子集，每个子集中的字段可能都包含一个简单的法则。此外，决策树可能有着不同的外型，例如二元树、三元树或混和的决策树型态。4、遗传算法（GeneticAlgorithm）遗传算法学习细胞演化的过程，细胞间可经由不断的选择、复制、交配、突变产生更佳的新细胞。基因算法的运作方式也很类似，它必须预先建立好一个模式，再经由一连串类似产生新细胞过程的运作，利用适合函数（fitnessfunction）决定所产生的后代是否与这个模式吻合，最后仅有最吻合的结果能够存活，这个程序一直运作直到此函数收敛到最佳解。基因算法在群集（cluster）问题上有不错的表现，一般可用来辅助记忆基础推理法与类神经网络的应用。5、聚类分析（ClusterDetection）这个技术涵盖范围相当广泛，包含基因算法、类神经网络、统计学中的群集分析都有这个功能。它的目标为找出数据中以前未知的相似群体，在许许多多的分析中，刚开始都运用到群集侦测技术，以作为研究的开端。6、连接分析（LinkAnalysis）连接分析是以数学中之图形理论（graphtheory）为基础，藉由记录之间的关系发展出一个模式，它是以关系为主体，由人与人、物与物或是人与物的关系发展出相当多的应用。例如电信服务业可藉连结分析收集到顾客使用电话的时间与频率，进而推断顾客使用偏好为何，提出有利于公司的方案。除了电信业之外，愈来愈多的营销业者亦利用连结分析做有利于企业的研究。7、OLAP分析（On-LineAnalyticProcessing；OLAP）严格说起来，OLAP分析并不算特别的一个数据挖掘技术，但是透过在线分析处理工具，使用者能更清楚的了解数据所隐藏的潜在意涵。如同一些视觉处理技术一般，透过图表或图形等方式显现，对一般人而言，感觉会更友善。这样的工具亦能辅助将数据转变成信息的目标。8、神经网络（NeuralNetworks）神经网络是以重复学习的方法，将一串例子交与学习，使其归纳出一足以区分的样式。若面对新的例证，神经网络即可根据其过去学习的成果归纳后，推导出新的结果，乃属于机器学习的一种。数据挖掘的相关问题也可采类神经学习的方式，其学习效果十分正确并可做预测功能。9、判别分析（DiscriminantAnalysis）当所遭遇问题它的因变量为定性（categorical），而自变量（预测变量）为定量（metric）时，判别分析为一非常适当之技术，通常应用在解决分类的问题上面。若因变量由两个群体所构成，称之为双群体—判别分析（Two-GroupDiscriminantAnalysis）；若由多个群体构成，则称之为多元判别分析（MultipleDiscriminantAnalysis；MDA）。（1）找出预测变量的线性组合，使组间变异相对于组内变异的比值为最大，而每一个线性组合与先前已经获得的线性组合均不相关。（2）检定各组的重心是否有差异。（3）找出哪些预测变量具有最大的区别能力。（4）根据新受试者的预测变量数值，将该受试者指派到某一群体。10、罗吉斯回归分析（LogisticAnalysis）当判别分析中群体不符合正态分布假设时，罗吉斯回归分析是一个很好的替代方法。罗吉斯回归分析并非预测事件（event）是否发生，而是预测该事件的机率。它将自变量与因变量的关系假定是S行的形状，当自变量很小时，机率值接近为零；当自变量值慢慢增加时，机率值沿着曲线增加，增加到一定程度时，曲线协率开始减小，故机率值介于0与1之间。补充：常用数据挖掘算法频繁模式挖掘，关系挖掘，以及相互关系挖掘所谓频繁模式挖掘，指的是比如在商品交易数据库记录中，找出一起出现的商品集合，这些商品集合出现的频率要高于一个阈值，这些经常出现的商品集合称之为频繁模式。频繁模式的思路很简单，首先统计出每个单个商品出现的次数，这就构成了一个一维表。然后再根据一维表，商品两两组合产生一个二维表。然后再由二维表产生三维表，直至到n维表。其中可以利用apriori，进行剪枝，也就是说一维表中如果出现的频率低于阈值的商品，就可以直接去掉，应为包含该商品的高维商品集合的出现频率不可能高于该阈值，可以直接剪枝去掉。频繁模式挖掘还有一种更加高效的方式，就是FPGrowth，该方法通过扫描一遍数据库，在内存中构造一颗FPtree，基于这棵树就可以产生所有的频繁模式。很显然FPGrowth算法的效率要高很多，但是其缺陷也很明显，在内存中维护一颗FPtree的开销也是很大的。为了解决这个问题，一个直接的思路是将数据库水平分表到各台机器上，在各台机器上执行本地的FPGrowth，然后再将各台机器上的结果汇总起来，得到最终的FPGrowth的结果。所谓关系挖掘，值得是挖掘出各个项目之间的因果关系。关系挖掘的基础是频繁模式挖掘，通过频繁模式挖掘，很容易得出关系，举例就很容易明白，比如我们得到一个频繁集合：那么通过排列组合可以得到l的子集集合：那么很容易得到下面的推理集合，也就是挖掘出的关系：所有的关系挖掘本质上都是基于频繁模式推导出来的。在关系挖掘中，有一种非常有用的关系模式挖掘:miningquantitativeassociationrules。所谓quantitativeassociationrules是这样一种关系模式：该关系模式的挖掘，首先是确定我们所感兴趣的属性：quan1,quan2,cat，然后根据事先确定的间隔，将quan1，quan2按照一定的间隔划分成一定的catorgory，然后进行频繁模式挖掘，得出一些关系，然后将这些关系按照grid进行聚合，生成最后的关系模式。通过关系挖掘挖出的关系中往往有很多不是非常有用，因此需要通过另外的指标排除一些这样的关系，这个指标就是correlation，如下：Correlation是用来衡量A，B之间的相关性，从而排除那些没有意义的规则。对于上述所提到的关系挖掘，有一种称之为constraint-basedassociationmining，这是一种特殊的关系挖掘，它对于所挖掘出的条件加了一些限制条件，这些限制条件可能是由用户提出的，其主要目的是排除一些不感兴趣的关系。对于这种关系挖掘，最直接的办法先按照最普通的关系挖掘方法进行挖掘，然后利用条件来对结果进行。但是还有更好的方法，就是在挖掘的过程中利用这些条件，从而缩小整个挖掘过程中的searchspace，从而提高效率。这些限制条件分为这么几种：antimonotonic，monotonic，succinct，convertible，inconvertible，针对每一种的限制条件，都有一些通用的方法或策略来缩小挖掘的searchspace，可参阅相关资料。分类和预测分类树分类树是一种很常用的分类方法，它该算法的框架表述还是比较清晰的，从根节点开始不断得分治，递归，生长，直至得到最后的结果。根节点代表整个训练样本集,通过在每个节点对某个属性的测试验证,算法递归得将数据集分成更小的数据集.某一节点对应的子树对应着原数据集中满足某一属性测试的部分数据集.这个递归过程一直进行下去。该算法是数据挖掘中常用的一类方法。贝叶斯分类器贝叶斯分类的思想很简单，就是计算属性和分类之间的条件概率，选择使得条件概率最大的分类作为最终的分类结果，这是一种基于统计的分类方法，得到了广泛的引用。贝叶斯分类器分为两种，一种是朴素贝叶斯分类器，它基于贝叶斯理论：其中X代表特征向量,C代表分类.我们的目标就是找出使得这个后验概率最大的那个类.其中需要注意的是X中的各个特征分量是分布独立的.这样就有:朴素贝叶斯分类器最经典的应用场景就是垃圾邮件过滤。朴素贝叶斯分类器的升级版本就是贝叶斯网络，因为朴素贝叶斯网络假设样本的特征向量的各个特征属性是独立的，但对于现实世界，这样的建模未必合理，因此有人就提出了贝叶斯网络，贝叶斯网络假设各个属性之间是存在条件概率的。贝叶斯网络是一个各个属性组成的有向拓扑网络，每条边代表条件概率，通过贝叶斯网络能够计算出各个属性相互组合的条件概率。基于规则的分类器这种分类器利用IFTHEN的规则来进行分类。对于如何产生规则，有两种方法：第一种方法，就是从决策树中生成规则。因为决策树天然的就是规则。第二种方法，是采用SequentialCoveringAlgorithm，直接从训练样本中生成规则集。该方法的思路是一种general-to-specific的方法，该方法从一个空规则开始，然后向规则中依次逐渐增加属性测试条件，选择该属性测试值（也就是测试分界点，attrval）的依据就是是否能够最大限度得改进规则的分类质量。基于神经网络的分类器神经网络分类器是依据属性构造一个网络拓扑结构，该拓扑结构的边具有权重值，我们的目的是不断得利用训练样本然后不断得更新神经网络的边权重值。然后利用该网络就可以得到输出的分类。该算法模拟神经的组成结构，利用了单元之间的反馈机制。但该算法的缺点也很明显，网络拓扑结构的确定没有明确统一的方法论，很多只能靠规划者的经验，因此训练结果往往因人而异，限制了神经网络的使用。支持向量机分类器支持向量机是在训练样本空间中构造超平面来对样本进行分类，它的优势是对高维度不敏感。但效率较低，实施较为复杂。关联分类器关联分类器的思路很简单，前面我们提到频繁模式挖掘，我们将样本的某一属性的（