数据挖掘十大经典算法

xingle
2 ℃
2020-04-29

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

数据挖掘十大经典算法一、C4.5C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法.C4.5算法继承了ID3算法的优点，并在以下几方面对ID3算法进行了改进：1)用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；2)在树构造过程中进行剪枝；3)能够完成对连续属性的离散化处理；4)能够对不完整数据进行处理。C4.5算法有如下优点：产生的分类规则易于理解，准确率较高。其缺点是：在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。1、机器学习中，决策树是一个预测模型；他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出，若欲有复数输出，可以建立独立的决策树以处理不同输出。2、从数据产生决策树的机器学习技术叫做决策树学习,通俗说就是决策树。3、决策树学习也是数据挖掘中一个普通的方法。在这里，每个决策树都表述了一种树型结构，他由他的分支来对该类型的对象依靠属性进行分类。每个决策树可以依靠对源数据库的分割进行数据测试。这个过程可以递归式的对树进行修剪。当不能再进行分割或一个单独的类可以被应用于某一分支时，递归过程就完成了。另外，随机森林分类器将许多决策树结合起来以提升分类的正确率。决策树是如何工作的？1、决策树一般都是自上而下的来生成的。2、选择分割的方法有好几种，但是目的都是一致的：对目标类尝试进行最佳的分割。3、从根到叶子节点都有一条路径，这条路径就是一条―规则4、决策树可以是二叉的，也可以是多叉的。对每个节点的衡量：1)通过该节点的记录数2)如果是叶子节点的话，分类的路径3)对叶子节点正确分类的比例。有些规则的效果可以比其他的一些规则要好。由于ID3算法在实际应用中存在一些问题，于是Quilan提出了C4.5算法，严格上说C4.5只能是ID3的一个改进算法。相信大家对ID3算法都很.熟悉了，这里就不做介绍。C4.5算法继承了ID3算法的优点，并在以下几方面对ID3算法进行了改进：1)用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；2)在树构造过程中进行剪枝；3)能够完成对连续属性的离散化处理；4)能够对不完整数据进行处理。C4.5算法有如下优点：产生的分类规则易于理解，准确率较高。其缺点是：在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。此外，C4.5只适合于能够驻留于内存的数据集，当训练集大得无法在内存容纳时程序无法运行。来自搜索的其他内容：C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法.分类决策树算法是从大量事例中进行提取分类规则的自上而下的决策树.决策树的各部分是:根:学习的事例集.枝:分类的判定条件.叶:分好的各个类.ID3算法1.概念提取算法CLS1)初始化参数C={E},E包括所有的例子,为根.2)IFC中的任一元素e同属于同一个决策类则创建一个叶子节点YES终止.ELSE依启发式标准,选择特征Fi={V1,V2,V3,．．．Vn}并创建判定节点划分C为互不相交的N个集合C1,C2,C3,．．．,Cn；3)对任一个Ci递归.2.ID3算法1)随机选择C的一个子集W(窗口).2)调用CLS生成W的分类树DT(强调的启发式标准在后).3)顺序扫描C搜集DT的意外(即由DT无法确定的例子).4)组合W与已发现的意外,形成新的W.5)重复2)到4),直到无例外为止.启发式标准:只跟本身与其子树有关,采取信息理论用熵来量度.熵是选择事件时选择自由度的量度,其计算方法为P=freq(Cj,S)/|S|;INFO(S)=-SUM(P*LOG(P));SUM()函数是求j从1到n和.Gain(X)=Info(X)-Infox(X);Infox(X)=SUM((|Ti|/|T|)*Info(X);为保证生成的决策树最小,ID3算法在生成子树时,选取使生成的子树的熵(即Gain(S))最小的的特征来生成子树.3、ID3算法对数据的要求1）.所有属性必须为离散量.2）.所有的训练例的所有属性必须有一个明确的值.3）.相同的因素必须得到相同的结论且训练例必须唯一.C4.5对ID3算法的改进:1.熵的改进,加上了子树的信息.Split_Infox(X)=-SUM((|T|/|Ti|)*LOG(|Ti|/|T|));Gainratio(X)=Gain(X)/SplitInfox(X);2.在输入数据上的改进.1)因素属性的值可以是连续量,C4.5对其排序并分成不同的集合后按照ID3算法当作离散量进行处理,但结论属性的值必须是离散值.2)训练例的因素属性值可以是不确定的,以?表示,但结论必须是确定的3.对已生成的决策树进行裁剪,减小生成树的规模.二、数据挖掘十大经典算法(2)k-means术语“k-means”最早是由JamesMacQueen在1967年提出的，这一观点可以追溯到1957年HugoSteinhaus所提出的想法。1957年，斯图亚特·劳埃德最先提出这一标准算法，当初是作为一门应用于脉码调制的技术,直到1982年，这一算法才在贝尔实验室被正式提出。1965年，E.W.Forgy发表了一个本质上是相同的方法，1975年和1979年，Hartigan和Wong分别提出了一个更高效的版本。算法描述输入：簇的数目k；包含n个对象的数据集D。输出：k个簇的集合。方法：从D中任意选择k个对象作为初始簇中心；repeat;根据簇中对象的均值，将每个对象指派到最相似的簇；更新簇均值，即计算每个簇中对象的均值；计算准则函数；until准则函数不再发生变化。算法的性能分析1）优点（1）k-平均算法是解决聚类问题的一种经典算法，算法简单、快速。（2）对处理大数据集，该算法是相对可伸缩的和高效率的，因为它的复杂度大约是O（nkt），其中n是所有对象的数目，k是簇的数目,t是迭代的次数。通常kn。这个算法经常以局部最优结束。（3）算法尝试找出使平方误差函数值最小的k个划分。当簇是密集的、球状或团状的，而簇与簇之间区别明显时，它的聚类效果很好。2）缺点（1）k-平均方法只有在簇的平均值被定义的情况下才能使用，不适用于某些应用，如涉及有分类属性的数据不适用。（2）要求用户必须事先给出要生成的簇的数目k。（3）对初值敏感，对于不同的初始值，可能会导致不同的聚类结果。（4）不适合于发现非凸面形状的簇，或者大小差别很大的簇。（5）对于噪声和孤立点数据敏感，少量的该类数据能够对平均值产生极大影响。算法的改进针对算法存在的问题，对K-means算法提出一些改进：一是数据预处理，二是初始聚类中心选择，三是迭代过程中聚类种子的选择。1、首先对样本数据进行正规化处理，这样就能防止某些大值属性的数据左右样本间的距离。给定一组含有n个数据的数据集，每个数据含有m个属性，分别计算每一个属性的均值、标准差对每条数据进行标准化。3、其次，初始聚类中心的选择对最后的聚类效果有很大的影响，原K-means算法是随机选取k个数据作为聚类中心，而聚类的结果要是同类间尽可能相似，不同类间尽可能相异，所以初始聚类中心的选取要尽可能做到这一点。采用基于距离和的孤立点定义来进行孤立点的预先筛选，并利用两两数据之间的最大距离在剩余数据集合中寻找初始聚类中心。但对于实际数据，孤立点个数往往不可预知。在选择初始聚类中心时，先将孤立点纳入统计范围，在样本中计算对象两两之间的距离，选出距离最大的两个点作为两个不同类的聚类中心，接着从其余的样本对象中找出已经选出来的所有聚类中心的距离和最大的点为另一个聚类中心，直到选出k个聚类中心。这样做就降低了样本输入顺序对初始聚类中心选择的影响。聚类中心选好以后，就要进行不断的迭代计算，在K-means算法中，是将聚类均值点(类中所有数据的几何中心点)作为新的聚类种子进行新一轮的聚类计算，在这种情况下，新的聚类种子可能偏离真正的数据密集区，从而导致偏差，特别是在有孤立点存在的情况下，有很大的局限性。在选择初始中心点时，由于将孤立点计算在内，所以在迭代过程中要避免孤立点的影响。这里根据聚类种子的计算时，采用簇中那些与第k-1轮聚类种子相似度较大的数据，计算他们的均值点作为第k轮聚类的种子，相当于将孤立点排除在外，孤立点不参与聚类中心的计算，这样聚类中心就不会因为孤立点的原因而明显偏离数据集中的地方。在计算聚类中心的时候，要运用一定的算法将孤立点排除在计算均值点那些数据之外，这里主要采用类中与聚类种子相似度大于某一阈值的数据组成每个类的一个子集，计算子集中的均值点作为下一轮聚类的聚类种子。为了能让更多的数据参与到聚类中心的计算种去，阈值范围要包含大多数的数据。在第k-1轮聚类获得的类，计算该类中所有数据与该类聚类中心的平均距离S,选择类中与聚类种子相似度大于2S的数据组成每个类的一个子集，以此子集的均值点作为第k轮聚类的聚类种子。在数据集中无论是否有明显的孤立点存在，两倍的平均距离都能包含大多数的数据。对孤立点的改进—基于距离法经典k均值算法中没有考虑孤立点。所谓孤立点都是基于距离的,是数据U集中到U中最近邻居的距离最大的对象,换言之,数据集中与其最近邻居的平均距离最大的对象。针对经典k均值算法易受孤立点的影响这一问题,基于距离法移除孤立点,具体过程如下:首先扫描一次数据集,计算每一个数据对象与其临近对象的距离,累加求其距离和,并计算出距离和均值。如果某个数据对象的距离和大于距离和均值,则视该点为孤立点。把这个对象从数据集中移除到孤立点集合中,重复直到所有孤立点都找到。最后得到新的数据集就是聚类的初始集合。对随机选取初始聚类中心的改进经典k均值算法随机选取k个点作为初始聚类中心进行操作。由于是随机选取,则变化较大,初始点选取不同,获得聚类的结果也不同。并且聚类分析得到的聚类的准确率也不一样。对k均值算法的初始聚类中心选择方法—随机法进行改进,其依据是聚类过程中相同聚类中的对象是相似的,相异聚类中的对象是不相似的。因此提出了一种基于数据对象两两间的距离来动态寻找并确定初始聚类中心的思路,具体过程如下:首先整理移除孤立点后的数据集U,记录数据个数y,令m=1。比较数据集中所有数据对象两两之间的距离。找出距离最近的2个数据对象形成集合Am;比较Am中每一个数据对象与数据对象集合U中每一个对象的距离,在U中找出与Am中最近的数据对象,优先吸收到Am中,直到Am中的数据对象个数到达一定数值,然后令m=m+1。再从U中找到对象两两间距离最近的2个数据对象构成Am,重复上面的过程,直到形成k个对象集合。这些集合内部的数据是相似的,而集合间是相异的。可以看出,这种聚类方法同时满足以下2个条件:①每个组至少包含一个数据对象;②每个数据对象必须属于且仅属于一个组。即数据对象Xi∈Ai,且U={{A1∪A2∪…∪Ak}∪A0},且Ai∩Aj=Φ。最后对k个对象集合分别进行算术平均,形成k个初始聚类中心。近似的k平均算法已经被设计用于原始数据子集的计算。从算法的表现上来说，它并不保证一定得到全局最优解，最终解的质量很大程度上取决于初始化的分组。由于该算法的速度很快，因此常用的一种方法是多次运行k平均算法，选择最优解。k平均算法的一个缺点是，分组的数目k是一个输入参数，不合适的k可能返回较差的结果。另外，算法还假设均方误差是计算群组分散度的最佳参数。三、数据挖掘十大经典算法(3)Svm支持向量机，英文为SupportVectorMachine，简称SV机（论文中一般简称SVM）。它是一种监督式学习的方法，它广泛的应用于统计分类以及回归分析中。支持向量机属于一般化线性分类器.他们也可以认为是提克洛夫规范化（TikhonovRegularization）方法的一个特例.这族分类器的特点是他们能够同时最小化经验误差与最大化几何边缘区.因此支持向量机也被称为最大边缘区分类器。在统计计算中，最大期望（