SAS学习系列35聚类分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

35.聚类分析(一)概述聚类分析,相当于“物以类聚”,用于对事物的类别面貌尚不清楚,甚至在事前连总共有几类都不能确定的情况下对数据进行分类。而判别分析,必须事先知道各种判别的类型和数目,并且要有一批来自各判别类型的样本,才能建立判别函数来对未知属性的样本进行判别和归类。聚类分析是把分类对象按一定规则分成组或类,这些组或类不是事先给定的而是根据数据特征而定的。在同类的对象在某种意义上倾向于彼此相似,而在不同类里的这些对象倾向于不相似。根据这种相似性的不同定义,聚类分析也有不同的方法。聚类分析分为:对样品的聚类,对变量的聚类。样品聚类:其统计指标是类与类之间距离,把每一个样品看成空间中的一个点,用某种原则规定类与类之间的距离,将距离近的点聚合成一类,距离远的点聚合成另一类。变量聚类:其统计指标是相似系数,将比较相似的变量归为一类,而把不怎么相似的变量归为另一类,用它可以把变量的亲疏关系直观地表示出来。(二)原理一、距离和相似系数1.距离设有n组样品,每组样品有p个变量的数据如下:变量样品V1V2…VpX1x11x12…x1pX2x21x22…x2p……………Xnxn1xn2…xnp例如,Xi到Xj的闵科夫斯基距离定义为:11||,1,pqqijikjkkdxxijnq=2时为欧几里得距离;还有马氏距离:dij=(Xi-Xj)TS-1(Xi-Xj)其中,Xi=(xi1,…,xip),S-1为n个样品的p×p的协方差矩阵的逆矩阵。注:马氏距离考虑了观测变量之间的相关性和变异性(不再受各指标量纲的影响)。距离选择的基本原则:(1)要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空间距离概念。马氏距离有消除量纲影响的作用。(2)要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析之前已经对变量作了标准化处理,则通常就可采用欧氏距离。(3)应根据研究对象的特点不同做出具体分折。实际中,聚类分析前不妨试探性地多选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最合适的距离测度方法。2.相似系数变量间的相似性,可以从它们的方向趋同性或“相关性”进行考察,从而得到“夹角余弦法”和“相关系数”两种度量方法。(1)夹角余弦Xi=(xi1,…,xip)和Xj作为p维向量,按通常内积中夹角的概念来定义12211cospikjkkijijppikjkkkxxcxx(2)相关系数12211()()()()pikijkjkijijppikijkjkkxxxxcrxxxx显然|cij|≤1,借助于相似系数,可以定义变量之间的距离。例如,采用非相似测度距离为dij=1-|cij|,或dij2=1-rij2.二、类的特征、类间的距离1.类的定义给定某阈值T,①若dij≤T,对任意i,j∈G;或者②若(∑j∈Gdij)/(k-1)≤T,对任意i∈G;或者③若对任意i∈G,都存在j∈G使得dij≤T;则称G为一个类。条件从强到弱的顺序为:①②③2.类的特征设类G的元素为x1,…,xm,m为G中样品数。描述类的特征有:(1)均值或重心(2)样品协方差阵11,()()1mTGGGiGiGiSAAxxxxm其中(3)直径,1()()()maxmTGiGiGGGijijGiDxxxxtrADd或3.类间的距离设Gp和Gq中分别有p和q个样品,它们的重心分别记为px和qx.(1)最短距离它不对类的形状加以限制,保证了对拉长和不规则类的检测,例如(b)(c)(e)(d)形式的类;但它却牺牲了恢复压缩类的性能,另外它也趋向于在分开主要类之前去掉分布的尾部。(2)最长距离严重地倾向于产生直径粗略相等的类,而且可能被异常值严重地扭曲,例如(a).(3)重心法距离即两个重心之间欧氏距离的平方。重心法在处理异常值上比其他谱系方法更稳健,但是在其他方便不如Ward或类平均距离法的效果好。(4)类平均距离Gp和Gq中所有两个样品对之间距离的平均。类平均距离法趋向于合并具有较小偏差的类,而且稍微有点倾向与产生相同方差的类。例如(a).(5)Ward最小方差法或Ward离差平方和距离qpqpwDDDqpD),(D表示类的直径,也有qpqpwxxxxqppqqpD,若样品间的距离采用欧氏距离,上式可表示为qpDqppqqpDw,,该方法在每次合并类Gp和Gq为Gp+q时,总是选择使得合并后的Dw(p,q)值最小的类Gp和Gq(最小方差法).合并后增加的最小方差Dw(p,q)除以合并后总的离差平方和TSS的比值(即半偏R2)的统计意义是容易解释的。Ward方法趋向于合并具有少量观察的类,并倾向于形成具有大约相同数目观察的类,一般是在多元正态混合型、等球形协方差、等抽样概率假设下合并类。例如(a).Ward方法对异常值也很敏感。(6)密度估计法例如(b).使用一种基于密度估计的新的非相似测度d*来计算样品xi和xj的近邻关系;②然后根据基于d*方法计算的距离,采用最小距离法进行聚类。有三种不同的密度估计法:k最近邻估计法、均匀核估计法、Wong混合法(适用于大数据集而不适用于小数据集)。(7)两阶段密度估计法在密度估计法中,众数类经常在尾部所有点聚类之前就已经被合并掉了。两阶段密度估计法对密度估计法这一缺点进行了修正,以确保众数类被合并之前,所有点能被分配到众数类中去。在第一阶段中,互不相交的众数类被生成,只有在两个类中至少有一个类中的样品个数少于proccluster过程的选项“mode=值”时才能合并。在第二阶段中,把前面形成的众数类再按最短距离法谱系地合并(某一类能够完全地包含在别的类里,但在类之间不允许其他形式的重迭)。(8)最大似然法最大似然估计法是在三个基本假设:多元正态混合分布、等球面协方差和不等抽样概率的前提下,使得在谱系的每个水平上似然值最大。该方法除了偏向于生成不等大小的类外,与Ward最小方差法很相似。proccluster过程的偏度选项penalty=p值可用于调整偏向的程度。修正公式可将公式中的2改为p值。三、类的统计量(1)类Gp的均方根标准差即类内的离差平方和(定义为直径),点越分散直径越大。(2)R2R2用于评价每次合并成m个类时的聚类效果,R2越大说明聚类效果(能被分开)越好。R2=1,说明类被完全分开;当所有样品最后合并成一类时,R2=0,说明类被完全混合在一起了,分不开。R2的值总是随着分类个数的减少而变小。那么如何根据R2的值来确定所有样品应分为几类最合适呢?首先,最合适分类的R2的值不能太小,最好能达到0.7以上;其次,不能孤立地看合并后R2值的大小,应该看R2值的变化。类的合并总是使R2值变小,如果这种变小是均匀的,合并是应该的,但当某次合并使R2值减少很多,这次合并就不应该,即我们找到了最合适的分类数。例如,从10类合并到5类时,R2值每次减少大约在0.01到0.02之间,R2值减小到0.8,从5类合并到4类时,R2值减少了0.3,即R2=0.8-0.3=0.5,这时,我们就可以得出分5类是最合适的。(3)半偏R2统计量合并类Gp和类Gq为类Gm时,可以用半偏R2统计量评价这次合并的效果:表示合并后类内离差平方和的增量(=上次R2-本次R2)。(4)伪F统计量其中,G为聚类的个数,n为观察总数,v为观察样品的变量维数。该统计量用于评价分为G个聚类的效果。伪F值越大越表示这些观察可显著地分为G个类。(5)伪t2统计量该统计量用以评价合并类Gp和类Gq为类Gm的效果。该值很大说明合并后离差平方和的增加量相对于原来两类的类内离差平方和很大。这表明上一次合并的两个类Gp和Gq是很分开的,也就是说上一次聚类的效果是很好的。否则,这两个类应该在再合并时的离差平方和的增加量很小。四、类数的确定至今无太满意的结果。(1)一般情况下,是看每个变量的R2值及所有变量的累积R2值,观察这些R2值与聚类个数所画的折线图形,以此来判断;(2)通过对数据的典型变量(可用proccandisc典型判别分析选出)做散点图来判断;(3)立方聚类准则CCC;通过数据模拟研究,发现三个最好的准则是:①伪F统计量;②伪t2统计量;③立方聚类准则CCC。在cluster过程中这三个准则都被应用和输出,而在fastclus过程中仅伪F统计量和CCC统计量被应用和输出。建议寻找这三种统计量之间的一致性,即:CCC统计量和F统计量的局部峰值所对应的聚类数,与这个聚类数伪t2统计量的一个较小值和下一个聚类数的一个较大伪t2统计量相吻合。还必须强调这些准则仅仅适用于紧凑的或略微拉长的类,也较好地适合于略微正态分布的类。(三)聚类的方法一、系统聚类法目前使用最多的一种方法。基本步骤是:(1)首先各样品自成一类,这样对n组样品就相当于有n类(即一类包括一个样品);(2)计算各类间的距离(可选8种距离见前文),将其中最近的两类进行合并;(3)计算新类与其余各类的距离,再将距离最近的两类合并;(4)重复上述的步骤,直到所有的样品都聚为一类时为止。注意:①在整个聚类的过程中,如果在某一步的距离矩阵中最小元素不止一个时,则可以将其同时合并;②系统聚类法由于每次都计算距离,计算量(内存占用)较大;③研究表明:最好综合特性的聚类方法为类平均法或Ward最小方差法,而最差的则为最短距离法。Ward最小方差法倾向于寻找观察数相同的类。类平均法偏向寻找等方差的类。具有最小偏差的聚类方法为最短距离法和密度估计法。拉长的或无规则的类使用最短距离法比其他方法好。最没有偏见的聚类方法为密度估计法。二、K均值聚类法(动态聚类法)基本步骤:(1)选择K个观察作为“凝聚点”或称类的中心点,作为这些类均值的第一次猜测值,将所有的样品分成K个初始类;(2)通过欧氏距离将某个样品划入离中心最近的类中,并对获得样品与失去样品的类,重新计算中心坐标;(3)重复步骤2,直到所有的样品都不能再分配时为止(反复迭代,直到再也无法降低样本与重心离差之和为止)。优点:速度快省内存;缺点:需要事先确定类数。注意:该聚类法对异常点很敏感,通常会把异常点分配为单独的一个类(可用于检测异常点procfastclus)。(三)SAS实现SAS提供了5个聚类过程,即cluster,fastclus,modeclus、varclus和tree过程。cluster为系统聚类过程,可使用十一种聚类方法进行谱系聚类,包括重心法、Ward离差平方和法和欧氏平均距离法等。fastclus为动态聚类过程,使用K-均值算法寻找不相交的聚类,适宜于大样本分析,观察值可多达10万个。modeclus为动态聚类过程,使用非参数密度估计法寻找不相交的聚类。varclus过程可用于系统或动态聚类,通过斜交多组分量分析对变量作“谱系的”和“不相交的”两种聚类。cluster过程、fastclus过程和modeclus过程用于对样品聚类,varclus过程用于对变量聚类。tree过程将cluster或varclus过程的聚类结果画出树形结构图或谱系图。一、PROCCLUSTER过程步基本语法:procclusterdata=数据集可选项;var变量列表;id变量;freq变量;copy变量列表;rmsstd变量;by变量列表;说明:(1)可选项outtree=输出数据集供tree过程调用,用来输出聚类结果的树状图;method=算法ward(离差平方和法),average(类平均法),centroid(重心法),complete(最长距离法),single(最短距离法),median(中间距离法),density(密度法),flexible(可变类平均法),twostage(两阶段密度法),eml(最大似然法),mcquitty(相似分析法);standard/std——对变量实施标准化;nonorm——阻止距离被正态化成均数为1或均方根

1 / 30
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功