7.6聚类分析7.6.1引言聚类分析(ClusterAnalysis)是物以类聚的一种统计分析法。用于对事物类别的面貌尚不清楚,甚至在事前连总共有几类都不能确定的情况下进行分类的场合。聚类分析是一种分类技术,与多元分析的其他方法相比,该方法较为粗糙,理论上还不完善,但应用方面取得了很大成功。与回归分析、判别分析一起被称为多元分析的三大方法。聚类分析可分为两类,(1)对变量聚类(如在儿童的生长发育研究中,把以形态学为主的指标归于一类,以机能为主的指标归于另一类等)。(2)对样品聚类(如解剖学上依据骨骼的形状和大小等,不仅可以区别样品是人还是猿,还可以区别性别、年龄等)。聚类法大致可归纳如下:①系统聚类法先将n个元素(样品或变量)看成n类,然后将性质最接近(或相似程度最大)的2类合并为一个新类,得到n-1类,再从中找出最接近的2类加以合并变成了n-2类,如此下去,最后所有的元素全聚在一类之中。②分解法其程序与系统聚类相反。首先所有的元素均在一类,然后用某种最优准则将它分成2类,再用同样准则将这2类各自试图分裂为2类,从中选1个使目标函数较好者,这样由2类变成了3类。如此下去,一直分裂到每类中只有1个元素为止,有时即使是同一种聚类法,因聚类形式(即距离的定义法)不同而有不同的停止规则。③动态聚类法开始将n个元素粗糙地分成若干类,然后用某种最优准则进行调整,一次又一次地调整,直至不能调整了为止。④有序样品的聚类n个样品按某种因素(时间或年龄或地层深度等)排成次序,要求必须是次序相邻的样品才能聚在一类。其他还有加入法、有重叠的类、模糊聚类分析等。聚类分析的实质聚类分析实质上是寻找一种能客观反映元素之间亲疏关系的统计量,然后根据这种统计量把元素分成若干类。常用的聚类统计量有距离系数和相似系数两类。距离系数一般用于对样品分类,而相似系数一般用于对变量聚类。距离的定义很多,如极端距离、明考斯基距离、欧氏距离、马氏距离、切比雪夫距离等。相似系数有相关系数、夹角余弦、列联系数等。聚类分析数据格式k7.6.2相似性度量(一)样本间的相似度量——距离假使每个样品有p个变量,则每个样品都可以看成p维空间中的一个点,n个样品就是p维空间中的n个点,则第i样品与第j样品之间的距离记为dij1、欧氏距离:欧式距离的平方)()()1(jiTjiijXXXXd)()(2jiTjiijXXXXd2.明氏(Minkowski)距离SPSS称为BLOCK3.Mahalanobis距离(二)相似系数研究样品间的关系常用距离,研究指标间的关系常用相似系数。相似系数常用的有:夹角余弦与相关系数1)对于间隔尺度指标(连续性)nkjkjnkikijkjnkikiijjixxxxxxxxrx12121)()()()(ˆx的样本相关系数:与样本Pearson相关系数变量标准化作用:消除量纲的影响夹角余弦(Cosine)2)对于有序尺度指标(用有序的等级号描述))』(讲解『例致的个数。的相应分量中顺序不一与表示样本的个数;的相应分量中顺序一致与表示样本+-量:的与样本+++345P17.7xxˆxlklkijlkxnxnnnnnrKruskalGoodmanx将n个样品各作为一类是诸聚类分析方法中使用最多的,步骤如下:计算n个样品两两之间的距离,构成距离矩阵合并距离最近的两类为一新类计算新类与当前各类的距离。再合并、计算,直至只有一类为止画聚类图,解释7.6.3系统聚类法(hierarchicalclusteringmethod)类与类之间的距离1.最短距离法(singlelinkage)2.最长距离法(completelinkage)3.中间距离法(medianmethod)4.类平均法(averagelinkage)5.可变类平均法(flexible-betamethod)6.重心法(centroidmethod)7.Ward离差平方和法(Ward'sminimum-variancemethod)…….(一)最短距离法(singlelinkage,earestneighbor)B2A2**B1A1**B3*样品间:欧氏距离类类间:两类间两两样品距离最短。即图中样品A2和B1之间的距离),min(LJKJMJDDD6个民族的粗死亡率与期望寿命(二)最长距离法(completelinkage,furthestneighbor)B2A2**B1A1**B3*样品间:欧氏距离类类间:两类间样品两两距离最长。即图中样品A2和B3之间的距离),max(LJKJMJDDD(三)中间距离法(medianmethod)最长距离夸大了类间距离,最短距离低估了类间距离。介于两者间的距离即为中间距离KLJM2222412121KLLJKJMJDDDD(四)中间距离法的变形——可变法222221KLLJKJMJDDDD之间的数~通常情况下取-01,1(五)类平均法(averagelinkagebetweengroup)SPSS作为默认方法,称为between-groupslinkageKLJM为各类中所含样品数为欧氏距离的平方其中.2..222nDDnnDnnDLJMLKJMKMJ讲解P348例7.18系统聚类法的性质单调性中间距离法、重心法不具有单调性空间的浓缩与扩张不同聚类法作图,横坐标的范围可相差很大。最短距离法与重心法比较浓缩;可变类平均比较扩张;类平均法比较适中。有关问题几种聚类方法获得的结果不一定相同指标聚类采用相似系数,相似系数大或距离小则表示类间关系密切,为了统一,可采用以下公式变换。221ijijrd7.6.4快速聚类法(quickclustermethodk-meansmodel)样本量很大,用系统聚类法计算的工作量极大,作出的树状图也十分复杂,不便于分析快速聚类法也叫动态聚类、逐步聚类、迭代聚类.原理选择初始凝聚点根据欧氏距离将每个样品归类各类的重心代替初始凝聚点根据欧氏距离将每个样品归类,……直至分类达到稳定。初始凝聚点initialclusterseeds;clustercenters1)凭经验选择一批有代表的点。2)自动选择。给出允许分类的最大个数k,计算每一类的重心,作为初始凝聚点。变量聚类法原理与以上聚类法类似,只是将标准化后的变量视为“个体”,变量间的相关系数描述“个体”间的相似程度。(一)SPSS聚类分析软件计算与实例分析分类数的确定专业知识聚类方法的选择试用多种方法,系统聚类与快速聚类相结合1.系统聚类指定参与聚类的变量名和样品号Statistics聚类进度表相似矩阵样品或变量的分类情况Plot树状结构图冰柱图冰柱的方向Method聚类方法标准化变换亲疏关系指标Method将分类结果存入数据文件中2.快速聚类选项读写凝聚点人为固定分类数ANOVA表,初始凝聚点等