第4章聚类分析(clusteranalysis)§4.1样品(变量)相近性度量§4.2谱系聚类法及MATLAB实现§4.3快速聚类法统计方法(聚类分析):聚类分析—所研究的样本或者变量之间存在程度不同的相似性,要求设法找出一些能够度量它们之间相似程度的统计量作为分类的依据,再利用这些量将样本或者变量进行分类系统聚类分析—将n个样本或者n个指标看成n类,一类包括一个样本或者指标,然后将性质最接近的两类合并成为一个新类,依此类推。最终可以按照需要来决定分多少类,每类有多少样本(指标)统计方法(系统聚类分析步骤):系统聚类方法步骤:1.计算n个样本两两之间的距离2.构成n个类,每类只包含一个样品3.合并距离最近的两类为一个新类4.计算新类与当前各类的距离(新类与当前类的距离等于当前类与组合类中包含的类的距离最小值),若类的个数等于1,转5,否则转35.画聚类图6.决定类的个数和类。系统聚类分析:主要介绍系统聚类分析方法。系统聚类法是聚类分析中应用最为广泛的一种方法,它的基本原理是:首先将一定数量的样品或指标各自看成一类,然后根据样品(或指标)的亲疏程度,将亲疏程度最高的两类进行合并。然后考虑合并后的类与其他类之间的亲疏程度,再进行合并。重复这一过程,直至将所有的样品(或指标)合并为一类。系统聚类分析用到的函数:函数功能pdist计算观测量两两之间的距离squareform将距离矩阵从上三角形式转换为方形形式,或从方形形式转换为上三角形式linkage创建系统聚类树dendrogram输出冰柱图cophenet计算Cophenetic相关系数cluster根据linkage函数的输出创建分类clusterdata根据数据创建分类inconsistent计算聚类树的不连续系数聚类分析•研究对样品或指标进行分类的一种多元统计方法,是依据研究对象的个体的特征进行分类的方法。•聚类分析把分类对象按一定规则分成若干类,这些类非事先给定的,而是根据数据特征确定的。在同一类中这些对象在某种意义上趋向于彼此相似,而在不同类中趋向于不相似。•职能是建立一种能按照样品或变量的相似程度进行分类的方法。•聚类分析有两种:一种是对样品的分类,称为Q型,另一种是对变量(指标)的分类,称为R型。•R型聚类分析的主要作用:⒈不但可以了解个别变量之间的亲疏程度,而且可以了解各个变量组合之间的亲疏程度。⒉根据变量的分类结果以及它们之间的关系,可以选择主要变量进行Q型聚类分析或回归分析。(R2为选择标准)•Q型聚类分析的主要作用:⒈可以综合利用多个变量的信息对样本进行分析。⒉分类结果直观,聚类谱系图清楚地表现数值分类结果。⒊聚类分析所得到的结果比传统分类方法更细致、全面、合理。在课堂上主要讨论Q型聚类分析,Q型聚类常用的统计量是距离.4.1样品(变量)间相近性度量4.1.1聚类分析的基本思想在生产实际中经常遇到给产品等级进行分类的问题,如一等品、二等品等,在生物学中,要根据生物的特征进行分类;在考古时要对古生物化石进行科学分类;在球类比赛中经常要对各球队进行分组如何确定种子队,这些问题就是聚类分析问题。随着科学技术的发展,我们利用已知数据首先提取数据特征,然后借助计算机依据这些特征进行分类,聚类的依据在于各类别之间的接近程度如何计量,通常采取距离与相似系数进行衡量。设有n个样品的p元观测数据组成一个数据矩阵npn2n12p22211p1211xxxxxxxxxX其中每一行表示一个样品,每一列表示一个指标,xij表示第i个样品关于第j项指标的观测值,聚类分析的基本思想就是在样品之间定义距离,在指标之间定义相似系数,样品之间距离表明样品之间的相似度,指标之间的相似系数刻画指标之间的相似度。将样品(或变量)按相似度的大小逐一归类,关系密切的聚集到较小的一类,关系疏远的聚集到较大的一类,聚类分析通常有:谱系聚类、快速聚类,我们主要介绍谱系聚类的方法与MATLAB实现4.1.2样品间的相似度量—距离一.常用距离的定义设有n个样品的p元观测数据:n21ixxxxTipi2i1i,,,,),,,(这时,每个样品可看成p元空间的一个点,每两个点之间的距离记为满足条件:),(jixxdjijijixx0xxd0xxd当且仅当且),(,),(),(),(ijjixxdxxd),(),(),(jkkijixxdxxdxxd1.欧氏距离21p1k2jkikjixxxxd/])([),(pdist(x)2.绝对距离p1kjkikjixxxxd||),(pdist(x,’cityblock’)3.明氏距离m1p1kmjkikjixxxxd/]||[),(pdist(x,’minkowski’,r)4.切氏距离||),(jkikpk1jixxmaxxxdmax(abs(xi-xj))5.方差加权距离21p1k2k2jkikjisxxxxd/]/)([),(将原数据标准化以后的欧氏距离6.马氏距离T1ijijijd(x,x)(xx)(xx)pdist(x,’mahal’)7.兰氏距离p1kjkikjkikjixxxxp1xxd||),(8.杰氏距离(Jffreys&Matusita)21p1k2jkikjixxxxd/])([),(例1.为了研究辽宁、浙江、河南、甘肃、青海5省1991年城镇居民生活消费规律,需要利用调查资料对五个省进行分类,指标变量共8个,意义如下:x1:人均粮食支出,x2:人均副食支出;x3:人均烟酒茶支出,x4:人均其他副食支出,x5:人均衣着商品支出,x6:人均日用品支出,x7:人均燃料支出,x8人均非商品支出X1X2X3X4X5X6X7X8辽宁7.939.778.4912.9419.2711.052.0413.29浙江7.6850.3711.3513.319.2514.592.7514.87河南9.4227.938.28.1416.179.421.559.76甘肃9.1627.989.019.3215.999.11.8211.35青海10.0628.6410.5210.0516.188.391.9610.81表11991年五省城镇居民生活月均消费(元/人)计算各省之间的欧氏、绝对、明氏距离解:a=[7.939.778.4912.9419.2711.052.0413.297.6850.3711.3513.319.2514.592.7514.879.4227.938.28.1416.179.421.559.769.1627.989.019.3215.999.11.8211.3510.0628.6410.5210.0516.188.391.9610.81];d1=pdist(a);%此时计算出各行之间的欧氏距离,为了得到书中的距离矩阵,我们键入命令:D=squareform(d1),%注意此时d1必须是一个行向量,结果是实对称矩阵若想得到书中的三角阵,则有命令:S=tril(squareform(d1))S=0000011.6726000013.805424.635300013.127824.05912.20330012.798323.53893.50372.21590d2=pdist(a,'cityblock');S2=tril(squareform(d2))S2=0000019.89000027.247.0500024.5843.394.660026.5242.318.085.380d3=pdist(a,'minkowski',3);S3=tril(squareform(d3))序号国家1990199520001澳大利亚1249.391273.611282.682巴西821.6859.85919.733加拿大1641.011591.541608.324中国1330.451382.681462.085法国1546.551501.771525.956德国1656.521630.521570.697印度861.30862.51945.118意大利1321.771232.31243.519日本1873.681949.891851.2010俄罗斯1475.161315.87129711南非794.25787.48782.3812英国1486.751441.711465.1213美国2824.292659.642740.12例2.13个国家1990,1995,2000可持续发展能力如下:分成4类采用不同的距离,得到结果如下类别欧氏距离(最短距离)1日本2澳大利亚、加拿大、英、德、意、中、俄、法3巴西、印度、南非4美国类别欧氏距离(ward距离)1澳大利亚、中、意、俄2加拿大、英、德、法、日本3巴西、印度、南非4美国类别马氏距离(ward距离)1日本2澳大利亚、加拿大、英、德、意、南非、俄、法3巴西、印度、中4美国4.1.3变量间的相似度量——相似系数当对p个指标变量进行聚类时,用相似系数来衡量变量之间的相似程度(关联度),若用表示变量之间的相似系数,则应满足:,C1C1C且,||0kk1C,,当且仅当CC相似系数中最常用的是相关系数与夹角余弦。•①夹角余弦两变量的夹角余弦定义为:•②相关系数两变量的相关系数定义为:例3.计算例1中各指标之间的相关系数与夹角余弦解:a=[7.939.778.4912.9419.2711.052.0413.297.6850.3711.3513.319.2514.592.7514.879.4227.938.28.1416.179.421.559.769.1627.989.019.3215.999.11.8211.3510.0628.6410.5210.0516.188.391.9610.81];R=corrcoef(a);%指标之间的相关系数a1=normc(a);%将a的各列化为单位向量J=a1’*a1%计算a中各列之间的夹角余弦J=1.00000.94100.98470.96130.98240.95460.96200.96950.94101.00000.97820.99390.98530.99770.99470.99350.98470.97821.00000.98590.99110.98400.99310.99090.96130.99390.98591.00000.99440.99190.99470.99810.98240.98530.99110.99441.00000.99010.99010.99680.95460.99770.98400.99190.99011.00000.99520.99530.96200.99470.99310.99470.99010.99521.00000.99680.96950.99350.99090.99810.99680.99530.99681.00004.2谱系聚类法谱系聚类法是目前应用较为广泛的一种聚类法。谱系聚类是根据生物分类学的思想对研究对象进行分类的方法。在生物分类学中,分类的单位是:门、纲、目、科、属、种。其中种是分类的基本单位,分类单位越小,它所包含的生物就越少,生物之间的共同特征就越多。利用这种思想,谱系聚类首先将各样品自成一类,然后把最相似(距离最近或相似系数最大)的样品聚为小类,再将已聚合的小类按各类之间的相似性(用类间距离度量)进行再聚合,随着相似性的减弱,最后将一切子类都聚为一大类,从而得到一个按相似性大小聚结起来的一个谱系图。聚类分析的基本思想是认为我们所研究的样本或指标(变量)之间存在着程度不同的相似性(亲疏关系)。于是根据一批样本的多个观测指标,具体找出一些彼此之间相似程度较大的样本(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样本(或指标)又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有样本(或指标)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大