第三章聚类分析clusteranalysis概述距离与相似系数系统聚类法(hierarchicalclustering)快速聚类法(k-meansclustering)变量聚类聚类分析是多元分析的主要方法之一,主要用来对大量的样品或变量进行分类,是初步数据分析的重要工具之一。一、概述聚类的实质根据样本(变量)间的亲疏关系将样本(变量)分为类,相近的归为一类,差别较大的归为另一类。所获得的分类应有一定的意义。聚类分析的关键亲疏关系的判别:相似性与距离(不相似性)分类数的确定:分多少类合适聚类分析的应用不同地区城镇居民收入和消费状况的分类研究。区域经济及社会发展水平的分析及全国区域经济综合评价产品市场细分:按照消费者的需求特征分成不同的细分市场在儿童生长发育研究中,把以形态学为主的指标归于一类,以机能为主的指标归于另一类聚类分析的类型根据分类的对象Q型聚类(即样品聚类clusteringforindividuals)R型聚类(指标聚类clusteringforvariables)根据分类的方法:系统聚类(hierarchicalclustering)快速聚类(k-meansclustering)聚类分析数据格式k二、距离与相似系数样本间的亲疏关系通常用距离描述,变量间的亲疏关系通常用相似系数或相关系数描述不同测量尺度的数据,其距离的计算方法不同(一)、距离:样本间的亲疏关系距离的定义:假使每个样品由p个变量描述,则每个样品都可以看成p维空间中的一个点,n个样品就是p维空间中的n个点,则第i样品与第j样品之间的距离记为dijdij满足下列条件dij≥0dii=0dij=djidij≤dik+dkj1.欧式(Euclidian)距离21122222211])([)()()(pkjkikjpipjijiijxxxxxxxxdx1x2①②x12x22x11x21x21-x11x22-x12212222112121)()(xxxxd2.明氏(Minkowski)距离pkqqjkikijxxd11][q=1q=2q=∞当q=1,为绝对值距离,SPSS称为block当q=2,即为欧式距离当q=∞,有,称为切比雪夫(Chebychev)距离jkikpkijxxd1max)(pkjkikijxxd1)1(实例计算品距离矩阵绝对值距离品pkjkikijxxd1)1(Euclidian距离的平方2Euclidian距离明氏距离的缺点各指标同等对待(权数相同),不能反映各指标变异程度上的差异距离的大小与各指标的观测单位有关,有时会出现不合理结果(p7,图1-1例)没有考虑指标之间的相关性当各指标的测量值相差悬殊时,可以先对数据标准化,然后用标准化后的数据计算距离3.马氏(Mahalanobis)距离阵维随机向量的协方差矩为其中p)()(1'2jijiijdXXXX明氏距离没有考虑数据中的协方差模式,马氏距离则考虑了协方差,且不受指标测量单位的影响:已知一二维正态总体G的分布为:G~N(,),其中19.09.01,00Σμ分别求点A=(1,1)’,和点B=(1,-1)到均值的欧式距离和马氏距离05.11119.09.011119.01101119.09.011119.0119.09.0119.011的马氏距离到点的马氏距离到点μμΣBA211,2112222的欧氏距离到点的欧氏距离到点μμBA欧式等距离线马氏等距离线Mahalanobis距离例AB欧氏距离、标准化变量的欧式距离与马氏距离的比较4.Lance和Williams距离pkjkikjkikijxxxxpd11对标准化变量:5.配合距离前几类距离多用于定距和定比尺度数据,对于定类和定序变量:52322),,,,(),,,,(2121221==配合数不配合数配合数mmmdKFSMVXKTSQVX5232212配合数不配合数不配合数d配合距离例4种品牌的软饮料在4个方面的特性:是否可乐口味?是否含有咖啡因?是否节食饮料?是否可口可乐公司产?可乐味咖啡因节食可口可乐Coke1101Pepsi1100DietCoke1111Caffeine-freeDietCoke10111/43/42/4freeCaf2/41/4Diet1/4PepsiCokefreeCafDietPepsiCoke距离矩阵1.夹角余弦(Cosine)(二)相似系数:变量间的亲疏关系nkkjnkkinkkjkiijxxxxC1212121)])([(受相似形的启发而来,AB和CD尽管长度不一,但形状相似ABDC2.Pearson相关系数(二)相似系数SPSS的analyze→corelate→distancesMeasures对话框定距尺度定序尺度定类尺度三、系统聚类法聚合法分解法通常分为两步:先做出类别距离谱系图,再根据谱系图的特点确定分类数并分类Agglomerative系统聚类法基本步骤步骤1:将n个样品各作为一类,共n类:C1、C2、…、Cn。计算各类之间的距离,构成距离矩阵:dcicj=dij步骤2:找到距离最近的两类合并为一新类步骤3:计算新类与当前各类的距离。重复步骤2、3,直至合并成一类为止,形成谱系图根据谱系图确定如何分类单样本类,类与类之间的距离为样品距离类间距离类与类间距离类与类之间的距离1.最短距离法(singlelinkage)2.最长距离法(completelinkage)3.中间距离法(medianmethod)4.类平均法(averagelinkage)5.可变类平均法(flexible-betamethod)6.重心法(centroidmethod)7.Ward离差平方和法(Ward'sminimum-variancemethod)AgglomerativeMethods:各种不同方法的基本步骤相同,只是类与类之间距离的计算方法不同。(一)最短距离法类与类之间的距离是两类间两两样品间的最短距离6个民族的粗死亡率与期望寿命哈萨克与藏族的距离最短,最先合并形成新类CL7新类CL7和其余四类的距离第二次合并新类和各类的距离3,2,1i)D7i,D4i(minD8i第三次合并第四次合并最后合并成一类谱系图不显示实际距离,显示0-25的比例距离树状图冰柱图VerticalIcicleXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXNumberofclusters123456:哈萨克族5:藏族4:维吾尔族3:蒙族2:朝鲜族1:满族Case12345融合在一起的为一类(二)最长距离法类与类之间的距离是两类间两两样品间的最长距离前例:最长距离法第1次合并仍取最短欧式距离新类和各类的距离:取最大值第2次合并新类和各类的距离:取最大值第3次合并第4次合并最后合并(三)中间距离法(medianmethod)最长距离夸大了类间距离,最短距离低估了类间距离。介于两者间的距离即为中间距离KLJM2222412121KLLJKJMJDDDD(四)类平均法(averagelinkagebetweengroup)SPSS作为默认方法,称为between-groupslinkageKLJM各类类中所含样品.2..222为为欧氏距离的平方其中nDDnnDnnDLJMLKJMKMJ(五)重心法(centroidmethod)类与类间的距离用各自重心间的欧式距离表示KLJM)(222222KLMLKKLMLKLJMLKJMKMJDnnnDnnnDnnDnnD比中间距离多(六)Ward最小方差法(Ward’minimumvariancemethod)源于方差分析。类内离差平方和:类中各样品到类重心(均值)的平方欧式距离之和。基本思路:两类合并后,离差平方和就会增加。每次选择使离差平方和增加(SSM-SSK-SSL)最小的两类进行合并,直至所有的样品归为一类。2222KLMJJLJMJLJKJMJKJMJDnnnDnnnnDnnnnD(七)各种系统聚类方法的统一以上聚类方法的计算步骤完全相同,仅类与类之间的定义不同。Lance和Williams于1967年将其统一为:222222LJKJKLLJLKJKMJDDDDDD八种系统聚类法公式的参数注意:几种聚类方法获得的结果不一定相同最长距离法最短距离法分类数的确定及类别的解释系统聚类法给我们提供了一个类别距离谱系,最终样本如何分类、分成几类需要我们自己根据研究的目的确定。3类2类2类系统聚类的SPSS实现指定参与聚类的变量名和样品号存放标识变量选择聚类类型Statistics聚类状态表相似矩阵类成员:不显示类成员表显示指定范围中每一步类成员列出指定类数的类成员Plot对话框树状结构图冰柱图冰柱的方向显示聚类的每一步指定显示的聚类范围不生成冰柱图Method对话框距离测度方法:不同尺度变量选择不同方法定距尺度变量定序尺度变量01变量确定标准化的方法:只有前两种尺度的数据才能标准化测度转换方法距离值取绝对值相似度变为不相似度距离标准化聚类方法选项聚类方法选项Between-grouplinkage:类平均法,使两两项对之间的平均距离最小Within-grouplinkage:类内平均连锁,合并后的类中所有项之间的平均距离最小。两类间的距离即是合并后的类中所有可能的观测量对之间的距离平方。NearestneighborFartherstneighborCentroidclusteringMedianclusteringWard’smethod距离测度方法选项Interval:EuclideandistanceSquaredeuclideandistanceCosine:变量矢量的余弦ChebychevBlock:Manhattan距离,两观测单位间距离为其值差的绝对值和,用于Q型聚类MinkowskiCustomized:距离是一个绝对幂的度量,即变量绝对值的第p次幂值和的第r次根数值标准化的方法选项None:不标准化Zscores:标准化Range-1to1:标准化到-1到+1范围Maximummagnitude:标准化到最大值1Range0to1:标准化到0-1范围Meanof1:标准化到一个均值范围Standarddeviationof1:标准化到一个标准差Save对话框将分类结果存入数据文件中生成一个新变量,表明每个个体所属类指定范围内的结果,生成若干个新变量系统聚类例:轿车的市场细分对151名MBA学生的轿车偏好进行调查,要求他们对10种轿车打分,分值1-10(最高分)。10种轿车型号为:BMW328i,FordExplorer,InfinitiJ30,JeepGrandCherikee,LexusES300,ChryslerTown&Country,MercedsC280,Saab9000,PorscheBoxster,VolvoV90.用Ward‘s系统聚类法进行分类初分析:根据谱系图确定分类数样本数太多,谱系图不易看,可随机抽样四、快速聚类法(k-means)也叫动态聚类、逐步聚类、迭代聚类与系统聚类的主要区别非层次性递推过程从初始分类开始不断优化的过程当样本量很大时,用系统聚类法的计算工作量极大,作出的树状图也十分复杂,不便于分析,用快速聚类较好。K-meansprocessImportant:initialcentroidsorclustercentersandthenumberofclusters注意:快速聚类需事先确定分几类容易产生局部最优而非全局