页眉内容聚类分析(一)聚类分析基本概念(1)有若干个变量(或指标),例3-1的2个变量是样本均值和样本标准差;例3-2的变量是对式样、图案、颜色、材料的态度;例3-3的变量是销售增长、销售利润和新客户销售额;例3-4的变量是出生率、死亡率和婴儿死亡率;…。这些变量称为自变量或聚类变量。(2)有若干次观测,每次观测值由若干个数值组成,每次观测值称为1个个体或1个样品:例3-1其观测次数共有4次(甲、乙、丙、丁),其观测值都是2个值组成:第1次观测(第1个样品)是向量(18.0020.003),第2次观测(第2个样品)是(17.9970.004),……。例3-2有5次观测(5位顾客),每人4项指标;例3-3、3-4、3-5,的变量各有50、97、39次观测值;而例3-6将许多次原始观测整理为协方差阵,并未提供原始观测数据。(3)要求分类(或分组):例3-3、3-4要求把观测值分为3类,而例3-1和例3-2则不限定观测值分为几类;例3-1、3-2、3-3、3-4要求按观测值分类,而例3-5,3-6要求按变量分类。因为是把大量的样品变为少量的类,通常这种分类称为聚类。(二)聚类原理1)聚类原则选定观测值(点)间距离,类间距离,按照距离最近两类合并在一起的原则合并。(也有用相似远离)。常用聚类方法分为:(1)系统聚类MINITAB译为观测值聚类(得到谱系图或树状图)(2)动态聚类MINITAB译为K均值聚类。可由统计多变量观测值聚类,统计多变量K均值聚类分别进入。2)常用点间距离(距离度量)有时先把数据标准化再聚类以免单位影响,例如x1观测值3,2,1,0,-1;x2取值30,20,10,0,-10。X1均值1,样本标准差1.581;将x1观测值减去平均值1,除以1.581,得到1.26502,0.63251,0.00000,-0.63251,-1.26502;1.26502,0.63251,0.00000,-0.63251,-1.26502是3,2,1,0,-1的标准化。X2标准化后也得到1.26502,0.63251,0.00000,-0.63251,-1.26502。标准化后的数与单位无关。系统聚类从“统计多变量观测值聚类”进入观测值聚类框;点间距离,类间距离根据情况选取。动态聚类从“统计多变量K均值聚类”进入K均值聚类框;点间距离固定为Euclidean,类间距离固定为质心法,无需再选取。(1)欧氏距离页眉内容欧氏(Euclidean)距离定义为:m2ijikjkk=1d=(x-x),(,1,)ijn(3-2)欧氏距离是聚类分析中使用最广泛的距离,上式也称为简单欧氏距离。另一种常用的形式是平方欧氏距离,即取上式的平方,记为2ijd。平方欧氏距离的优点是,因为不再计算平方根,不仅理论上简单,而且提高了计算机的运算速度。(2)Pearson距离欧氏距离虽然使用最为广泛,但是该距离是有量纲的,而且它与各变量的量纲有关,因而从数值上说,各维之间可能因单位而相差悬殊;也没有考虑各变量方差的不同。从欧氏距离的定义中易见,方差大的变量在距离中的作用(贡献)就会大。为此我们引入了Pearson距离的概念。m2ijikjkkk=1d=(x-x)/V(,1,,)ijn,(3-3)其中kV是第k个变量的方差。这个距离考虑到了各个变量的不同标准差,但未考虑各变量间可能存在的相关。对上式取平方,就得到Pearson平方距离。(3)绝对值距离(又称为Manhattandistance)绝对值距离定义为:mijikjkk=1d=x-x,(,1,,)ijn(3-4)绝对值距离是一个应用很广泛的距离,它具有稳健性:野点的影响较小。平方绝对值距离是对上式取平方。(4)马氏距离(Mahalanobisdistance)欧氏距离、Pearson距离和绝对值距离都没有考虑变量间的相关性:当变量之间不相关时效果较好,如果变量之间相关,则聚类结果往往不够好,为此考虑马氏距离。设样本方差阵为S,设ijX,X是2个样品所成向量。则ijX,X的马氏距离是-1ijij(X-X)'S(X-X)(3-5)有时为了避免开平方,称-1ijij(X-X)'S(X-X)为平方马氏距离。严格地说,由于样品属于多个类,计算样本总协方差阵S应当按第2章式(2-3)即各样本协方差阵iS的加权平均计算,但由于聚类过程结束前,真正分类无法知道,通常按(3-5)计算,即按全体样本合为1类计算样本协方差阵。马氏距离的优点是能消除变量间的相关性带来的不利影响。页眉内容(5)配合距离以上几种距离的定义均要求变量是连续型的,如果使用的变量是有序尺度或名义尺度变量,则也要有相应的一些定义距离的方法。下例说明如何对一类向量定义距离:这类向量的分量为名义尺度变量。设有两个向量:)',,,,()1(HVGAPX,)',,,,()2(HVGBQX它们的5个分量均为名义尺度变量:第1个分量分别取值P和Q,称第1个变量值不配合;第2个分量分别取值A和B,称第2个变量值不配合;第3个分量取相同值G,第4个分量取相同值V,第5个分量取相同值H,称第3,4,5个分量值配合。定义两个向量之间的配合距离为2/(2+3)。一般的,设1m为两个向量样品配合的分量数,2m为不配合的分量数,则可定义两个样品之间的配合距离为:例3-2中5名顾客表5名顾客对某服装的看法表顾客式样图案颜色材料1010121111311004101151010例3-2中5名顾客间的不配合数(看法不同处)形成矩阵,列在表3-3中。表3-3例3-2不配合数矩阵顾客1顾客2顾客3顾客4顾客5顾客102234顾客220212顾客322032顾客431301顾客542210因为例3-2配合数与不配合数之和总和为4。所以例3-2顾客间的配合距离矩阵如表3-4所示(原始数据在表3-2,数据文件:MV_服装顾客.MTW)表3-4例3-2配合距离矩阵顾客1顾客2顾客3顾客4顾客5顾客100.50.50.751顾客20.500.50.250.5顾客30.50.500.750.5顾客40.750.250.7500.25顾客510.50.50.2503)常用类间距离(联接法)页眉内容(1)最短距离法(SINglelinkage)定义类与类之间的距离为两类内最近样品间的距离,即,minpqpqijiGjGDd(这里piG表示()ipXG,以下同)(3-13)称这种系统聚类法为最短距离法。(2)最长距离法(COMpletemethod)类与类之间的距离定义为两类内相距最远的样品间的距离,即:,maxpqpqijiGjGDd(3-14)称这种系统聚类法为最长距离法。(3)中间距离法(MEDianmethod)如果类与类之间的距离既不采用两类内样品间的最近距离,也不采用两类内样品间的最远距离,而是采用类似于三角形中线公式的计算类之间的距离方法,这种方法称为中间距离法(应当译为中线法)。当某步骤类pG和qG合并成rG后,按中间距离法计算新类rG与其它类kG的类间距离,其递推公式为2222()rkpkqkpq1DDDD2(1/40,,)kpq,(3-15)常取1/4。(4)重心法或质心法(Centroidmethod)每一类的重心就是属于该类的所有样品的均值向量。将两类间的距离定义为两类重心间的距离,这种距离方法称为重心法。重心法一般采用欧氏距离定义样品间的距离。重心法比其它系统聚类方法考虑得更全面。其主要缺点是在聚类过程中,不能保证合并的类之间的距离值呈单调增加的趋势,也即本次合并的两类之间的距离可能小于上一次合并的两类之间的距离,在树状图上会出现图形逆转;也不能保证相似性水平呈单调减少的趋势。(5)类平均法(AVEragelinkage)类平均法有两种定义,一种定义方法是把类与类之间的距离定义为所有样品对之间的平均距离,即,1pqpqijiGjGpqDdnn,(3-16)其中,pqnn分别为类pG和类qG的样品个数。简称为平均法。另一种定义方法为定义类与类之间的平方距离为样品对之间平方距离的平均值,即22,1pqpqijiGjGpqDdnn(3-17)页眉内容MINTTAB中使用的是第一种距离定义方法(3-16)来进行类平均聚类。(6)离差平方和法(WARD)假设已经将n个样品分为k类,()tX表示tG的重心,()()tiX表示tG中第i个样品(1,)tin,则tG中样品的离差平方和为:()()()()()()1()()tntttttiiiWXXXX,(3-18)其中()()(),ttiXX为m维向量,tW为一数值(1,,)tk,代表tG类内的分散程度。k个类的总离差平方和为:()()()()()()111()()tnkktttttiittiWWXXXX(3-19)它们反映了各类内样品的分散程度的总和。设某一步将类pG和qG合并成rG,而pG、qG和rG类中样品的离差平方和分别为pW、qW和rW。如果pG和qG这两类相距较近,则合并之后所增加的离差平方和rpq应较小;否则,应较大。于是我们定义pG和qG之间的平方距离为:2()pqrpqD(3-20)按照这种原则实施系统聚类的方称为法称为离差平方和法或Ward方法。可以验证,定义(3-20)满足通常定义距离所需的三个条件(见3.2.2.1)。重心法的类间距离与两类的样品数无关,而离差平方和法的类间距离与两类的样品数有较大的关系,两个大的类倾向于有较大的距离,因而不易合并,这往往符合我们对聚类的实际要求。离差平方和法在许多场合下优于重心法,是比较好的一种系统聚类法,但它对异常值较敏感。(7)McQuitty相似分析法(MCQ)当某一步将类pG和qG合并成rG后,McQuitty相似分析法把rG与其它类kG的距离定义为:222()/2rkpkqkDDD(3-21)又称为简单平均法。在进行聚类分析的过程中,上述5种点间距离,7种类间距离的定义方法各有优缺点,很难保证说哪种定义方法一定最优,因此应根据实际情况选取合适的类间距离定义。如果无法从机理上进行选取,则可以都试验一下,再根据结果的合理性来选取之。表MINITAB供选择点间距离MINITAB记号实际使用距离页眉内容框名:距离量度指定MINITAB使用距离Euclidean欧式距离Manhattan绝对值距离PearsonPearson距离Pearson平方Pearson距离的平方Euclidean平方欧式距离的平方表MINITAB供选择类间距离MINITAB记号实际使用距离框名:联结法类间距离最短距离最短距离法平均类平均法质心质心法最长距离最长平均法简单平均McQuitty相似分析法中间距离中间距离法离差平方和离差平方和法(三)实例例3-1设某零件标准长度为18。检验4家供货商提供的产品,得到的数据如表(数据文件:MV_零件聚类.MTW)。试对这4家产品聚类。表3-14家供货商提供的产品数据供货商样本均值样本标准差甲18.0020.003乙17.9970.004丙18.050.002丁18.20.5解点间距离采用绝对值距离(Manhattan),类间距离采用最短距离法,用系统聚类法聚类。具体步骤是:先将表中给出的数据输入工作表;然后采用指令:从“统计多变量观测值聚类(StatMultivariateClusterObservations)”进入“观测值聚类”对话框,在“变量或距离矩阵(Variablesordistancematrix)”中填入“样本均值样本标准差”,在“联结法(LinkageMethod)”窗中选择“最短距离(Single)”,在“距离量度(DistanceMeasure)”中选择“Manhattan(绝对值)”。选中“标准化变量(Standardizevariables)”,在“指定最终分类,按(SpecifyFinalPartitionby)”中选择聚类数,并且指定为“1”(最终聚为1类),选中“显示树状图(