聚类分析聚类分析是研究“物以类聚”的一种多元统计方法。国内有人称它为群分析、点群分析、簇群分析等。聚类分析的基本概念聚类分析是研究对样品或指标进行分类的一种多元统计方法,是依据研究对象的个体的特征进行分类的方法。它把分类对象按一定规则分成若干类,这些类非事先给定的,而是根据数据特征确定的。在同一类中这些对象在某种意义上趋向于彼此相似,而在不同类中趋向于不相似。它职能是建立一种能按照样品或变量的相似程度进行分类的方法。聚类分析的基本思想是认为我们所研究的样本或指标(变量)之间存在着程度不同的相似性(亲疏关系)。于是根据一批样本的多个观测指标,具体找出一些彼此之间相似程度较大的样本(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样本(或指标)又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有样本(或指标)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统。最后把整个分类系统画成一张谱系图,用它把所有样本(或指标)间的亲疏关系表示出来。这种方法是最常用的、最基本的一种,称为系统聚类分析。聚类分析有两种:一种是对样本的分类,称为Q型,另一种是对变量(指标)的分类,称为R型。聚类分析给人们提供了丰富多彩的方法进行分类,这些方法大致可以归纳为:(1)系统聚类法。首先将n个也样品看成n类(一个类包含一个样品),然后将性质最接近的两类合并成一个新类,我们得到n-1类,再从中找出最接近的两类加以合并成了n-2类,如此下去,最后所有的样品均在一类,将上述并类过程画成一张图(称为聚类图)便可决定分多少类,每类各有什么样品。(2)模糊聚类法。将模糊数学的思想观点用到聚类分析中产生的方法。该方法多用于定型变量的分类。(3)K—均值法。K—均值法是一种非谱系聚类法,它是把样品聚集成k个类的集合。类的个数k可以预先给定或者在聚类过程中确定。该方法可用于比系统聚类法大得多的数据组。系统聚类分析一、距离和相似系数为了对样品进行分类,需要研究样品之间的关系,而目前用得最多的方法是:1.相似系数:根据相似系数把相似的样品归为一类,不怎么相似的系数归为不同的类。性质接近的样品,它们相似系数的绝对值越接近于1,而彼此五官的样品,它们的相似系数接近于0。2.空间距离:将所有的样本(有P项指标表示)看作P维空间中的点,距离越接近的点归为一类,距离较远的点归为不同的类。由于指标数据表示不同的度量,有的是表示数量的定量数据,有的是表示排序的顺序数据,而有的是表示类别的定性数据。这里讨论定量数据的距离和相似系数。⒈距离每个样本有p个指标,因此每个样本可以看成p维空间中的一个点,n个样本就组成p维空间中的n个点,这时很自然想到用距离来度量n个样本间的接近程度。用ijd表示第i个样本与第j个样本之间的距离。一切距离应满足以下条件:0ijd对于一切i,j0ijd等价于样品i和样品j的指标相同ijjidd=对于一切i,jijikkjddd对于一切i,j,k常见的距离有:绝对值距离:1ptitjtdxx欧式距离:21pitjttdxx平方欧式距离:21pitjttdxx切比雪夫距离:itjttdMaxxx明考斯基距离:11qpqitjttxxd当q=1,2时,为绝对值、欧式距离;若趋近无穷时,则为切比雪夫距离明氏距离在实际的运用很多,但有一些缺点。例如观测值的单位问题;指标间的相关问题,因此改进得到以下两种距离:兰氏距离:1||1()()pitjtijtitjtxxdLpxx马氏距离:1()()()()()()()ijijijdMXXSXX以上都是样本间距离的定义。⒉相似系数(1)相似系数设12,,,iiipxxxix和12(,,,)jjjpxxxjx是第i和j个样品的观测值,则二者之间的相似系数为:12211()()[()][()]pikijkjkijppikijkjkkxxxxCxxxx(2)夹角余弦夹角余弦时从向量集合的角度所定义的一种测度变量之间亲疏程度的相似系数。设在n维空间的向量12,,,iiinixxxx,12,,,jjjnjxxxx12211cosnkikjkijijnnkikjkkxxcxx221ijijdC二、系统聚类法基本步骤1.选择样本间距离的定义及类间距离的定义;2.计算n个样本两两之间的距离,得到距离矩阵;3.构造个类,每类只含有一个样本;4.合并符合类间距离定义要求的两类为一个新类;5.计算新类与当前各类的距离。若类的个数为1,则转到步骤6,否则回到步骤4;6.画出聚类图;7.决定类的个数和类。三、系统聚类分析的方法系统聚类法的聚类原则决定于样品间的距离以及类间距离的定义,类间距离的不同定义就产生了不同的系统聚类分析方法。以下用ijd表示样品X(i)和X(j)之间的距离,当样品间的亲疏关系采用相似系数ijC时,令221ijijdC以下用D(p,q)表示类Gp和Gq之间的距离。1.最短距离法定义距离:pqijpqDMindGGijxx:,等于Gp和Gq最为邻近的两个样品之间的距离2.最长距离法定义距离:pqijpqDMaxdGGijxx:,等于Gp和Gq最远的两个样品之间的距离3.重心法定义距离:22c(,)pqXXDpqd等于Gp和Gq两个重心之间的距离4.类平均法定义距离:221ipjqpqijxGxGpqDdnn等于Gp和Gq中任意两个样品距离的平均5.离差平方和法用pD和qD分别表示Gp和Gq的直径,用pqD表示大类的直径,则'()()ppppiiiGDxxxx'()()qqqqjjjGDxxxx'()()qppqjjjGGDxxxx定义距离:2(,)wpqPqDpqDDD等于Gp和Gq之间距离的平方