第五章聚类分析第一节引言第二节相似性的量度第三节系统聚类分析法第四节K均值聚类分析第五节有序样品的聚类分析法第六节Rcodes第一节引言“物以类聚,人以群分”无监督分类聚类分析分析如何对样品(或变量)进行量化分类的问题Q型聚类—对样品进行分类R型聚类—对变量进行分类第二节相似性的量度一样品相似性的度量二变量相似性的度量一、样品相似性的度量Q型聚类分析,常用距离来测度样品之间的相似程度每个样品有p个指标(变量)从不同方面描述其性质,形成一个p维的向量。如果把n个样品看成p维空间中的n个点,则两个样品间相似程度就可用p维空间中的两点距离公式来度量。令dij表示样品Xi与Xj的距离,一般应满足:(i)dij≥0,对一切i,j;(ii)dij=0,当且仅当第i个样品与第j个样品的各变量值相同;(iii)dij=dji,对一切i,j;(iv)dij≤dik+dkj,对一切i,j,k。1.明考夫斯基距离(明氏距离)(1)绝对距离(1q)1(1)pijikjkkdXX(2)欧氏距离(2q)21/21(2)()pijikjkkdXX(3)切比雪夫距离(q)1()maxijikjkkpdXX1/1()()pqqijikjkkdqXX一、样品相似性的度量2.马氏距离设Xi与Xj是来自均值向量为,协方差为∑=(>0)的总体G中的p维样品,则两个样品间的马氏距离为马氏距离又称为广义欧氏距离马氏距离考虑了观测变量之间的相关性若各变量之间相互独立,马氏距离退化加权欧氏距离马氏距离还考虑了观测变量之间的变异性,不再受各指标量纲的影响21()()()ijijijdMXXΣXX一、样品相似性的度量3.兰氏距离它仅适用于一切Xij0的情况可以克服各个指标之间量纲的影响;对大的奇异值不敏感,特别适合于高度偏倚的数据;但它没有考虑指标之间的相关性;11()pikjkijkikjkXXdLpXX一、样品相似性的度量含名义变量样本相似性度量例:学员资料包含六个属性:性别(男或女);外语语种(英、日或俄);专业(统计、会计或金融);职业(教师或非教师);居住处(校内或校外);学历(本科或本科以下)现有两名学员:X1=(男,英,统计,非教师,校外,本科)′X2=(女,英,金融,教师,校外,本科以下)′对应变量取值相同称为配合的,否则称为不配合的记配合的变量数为m1,不配合的变量数为m2,则样本之间的距离可定义为本例中X1与X2之间的距离为2/321212mdmm不同的距离公式的侧重点和实际意义都有所不同同一批数据采用不同的距离公式,可能会得到不同的分类结果距离公式选择基本原则:要考虑所选择的距离公式在实际应用中有明确的意义欧氏距离就有非常明确的空间距离概念马氏距离有消除量纲影响的作用要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法如在进行聚类分析之前已经对变量作了标准化处理,则通常可采用欧氏距离要考虑研究对象的特点和计算量的大小归根到底:ApplicationDriven:根据研究对象的特点不同做出具体分折Try一、样品相似性的度量二、变量相似性的度量相对于数据的大小,更多地对变量的变化趋势或方向感兴趣变量间的相似性--方向趋同性或“相关性”“夹角余弦法”“相关系数”1、夹角余弦两变量Xi与Xj为p维空间的两个向量,其夹角余弦为:显然,∣cosij∣112211cos()()pikjkkijppikjkkkXXXX2.相关系数变量Xi与Xj的相关系数定义为显然有,∣rij∣1。12211()()()()pikijkjkijppikijkjkkXXXXrXXXX二、变量相似性的度量它们的绝对值都小于1,统记为cij当∣cij∣=1时,说明变量Xi与Xj完全相似;当∣cij∣近似于1时,说明变量Xi与Xj非常密切;当∣cij∣=0时,说明变量Xi与Xj完全不一样;当∣cij∣近似于0时,说明变量Xi与Xj差别很大。变换为距离度量:dij=1∣cij∣或dij2=1cij2二、变量相似性的度量距离度量与相似性度量由距离来构造相似系数总是可能的:由相似系数构造距离并不总是可行的Gower证明,当相似系数矩阵(cij)为非负定时:则dij满足距离定义的四个条件11ijijcd21ijijdc第三节系统聚类分析法一系统聚类的基本思想二类间距离与系统聚类法三类间距离的统一性一、系统聚类的基本思想距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中系统聚类过程:(假设总共有n个样品(或变量))1.将每个样品(或变量)独自聚成一类,共有n类;2.根据所确定的样品(或变量)的“距离”公式,把距离较近的两个样品(或变量)聚合为一类,其它的样品(或变量)仍各自聚为一类,共聚成n1类;3.将“距离”最近的两个类进一步聚成一类,共聚成n2类;4.……循环之5.将所有的样品(或变量)全聚成一类谱系图—描绘聚类过程二、类间距离与系统聚类法类间距离--类与类之间的距离定义不同,方法不同,结果不同最短距离法(Singlelinkage)最长距离法(Completemethod)中间距离法(Medianmethod)重心法(Centriodmethod)类平均法(Avaragelinkage)可变类平均法(Flexible-betamethod)可变法(McQuitty,MCQ)离差平方和法(Ward)dij表示样品Xi与Xj之间距离,用Dij表示类Gi与Gj之间的距离。1.最短距离法定义类间距离为两类最近样品的距离,即为合并成一个新类后,则任一类与之的距离为ijGXGXijdDjjii,min,minikjrkrijXGXGDd,,min{min,min}ikjpikjqijijXGXGxGxGddmin{,}kpkqDD二、类间距离与系统聚类法最短距离法步骤如下:(1)根据选用的距离计算样品的两两距离,得一距离阵记为D(0),开始每个样品自成一类,显然这时Dij=dij(2)找出距离最小元素,设为Dpq,则将Gp和Gq合并成一个新类,记为Gr,即Gr={Gp,Gq}(3)计算新类与其它类的距离(4)重复(2)、(3)两步,直到所有元素。并成一类为止如果某一步距离最小的元素不止一个,则对应这些最小元素的类可以同时合并二、类间距离与系统聚类法例:设有六个样品,每个只测量一个指标,分别是1,2,5,7,9,10,试用最短距离法将它们分类。(1)样品采用绝对值距离,计算样品间的距离阵D(0)G1G2G3G4G5G6G10G210G3430G46520G587420G6985310二、类间距离与系统聚类法(2)D(0)中最小的元素是D12=D56=1,于是将G1和G2合并成G7,G5和G6合并成G8,计算新类与其它类的距离D(1)G7G3G4G8G70G330G4520G87420二、类间距离与系统聚类法(3)在D(1)中最小值是D34=D48=2,由于G4与G3合并,又与G8合并,因此G3、G4、G8合并成一个新类G9,其与其它类的距离D(2)G7G9G70G930二、类间距离与系统聚类法(4)最后将G7和G9合并成G10,这时所有的六个样品聚为一类,其过程终止。谱系图表示横坐标的刻度表示并类的距离二、类间距离与系统聚类法2.最长距离法定义类iG与jG之间的距离为两类最远样品的距离:,maxipjqpqijXGXGDd最长距离法与最短距离法的并类步骤完全一样,也是将各样品先自成一类,然后将距离最小的两类合并。将类pG与qG合并为rG,则任一类kG与rG的类间距离公式为二、类间距离与系统聚类法再找距离最小两类并类,直至所有的样品全归为一类为止最长距离法与最短距离法只有两点不同:一是类与类之间的距离定义不同;一是计算新类与其它类的距离所用的公式不同,maxikjrkrijXGXGDd,,max{max,max}ikjpikjqijijXGXGXGXGddmax{,}kpkqDD二、类间距离与系统聚类法3.中间距离法(折中)中间距离将类Gp与Gq类合并为类Gr,则任意的类Gk和Gr的距离公式为(1/40)设Dkq>Dkp最短距离法,则Dkr=Dkp;最长距离法,则Dkr=Dkq。中间距离法:取它们的中间某一点22222121pqkqkpkrDDDD二、类间距离与系统聚类法特别当=1/4,它表示取中间点算距离,公式为222412121pqkpkpkrDDDD二、类间距离与系统聚类法设pG与qG分别有样品pn,qn个,其重心分别为pX和qX,则pG与qG之间的距离定义为pX和qX之间的距离.如用欧氏距离表示,即为:2()()pqpqpqDXXXX二、类间距离与系统聚类法4.重心法类间距离为两类重心(各类样品的均值)的距离重心指标对类有很好的代表性,但利用各样本的信息不充分推导如下:设将pG和qG合并为rG,则rG内样品个数为qprnnn,它的重心是)(1qqpprrXnXnnX,类kG的重心是kX,它与新类rG的距离为22222pqpqkrkpkqpqrrrnnnnDDDDnnn二、类间距离与系统聚类法2()()krkrkrDXXXX11[()][()]kppqqkppqqrrXnXnXXnXnXnn222221(2)pqkkkpkqrrppppqpqqqqrnnXXXXXXnnnXXnnXXnXXn二、类间距离与系统聚类法利用1()kkpkkqkkrXXnXXnXXn代入上式,有2(2)(2)(2)pkrkkkppprqkkkqqqrpqpppqqqrnDXXXXXXnnXXXXXXnnnXXXXXXn2222pqpqkpkqpqrrrnnnnDDDnnn二、类间距离与系统聚类法例:(数据同上例)有六个样品,每个只测量一个指标,分别是1,2,5,7,9,10试用重心法将它们聚类(1)样品采用欧氏距离,计算样品间的平方距离阵D2(0)G1G2G3G4G5G6G10G210G31690G4362540G564491640G6816425910二、类间距离与系统聚类法(2)D2(0)中最小的元素是D212=D256=1,于是将G1和G2合并成G7,G5和G6合并成G8,并计算新类与其它类的距离得到距离阵D2(1)其中,G7G3G4G8G70G312.250G430.2540G86420.256.250222237313212111122221111169112.252222DDDD二、类间距离与系统聚类法(3)在D2(1)中最小值是D234=4,那么G3与G4合并一个新类G9,其与其它类的距离D2(2):G7G9G8G70G920.250G86412.50二、类间距离与系统聚类法(4)其中最小值是=12.5,那么合并一个新类,其与其它类的距离:G7G10G70G1039.06250二、类间距离与系统聚类法(5)最后将G7和G10合并成G11,这时所有的六个样品聚为一类,其过程终止。谱系图表示:二、类间距离与系统聚类法二、类间距离与系统聚类法与最短距离法比较一下:设聚类的某一步将pG和qG合并为rG,则任一类类kG与rG的距离为:221ikjrkrijXGXGkrDdnn221()ikjpikjqijijXGXGXGXGkrddnn22pqkpkqrrnnDDnn二、类间距离与系统聚类法5.类平均法类间距离平方为这两类元素两两之间距离平方的平均数6.可变类平均法类平均法中没有反映出Gp和Gq之间的距离Dpq