《应用多元统计分析》第五版PPT(第六章)-简化版(JMP13.1)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第六章聚类分析§6.1引言§6.2距离和相似系数§6.3系统聚类法§6.4动态聚类法1§6.1引言聚类分析:将分类对象分成若干类,相似的归为同一类,不相似的归为不同的类。聚类分析和判别归类有着不同的分类目的,彼此之间既有区别又有联系。聚类分析分为Q型(分类对象为样品)和R型(分类对象为变量)两种。2相似性的不同定义3§6.2距离和相似系数相似性度量:距离和相似系数。样品之间的距离和相似系数有着各种不同的定义,而这些定义与变量的类型有着非常密切的关系。变量的测量尺度:间隔、有序和名义尺度。间隔变量:变量用连续的量来表示,如长度、重量、速度、温度等。有序变量:变量度量时不用明确的数量表示,而是用等级来表示,如某产品分为一等品、二等品、三等品等有次序关系。名义变量:变量用一些类表示,这些类之间既无等级关系也无数量关系,如性别、职业、产品的型号等。4间隔变量也称为定量变量,有序变量和名义变量统称为定性变量或属性变量或分类变量。对于间隔变量,距离常用来度量样品之间的相似性,相似系数常用来度量变量之间的相似性。本章主要讨论具有间隔尺度变量的样品聚类分析方法。一、距离二、相似系数5一、距离设x=(x1,x2,⋯,xp)′和y=(y1,y2,⋯,yp)′为两个样品,则所定义的距离一般应满足如下三个条件:(i)非负性:d(x,y)≥0,d(x,y)=0当且仅当x=y;(ii)对称性:d(x,y)=d(y,x);(iii)三角不等式:d(x,y)≤d(x,z)+d(z,y)。6常用的距离1.明考夫斯基(Minkowski)距离3.马氏距离71.明考夫斯基距离明考夫斯基距离(简称明氏距离):这里q≥1。明氏距离的以下两种特殊形式:(i)当q=1时,,称为绝对值距离,常被形象地称作“城市街区”距离;(ii)当q=2时,,这是欧氏距离,它是聚类分析中最常用的一个距离;11,qpqiiidxyxy1,piiidxyxy1221,piiidxyxyxyxy8绝对值距离图示9对各变量的数据作标准化处理当各变量的单位不同或测量值范围相差很大时,应先对各变量的数据作标准化处理。最常用的标准化处理是,令其中和sii分别为xi的样本均值和样本方差。*,1,2,,iiiiixxxipsix103.马氏距离x和y之间的马氏距离为其中S为样本协差阵。聚类过程中的类一直变化着,S一般难以确定,除非有关于不同类的先验知识。因此,在实际聚类分析中,马氏距离一般不是理想的距离。1,dxyxySxy11名义尺度变量的一种距离定义例6.2.1某高校举办一个培训班,从学员的资料中得到这样六个变量:x1:性别(男,女)x2:外语语种(英语,非英语)x3:专业(统计,非统计)x4:职业(教师,非教师)x5:居住处(校内,校外)x6:学位(硕士,学士)现有两名学员:x=(男,英语,统计,非教师,校外,学士)′y=(女,英语,非统计,教师,校外,硕士)′12一般地,若记m1:配合的变量数m2:不配合的变量数则它们之间的距离可定义为故按此定义,本例中x与y之间的距离为2/3。212,mdmmxy13二、相似系数变量之间的相似性度量,在一些应用中要看相似系数的大小,而在另一些应用中要看相似系数绝对值的大小。相似系数(或其绝对值)越大,认为变量之间的相似性程度就越高;反之,则越低。聚类时,比较相似的变量倾向于归为一类,不太相似的变量归属不同的类。14变量间相似系数一般应满足的条件(1)cij=±1,当且仅当xi=axj+b,a(≠0)和b是常数;(2)|cij|≤1,对一切i,j;(3)cij=cji,对一切i,j。15两个向量的夹角余弦cosxyxy161.夹角余弦变量xi与xj的夹角余弦定义为它是Rn中变量xi的观测向量(x1i,x2i,⋯,xni)′与变量xj的观测向量(x1j,x2j,⋯,xnj)′之间夹角θij的余弦函数,即cij(1)=cosθij。11222111nkikjkijnnkikjkkxxcxx172.相关系数变量xi与xj的相关系数为如果变量xi与xj是已标准化了的,则它们间的夹角余弦就是相关系数。11222112nkiikjjkijijnnkiikjjkkxxxxcrxxxx18相似系数除常用来度量变量之间的相似性外有时也用来度量样品之间的相似性,同样,距离有时也用来度量变量之间的相似性。由距离来构造相似系数总是可能的,如令这里dij为第i个样品与第j个样品的距离,cij可作为相似系数,用来度量样品之间的相关性。距离必须满足定义距离的三个条件,所以不是总能由相似系数构造。11ijijcd19§6.3系统聚类法系统聚类法(或层次聚类法)是通过一系列相继的合并或相继的分割来进行的,分为聚集的和分割的两种,适用于样品数目n不是很大的情形。聚集系统法的基本思想是:开始时将n个样品各自作为一类,并规定样品之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其他类的距离;重复进行两个最近类的合并,每次减少一类,直至所有的样品合并为一类。20一开始每个样品各自作为一类21分割系统法的聚类步骤与聚集系统法正相反。由n个样品组成一类开始,按某种最优准则将它分割成两个尽可能远离的子类,再用同样准则将每一子类进一步地分割成两类,从中选一个分割最优的子类,这样类数将由两类增加到三类。如此下去,直至所有n个样品各自为一类或采用某种停止规则。聚集系统法最为常用,本节集中介绍其中常用的八种方法,所有这些聚类方法的区别在于类与类之间距离的定义不同。22§6.3系统聚类法一、最短距离法二、最长距离法三、类平均法四、重心法六、离差平方和法(Ward方法)九、使用图形作聚类及对效果的评估十、对变量的聚类十一、类的个数23一、最短距离法定义类与类之间的距离为两类最近样品间的距离,即,minKLKLijiGjGDd24图6.3.1最短距离法:DKL=d23最短距离法的聚类步骤(1)规定样品之间的距离,计算n个样品的距离矩阵D(0),它是一个对称矩阵。(2)选择D(0)中的最小元素,设为DKL,则将GK和GL合并成一个新类,记为GM,即GM=GK∪GL。(3)计算新类GM与任一类GJ之间距离的递推公式为,,,minminmin,minmin,MJKJLJMJijijijiGjGiGjGiGjGKJLJDdddDD25递推公式的图示理解26最短距离法的聚类步骤(续)在D(0)中,GK和GL所在的行和列合并成一个新行新列,对应GM,该行列上的新距离值由上述递推公式求得,其余行列上的距离值不变,这样就得到新的距离矩阵,记作D(1)。(4)对D(1)重复上述对D(0)的两步得D(2),如此下去直至所有元素合并成一类为止。27如果某一步D(m)中最小的元素不止一个,则称此现象为结,对应这些最小元素的类可以任选一对合并或同时合并。最短距离法最容易产生结,且有一种挑选长链状聚类的倾向,称为链接倾向。最短距离法不适合对分离得很差的群体进行聚类。28结的图示:一个最短距离法产生链接的例子(例6.3.4)29例6.3.1设有五个样品,每个只测量了一个指标,分别是1,2,6,8,11,试用最短距离法将它们分类。记G1={1},G2={2},G3={6},G4={8},G5={11},样品间采用绝对值距离。G1G2G3G4G5G10G210G3540G47620G5109530表6.3.1D(0)30其中G6=G1∪G2其中G7=G3∪G4G6G3G4G5G60G340G4620G59530表6.3.2D(1)表6.3.3D(2)G6G7G5G60G740G593031其中G6=G1∪G2表6.3.4D(3)G6G8G60G84032图6.3.2最短距离法树形图二、最长距离法类与类之间的距离定义为两类最远样品间的距离,即,maxKLKLijiGjGDd33图6.3.3最长距离法:DKL=d15最长距离法与最短距离法的并类步骤完全相同,只是类间距离的递推公式有所不同。递推公式:max,MJKJLJDDD34对例6.3.1采用最长距离法。35图6.3.4最长距离法树形图异常值的影响最长距离法容易被异常值严重地扭曲。36三、类平均法有两种定义。定义1:类GK和GL之间的距离定义为,1KLKLijiGjGKLDdnn37图6.3.5类平均法定义2:类GK和GL之间的平方距离定义为类平均法较好地利用了所有样品之间的信息,在很多情况下它被认为是一种比较好的系统聚类法。22,1KLKLijiGjGKLDdnn3839图6.3.6类平均法树形图例6.3.2在例6.3.1中采用(使用平方距离的)类平均法进行聚类。四、重心法设类GK和GL的重心(均值)分别为,则GK与GL之间的平方距离定义为KLxx和22KLKLKLKLDdxxxxxx40图6.3.7重心法与其他系统聚类法相比,重心法在处理异常值方面更稳健,但是在别的方面一般不如类平均法或离差平方和法的效果好。41六、离差平方和法(Ward方法)GK与GL之间的平方距离定义为离差平方和法使得两个大的类倾向于有较大的距离,因而不易合并;相反,两个小的类却因倾向于有较小的距离而易于合并。这往往符合我们对聚类的实际要求。2KLKLKLKLMnnDnxxxx421=112KLKLKLKKLMKLLKMnnnnnnnnnnnnnnn,当时,43图6.3.9离差平方和法与重心法的聚类比较对例6.3.1采用离差平方和法进行聚类。44图6.3.10离差平方和法树形图例6.3.3表6.3.9列出了1999年全国31个省、直辖市和自治区的城镇居民家庭平均每人全年消费性支出的八个主要变量数据。这八个变量是x1:食品x5:交通和通讯x2:衣着x6:娱乐教育文化服务x3:家庭设备用品及服务x7:居住x4:医疗保健x8:杂项商品和服务分别用最短距离法、重心法和Ward方法对各地区作聚类分析。为同等地对待每一变量,在作聚类前,先对各变量作标准化变换。464748495051从这三个树形图来看,只有Ward方法较好地符合了我们的实际聚类要求。可将31个地区分为以下三类:第Ⅰ类:北京、浙江、上海和广东。这些都是我国经济最发达、城镇居民消费水平最高的地区。第Ⅱ类:天津、江苏、云南、重庆、河北、新疆、山东、湖北、四川、湖南、福建、广西、海南和西藏。这些地区在我国基本上属于经济发展水平和城镇居民消费水平中等的地区。第Ⅲ类:山西、甘肃、内蒙古、辽宁、黑龙江、吉林、青海、宁夏、安徽、贵州、河南、陕西和江西。这些地区在我国基本上属于经济欠发达地区,城镇居民的消费水平也较低。如果分为五类,则广东和西藏将各自为一类。52九、使用图形作聚类及对聚类效果的评估1.使用图形作直观的聚类2.使用图形对聚类效果的评估531.使用图形作直观的聚类当p=2时,可以直接在散点图上进行主观的聚类,其效果未必逊于、甚至好于正规的聚类方法,特别是在寻找“自然的”类和符合我们实际需要的类方面。当p=3时,我们可使用统计软件产生三维旋转图,通过旋转三维坐标轴从各个角度来观测散点图,作直观的聚类。但由于其视觉效果及易操作性远不如平面散点图,故实践中很少采用。当p≥3时,有时我们可采用主成分分析(见第七章,这里允许不对主成分给出解释)或因子分析(见第八章,一般只在对因子的解释感兴趣时使用,实践中很少采用)的技术将维数降至2(或3)维,然后再生成散点图(或旋转图),从直觉上进行主观的聚类。54寻找“自然的”类

1 / 76
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功