2019/10/14中国人民大学六西格玛质量管理研究中心1多元统计分析何晓群中国人民大学出版社2019/10/14中国人民大学六西格玛质量管理研究中心2第三章聚类分析•§3.1聚类分析的思想•§3.2相似性度量•§3.3类和类的特征•§3.4系统聚类法•§3.5模糊聚类分析•§3.6K-均值聚类和有序样本聚类•§3.7计算步骤与上机实现•§3.8社会经济案例研究2019/10/14中国人民大学六西格玛质量管理研究中心3第三章聚类分析•人们往往会碰到通过划分同种属性的对象很好地解决问题的情形,而不论这些对象是个体、公司、产品甚至行为。如果没有一种客观的方法,基于在总体内区分群体的战略选择,比如市场细分将不可能,其他领域也会遇到类似的问题,研究者都在基于一个多维剖面的观测中寻找某种“自然”结构。•为此最常用的技巧是聚类分析,聚类分析将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。目的在于使类间对象的同质性最大化和类与类间对象的异质性最大化。本章将介绍聚类分析的性质和目的,并且引导研究者使用各种聚类分析方法。目录上页下页返回结束2019/10/14中国人民大学六西格玛质量管理研究中心4§3.1聚类分析的思想•3.1.1导言•在古老的分类学中,人们主要靠经验和专业知识,很少利用数学方法。随着生产技术和科学的发展,分类越来越细,以致有时仅凭经验和专业知识还不能进行确切分类,于是数学这个有用的工具逐渐被引进到分类学中,形成了数值分类学。近些年来,数理统计的多元分析方法有了迅速的发展,多元分析的技术自然被引用到分类学中,于是从数值分类学中逐渐的分离出聚类分析这个新的分支。目录上页下页返回结束2019/10/14中国人民大学六西格玛质量管理研究中心5§3.1聚类分析的思想目录上页下页返回结束•我们认为,所研究的样品或指标(变量)之间是存在着程度不同的相似性(亲疏关系)。于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间的相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另外一类,…。关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统。最后再把整个分类系统画成一张分群图(又称谱系图),用它把所有的样品(或指标)间的亲疏关系表示出来。2019/10/14中国人民大学六西格玛质量管理研究中心6§3.1聚类分析的思想目录上页下页返回结束•在经济、社会、人口研究中,存在着大量分类研究、构造分类模式的问题。过去人们主要靠经验和专业知识,作定性分类处理,致使许多分类带有主观性和任意性,不能很好的提示客观事物内在的本质差别和联系,特别是对于多因素、多指标的分类问题,定性分类更难以实现准确分类。2019/10/14中国人民大学六西格玛质量管理研究中心7§3.1聚类分析的思想目录上页下页返回结束•为了克服定性分类时存在的不足,数学这个有用的工具逐渐被引进到分类学中,形成数值分类学。后来随着多元分析的引进,聚类分析可以用来对案例进行分类,也可以用来对变量进行分类。•对样品的分类常称为Q型聚类分析,对变量的分类常称为R型聚类分析。•与多元分析的其他方法相比,聚类分析的方法是很粗糙的,理论上还不完善,但由于它能解决许多实际问题,很受人们的重视,和回归分析、判别分析一起被称为多元分析的三大方法。2019/10/14中国人民大学六西格玛质量管理研究中心8§3.1聚类分析的思想目录上页下页返回结束•3.1.2聚类的目的•在一些社会、经济问题中,我们面临的往往是比较复杂的研究对象,如果能把相似的样品(或指标)归成类,处理起来就大为方便,聚类分析的目的就是把相似的研究对象归成类。•【例3.1】若我们需要将下列11户城镇居民按户主个人的收入进行分类,对每户作了如下的统计,结果列于表3.1。在表中,“标准工资收入”、“职工奖金”、“职工津贴”、“性别”、“就业身份”等称为指标,每户称为样品。若对户主进行分类,还可以采用其他指标,如“子女个数”、“政治面貌”等,指标如何选择取决于聚类的目的。2019/10/14中国人民大学六西格玛质量管理研究中心9§3.1聚类分析的思想目录上页下页返回结束2019/10/14中国人民大学六西格玛质量管理研究中心10§3.1聚类分析的思想目录上页下页返回结束•例3.1中的8个指标,前6个是定量的,后2个是定性的。如果分得更细一些,指标的类型有三种尺度•间隔尺度。变量用连续的量来表示。•有序尺度。指标用有序的等级来表示,有次序关系,但没有数量表示。•名义尺度。指标用一些类来表示,这些类之间没有等级关系也没有数量关系。•不同类型的指标,在聚类分析中,处理的方式是大不一样的。总的来说,提供给间隔尺度的指标的方法较多,对另两种尺度的变量处理的方法不多。2019/10/14中国人民大学六西格玛质量管理研究中心11§3.1聚类分析的思想目录上页下页返回结束•聚类分析根据实际的需要可能有两个方向,一是对样品(如例3.1中的户主),一是对指标聚类。•第一位重要的问题是“什么是类”?粗糙地讲,相似样品(或指标)的集合称作类。由于经济问题的复杂性,欲给类下一个严格的定义是困难的,在§3.2中,我们将给类一些待探讨的定义。•聚类分析给人们提供了丰富多采的方法进行分类,这些方法大致可归纳为:(1)系统聚类法。(2)模糊聚类法。(3)K-均值法。(4)有序样品的聚类。(5)分解法。(6)加入法。2019/10/14中国人民大学六西格玛质量管理研究中心12§3.2相似性度量目录上页下页返回结束•从一组复杂数据产生一个相当简单的类结构,必然要求进行“相关性”或“相似性“度量。在相似性度量的选择中,常常包含许多主观上的考虑,但是最重要的考虑是指标(包括离散的、连续的和二态的)性质或观测的尺度(名义的、次序的、间隔的和比率的)以及有关的知识。•当对样品进行聚类时,“靠近”往往由某种距离来刻画。另一方面,当对指标聚类时,根据相关系数或某种关联性度量来聚类。2019/10/14中国人民大学六西格玛质量管理研究中心13§3.2相似性度量目录上页下页返回结束2019/10/14中国人民大学六西格玛质量管理研究中心14§3.2相似性度量目录上页下页返回结束2019/10/14中国人民大学六西格玛质量管理研究中心15§3.2相似性度量目录上页下页返回结束2019/10/14中国人民大学六西格玛质量管理研究中心16§3.2相似性度量目录上页下页返回结束(1)当各指标的测量值相差悬殊时,先对数据标准化,然后用标准化后的数据计算距离,即兰氏距离。(2)一种改进的距离就是在前面曾讨论过的马氏距离,它对一切线性变换是不变的,不受指标量纲的影响。它对指标的相关性也作了考虑,我们仅用一个例子来说明。2019/10/14中国人民大学六西格玛质量管理研究中心17§3.2相似性度量目录上页下页返回结束2019/10/14中国人民大学六西格玛质量管理研究中心18§3.2相似性度量目录上页下页返回结束2019/10/14中国人民大学六西格玛质量管理研究中心19§3.2相似性度量目录上页下页返回结束以上几种距离均是适用于间隔尺度的变量,如果指标是有序尺度或名义尺度时也有一些定义距离的方法。2019/10/14中国人民大学六西格玛质量管理研究中心20§3.2相似性度量目录上页下页返回结束•定义距离的较灵活的思想方法。•【例3.3】欧洲各国的语言有许多相似之处,有的十分相似。为了研究这些语言的历史关系,也许通过比较它们数字的表达比较恰当。表3.3列举了英语、挪威语、丹麦语、荷兰语、德语、法语、西班牙语、意大利语、波兰语、匈牙利语和芬兰语的1,2,…,10的拼法,希望计算这11种语言之间的距离。2019/10/14中国人民大学六西格玛质量管理研究中心21§3.2相似性度量目录上页下页返回结束•显然,此例无法直接用上述公式来计算距离,仔细观察表3.3,发现前三种文字(英、挪、丹)很相似,尤其每个单词的第一个字母,于是产生一种定义距离的办法:用两种语言的10个数词中的第一个字母不相同的个数来定义两种语言之间的距离,例如英语和挪威语中只有1和8的第一个字母不同,故它们之间的距离为2。十一种语言之间两两的距离列于表3.4中。2019/10/14中国人民大学六西格玛质量管理研究中心22§3.2相似性度量目录上页下页返回结束2019/10/14中国人民大学六西格玛质量管理研究中心23§3.2相似性度量目录上页下页返回结束对于间隔尺度,常用的相似系数有:(1)夹角余弦。这是受相似形的启发而来,图3.1中的曲线AB和CD尽管长度不一,但形状相似,当长度不是主要矛盾时,应定义一种相似系数使AB和CD呈现出比较密切的关系。而夹角余弦适合这一要求。2019/10/14中国人民大学六西格玛质量管理研究中心24§3.2相似性度量目录上页下页返回结束2019/10/14中国人民大学六西格玛质量管理研究中心25§3.2相似性度量目录上页下页返回结束(2)相关系数。这是大家最熟悉的统计量,它是将数据标准化后的夹角余弦。有时指标之间也可用距离来描述它们的接近程度。实际上距离和相似系数之间可以互相转化,2019/10/14中国人民大学六西格玛质量管理研究中心26§3.3类和类的特征目录上页下页返回结束目的是聚类,那么什么叫类呢?由于客观事物的千差万别,在不同的问题中类的含义是不尽相同的。给类下一个严格的定义,决非易事。下面给出类的适用于不同的场合几个定义。2019/10/14中国人民大学六西格玛质量管理研究中心27§3.3类和类的特征目录上页下页返回结束2019/10/14中国人民大学六西格玛质量管理研究中心28§3.3类和类的特征目录上页下页返回结束易见,定义3.1的要求是最高的,凡符合它的类,一定也是后三种定义的类。此外,凡符合定义3.2的类,也一定是定义3.3的类。2019/10/14中国人民大学六西格玛质量管理研究中心29§3.3类和类的特征目录上页下页返回结束2019/10/14中国人民大学六西格玛质量管理研究中心30§3.3类和类的特征目录上页下页返回结束在聚类分析中,不仅要考虑各个类的特征,而且要计算类与类之间的距离。由于类的形状是多种多样的,所以类与类之间的距离也有多种计算方法。2019/10/14中国人民大学六西格玛质量管理研究中心31§3.3类和类的特征目录上页下页返回结束(1)最短距离法。(nearestneighbor或singlelinkagemethod)2019/10/14中国人民大学六西格玛质量管理研究中心32§3.3类和类的特征目录上页下页返回结束(2)最长距离法(farthestneighbor或completelinkagemethod)。2019/10/14中国人民大学六西格玛质量管理研究中心33§3.3类和类的特征目录上页下页返回结束(3)类平均法(groupaveragemethod)。2019/10/14中国人民大学六西格玛质量管理研究中心34§3.3类和类的特征目录上页下页返回结束(4)重心法(Centroidmethod)。(5)离差平方和法(SumofSquaresmethod)。2(,)wpqpqDpqDDD2019/10/14中国人民大学六西格玛质量管理研究中心35§3.4系统聚类法目录上页下页返回结束系统聚类法(hierarchicalclusteringmethod)在聚类分析中诸方法中用的最多,包含下列步骤:2019/10/14中国人民大学六西格玛质量管理研究中心36§3.4系统聚类法目录上页下页返回结束不同的距离定义方式用到系统聚类程序中,得到不同的系统聚类法。我们现在通过一个简单的例子,来说明各种系统聚类法。【例3.4】为了研究辽宁等5省份2000年城镇居民消费支出的分布规律,根据调查资料作类型划分。指标名称及原始数据见表3.