聚类分析—把对象分类专业:国际贸易学学号:2014111015姓名:冯梅分类俗语说,物以类聚、人以群分。当有一个分类指标时,分类比较容易。但是当有多个指标,要进行分类就不是很容易了。比如,要想把中国的县分成若干类,可以按照自然条件来分:考虑降水、土地、日照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施等指标;聚类分析由于不同的指标项对重要程度或依赖关系是相互不同的,所以也不能用平均的方法,因为这样会忽视相对重要程度的问题。所以需要进行多元分类,即聚类分析。最早的聚类分析是由考古学家在对考古分类中研究中发展起来的,同时又应用于昆虫的分类中,此后又广泛地应用在天气、生物等方面。聚类分析对于一批数据,人们既可以对变量(指标)进行分类(相当于对数据中的列分类),也可以对观测值(事件,样品)来分类(相当于对数据中的行分类)。对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。这两种聚类在数学上是对称的,没有什么不同。如何聚类?聚类分析就是要找出具有相近程度的点或类聚为一类;如何衡量这个“相近程度”?就是要根据“距离”来确定。这里的距离含义很广,凡是满足4个条件(后面讲)的都是距离,如欧氏距离、马氏距离…,相似系数也可看作为距离。距离距离什么是距离?首先我们看样本数据:一般满足以下四个条件时,就称为距离:个样品之间的距离个样品与第表示第jiji设:dx,即XxxxxxxxxxXpnijnpn2n12p22211p1211。,对一切,对一切,等价于,对一切kjidddddjiddkjikijjiijijij,,;ji,;,0;ji,0常用距离——明氏距离Minkowski距离:当q=1时:当q=2时:当q=∞时q1qp1kjkikij)xx((q)d(Block)xx(1)dp1kjkikij,称为绝对距离(Eudidem)xx(2)dp1kjkikij,称为欧氏距离)(212,称为切比雪夫距离kjikpk1ijxxmax)(d改进:1)各指标测量值相差悬殊时,数据标准化处理后再计算距离xij>0时,LanceWilliams距离2)马氏距离21ij(i)(j(i)(jd()(xx)(xx)M))明氏距离的缺点:1)距离大小与各指标的观测单位有关2)没有考虑指标间的相关性pikjkijk1ikjkxx1d(LW)pxx系统聚类法系统聚类法的步骤可选择适当的距离,计算距离把每个样品看成一类,构造n个类合并最近的两类为一新类计算新类与当前各类的距离判断画聚类图根据实际情况,确定类和类的个数仅有一个类不是仅有一个类采用系统聚类法系统聚类法最短距离法——NearestNeighbormin(,)pqijDdxxG1G2G3G4G5G1G2G3G4G50102.51.50653.50875.520G6G3G4G5G6G3G4G501.5053.5073.53.50系统聚类法最长距离法——FurthestNeighbormax(,)pqijDdxxG1G2G3G4G5G1G2G3G4G50102.51.50653.50875.520G6G3G4G5G6G3G4G502.5063.5083.53.50系统聚类法重心法——CentroidClustering类平均法——Between-groupsLinkagemin(,)pqpqDdxx121(,)ipjqpqijxGxGDdxxnn系统聚类法离差平方和法——Word’sMethod12121212()'(),()'(),()'()ipjqkpqipipjqjqxGxGkipqxGGDxxxxDxxxxDxxxxDDDD它的思想来源于方差分析此外,还有中间距离法、类内平均法等。SPSS中的聚类分析与过程SPSS中的聚类分析Spss中的聚类功能常用的有两种:快速聚类(迭代过程):K-MeansCluster分层聚类:HierarchicalK-MeansCluster原理首先,选择n个数值型变量参与聚类分析,最后要求的聚类数为k个;其次,由系统选择k个(聚类的类数)观测量(也可由用户指定)作为聚类的种子。第三,按照距离这些类中心的距离最小的原则把所有观测量(样品)分派到各类重心所在的类中去。第四,这样每类中可能由若干个样品,计算每个类中各个变量的均值,以此作为第二次迭代的中心;第五,然后根据这个中心重复第三、第四步,直到中心的迭代标准达到要求时,聚类过程结束。K-MeansCluster算法描述•K-Means算法描述:•输入:聚类个数K,以及包含n个数据对象的数据库•输出:满足方差最小标准的K个聚类•处理流程:•Step1从n个数据对象任意选择K个对象作为初始聚类中心;•Step2根据簇中对象的平均值,将每个对象重新赋给最类似的簇;•Step3更新簇的平均值,即计算每个簇中对象的平均值;•Step4循环Step2到Step3直到每个簇类不再发生变化为止,•[例]假定我们对A、B、C、D四个样品分别测量两个变量和得到结果见表:•试将以上的样品聚成两类。K=2样品变量1X2XA53B-11C1-2D-3-2•第一步:按要求取K=2,为了实施均值法聚类,我们将这些样品随意分成两类,比如(A、B)和(C、D),然后计算这两个聚类的中心坐标,中心坐标聚类1X2X(A、B)22(C、D)-1-215(1)22X•第二步:计算某个样品到各类中心的欧氏平方距离,然后将该样品分配给最近的一类。对于样品有变动的类,重新计算它们的中心坐标,为下一步聚类做准备。先计算A到两个类的平方距离:10)23()25())(,(222ABAd61)23()15())(,(222CDAd由于A到(A、B)的距离小于到(C、D)的距离,因此A不用重新分配。计算B到两类的平方距离:10)21()21())(,(222ABBd9)21()11())(,(222CDBdB归到类CD中较合适•由于B到(A、B)的距离大于到(C、D)的距离,因此B要分配给(C、D)类,得到新的聚类是(A)和(B、C、D)。更新中心坐标如下:中心坐标聚类1X2X(A)53(B、C、D)-1-1•第三步:再次检查每个样品,以决定是否需要重新分类。计算各样品到各中心的距离平方,得结果如下:•到现在为止,每个样品都已经分配给距离中心最近的类,因此聚类过程到此结束。最终得到K=2的聚类结果是A独自成一类,B、C、D聚成一类。样品到中心的距离平方聚类ABCD(A)0404189(B、C、D)52455例9.1饮料数据(drink.sav)•16种饮料的热量、咖啡因、钠及价格四种变量InitialClusterCenters207.20146.7095.90.003.304.30.004.2015.509.708.5013.102.801.801.302.20CALORIECAFFEINESODIUMPRICE1234ClusterIterationHistorya5.06512.53212.27525.901.0005.2131.3974.127.0005.6315.725.000.000.000.000.000Iteration12341234ChangeinClusterCentersConvergenceachievedduetonoorsmallchangeinclustercenters.Themaximumabsolutecoordinatechangeforanycenteris.000.Thecurrentiterationis4.Theminimumdistancebetweeninitialcentersis50.998.a.FinalClusterCenters203.10123.5578.7029.731.653.273.384.4813.058.6010.139.473.153.402.282.78CALORIECAFFEINESODIUMPRICE1234ClusterClusterMembership15.06548.00037.83448.23122.115310.469223.254321.417317.63015.065420.637413.57249.011429.96225.200216.893CaseNumber12345678910111213141516ClusterDistanceNumberofCasesineachCluster2.0004.0004.0006.00016.000.0001234ClusterValidMissingClusterMembership11223333332233334333432233333343Case1:Case12:Case23:Case34:Case45:Case56:Case67:Case78:Case89:Case910:Case1011:Case1112:Case1213:Case1314:Case1415:Case1516:Case164Clusters3ClustersClusterMembership15.06548.00037.83448.23122.115310.469223.254321.417317.63015.065420.637413.57249.011429.96225.200216.893CaseNumber12345678910111213141516ClusterDistance欧氏平方距离、类平均法聚类快速聚类法聚类实例1:基于K均值聚类分析的星级饭店区域发展水平实证研究选取中华人民共和国国家旅游局2009年制作的《中国旅游年鉴》中关于中国星级饭店各省市区2008年的部分统计指标并将数据录入到SPASS软件中。X1——星级饭店固定资产(单位:万元);X2——星级饭店营业收入(单位:万元);X3——星级饭店利润(单位:万元);X4——星级饭店税金(单位:万元);X5——星级饭店数(单位:个);X6——星级饭店从业人数(单位:人);X7——星级饭店接待住宿人P*天数(单位:万人P*天)。表12008年全国31个省市区星级饭店业相关指标•1.K均值聚类分析参数设置•聚类数目设置为5,将31个省市区星级饭店发展水平分为五类;最大迭代次数设置为20,收敛准则设置为0.01。•2.K均值聚类分析初始类中心数据表2显示是系统自动指定的五个初始类中心点,初始类中心点分别选择以下地区:北京、宁夏、广东、海南、山东,初始类中心点基本上包括了31个省市区的各个层次,具有一定的代表性,但一般情况下不是最好的,要通过迭代过程寻找更好的类中心点代替初始类中心点。•3.迭代记录表3给出了五个类中心每次迭代时的变化,第三次迭代后,五个类中心点变化均小于指定的收敛规则(0.01),达到聚类结果的要求,聚类分析结束。•4.K均值聚类分析结束中心数据表4显示了五个类的最终聚类中心,可以看出,第一类各指数相对来讲较高,第三类次之,第二类最低。5.K均值聚类分析的类成员列表•依据表5的数据,全国31个省市区星级饭店行业发展水平存在着比较明显的分层:第一类:北京;第三类:上海、广东;第五类:江苏、浙江、山东、辽宁;第四类:河北、安徽、福建、河南、湖北、湖南、广西、海南、四川、云南、陕西、新疆;第二类:天津、山西、内蒙古、吉林、黑龙江、江西、重庆、贵州、甘肃、西藏、青海、宁夏。•分层数据基本上与地区经济发展水平和旅游业发展水平相符,北京、上海、广东是中国环渤海经济区、长三角经济区、珠三角经济区的核心区域,星级饭店行业发展水平处于领先水平。•辽宁、山东、江苏、浙江是沿海经济发达地区,星级饭店行业发展水平比较高,第三类基本上是中国GDP位于全国中游或旅游业发展比较有特色的地区,第二类是全国