1第三章聚类分析一、填空题1.在进行聚类分析时,根据变量取值的不同,变量特性的测量尺度有以下三种类型:间隔尺度、顺序尺度和名义尺度。2.Q型聚类法是按___样品___进行聚类,R型聚类法是按_变量___进行聚类。3.Q型聚类统计量是____距离_,而R型聚类统计量通常采用_相似系数____。4.在聚类分析中,为了使不同量纲、不同取值范围的数据能够放在一起进行比较,通常需要对原始数据进行变换处理。常用的变换方法有以下几种:__中心化变换_____、__标准化变换____、____规格化变换__、__对数变换_。5.距离ijd一般应满足以下四个条件:对于一切的i,j,有0ijd、ji时,有0ijd、对于一切的i,j,有jiijdd、对于一切的i,j,k,有kjikijddd。6.相似系数一般应满足的条件为:若变量ix与jx成比例,则1ijC、对一切的i,j,有1ijC和对一切的i,j,有jiijCC。7.常用的相似系数有夹角余弦和相关系数两种。8.常用的系统聚类方法主要有以下八种:最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法、离差平方和法。9.快速聚类在SPSS中由__K-mean_____________过程实现。10.常用的明氏距离公式为:qpkqjkikijxxqd11,当1q时,它表示绝对距离;当2q时,它表示欧氏距离;当q趋于无穷时,它表示切比雪夫距离。11.聚类分析是将一批样品或变量,按照它们在性质上的亲疏、相似程度进行分类。12.明氏距离的缺点主要表现在两个方面:第一明氏距离的值与各指标的量纲有关,第二明氏距离没有考虑到各个指标(变量)之间的相关性。13.马氏距离又称为广义的欧氏距离。14,设总体G为p维总体,均值向量为p,,,=21,协差阵为,则样品pXXXX,,,21与总体G的马氏距离定义为2XXGXd12,。15.使用离差平方和法聚类时,计算样品间的距离必须采用欧氏距离。16.在SPSS中,系统默认定系统聚类方法是类平均法。17.在系统聚类方法中,中间距离法和重心法不具有单调性。18.离差平方和法的基本思想来源于方差分析。19.最优分割法的基本步骤主要有三个:第一,定义类的直径;第二,定义目标函数;第三,求最优分割。20.最优分割法的基本思想是基于方差分析的思想。二、判断题1.在对数据行进中心化变换之后,数据的均值为0,而协差阵不变,且变换后后的数据与变量的量纲无关。()2.根据分类的原理,我们可以把聚类分为样品聚类和变量聚类。()3.兰氏距离不仅克服了明氏距离与各指标的量纲有关的缺点,而且也考虑了变量间的相关性。()4.当各变量之间相互独立时,马氏距离就退化为欧氏距离。()5.在几种系统聚类法中,最短(长)距离法、(可边)类平均法、重心法和离差平方和法都具有单调性,只有中间距离法不具有单调性。()6.重心法比离差平方和法使空间扩张。()7.离差平方和法的思想来源于方差分析.如果类分得比较合理,同类样品之间的离差平方和应当较大,类与类之间的离差平方和应当较小.()8.使用离差平方和法时,计算样品间的距离必须采用欧氏距离.()9.快速聚类法又称为动态聚类法,是一种非谱系聚类法,它可以应用于比系统聚类法大得多的数据组.()10.明氏距离的优点在于考虑了各个指标之间的相关性,而缺点在于它的值与各指标的量纲有关。()11.马氏距离考虑了便了之间观测变量之间的相关性。()12.兰氏距离对大的奇异值不敏感,适合高度偏倚的数据,但是它没有克服与各指标的量纲有关的缺点。()三、简答题1.简述聚类分析的基本思想和基本步骤?2.系统聚类法的基本思想是什么?3.系统聚类法的基本步骤是什么?4.简述最长聚类法的聚类步骤。5.简述快速聚类的基本思想及主要步骤。6.简述最优分割法的步骤37.简述Ward离差平方和法的基本思想.8.在数据处理时,为什么通常要进行标准化处理?9.简述最优分割法的基本思想和基本步骤。四、计算题1.假设有一个二维正态总体,它的分布为:19.09.01,002N,并且还已知有两点1,1A和1,1B,要求分别用马氏距离和欧氏距离计算这两点A和B各自到总体均值点0,0的距离.2.设有5个样品,已知各样品之间的距离矩阵为:54321GGGGG065.32705.24105.15.305054321GGGGG试分别用最短距离法和最长距离法聚类。3.为研究全国31个省区城镇居民生活消费的分布规律,根据2003年统计资料利用SPSS软件中的系统聚类法做类型划分,其谱系图如下,你认为从全国各省区的消费情况看,分为几类较合适,结合我国区域社会及经济发展情况,对分类结果作简要分析。******HIERARCHICALCLUSTERANALYSIS******DendrogramusingAverageLinkage(BetweenGroups)RescaledDistanceClusterCombineCASE0510152025LabelNum+---------+---------+---------+---------+---------+青海29宁夏30河南16甘肃28河北3四川23陕西27湖北17湖南18内蒙古54新疆31吉林7黑龙江8山西4辽宁6云南25安徽12贵州24江西14江苏10重庆22山东15福建13广西20海南21天津2西藏26浙江11广东19上海9北京14.下面给出了八个样品的两个指标数据12345678X1X2244701311239511214316试用中间距离法进行聚类,样品间的距离采用欧氏距离。五、SPSS操作题1.某校从高中二年级女生中随机抽取16名,测得身高和体重数据如下表:序号身高(cm)体重(kg)序号身高(cm)体重(kg)123456716015916016916216516549464149504852910111213141516016015716316115815945444350514548样指标指标品58154431616148试分别利用最短距离法、最长距离法、重心法、类平均法、中间距离法将它们聚类(分类统计量采用绝对距离),并画出聚类图。2.从不同地区采集了七块花岗岩,测其部分化学成分如下:1234567SiO2TiO2FeOCaOK2O75.200.141.860.915.2175.150.162.110.744.9372.190.131.520.694.6572.350.131.370.834.8772.740.101.410.724.9973.290.0331.070.173.1573.720.0330.770.282.78试作如下分析:(1)样本间用欧氏距离,并用系统聚类的诸方法对样本进行聚类。(2)将数据标准化后,仍用欧氏距离,然后用系统聚类的诸方法对样本进行聚类。(3)对五个变量进行聚类。