聚类分析练习题20121105

llatt
0 ℃
2020-04-15

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

1聚类分析和判别分析练习题一、选择题1.需要在聚类分析中保序的聚类分析是（）。A.两步聚类B.有序聚类C.系统聚类D.k-均值聚类2.在系统聚类中2R是（）。A.组内离差平方和除以组间离差平方和B.组间离差平方和除以组内离差平方和C.组间离差平方和除以总离差平方和D.组间均方除以总均方。3.系统聚类的单调性是指（）。A.每步并类的距离是单调增的B.每步并类的距离是单调减的C.聚类的类数越来越少D.系统聚类2R会越来越小4.以下的系统聚类方法中，哪种系统聚类直接利用了组内的离差平方和。（）A.最长距离法B.组间平均连接法C.组内平均连接法D.WARD法5.以下系统聚类方法中所用的相似性的度量，哪种最不稳健（）。A.21()pikjkkxxB.1pikjkkikjkxxxxC.21()pikjkkxxD.1()()ijijx-xΣx-x6.以下系统聚类方法中所用的相似性的度量，哪种考虑了变量间的相关性（）。A.21()pikjkkxxB.1pikjkkikjkxxxxC.21()pikjkkxxD.1()()ijijx-xΣx-x7.以下统计量，可以用来刻画分为几类的合理性统计量为（）？A.可决系数或判定系数2RB.GGWPP2C./(1)/()GGWPGPnGD.GWPW8.以下关于聚类分析的陈述，哪些是正确的（）A.进行聚类分析的统计数据有关于类的变量B.进行聚类分析的变量应该进行标准化处理C.不同的类间距离会产生不同的递推公式D.递推公式有利于运算速度的提高。D(3)的信息需要D（2）提供。9.判别分析和聚类分析所要求统计数据的不同是（）A.判别分析没有刻画类的变量，聚类分析有该变量B.聚类分析没有刻画类的变量，判别分析有该变量C.分析的变量在不同的样品上要有差异D.要选择与研究目的有关的变量10.距离判别法所用的距离是（）A.马氏距离B.欧氏距离C.绝对值距离D.欧氏平方距离11.在一些条件同时满足的场合，距离判别和贝叶斯判别等价，是以下哪些条件。（）A.正态分布假定B.等协方差矩阵假定C.均值相等假定D.先验概率相等假定12.常用逐步判别分析选择不了的标准是（）A.统计量越小变量的判别贡献更大B.统计量越大变量的判别贡献更大C.判定系数越小变量的判别贡献更大D.判定系数越大变量的判别贡献更大二、填空题1、聚类分析是建立一种分类方法，它将一批样本或变量按照它们在性质上的_______________进行科学的分类。2．Q型聚类法是按_________进行聚类，R型聚类法是按_______进行聚类。3．Q型聚类相似程度指标常见是、、，而R型聚类相似程度指标通常采用_____________、。4．在聚类分析中需要对原始数据进行无量纲化处理，以消除不同量纲或数量级的影响，达到数据间3可同度量的目的。常用的无量纲化方法有以下几种：_____________、____________、________。5．六种Q型聚类方法分别为____、__________、________、_____________、___________、_____________。6．判别分析是要解决在研究对象已知_________________的情况下，确定新的观测数据属于已知类别中哪一类的多元统计方法。7．用判别分析方法处理问题时，通常以__________作为衡量新样本点与各已知组别接近程度的指标。8．进行判别分析时，通常指定一种判别规则，用来判定新样本的归属，常见的判别准则有____________、_____________。9．类内样本点接近，类间样本点疏远的性质，可以通过_____________与___________的大小差异表现出来，而两者的比值能把不同的类区别开来。这个比值越大，说明类与类间的差异越_____，分类效果越______。10.最大的错判概率为，这时两个总体的均值向量的关系是。11.两个点x和y是从同一个总体中抽出的样本，二者的马氏距离可以表达为。三、总结系统聚类有哪些方法？他们的D（0）可以如何定义，其各种方法的递推公式式什么。证明类平均法的递推公式是222(,)(,)(,)KLKLnDJKnDJLDJMnn四、系统聚类类别的确定有哪些方法或指标？五、如果在系统聚类时，某步产生了如下的两个小类2,3,4,(3,4,5),(3,5,2)8,4,4,(6,4,5)如果用离差平方和法聚类，两个小类的距离是多少。六、简述系统聚类法的基本思想及主要步骤。六、简述快速聚类的基本思想及主要步骤。七、某地区将农村经济类型分为三类：G1—较富裕类型，G2—中等类型，G3—较贫困类型。每种类型以五个指标为依据：x1=土地生产率=农村社会总产值/总土地面积(百元/每亩)，x2=劳动生产率=农村社会总产值/农村劳动力(百元/每个劳动力)，x3=人均收入=农村经济纯收入/农业人口(百元/每人)，x4=费用水平=总费用/总收入，x5=农村工业比重=农村工业产值/农村社会总产值。每种类型分别有容量为n1=5,n2=8,n3=4的样本(每个个体以县为单位)，其数据如下：12345678G1(较富裕)X1X2X33.856.754.793.515.734.014.124.453.685.014.683.643.675.844.274X4X50.850.590.810.600.890.480.780.530.870.64G2(中等)X1X2X3X4X53.614.052.650.900.453.653.742.860.910.434.114.133.150.930.412.983.692.900.890.413.213.553.130.880.482.873.782.600.940.393.353.812.710.950.384.004.272.970.900.44G3(较贫困)X1X2X3X4X53.234.081.850.960.383.033.212.030.940.252.543.501.510.970.342.112.981.070.990.21(1)试以x3,x5为变量，建立三个类别的判别函数(2)试以x1,x2,x3,x4,x5为变量，建立马氏距离判别函数八、设两个二维总体有公共协方差，从二总体中分别抽取了容量为9和8的样本，其数据如下：123456789G1X1X220.214.228.58.424.614.826.515.229.011.936.79.636.018.027.69.525.016.0G2X1X221.67.523.24.517.89.214.47.211.05.518.96.315.48.016.17.8采用马氏距离判别法则确定点(23.1，9.2)属于哪一类。九、以下数据是20种啤酒的相关数据，进行聚类分析。名称热量钠含量酒精价格Budweise144.0019.004.70.43Schlitz181.0019.004.90.43Ionenbra157.0015.004.90.48Kronenso170.007.005.20.73Heineken152.0011.005.00.77Old-miln145.0023.004.60.26Aucsberg175.0024.005.50.40Strchs-b149.0027.004.70.42Miller-l99.0010.004.30.43Sudeiser113.006.003.70.445Coors140.0016.004.60.44Coorslic102.0015.004.10.46Michelos135.0011.004.20.50Secrs150.0019.004.70.76Kkirin149.006.005.00.79Pabst-ex68.0015.002.30.36Hamms136.0019.004.40.43Heileman144.0024.004.90.43Olympia-72.006.002.90.46Schlite-97.007.004.20.47十、讨论系统聚类、k均值聚类和有序聚类的技术。说明其特点。