-1-东北大学秦皇岛分校课程名称:多元统计分析试卷类型:A答案考试形式:闭卷授课专业:信科、应数、统计考试日期:2013年7月9日试卷:共3页题号一二三四总分得分阅卷人一、填空题:(每空2分,共32分)1.设随机向量123(,,)XXXX,且其协方差阵为4434923216,则它的相关矩阵231382116331186R。2.系统聚类分析的方法很多,其中的五种分别为最长距离法、最短距离法、重心法、类平均法、离差平方和法。3.若()~(,),(1,2,)pXNμn且相互独立,样本均值向量为X,样本离差阵为()()1()()nLXXXX,则~X1(,)pNn,~L(1,)pWn。4.因子分析可以分为确定因子载荷、因子旋转、计算因子得分三个步骤。5.设三维随机向量),(~3NX,其中200031014,则1X与2X不独立;),(21XX和3X独立(填独立或不独立)。6.变量的类型按尺度划分有间隔尺度、有序尺度、名义尺度。二、判断题(每小题3分,共15分)1.[×]因子载荷矩阵A是对称阵。2.[×]方差分析是检验多个正态总体的方差或协方差阵是否相等的统计分析方法。3.[√]聚类分析中快速聚类法指的就是k-均值法。4.[√]判别分析中,“留一个观测在外”的原则是指在交叉验证时,某个观测不参与估计判别函数,但要根据除这个观测以外的其他观测估计的判别函数来预测该观测的所属类,从而使这个观测得到验证。5.[√]样本协方差阵()()11ˆ()()1nXXXXn是总体协方差阵的无偏估计。三、解答题(共35分)1.为了研究7种植物A、B、C、D、E、F、G的分布规律,根据资料做类型划分。已知各植物两两间距离矩阵如下:D=04381721140311618201506523100192413022120110GFEDCBAGFEDCBA试用系统聚类法(类与类采用最短距离法)进行聚类分析:(1)写出从7类最后聚成1类的详细过程(10分);(2)画出系统聚类图(5分)。解:样品与样品之间的明氏距离为:(0)01101222013241901023560152018163101421178340ABCDEFGABCDDEFG装订线装订线内不要答题学号姓名班级-2-样品最短距离是3,故把E与G合并为一新类,EG。重新计算类与类之间距离(最短距离法),得:(1),0110122201324190152018160,10215640ABCDFEGABDCDFEG类与类的最短距离是4,故把F与,EG合并为一类,,EFG。重新计算类与类之间距离(最短距离法),得:(2),,0110122201324190,,1020560ABCDEFGABDCDEFG类与类的最短距离是5,故把C与,,EFG合并为一新类,,,CEFG。重新计算类与类间距离(最短距离法),得:(3),,,011013240,,,102060ABDCEFGADBDCEFG类与类的最短距离是6,故把D与,,,CEFG合并为一新类,,,,CDEFG。重新计算类与类之间距离(最短距离法),得:(4),,,,0110,,,,10200ABCDEFGADBCDEFG类与类的最短距离是10,故把A与,,,,CDEFG合并为一新类,,,,,ACDEFG重新计算类与类之间距离(最短距离法),得:(5),,,,,0,,,,,110BACDEFGDBACDEFG最后聚成一类,,,,,,ABCDEFG聚合完毕。(以上每步2分,共5×2=10分)谱系聚类图:2.12344(,,,)~(0,)XXXXXN,1111,01(1)试从Σ出发求X的第一总体主成分;(8分)(2)试问当取多大时才能使第一主成分的贡献率达95%以上。(2分)解:(1)由11011,得特征根113,2341。(4分)解1所对应的特征方程123411011xxxx,得1所对应的单位特征向量为装订线装订线内不要答题学号姓名班级-3-11112222,故得第一主成分1123411112222YXXXX。(4分)(2)第一主成分的贡献率为112341395%4,得0.933。(2分)3.设123(,,)XXXX的相关系数矩阵通过因子分析分解为121330.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.1032013R计算:(1)1X的共同度21h(5分);(2)公因子1F对1X的贡献21g(5分)解:(1)求2210.9340.872h;(5分)(2)222210.9340.4170.8351.743g。(5分)四、操作题(共18分)为研究两类地理环境问题,选定4个指标X1、X2、X3、X4,序号1-10的样品的地理情况已分成2类,13-15的待定(下表前6列为原始数据)。序号X1X2X3X4实际类Function1预测类150331421-9.0291246361021-10.4281348311621-8.0451449361411-10.6151547351311-9.324165524371021.389276731471522.793285630411321.547296429431321.9062106027451822.02621158285124待定-9.8361255234013待定1.923(1)写出判别分析的基本思想(5分)答:根据已知类别的样本所提供的信息,总结出分类的规律性,建立判别函数和判别准则,判断新的样本点所属类型,是判别个体所属躯体的一种统计方法。(5分)(2)在刚进入判别分析界面时,请完成以下操作(填空)(8分):将实际类选入GroupingVariable框中,并点击DefineRange,在跳出的界面中Minimum框中填写1,在Maximum框中填写2;将1234,,,XXXX选入Independents框中。(每空2分,共4×2=8分)(3)最后输出的DescriminantScores列在上表的第7列,请在表的最后1列的最后2行空格处填上序号11-12样品的预测分类号,并说明其中的原因(5分)。答:序号X1X2X3X4实际类Function1预测类1158285124待判-9.83611255234013待判1.9232(每格1分,共2×1=2分)理由:19.4882y,21.9322y,0121()3.7782yyy,而110yy,120yy,故11号样品属于第1类,12号样品属于第2类。(3分)装订线装订线内不要答题学号姓名班级