多元统计分析学院:理学与信息科学学院专业班级:信息与计算科学2012级01班姓名:韩祖良(20125991)指导教师:王敏会2015年6月1日作业1方差分析三组贫血患者的血红蛋白浓度(%,X1)及红细胞计数(万/mm3,X2)如下表:A组B组C组X1X2X1X2X1X23.92104.82704.42504.21904.71803.73053.72405.42302.924041704.52454.53304.42204.62703.32305.22304.42204.51952.71605.92903.82752.42605.52203.73103.62404.32905.51805.13102.92003.3300要求:1、方差分析的前提条件要求各总体服从正态分布,请给出正态分布的检验结果,另要求各总体方差齐性,给出方差齐性检验结果。2、检验三组贫血患者的指标x1,x2间是否有显著差异,进行多元方差分析。如果有显著差异,分析三组患者间x1指标是否有显著差异,x2指标是否有显著差异?3、最后进行两两比较,给出更具体的分析结果。4.画出三组患者x1,x2两指标的均值图。答:1.将所需分析数据输入到SPSS中,首先判断各总体是否服从正态分布:对文件进行拆分:数据拆分文件按组组织输出确定。然后进行正态性检验:文件描述统计探索,在绘制对话框中,选择按因子水平分组和带检验的正态图,最后单击确定按钮。最后得出结果如图(1),(2),(3)所示:表(1)由表(1)可以看出,A组的X1指标的Sig=0.907,X2的Sig=0.914,在检验标准为0.05的条件下,接受H0,拒绝H1,故得A组服从正态分布。表(2)由表(2)可以看出,B组的X1指标的Sig=0.406,X2的Sig=0.765,在检验标准为0.05的条件下,接受H0,拒绝H1,故得B组服从正态分布。表(3)由表(3)可以看出,C组的X1指标的Sig=0.337,X2的Sig=0.839,在检验标准为0.05的条件下,接受H0,拒绝H1,故得C组服从正态分布。再检验各总体是否满足方差齐性:首先取消文件的拆分,对所有个案进行分析。然后进行方差齐性检验:分析一般线性模型多变量,在选项对话框中,选择方差齐性检验,所得结果如下:表(4)上表是对协方差阵相等的检验,由Sig=0.6700.05,故在显著性水平为0.05的条件下,接受H0,拒绝H1,即观测到的因变量的协方差矩阵在所有组中均相等,可得三组符合方差齐性。2、多元方差分析:分析一般线性模型多变量,在两两比较对话框中进行两两比较检验,假定方差齐性(选择LSD(L))继续,最后单击确定。表(5)上表为多变量检查表,该表给出了几个统计量,从表中可以看出,Sig的值均为0.01,小于显著性水平0.05,故拒绝H0,接受H1。即三组不同患者的血红蛋白浓度和红细胞计数这两个指标间均存在显著差异。下面分别分析三组患者间X1指标是否有显著差异,X2指标是否有显著差异:得到结果如表(6)所示。表(6)由上表看出,三组患者之间X1指标的F=7.302,Sig=0.03,在检验水平为0.05的条件下,接受H0,拒绝H1,故可以认为这三组患者间的X1指标无差异;X2指标的F=3.915,Sig=0.032,在检验标准为0.05条件下,差异有统计学意义,拒绝H0,接受H1,这说明这三组血红蛋白浓度和红细胞计数这两个指标上均有显著差异。3、对各组进行两两比较:通过软件操作得到如表(7)的比较结果:表(7)从表中数据可以看出:①在X1(血红浓度蛋白)这个指标上,A组和B组、B组和C组的显著性水平均小于0.05,故拒绝H0,接受H1。即A组和B组、B组和C组在血红蛋白浓度这个指标上有显著性差异,且B组的血红蛋白浓度显著高于A、C两组。②在X2(红细胞计数)这个指标上,A组和C组的显著性水平为0.0140.05,故拒绝原假设,即A组和C组在血红细胞计数指标上有显著差异,且C组的红细胞计数远远高于A组。4、画出三组患者X1,X2两指标的均值图:在绘制对话框中,添加水平轴gr,得到如下结果:X1的指标图:图(1)由上图可以看出,A组和B组、B组和C组的血红蛋白浓度有显著差异,而A组与C组的血红蛋白浓度大致在同一水平线上,无显著差别。X2的指标图:图(2)由上图可以看出A组与C组的红细胞计数存在显著差异,A组和B组、B组和C组的差异相对较小。作业2聚类分析作业16种饮料的热量、咖啡因、钠及价格四种指标的数据见下表:饮料编号热量咖啡因钠价格1207.203.3015.502.80236.805.9012.903.30372.207.308.202.40436.700.4010.504.005121.704.109.203.50689.104.0010.203.307146.704.309.701.80857.602.2013.602.10995.900.008.501.3010199.000.0010.603.50要求:1.用系统聚类法聚类,聚类方法采用组间联结法,距离采用平方欧式距离计算,不对数据进行标准化,给出树状图和冰柱图,给出聚合系数随分类数变化曲线图,并分析聚成几类比较合适,写出每一类包含的饮料编号。2.用快速聚类法给出聚类结果并对结果进行分析,聚类类数和系统聚类法相同。答:1、系统聚类法:在数据编辑窗口的主菜单中选择分析分类系统聚类,在弹出的系统聚类对话框中,将饮料编号选入标注个案中,将其他变量选入变量框中,在分群单选框中选择个案,表示的是进行Q型聚类。在输出复选框中选择统计量和图。在统计量对话框中选择合并进程表和相似性矩阵。在绘制对话框下,选择树状图和冰柱图(方向垂直),在方法对话框中,聚类方法选择组间联接,区间为平方Eudidean距离,标准化为全局从0到1,最后得到结果如下:平均联结(组之间):聚类表阶群集组合系数首次出现阶群集下一阶群集1群集2群集1群集2151513.130007241325.97000332436.48502846969.13000105110102.63000156811150.3300087516198.3751011828319.778361291214322.54000121036458.795041311571006.8637013122121435.076891413351755.65410111414236287.175121315151219406.68451401149.808.006.303.701216.604.706.301.501338.503.707.702.00140.004.2013.102.2015118.804.707.204.1016107.000.008.304.20树状图:*******************HIERARCHICALCLUSTERANALYSIS*******************DendrogramusingAverageLinkage(BetweenGroups)RescaledDistanceClusterCombineCASE0510152025LabelNum+---------+---------+---------+---------+---------+55-+1515-+-+1616-++-+77---++-----------+66-+||99-+---+|33-++-------------------------------+44-+||1313-+||22-+-+||88-++-------------+|1111-+||1212-+-+|1414-+|11-+-----------------------------------------------+1010-+聚合系数图:由聚合系数图趋于平缓,所以聚合成三类比较合适。冰柱图:根据冰柱图聚成三类比较合适。第一类饮料编号7,16,15,5,9,6,3第二类饮料编号14,12,11,8,13,4,2第三类10,12、快速聚类法:在数据编辑窗口的主菜单中选择分析分类K-均值聚类,在弹出的K-均值聚类分析对话框中,将饮料标号选入标注个案中,将其他变量选入变量框中,在选项对话框中选择初始聚类中心和每个个案的聚类信息。在保存对话框中选择聚类成员和与聚类中心的距离,并保存在变量视图和数据视图中。对输出结果进行分析:表(1)初始聚类中心聚类123热量207.20.00107.00咖啡因3.304.20.00钠15.5013.108.30价格2.802.204.20表(2)迭代历史记录a迭代聚类中心内的更改12315.06529.9626.9682.0004.0396.2503.000.000.000a.由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为.000。当前迭代为3。初始中心间的最小距离为100.522。表(3)聚类成员案例号饮料编号聚类距离1115.0652224.58533335.3584424.99555314.38866318.31177339.39388224.23399312.077101015.0651111216.9901212217.570131325.3981414233.8551515311.684161633.749根据表(3),可以将饮料分为三类第一类饮料编号1,10第二类饮料编号2,4,8,11,12,13,14第三类饮料编号3,5,6,7,9,15,16表(4)最终聚类中心聚类123热量203.1033.71107.34咖啡因1.654.163.49钠13.0510.068.76价格3.152.692.94表(5)最终聚类中心间的距离聚类1231169.43195.8712169.43173.644395.87173.644表(6)ANOVA聚类误差FSig.均方df均方df热量24865.3272455.3111354.612.000咖啡因4.91526.41013.767.484钠14.56926.312132.308.139价格.21421.03813.207.816F检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差别。观测到的显著性水平并未据此进行更正,因此无法将其解释为是对聚类均值相等这一假设的检验。根据表六最后一列热量的Sig0.000小于0.05对分类有影响,咖啡因,钠,价格的Sig大于0.05,对分类没有显著性影响。表(7)每个聚类中的案例数聚类12.00027.00037.000有效16.000缺失.000由表(4)表示最终聚类中心,由此可以看出各分类的成分差异,第①类的热量最高,咖啡因最少,钠含量高;第②类热量最低,但咖啡因含量偏高,总体价格便宜;第③类各成分也适中,价格也适中。作业3判别分析作业----中小企业的破产模型为研究中小企业的破产模型,选定4个经济指标:X1总负债率(现金收益/总负债)X2收益性指标(纯收入/总财产)X3短期支付能力(流动资产/流动负债)X4生产效率性指标(流动资产/纯销售额)对17个破产企业(1类)和21个正常运行企业(2类)进行调查,得如下资料总负债率收益性指标短期支付能力生产效率指标类别-.45-0.411.090.451-.56-0.311.510.161.060.021.010.41-0.07-0.091.450.261-0.1-0.091.560.671-0.14-0.070.710.281-0.23-0.30.220.1810.070.021.310.2510.0102.150.71-0.28-0.231.190.6610.150.051.880.2710.370.111.990.381-0.08-0.081.510.4210.050.031.680.9510.0101.260.610.120.111.140.171-0.28-0.271.270.5110.510.12.490.5420.080.022.01