数据分析上机实验二班别:信计101班学号:一:题目:在习题1.4表1.8中,列出了各地区居民消费水平,设对应于全体居民、农村居民、城镇居民的数据变量分别为x1,x2,x3。取公共因子数为1,对x1,x2,x3进行因子分析,并进行解释,对公共因子F1得分从小到大进行排序,并进行分析解释。Communalities1.000.9891.000.9791.000.977x1x2x3InitialExtractionExtractionMethod:PrincipalComponentAnalysis.TotalVarianceExplained2.94598.17598.1752.94598.17598.175.0381.27699.450.016.550100.000Component123Total%ofVarianceCumulative%Total%ofVarianceCumulative%InitialEigenvaluesExtractionSumsofSquaredLoadingsExtractionMethod:PrincipalComponentAnalysis.ComponentMatrixa.994.989.989x1x2x31ComponentExtractionMethod:PrincipalComponentAnalysis.1componentsextracted.a.图表数据分析答:第一个表主要是共同度,并对此进行标准化,也就是原始数据标准化,以消除变量间在数量级和量纲上的不同。由第二个表可知,所求得的特征值r1=2.945,r2=0.038,r3=0.016,各主成分的贡献率分别为98.175%,1.275%,0.55%,第一个主成分的贡献率已经达到98.175%,故在实际应用中只取第一个主成分,通过第三个图Y1=0.994x1+0.989x2+0.989x3Y1是全体居民(x1),农村居民(x2),城镇居民(x3)的加权和,一个地区的消费水平越高的时候,Y1较大,因此Y1放映的是一个地区消费水平高低的一个综合指标,也就是我们成为的“大小因子”。对公共因子F1得分从小到大进行排序并分析解释排序后的结果西藏2915.001827.007312.00-.84639贵州3499.001630.008507.00-.71736甘肃3810.001883.008190.00-.67487青海4229.002128.007481.00-.66237新疆4206.002000.007875.00-.64986云南4075.002145.008579.00-.56665广西4330.002483.007894.00-.54882安徽4441.002445.007942.00-.54166陕西3972.002201.009033.00-.52145黑龙江5141.002552.007410.00-.51335江西4173.002810.007950.00-.49689山西4843.002447.008076.00-.49396四川4501.002572.008305.00-.47825海南4736.002792.007688.00-.47723宁夏5112.002437.008711.00-.41157河南4632.002666.008894.00-.39304重庆5417.002341.009032.00-.37213河北4945.002725.009008.00-.34443吉林5710.002969.008166.00-.31530湖北5533.002832.009041.00-.27127内蒙古5800.002816.009043.00-.25115湖南5498.003072.009480.00-.18795辽宁6929.003458.009357.00-.00647山东7025.003537.0011193.00.19315福建7826.004290.0011710.00.44966江苏8302.004915.0011530.00.58771天津10564.004771.0012554.00.85367广东10829.004205.0014913.00.99985浙江11161.006301.0015877.001.50560北京16770.007655.0018508.002.48776上海20944.0010136.0022294.003.66503答:由上面的Y1=0.994x1+0.989x2+0.989x3,反应的是各地区的消费水平的指标,由这些数据经过由小到大排序后可以看出,地区总得分比较高的是上海,北京,浙江,可认为就是该地区消费水平比较高,经济发展水平也高,而西藏,贵州等地总得分比较低,可认为就是该地区消费水平,发展也地。由上面的得分数据也可以看出,就是我们国家的地区发展水平,消费水平是不均衡的,沿海地区发展好,消费高,而一些西部地区消费水平地,发展也很滞后。二:取公共因子数为2,采用方差最大正交旋转进行因子分析,对公共因子F1得得分从小到大进行排序,在对公共因子F1,F2进行解释。TotalVarianceExplainedComponentInitialEigenvaluesExtractionSumsofSquaredLoadingsRotationSumsofSquaredLoadingsTotal%ofVarianceCumulative%Total%ofVarianceCumulative%Total%ofVarianceCumulative%12.94598.17598.1752.94598.17598.1751.51250.40750.4072.0381.27699.450.0381.27699.4501.47149.04399.4503.016.550100.000ExtractionMethod:PrincipalComponentAnalysis.ComponentMatrixa.994-.009.989-.133.989.143全体居民农村居民城镇居民12ComponentExtractionMethod:PrincipalComponentAnalysis.2componentsextracted.a.RotatedComponentMatrixa.715.692.798.600.604.796全体居民农村居民城镇居民12ComponentExtractionMethod:PrincipalComponentAnalysis.RotationMethod:VarimaxwithKaiserNormalization.Rotationconvergedin3iterations.a.ComponentTransformationMatrix.712.702-.702.712Component1212ExtractionMethod:PrincipalComponentAnalysis.RotationMethod:VarimaxwithKaiserNormalization.图表数据分析:答:-----(1)第一个表示共同度的情况,从几个数据的大小可以看出,他们经过初始化后还是挺相近的。对第二个表进行总方差分析,由表可知,此表选择了连个因子进行分析,通过表可知r1=2.945,r2=0.038,r3=0.016,各主成分的贡献率分别为98.175%,1.275%,0.55%,第一个主成分的贡献率已经达到99.450%.其共同度矩阵的线性表示为Y1=0.994x1+0.989x2+0.989x3Y2=-0.009x1-0.133x2+0.143x3---------(2)进过方差最大旋转之后发现其得线性表示为Y3=0.715x1+0.798x2+0.604x3Y4=0.692x1+0.600x2+0.796x3通过最大方差旋转后发现,系数都变为正的了,而且就是系数之间相差都比较小,可认为就是解析比较好,可以很好地反应各地区的消费消费水平的高低。由表四的变换矩阵,可得到一个线性表示Y6=0.712X4-0.702X5Y7=0.702X4+0.712X5其中Y6表示的是进行方差最大旋转之前的得分综合评判指标其中Y6表示的是进行方差最大旋转之后的得分综合评判指标对比发现Y7模拟的较好。贵州3499.001630.008507.00-1.74324.74623广东10829.004205.0014913.00-1.582043.02853陕西3972.002201.009033.00-1.21589.49044甘肃3810.001883.008190.00-1.12324.17796云南4075.002145.008579.00-.97717.18396重庆5417.002341.009032.00-.85991.34209西藏2915.001827.007312.00-.69837-.49722新疆4206.002000.007875.00-.69530-.22042宁夏5112.002437.008711.00-.53141-.04725山东7025.003537.0011193.00-.41502.69600河南4632.002666.008894.00-.37029-.18425河北4945.002725.009008.00-.32915-.15674青海4229.002128.007481.00-.23594-.70412湖北5533.002832.009041.00-.13373-.25074内蒙古5800.002816.009043.00-.13087-.22499四川4501.002572.008305.00-.11936-.56011山西4843.002447.008076.00-.11079-.59117湖南5498.003072.009480.00-.08522-.18127安徽4441.002445.007942.00-.06388-.70669广西4330.002483.007894.00.01315-.79500福建7826.004290.0011710.00.41950.21500江西4173.002810.007950.00.43831-1.15223黑龙江5141.002552.007410.00.52919-1.26785海南4736.002792.007688.00.64932-1.33823吉林5710.002969.008166.00.68344-1.14221辽宁6929.003458.009357.00.71354-.73287天津10564.004771.0012554.00.83254.37152浙江11161.006301.0015877.00.868611.26347江苏8302.004915.0011530.001.50874-.69307北京16770.007655.0018508.001.639261.88075上海20944.0010136.0022294.003.125212.05049答:通过方差最大旋转之前与方差最大旋转后之后,再由小到大进行各地区的得分情况进行排序相比可知。方差最大旋转之前,得分最高的是前三名是上海,北京、浙江,得分最小的后三位是西藏、贵州、甘肃;而方差最大旋转之后的得分最高的是上海、北京、江苏;最低的是贵州、广东、陕西。方差最大旋转之前的得分情况,主要反映的是总体得分情况,也即是地区的总体消费水平,而没有能够很好地反映城乡之间的消费的差别。而通过方差最大能够很好地解决这个问题,不仅反映了总体的消费水平,而且能够反映城乡之间的消费水平。如在方差最大旋转之前,广东的得分是很高的,但是方差最大旋转之后,广东的得分就变低了,也就是说,广东的总体消费水平是很高的,但是城乡之间的消费水平是存在很大的差异的,也就是城乡发展不平衡。