多元统计学课程论文题目我国城镇居民人均消费支出的统计分析学院:数理学院班级:数理112学号:114131205姓名:董伟多元因子分析在基础教育统计中应用一、研究背景与研究意义从我国教育角度来看,教育情况可以由在校生比例、毛入学率、净入学率、受教育年限、辍学率、升学率等多项指标描述和反应。本文将选取我国31个地区初中升入高人数这一指标为预测变量(因变量),以及若干指标作为解释变量(自变量),利用多元线性回归的知识进行模型建立、模型检验及修正、以及模型解释与评价分析。二、问题提出与变量选取初中升入高中的升学率,不仅受个人特征的制约,而且要受家庭特征和学校以及一些外部力量(如国家政策等)通过一定的中介因素对学生的升学产生影响。学校是学生学习的主要场所,老师的期望和学校的一些特征(如毕业生数、招生目标、学校历年升学率等)都可能是影响学生升学率的一些重要因素。总体来看,影响初中升入高中人数的因素有很多方面,假定有人口特征、国家教育投入、教育资源以及教育背景等几类因素。因此选取如下变量作为解释变量,参与回归模型分析。选取的7个主要自变量如下:X1:6岁及6岁以上人口数X2:国家教育总经费X3:初中毕业人数X4:高中学校数X5:高中师生比X6:每10万人口高中在校生数X7:居民受教育程度为大专及以上的人数其中以6岁及6岁以上人口数代表人口特征,国家教育经费代表政府教育投入,初中毕业人数、高中生师比、高中学校数以及每10外人口高中在校生数作为教育规模代表指标,最后以居民受教育程度为大专及以上的人数作为教育背景代表指标。三、原始数据收集3.1数据来源本文选取2009年我国31个省、直辖市及自治区的统计资料作为数据源《中国教育统计年鉴2010》3.2原始统计数据表6岁及6岁以上人口数教育总经费初中毕业人数高中学校数普通高中师生比每10万人口高中在校生数居民受教育程度为大专及以上的人数北京14406.004690166.00101811.00305.0010.272475.004433.00天津10068.002060843.0096873.00218.0012.513040.001713.00河北57559.005584914.00990746.00661.0016.013698.003233.00山西28680.003328404.00615374.00544.0015.664444.002198.00内蒙古20356.002625527.00288700.00306.0016.693644.001619.00辽宁36994.004792311.00475495.00426.0016.492947.004371.00吉林23274.002714195.00302619.00262.0016.963053.001913.00黑龙江32556.003386551.00436335.00430.0015.162898.002131.00上海16296.004823026.0099884.00273.0010.511982.003855.00江苏64329.009964272.00962848.00710.0014.423677.004995.00浙江43157.007972834.00591487.00582.0014.143151.004335.00安徽50649.004383732.001000000.00769.0020.443687.002360.00福建29789.003898541.00477911.00606.0013.743725.002918.00江西35686.003333171.00519065.00476.0016.263616.002447.00山东78686.007749148.00995664.00632.0013.993330.004728.00河南77706.006561523.002000000.00868.0019.194149.004006.00湖北47978.004519593.00923759.00622.0018.184480.003662.00湖南53010.005066050.00693293.00684.0015.283205.003254.00广东80247.0011661554.001000000.001020.0016.233950.005512.00广西39345.003476223.00644905.00478.0018.163081.001613.00海南7008.00928981.00152741.00108.0017.103611.00482.00重庆23672.002662580.00407488.00267.0019.674028.001300.00四川68373.006578338.001000000.00758.0018.623442.003844.00贵州31262.002709138.00615496.00451.0018.512647.001035.00云南37602.003422932.00620762.00457.0015.392578.001152.00西藏2375.00494122.0042401.0024.0014.112082.0040.00陕西31717.003806168.00663225.00586.0017.794901.002885.00甘肃22002.002310200.00463372.00463.0017.303969.001053.00青海4561.00608034.0065712.00126.0014.343763.00403.00宁夏5083.00702612.0093231.0082.0016.444167.00425.00新疆17442.002501661.00354969.00413.0014.193208.001658.00图1相关矩阵x1x2x3x4x5x6x7相关x11.000.856.899.916.311.251.739x2.8561.000.654.817-.049.102.909x3.899.6541.000.866.493.399.549x4.916.817.8661.000.311.363.717x5.311-.049.493.3111.000.533-.197x6.251.102.399.363.5331.000.063x7.739.909.549.717-.197.0631.000图2KMO和Bartlett的检验取样足够度的Kaiser-Meyer-Olkin度量。.791Bartlett的球形度检验近似卡方227.176df21Sig..000图3公因子方差初始提取x11.000.939x21.000.936x31.000.878x41.000.920x51.000.848x61.000.627x71.000.892提取方法:主成份分析。图4解释的总方差成份初始特征值提取平方和载入旋转平方和载入合计方差的%累积%合计方差的%累积%合计方差的%累积%14.33861.97561.9754.33861.97561.9754.03157.58757.58721.70124.30686.2801.70124.30686.2802.00928.69386.2803.5668.08494.3644.1782.54596.9095.1041.48598.3946.0771.10299.4967.035.504100.000提取方法:主成份分析。图5图6成份矩阵a成份12x1.968-.031x4.959.029x3.905.241x2.885-.392x7.799-.504x5.313.866x6.377.696提取方法:主成份。a.已提取了2个成份。图7旋转成份矩阵a成份12x2.965-.067x7.923-.201x1.921.302x4.892.354x3.769.535x5-.001.921x6.117.783提取方法:主成份。旋转法:具有Kaiser标准化的正交旋转法。a.旋转在3次迭代后收敛。图8成份转换矩阵成份121.940.3412-.341.940提取方法:主成份。旋转法:具有Kaiser标准化的正交旋转法。图9图10成份得分系数矩阵成份12x1.216.059x2.270-.147x3.148.204x4.202.091x5-.106.503x6-.058.414x7.274-.216提取方法:主成份。旋转法:具有Kaiser标准化的正交旋转法。构成得分。图11成份得分协方差矩阵成份1211.000.0002.0001.000提取方法:主成份。旋转法:具有Kaiser标准化的正交旋转法。构成得分。(2)因子模型中各统计量的意义A)因子载荷:因子载荷为第i个变量在第j个因子上的载荷,实际上就是与的相关系数,表示变量依赖因子的程度,反应了第i个变量对于第j个因子的重要性。B)变量的变量共同度:k个公因子对第i个变量方差的贡献,也称为公因子方差比,记为,公式为:=(j=1,2,….,k)表示全部公因子对变量的总方差所做出的贡献,也即是变量的信息能够被k个公因子所描述的程度。C)公因子的方差贡献率:在因子载荷矩阵A中,各列元素的平方和记为,表示第j个公因子对于X所提供方差的总和,它是衡量公因子相对重要性的指标。方差贡献率越大,表明公因子对X的贡献越大。(3)基本分析结果A)KMO和球形Bartlett检验用于因子分析的适用性检验。KMO检验变量间的偏相关是否较小,Bartlett球形检验是判断相关矩阵是否是单位阵,参见图2。由Bartlett检验可以看出,应拒绝个变量独立的假设,即变量间具有较强的相关性,但是KMO的统计量为0.791,小于0.8,说明个变量间信息的重叠程度可能不是特别的高,有可能做出的因子分析模型不是很完善,但还是值得尝试的。B)变量共同度Communalities是表示各变量中所含原始信息能被提取的公因子所表示的程度,由图3所示的变量共同度可知:几乎所有变量的共同度都在80%以上,因此提取出的这几个公因子对各变量的解释能力是较强的。C)碎石图用于显示各因子的重要程度,横轴为因子序号,纵轴表示特征根大小,从中可以非常直观的了解到哪些是最主要的因子,参见图5。本例中可见前两个因子的散点位于陡坡之上,而后五个因子散点成了平台,且特征根均小于1,因此至多考虑前两个公因子即可。D)图4给出的是各成分的方差贡献率和累计贡献率,以及进行因子旋转后的方差贡献率和累计贡献率,前者将在主成分分析中进行说明。E)图6为因子载荷矩阵,在前面已经直接按列的方向将其解释为个成分的系数,实际上严格讲因子载荷矩阵应该是各因子在各变量上的载荷,即是各因子对各变量的影响度。表示如下:ZX1=0.968F1-0.31F2+ZX2=0.959F1+0.29F2+……..ZX6=0.377F1+0.696F2+在表达式中各变量已经不是原始变量,而是标准化变量。表示特殊因子,是除了这两个公因子之外影响该变量的其他因素。原来设计了6个指标来表示经济发展水平,但是经过因子分析后,只需要三个因子即可描述影响地区经济发展状况。F)为了使因子载荷矩阵中系数更加显著,可以对初始因子载荷矩阵进行转换,使因子和原始变量间的关系进行重新分配,相关系数向0-1分化,从而更加容易解释。图9是进行因子旋转的空间示意图,值得注意的是旋转前后各变量散点的相对位置保持不变,即旋转并不改变因子分析的整体结果,只是影响各因子在各变量上的载荷分布,并影响各因子的贡献率。本例中采用的是方差最大正交旋转法进行因子旋转,输出的结果参见图4.,由图可知,只有前两个特征根大于1,因此SPSS只提取了前两个公因子。在旋转后两个公因子的方差累计贡献率均发生了变化,但仍然会保持从大到小的顺序,而且前两个因子的方差贡献率仍为86.28%,和旋转前完全相同,因此选前两个因子已足够描述经济发展的水平。G)因子得分:前面得到了因子结构表达式,可以将各变量表示为公因子的线