原创-数据分析课程设计——主成分分析论文

amao886
1 ℃
2019-12-19

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

-1-**大学数据分析课程设计论文题目：我国各省市自治区社会发展的综合状况指标分析学院:专业:姓名:学号:-2-我国各省市自治区社会发展的综合状况指标分析摘要一个地区的全面发展必须使经济和社会协调发展。为了全面衡量社会发展水平,有必要选择一套能反映社会发展的有代表性的社会指标进行综合评价，对每个地区的社会发展水平进行测量分析,我们根据各地区统计指标,选择了有代表性的社会经济指标,包括城镇居民可支配收入、农村居民可支配收入、在校学生数、学校数、卫生机构数、固定资产投资总额等方面数据进行综合考察，利用主成分分析方法对各地区综合发展状况进行评价。论文中主要运用的方法是主成份分析法。主成份分析法的目的是利用降维的思想，把多指标转化为少数几个综合指标。分析出主成分后，对数据进行综合排名，能较直观的反应社会发展的综合状况，便于分析各省市自治区的社会发展情况和影响因素。关键词：各省自治区社会发展综合状况指标主成分分析排名-3-目录一、问题的提出…………………………………………………4二、基于主成份分析的社会发展综合状况指标的筛选2.1原理概述…………………………………………………………42.1.1主成分分析的一般数学模型…………………………42.1.2主成分分析确定的一般原则…………………………52.1.3主成分分析的基本步骤………………………………52.1.4主成分分析得到的主成分与原始变量之间的关系…52.2原始数据及来源…………………………………………………62.3对指标的主成分分析及筛选…………………………………72.3.1操作过程………………………………………………72.3.2实验结果输出………………………………………82.3.3实验结果分析………………………………………12三、总结…………………………………………………………14参考文献……………………………………………………………16附录…………………………………………………………………16-4-第一章问题的提出中国的经济和社会的发展如何让才能踏上一条内外和谐、全面增长的稳健之路，不但攸关中国自身的利益，也成为举世瞩目的焦点。本文根据各省的社会发展指标，将全国主要省份社会实力进行排名，从而可以为政府决策部门对社会的发展规划提供一定的依据。日后通过政府政策的调整，各省再发挥各自优势力量，抓住机遇，社会全发张和可持续发展能力一定会进一步提高。社会发展状况评价的难点在于反映社会发展的指标众多，每一项指标又会从不同视角反映社会发展状况。所以，依据他们作综合评价有一定难度。我们可以看到，成份分析法的目的是利用降维的思想，把多指标转化为少数几个综合指标，从而很好地解决了这一问题。第二章基于主成份分析的社会发展综合状况指标的筛选2.1原理概述主成分分析是考察多个定量（数值）变量间相关性的一种多元统计方法。它是研究如何通过少数几个主分量（即原始变量线性组合）来解释多变量的方差——协方差结构。具体地说，是导出少数几个主分量，使它们尽可能多地保留原始变量的信息，且彼此间不相关。主成分分析常被庸吏寻找判断某种事物或现象的综合指标，并给综合指标所蕴藏的信息以恰当解释，以便更深刻地解释事物内在的规律。2.1.1主成分分析的一般数学模型假设有n个样本，每个样本测得p项指标（pn）。由于这p项指标之间往往具有相关关系，且每个样本各指标取值的单位和数量大小不同，使我们较难利用这p项指标的信息区别这n个样本。因此，如何从这p项指标中找出少数几个综合指标，使它们尽可能多地反应各项指标的信息，而且彼此之间不相关，这就成为一个重要的问题。怎么解决这个问题，主成分分析给出了最好的方法。如果记原来的变量指标为pxxx21,，它们的综合指标——新变量指标为21,xx，mz（m≤p)。则-5-)2(22112222121212121111pmpmmmppppxlxlxlzxlxlxlxxlxlxlx在（2)式中，系数lij由下列原则来决定：（1)zi与zj（i≠j；i，j=1，2，…，m)相互无关；（2)z1是x1，x2，…，xp的一切线性组合中方差最大者；z2是与z1不相关的x1，x2，…，xp的所有线性组合中方差最大者；……；zm是与z1，z2，……zm-1都不相关的x1，x2，…，xp的所有线性组合中方差最大者。这样决定的新变量指标z1，z2，…，zm分别称为原变量指标x1，x2，…，xp的第一，第二，…，第m主成分。其中，z1在总方差中占的比例最大，z2，z3，…，zm的方差依次递减。在实际问题的分析中，常挑选前几个最大的主成分，这样既减少了变量的数目，又抓住了主要矛盾，简化了变量之间的关系。从以上分析可以看出，找主成分就是确定原来变量xj（j=1，2，…，p)在诸主成分zi（i=1，2，…，m)上的载荷lij（i=1，2，…，m；j=1，2，…，p)，从数学上容易知道，它们分别是x1，x2，…，xp的相关矩阵的m个较大的特征值所对应的特征向量。2.1.2主成分分析确定的一般原则在主成分分析中希望用尽可能少的主成份包含原来尽可能多的信息，有以下几点原则：（1）主成分的累积贡献率：一般来说，提取主成份的累计贡献率达到80%~85%以上就比较满意了，可以此确定提取多少个主成分。（2）特征根：特征根在某种程度上可以被看成是表示主成分影响力度大小的指标，如果特征根小于1，说明该主成分的解释力度还不如直接引入一个原始变量的平均解释力度大。因此一般可以用特征根大于1作为纳入标准。（3）综合判断：大量的实践表明，如果根据累积贡献率确定主成分个数往往较多，而用特征根确定又往往偏低，许多时候应该将二者结合起来，以综合确定合适的数量。2.1.3主成分分析的基本步骤在实际操作中，主成分分析主要是按照如下的步骤来对实际问题进行分析的：第一步：对原p个指标n×p个原始变量标准化。目的是为了消除变量之间在数量级上或量纲上不用而产生的影响，以使每个变量的均值为0，方差为1。变换标准化的公式为：̅其中̅和分别是第j个变量的平均值和标准差；第二步，根据标准化矩阵求出协方差矩阵；第三步，求出协方差矩阵的特征根-6-第四步，确定主成分，结合专业知识给出各主成分所蕴含的信息，给予恰当的解释，并利用它们来判断样本的特性。2.1.4主成分分析得到的主成分与原始变量之间的关系主成分分析就是设法将原来众多的具有一定相关性的指标，重新组合成一组新相互无关的综合指标来代替原来指标（比如p个指标）。通常数学上的处理就是将原来p个指标做线性组合，作为新的综合指标，但是这种线性组合，如果不加限制，则可以有很多，我们应该如何去选取呢？如果将选取的第一个线性自合即第一个综合指标为1F，自然希望1F尽可能多的反映原来指标的信息，这里的“信息”用什么来表达？最经典的方法就是用1F的方差来表达，即Var(1F)越大，表示1F包含的信息越多。因此在所有的线性组合中所选取的1F应该是方差最大的，故称1F为第一主成分。如果第一主成分不足以代表原来p个指标的信息，再考虑2F即选第二个线性组合，为了有效的反映原来的信息，1F已有的信息就不需要再出现在2F中，用数学语言表达就是要求Cov（1F，2F）=0，称2F为第二主成分，以此类推可以造出第三、四…p个主成分。不难想象这些主成分之间不仅不相关，而且它们的方差依次递减。因此在实际工作中，就挑选前几个最大的主成分虽然这样做会损失一部分信息，但是由于它们抓住了主要矛盾，并从原始数据中进一步提取了某些新的信息，因而在某些实际问题的研究中得益比损失大，这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的分析和处理。一般来说，利用主成分分析得到的主成分与原始变量之间有如下基本关系：（1）每个主成分都是各原始变量的线性组合（2）主成分的数目大大少于原始变量的数目（3）主成分保留了原始变量绝大多数信息（4）各主成分之间互不相关通过主成分分析可以从事物之间错综复杂的关系中找出一些主成份，从而有效的利用大量统计数据进行定量分析，揭示变量之间的内在关系，得到对事物特征及发展规律的一些深层次的启发，把研究工作引向深入。2.2原始数据及来源本论文数据来源于中国统计年鉴《2006年全国各省自治区社会发展综合状况指标》单位：亿元地区人均地区城镇居民农村居民在校学校数卫生固定资产每万人生产总值可支配家庭人均学生数（所）机构数投资总拥有公共-7-收额(元)入（元）纯收入（元）（人）（个）（亿元）交通车辆（标台）北京5046719977.528275.475657798048773296.422.2天津4116314283.096227.943573824523671820.514.2河北1696210304.563801.8286261888177335470.28.1山西1412310027.73180.924464285697762255.75.7内蒙古2005310357.993341.882529173779583363.26.1辽宁2178810369.614090.472054878158765689.69.3吉林157209775.073641.134350654596962594.37.7黑龙江161959182.313552.435920006581812236.08.7上海5769520667.919138.654663336025193900.012.5江苏2881414084.265813.2313061811161714310069.28.6浙江3187418265.17334.8171986968142307590.29.3安徽100559771.052969.086636848392883533.67.7福建2147113753.284834.754613416396522981.89.0江西107989551.123459.5377052566102102683.68.1山东2379412192.244368.3313381221081701611111.410.5河南133139810.263261.0397409684146295904.77.1湖北132969802.653419.35109227486100523343.510.6湖南1195010504.673389.6283018196153313175.59.0广东2833216015.585079.781008577105169537973.45.7广西102969898.752770.483874475599772198.77.4海南126549395.133255.5390138152337423.97.9重庆1245711569.742873.833761183866132407.49.1四川105469350.113002.3886064074240154412.98.2贵州57879116.611984.622215463661471197.45.8云南897010069.892250.4628423050100202208.69.7西藏104308941.082435.022332761349231.115.5陕西121389267.72260.1972621976116312480.7901.0甘肃87578920.592134.0526369133120221022.66.1青海117629000.352358.3735983111643408.518.3宁夏118479177.262760.1455931131553498.77.7新疆150008871.272737.281992513181751567.113.4依次设人均地区生产总值、城镇居民可支配收入、农村居民家庭纯收入、在校学生数、学校数、卫生机构数、固定资产投资总额、每万人拥有公共交通车辆为X1、X2、X3、X4、X5、X6、X7、X82.3对指标的主成分分析及筛选在SPSS环境下进行操作，下面对主成分分