多元统计分析期末论文

262230350
3 ℃
2020-05-22

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

吉林财经大学2012-2013学年第一学期多元统计分析期末论文一二三四五总分学院：工商管理专业：人力资源管理年级：1012学号：0802101218姓名：齐婧妍我国地区经济发展浅析摘要：本文主要运用聚类分析法，主成分分析法，因子分析法三种多元统计分析方法对2011年我国31个省、市、自治区的地区经济发展状况以及影响地区经济发展的主要因素（指标）相结合进行剖析。根据不同分类方法得出不同的分析结果，从而从不同角度分析我国各地区经济发展存在的主要差异以及导致这些差异出现的原因，并最终就三种统计分析方法的结果对我国目前地区经济发展状况进行客观的综合概述。关键字：地区发展水平聚类分析法主成分分析法因子分析法一、引言在日常生活过程中，我们常常遇到一些计算量大，分析工作复杂度高的数据分析工作，为了能够更加简便地进行数据分析，在此给大家介绍几种多元统计分析的方法。本文主要运用了聚类分析法，主成分分析法和因子分析法对2011年我国31个省市自治区地区经济发展水平以及影响地区经济发展的几项重要指标进行了统计分析。二、聚类分析聚类分析是研究“物以类聚”的一种方法。聚类分析是应用最广泛的一种分类技术，它把性质相近的个体归为一类，使得同一类中的个体具有高度的同质性，不同类之间的个体具有高度的异质性。聚类分析的职能是建立一种分类方法，它是将一批样品或变量，按照它们在性质上的相似程度进行分类。通常我们用距离来度量样品之间的相似程度，用相似系数来度量变量之间的相似程度。1.参与聚类的样本总量表通过观察上表，我们可以看出，在整个聚类过程中，描述我国所有省、市、自治区经济发展状况的31个样品都参与了聚类分析过程，没有遗失或未参与的样品。这充分说明此次聚类分析已经对全部31个样品的各项指标进行了相似聚类，不需要再利用判别分析再进行二度聚类。2.样品聚为3类时的样品归类表ClusterMembershipCase3Clusters1:Case112:Case213:Case314:Case425:Case516:Case617:Case728:Case829:Case9110:Case10311:Case11312:Case12213:Case13114:Case14215:Case15316:Case16117:Case17118:Case18119:Case19320:Case20221:Case21222:Case22223:Case23124:Case24225:Case25226:Case26227:Case27228:Case28229:Case29230:Case30231:Case3123.所有样品的聚类树形图（1）结合以上样品归类情况表和聚类树形图，分别给出了将2011年我国31个省、市、自治区经济发展状况作为样品聚类分为三类时的各样品所属类别。观察聚类树形图我们可以清楚地看出，此次聚类样品最适合分为三类。第一类包括11个样品，分别为：北京市、天津市、河北省、内蒙古自治区、辽宁省、福建省、河南省、湖北省、湖南省和四川省。从地区分布和地区经济发展状况来看，第一类所包含的省、市、自治区主要分布在我国高校林立；人才济济；资源丰富；交通网络发达；经济发展状况良好；靠近中国首都的华北地区及其周边资源较丰富；交通网络较发达；与外界交流方便的省、市、自治区和资源相对较丰富；高校较多；人才较为集中；气候四季适宜；河川密布；工业发展蓬勃；人口较集中的中南地区及其周边生活习俗优良；气候环境俱佳的省、市、自治区。（2）第二类包括16个样品，分别为：山西省、吉林省、黑龙江省、安徽省、江西省、广西壮族自治区、海南省、贵州省、云南省、西藏省、重庆市、陕西省、甘肃省、青海省、宁夏回族自治区、新疆维吾尔自治区。从地区分布和地区经济发展状况来看，第二类所包含的省、市、自治区主要分布在我国自然气候条件恶劣；人才缺乏；各方面资源有限；交通线路不丰富；地理位置较偏远的东北地区以及我国社会政治治安不稳定；自然条件恶劣；少数名族聚集；民俗民风差异大；多自然灾害；人口相对较稀少；人口素质相对较低；深居内陆；对外交通不便；对外交流困难的西北地区和我国城市化水平低；资源不足的的部分中南地区省份和气候单一；资源缺乏；对外交通不便；经济发展单一落后的亚热带地区。（3）第三类包括4个样品，分别为：江苏省、山东省、浙江省和广东省。从地区分布和地区经济发展状况来看，第三类所包含的省、市、自治区主要分布在我国东南沿海和临海的华中地区。这些地区高校林立；人才人口集中；工业高度发达；科学技术引入便利；海陆交通四通八达；既有外资投入又有内政支持鼓励；既有中国尖端技术又有国外先进管理文化渗入；得天独厚的地理位置和环境优势；劳动力丰富；经济高速发展。近年来，这些地区更是吸引了大量的“孔雀东南飞”、“民工潮”此起彼伏，众多社会现象不止向我们说明了这些地区对人才和劳动力的吸引力；也让人们意识到了这些地区丰富的就业机遇和个人发展前景；更重要的是，国内外先进的技术和人才以及眼界开阔的海归们也积极投入到了这些地区的经济发展中，促使这些地区的经济蓬勃发展；同时也在不断地加剧地区之间抢夺资源和地区发展不平衡的矛盾，使中国国内地区贫富差距和国民生活水平差距进一步拉大。三、主成分分析主成分分析也称主分量分析，是一种将多个指标化为少数几个综合指标的统计分析方法。在经济问题研究中，为了全面、系统地分析问题，我们必须考虑众多对某经济过程有影响的因素，这些因素在统计学中被称为指标，也成为变量，每个指标都在不同程度上反映了所研究问题的某些信息，但是指标之间彼此有一定的相关性，因而所得的统计数据在一定程度上反映的信息有重叠。主成分分析可将相关的指标化成不相关的指标，避免了信息重复带来的虚假性。此外，主成分分析能用较少的变量反应更多的问题，减少计算量的同时简化了问题。1.单变量描述统计量表（1）由上表第二栏均值可以看出，2011年我国31个省市自治区经济发展地区生产总值均值为16820.68亿元；工业发展均值为7479.8642亿元；建筑业均值为1030.3368亿元······但人均生产总值均值却只有39441.87元。这些数据显著地反映了中国地大物博，经济高速发展，国内生产总值堪比世界任何一个发达国家，可当与中国庞大的人口系统相比较时，我们便黯然了。（2）由上表第三栏标准差可以看出，2011年我国31个省市自治区经济发展地区生产总值标准差高达13216.28621；工业标准差也高达6296.67453；即使是标准差最小的住宿和餐饮业也高达277.56833。由此可见我国地区发展极不均衡，地区贫富差距仍然非常大。（3）由上表第四栏参与计算的观测量数可以得知，此次统计分析的样品数量为我国31个省市自治区的地区发展各项指标。2.各变量相关矩阵图上表表示的是影响我国经济发展水平的10个主要指标之间的相关性。由上表可以看出，各变量与自身的完全相关性是毋庸置疑的。其次我们可以看出，各个指标之间也存在一定的相关性，如地区生产总值与工业之间的相关系数高达0.988；与住宿和餐饮业之间的相关系数高达0.958；与批发零售业之间的相关系数高达0.957；与房地产业之间的相关系数高达0.954；与交通运输、仓储和邮政业之间的相关系数高达0.923；与其他服务业之间的相关系数高达0.921；与建筑业之间的相关系数高达0.92；与金融业之间的相关系数高达0.818；而与人均生产总值之间的相关系数为0.407。据此我们可以判断出，地区生产总值与工业、建筑业、交通运输、仓储和邮政业、批发零售业、住宿和餐饮业、金融业、房地产业以及其他服务业之间的发展都是密切相关的，而在这众多相关的指标中，地区生产总值与工业的发展关系最密切。3.总方差分解图由上表可以看出，通过主成分分析过程，我们从众多指标中提取出了三个主成分因子，这三个主成分因子的特征值分别为8.253,1.035和0.31；它们的各因子方差贡献率分别为82.531%，10.347%和3.099%；以及在最后一栏，我们可以得知这三个主成分因子的累积方差贡献率最终达到95.977%。4.旋转前的因子载荷矩阵图5.利用因子载荷矩阵图计算出的特征向量表第一特征向量第二特征向量第三特征向量0.34461110.3404340.33764920.33486450.33103550.32581410.31850420.30945380.30736520.1789193-0.13073180.06585740.017693-0.21428230.1189365-0.2221459-0.1258171-0.29193510.35484360.80110130.02873680.001796-0.29096060.1293158-0.3592106-0.2029540.50469090.3628027-0.39333560.4292566根据以上利用因子载荷矩阵图计算出的特征向量表，带入以上已求出的3个特征向量，可得以下3个主成分因子的表达式为：Y1=0.3446111X1+0.340434X2+0.3376492X3+0.3348645X4+0.3310355X5+0.3258141X6+0.3185042X7+0.3094538X8+0.3073652X9+0.1789193X10Y2=-0.1307318X1+0.0658574X2+0.017693X3-0.2142823X4+0.1189365X5-0.2221459X6-0.1258171X7-0.2919351X8+0.3548436X9+0.8011013X10Y3=0.0287368X1+0.001796X2-0.2909606X3+0.1293158X4-0.3592106X5-0.202954X6+0.5046909X7+0.3628027X8-0.3933356X9+0.4292566X10三、因子分析因子分析是主成分分析的推广，它也是一种把多个相关变量（指标）化为少数几个不相关变量的统计分析方法。因子分析的目的不仅是找出公因子，更重要的是知道每个公因子的意义。但是用其他方法求解所求出的公因子解，各因子的典型代表变量不很突出，因而容易使因子的意义含糊不清，不便于对因子进行解释。为此必须对因子载荷矩阵进行旋转，使得因子载荷的平方按列向0和1两级转化，达到其简化结构的目的。1.旋转后的因子载荷矩阵由上图中可以看出，旋转后的因子载荷矩阵中，因子载荷的平方按列向0和1两级转化。此外，在第一个公因子中，建筑业有较大的载荷；在第二个公因子中，金融业和其他服务业有较大的载荷；在第三个公因子中，人均生产总值有较大的载荷。在这三个公因子中，载荷较大的变量都没有出现重复现象，由此我们便可得知，每一个变量仅在一个公因子上有较大载荷，而在其余公因子上的载荷比较小。2.因子得分系数矩阵根据上图因子得分系数矩阵，我们可以得到以下3个因子得分表达式：F1=0.905X1+0.882X2+0.866X3+0.821X4+0.766X5+0.712X6+0.402X7+0.575X8+0.655X9+0.117X10F1=0.299X1+0.273X2+0.457X3+0.53X4+0.591X5+0.563X6+0.729X7+0.719X8+0.684X9+0.21X10F1=0.099X1+0.283X2+0.142X3+0.205X4+0.059X5+0.37X6+0.514X7+0.334X8+0.264X9+0.963X103.各样品因子得分（由于样品变量中包含地区生产总值，直辖市不便与其他省、自治区进行得分计算比较，故该处的样品因子得分不包含四个直辖市）指标第一个因子得分第二个因子得分第三个因子得分总得分河北省1.65177-1.51455.160981.2622822山西省-.10390-.50710-.25100-0.1521174内蒙古.48395-1.469111.114780.2937651辽宁省.83538-.77384.586110.653846吉林省-.34