应用多元统计分析毕业论文已过查重-优秀毕业论文

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

内蒙古财经大学应用多元统计分析期末论文作者李慧斌系别统计与数学学院专业信息与计算科学年级2012级学号122093118指导教师刘勇导师职称讲师1目录我国地区经济发展浅析............................................2摘要............................................................2一、引言........................................................2二、聚类分析....................................................21.参与聚类的样本总量表......................................32.样品聚为3类时的样品归类表................................33.所有样品的聚类树形图......................................5三、主成分分析..................................................61.单变量描述统计量表........................................62.各变量相关矩阵图..........................................73.总方差分解图..............................................84.旋转前的因子载荷矩阵图....................................95.利用因子载荷矩阵图计算出的特征向量表......................9三、因子分析...................................................101.旋转后的因子载荷矩阵.....................................102.因子得分系数矩阵.........................................113.各样品因子得分...........................................11四、结论.......................................................13附表一.........................................................142我国地区经济发展浅析摘要:以聚类分析法、主成分分析法、因子分析法三种多元统计分析方法为主,对2011年我国31个省、市、自治区的地区经济发展状况以及影响地区经济发展的主要因素(指标)相结合进行剖析。根据不同分类方法得出不同的分析结果,从不同角度分析我国各地区经济发展存在的主要差异以及导致这些差异出现的原因,并最终就三种统计分析方法的结果对我国目前地区经济发展状况进行客观的综合概述。关键字:地区发展水平聚类分析法主成分分析法因子分析法一、引言在日常生活过程中,我们常常遇到一些计算量大,分析工作复杂度高的数据分析工作,为了能够更加简便地进行数据分析,在此给大家介绍几种多元统计分析的方法。本文主要运用了聚类分析法,主成分分析法和因子分析法对2011年我国31个省市自治区地区经济发展水平以及影响地区经济发展的几项重要指标进行了统计分析。二、聚类分析聚类分析是应用最广泛的一种分类技术,它把性质相近的个体归为一类,使得同一类中的个体具有高度的同质性,不同类之间的个体具有高度的异质性。聚类分析的职能是建立一种分类方法,它是将一批样品或变量,按照它们在性质上的相似程度进行分类。通常我们用距离来度量样品之间的相似程度,用相似系数来度量变量之间的相似程度。31.参与聚类的样本总量表通过观察上表,我们可以看出,在整个聚类过程中,描述我国所有省、市、自治区经济发展状况的31个样品都参与了聚类分析过程,没有遗失或未参与的样品。这充分说明此次聚类分析已经对全部31个样品的各项指标进行了相似聚类,不需要再利用判别分析进行二度聚类。2.样品聚为3类时的样品归类表ClusterMembershipCase3Clusters1:Case112:Case213:Case314:Case425:Case516:Case617:Case728:Case829:Case9110:Case10311:Case11312:Case12213:Case131414:Case14215:Case15316:Case16117:Case17118:Case18119:Case19320:Case20221:Case21222:Case22223:Case23124:Case24225:Case25226:Case26227:Case27228:Case28229:Case29230:Case30231:Case31253.所有样品的聚类树形图(1)结合以上样品归类情况表和聚类树形图,分别给出了将2011年我国31个自治区、省、市经济发展状况作为样品聚类分为三类时的各样品所属类别。观察聚类树形图我们不难看出聚类样品最适合分为三类:第一类包括11个样品(包含:北京市、天津市、河北省、内蒙古自治区、辽宁省、福建省、河南省、湖北省、湖南省和四川省)。通过地区分布和地区经济发展状况,第一类所包含的省、市、自治区主要分布在我国高校林立、资源丰富、交通便利等优质条件的省、市、自治区。(2)第二类包括16个样品(包括:山西省、吉林省、黑龙江省、安徽省、江西省、广西壮族自治区、海南省、贵州省、云南省、西藏省、重庆市、陕西省、甘肃省、青海省、宁夏回族自治区、新疆维吾尔自治区)。通过地区分布和地区经济发展状况,第二类所包含的省、市、自治区主要分布在我国自然气候条件恶劣、各方面资源有限、人才缺乏、交通不发达、自然条件相对恶劣、城市化水平低等经济发展单一落后的地区。(3)第三类包括4个样品(包括:江苏省、山东省、浙江省和广东省)。通过地区分6布和地区经济发展状况,第三类所包含的省、市、自治区主要分布在我国东南沿海和临海的华中地区。这些地区高校林立、人才集中基数大、工业高度发达、海陆空交通发达、有中国尖端技术又有国外先进管理文化渗入、经济高速发展等地区。近年来,这些地区涌入大量外来务工发展的人潮,这些社会现象向我们表明这些地区对人才和劳动力的吸引力;也让人们意识到了这些地区丰富的就业机遇和个人发展前景;更重要的是,国内外先进的技术和人才以及眼界开阔的海归们也积极投入到了这些地区的经济发展中,促使这些地区的经济蓬勃发展;同时也在不断地加剧地区之间抢夺资源和地区发展不平衡的矛盾,使中国国内地区贫富差距和国民生活水平差距进一步拉大。三、主成分分析主成分分析也称主分量分析,是一种将多个指标化为少数几个综合指标的统计分析方法。在经济问题研究中,为了全面、系统地分析问题,我们必须考虑众多对某经济过程有影响的因素,这些因素在统计学中被称为指标(即变量),每个指标都在不同程度上反映了所研究问题的某些信息,但在指标之间彼此有一定的相关性,因而所得的统计数据在一定程度上反映的信息有重叠。主成分分析可将相关的指标化成不相关的指标,避免了信息重复带来的虚假性。此外,主成分分析能用较少的变量反应更多的问题,减少计算量的同时简化了问题。1.单变量描述统计量表(1)由上表第二栏均值可以看出,2011年我国31个省市自治区经济发展地区生产总7值均值为16820.68亿元;工业发展均值为7479.8642亿元;建筑业均值为1030.3368亿元······但人均生产总值均值却只有39441.87元。这些数据显著地反映了中国地大物博,经济高速发展,国内生产总值堪比世界任何一个发达国家,可当与中国庞大的人口系统相比较时,我们便黯然了。(2)由上表第三栏标准差可以看出,2011年我国31个省市自治区经济发展地区生产总值标准差高达13216.28621;工业标准差也高达6296.67453;即使是标准差最小的住宿和餐饮业也高达277.56833。由此可见我国地区发展极不均衡,地区贫富差距仍然非常大。(3)由上表第四栏参与计算的观测量数可以得知,此次统计分析的样品数量为我国31个省市自治区的地区发展各项指标。2.各变量相关矩阵图上表表示的是影响我国经济发展水平的10个主要指标之间的相关性。由上表可以看出,各变量与自身的完全相关性是毋庸置疑的。其次我们可以看出,各个指标之间也存在一定的相关性,如地区生产总值与工业之间的相关系数高达0.988;与住宿和餐饮业之间的相关系数高达0.958;与批发零售业之间的相关系数高达0.957;与房地产业之间的相8关系数高达0.954;与交通运输、仓储和邮政业之间的相关系数高达0.923;与其他服务业之间的相关系数高达0.921;与建筑业之间的相关系数高达0.92;与金融业之间的相关系数高达0.818;而与人均生产总值之间的相关系数为0.407。据此我们可以判断出,地区生产总值与工业、建筑业、交通运输、仓储和邮政业、批发零售业、住宿和餐饮业、金融业、房地产业以及其他服务业之间的发展都是密切相关的,而在这众多相关的指标中,地区生产总值与工业的发展关系最密切。3.总方差分解图由上表可以看出,通过主成分分析过程,我们从众多指标中提取出了三个主成分因子,这三个主成分因子的特征值分别为8.253,1.035和0.31;它们的各因子方差贡献率分别为82.531%,10.347%和3.099%;以及在最后一栏,我们可以得知这三个主成分因子的累积方差贡献率最终达到95.977%。94.旋转前的因子载荷矩阵图5.利用因子载荷矩阵图计算出的特征向量表第一特征向量第二特征向量第三特征向量0.34461110.3404340.33764920.33486450.33103550.32581410.31850420.30945380.30736520.1789193-0.13073180.06585740.017693-0.21428230.1189365-0.2221459-0.1258171-0.29193510.35484360.80110130.02873680.001796-0.29096060.1293158-0.3592106-0.2029540.50469090.3628027-0.39333560.4292566根据以上利用因子载荷矩阵图计算出的特征向量表,带入以上已求出的3个特征向量,可得以下3个主成分因子的表达式为:Y1=0.3446111X1+0.340434X2+0.3376492X3+0.3348645X4+0.3310355X5+0.3258141X6+0.3185042X7+0.3094538X8+0.3073652X9+0.1789193X1010Y2=-0.1307318X1+0.0658574X2+0.017693X3-0.2142823X4+0.1189365X5-0.2221459X6-0.1258171X7-0.2919351X8+0.3548436X9+0.8011013X10Y3=0.0287368X1+0.001796X2-0.2909606X3+0.1293158X4-0.3592106X5-0.202954X6+0.5046909X7+0.3628027X8-0.3933356X9+0.4292566X10三、因子分析因子分析是主成分分析的推广,它也是一种把多个相关变量(指标)化为少数几个不相关变量的统计分析方法。因子分析的目的不仅是找出公因子,更重要的是知道每个公因子的意义。但是用其他方法求解所求出的公因子解,各因子的典型代表变量不很突出,因而容易使因子的意义含糊不清,不便于对因子进行解释。为此必须对因子载荷矩阵进行旋转,使得因子载荷的平方按列向0和1两级转化,达到其简化结构的目的。1.

1 / 16
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功