题目基于聚类分析的我国各地GDP及影响因素分析学生姓名陈煌学号1109014042所在学院数学与计算机科学学院专业班级数学与应用数学专业2011级数应1班指导教师李晓康陕西理工学院毕业论文第1页共11页基于聚类分析的我国各地GDP及影响因素分析陈煌(陕西理工学院数学与计算机科学学院数学与应用数学1101班,陕西汉中723001)指导教师:李晓康[摘要]:利用SPSS软件对全国30个省、直辖市、自治区的主要经济指标进行聚类分析,将其经济分成按照不同的分析方法可分为不同的几种类型.通过这种方法对全国各省进行经济分类.本文选取了7项经济指标作为决定经济类型的影响因素,各项数据均来自2010年国家统计年鉴.分析结果表明:北京市和上海市稳居第一类经济类型;江苏省和、山东省、广东省和浙江多数处于第四类经济;其他25个省、直辖市、自治区基本在第二类型与第三类型变化.[关键词]:SPSS软件;聚类分析;经济类型;GDP1.引言在当今欧美主导的经济发展理论下,衡量一个国家的综合实力看的不仅是国家的军事实力、国家影响力,而更看重国家的经济实力,而GDP代表一国或一个地区所有常住单位和个人在一定时期内全部生产活动的最终成果,是当期新创造财富的价值总量,它是一个国家经济实力的最好体现,具有国际可比性,是联合国国民经济核算体系(SNA)中最重要的总量指标,为世界各国广泛使用并用于国际比较.众所周知2008年我国GDP跃居世界第三位,是仅次于美国、日本的第三大经济国,而2009年在金融危机的影响下我国GDP稳中求进,依然保持着9.0%的增长态势.提高GDP已经成为经济发展的潮流,利用国家的各种有限资源,在最大程度上发挥资源的利用率,推动经济的发展是势在必行的,因为资源一直在减少,而人口一直在增加,要保持经济的增长就必要抓住主要因素,提高GDP.但是如果研究我国整体的GDP的意义就不大了,所以我选择了对中国各地的GDP进行研究.为了我国能够均衡发展.2.预备知识2.1聚类分析的概述聚类分析是研究(样品或变量)分析问题的一种多元统计方法,所谓类,通俗地说,就是指相似元素的集合.严格的数学定义是较麻烦的,在不同问题中类的定义是不同的.为了将样品(或变量)进行分类,就需要研究样品之间的关系.目前用得最多的方法有两个:一种方法是用相似系数,性质越接近的样品.另一种方法是将一个样品看作p维空间的一个点,并在空陕西理工学院毕业论文第2页共11页间定义距离,距离越近的点归为一类,距离越远的点归为不同的类.聚类通过把目标数据放入少数相对同源的组或“类”(cluster)里.分析表达数据,(1)通过一系列的检测将待测的一组基因的变异标准化,然后成对比较线性协方差.(2)通过把用最紧密关联的谱来放基因进行样本聚类,例如用简单的层级聚类(hierarchicalclustering)方法.这种聚类亦可扩展到每个实验样本,利用一组基因总的线性相关进行聚类.(3)多维等级分析(multidimensionalscalinganalysis,MDS)是一种在二维Euclidean“距离”中显示实验样本相关的大约程度.(4)K-means方法聚类,通过重复再分配类成员来使“类”内分散度最小化的方法.聚类方法有两个显著的局限:首先,要聚类结果要明确就需分离度很好(well-separated)的数据.几乎所有现存的算法都是从互相区别的不重叠的类数据中产生同样的聚类.但是,如果类是扩散且互相渗透,那么每种算法的的结果将有点不同.结果,每种算法界定的边界不清,每种聚类算法得到各自的最适结果,每个数据部分将产生单一的信息.为解释因不同算法使同样数据产生不同结果,必须注意判断不同的方式.对遗传学家来说,正确解释来自任一算法的聚类内容的实际结果是困难的(特别是边界).最终,将需要经验可信度通过序列比较来指导聚类解释.第二个局限由线性相关产生.上述的所有聚类方法分析的仅是简单的一对一的关系.因为只是成对的线性比较,大大减少发现表达类型关系的计算量,但忽视了生物系统多因素和非线性的特点.从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法.传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等.采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等.从机器学习的角度讲,簇相当于隐藏模式.聚类是搜索簇的无监督学习过程.与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记.聚类是观察式学习,而不是示例式的学习.从实际应用的角度看,聚类分析是数据挖掘的主要任务之一.就数据挖掘功能而言,聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析.聚类分析还可以作为其他数据挖掘任务(如分类、关联规则)的预处理步骤.一般的,聚类分析有二阶聚类分析(TwoStepClusterAnalysis)、逐步聚类分析(K-MeansCluster)和系统聚类分析;聚类分析(ClusterAnalysis)又称集群分析,它是按“物以类聚”的原则研究事物分类的一种多元统计分析方法,根据样品的多指标(变量)、多个观察数据,定量地确定样品、指标之间存在的相似性或亲疏关系,并根据此连结这些样品或指标归成大小类群,构成分类树状图(Dendrogram)或冰柱图(Icicle).聚类分析的优点是简单直观,大部分用于探讨研究,可以提供多种分析的结果,并且可以让研究陕西理工学院毕业论文第3页共11页人员根据自己的研究方向进行判断与选择.聚类分析完全依赖于研究人员对该分析所选择的相关聚类变量,变量的选择或增减都有可能会对结果造成实质性的影响,总的来说聚类分析对研究人员的研究十分方便!3.我国各地GDP及影响因素分析3.1问题提出与分析随着改革开放的进行,我国进入了一个前所未有的经济飞速发展时期,整体经济实力与日俱增.但是,我们也应该看到各个地区的发展不平衡,沿海地区发展较快,经济增长也较快,而中西部发展相对较慢.因此,基于这种现状,本文对全国各地区的经济进行聚类分析.我选取了各省的国内生产总值X1、农业生产总值X2、工业生产总值X3、建筑业生产总值X4、进出口总值X5、批发企业销售额X6和餐饮业X7这7个指标进行聚类分析.根据2010年国家统计年鉴,选取了2009年30个省、直辖市、自治区的7项经济指标,如下表.2009年我国30个省、直辖市、自治区的各项经济指标数据统计单位:亿元地区国内生产总值(X1)农业生产总值(X2)工业生产总值(X3)建筑业生产总值(X4)进出口总值(X5)批发企业销售额(X6)餐饮业(X7)北京12153.03315.011039.1334297216533414822558.0341.7天津7521.85281.713083.631564191744880518599.562.6河北17235.483640.924062.762332805513435582730.626.5山西7358.31908.79249.98165014631631502705.044.9内蒙古9740.251570.610699.4491292641086941487.641.1辽宁15212.492704.628152.732855778530768826428.793.3吉林7278.751734.310026.55102412355557471049.418.2黑龙江8587.002251.17301.6012351015783452028.327.4上海15046.45283.224091.26324765451867021520170.8292.6江苏34457.303816.073200.03892893532596971215364.8205.2浙江22990.351873.441035.2988614109692914813888.0166.5安徽10062.822569.513312.59195980715231402937.041.2福建12236.532001.216762.821941583843774554617.180.5江西7655.181733.89783.96118532947706071002.824.7山东33896.656003.171209.424051631775598357584.4262.6河南19480.464871.527708.15322011973766123083.098.7湖北12961.102985.215567.02304684097037724259.081.4湖南13059.693207.913507.64232347341821771643.965.3广东39482.563337.668275.77298060433824131818599.1384.4广西7759.162377.26880.0487587303677651464.017.6海南1654.21705.01057.451366053301396517.58.4重庆6530.01913.16772.90175240462950472864.073.7陕西理工学院毕业论文第4页共11页四川14151.283689.818071.68290037109364692570.694.2贵州3912.68875.23426.69506015818647825.89.5云南6169.751706.25197.4510774227435932591.017.0西藏441.3693.451.609102749933.20.4陕西8169.801337.28470.40220527622526261956.276.1甘肃3387.56876.33770.385243473106931205.812.8青海1081.27157.31080.35184815619432184.22.6宁夏1353.31243.51461.58232358622142373.68.0新疆4277.051297.64001.127258850273622511.87.03.2描述性统计分析描述性(Descriptives)过程可以在一个统计表中显示多个变量的单变量综合统计量,其中包括样本大小(samplesize)、均值(mean)、最小值(minimum)、最大值(maximum)、标准差(standarddeviation)、方差(variance)、偏度(skewness)及其标准误差(std.error).通过spssstatistics21软件在数据编辑窗口的主菜单中选择“分析(A)”→“描述统计”→“描述性分析(D)”将左侧框中的全部变量依次选入右侧框中,点击“选项(O)”按钮,在“选项”对话框中,选择自己需要分析的统计量,这里我们选择极小值、极大值、均值、标准偏差、方差和偏度.最后点击“确定”按钮.分析结果如表3.2所示:表3.2描述统计数字最小值(M)最大值(X)平均值(E)标准偏差方差偏度统计统计统计统计统计统计统计标准错误国内生产总值(X1)31441.3639482.5611783.99009730.4022094680726.9921.496.421农业生产总值(X2)3193.406003.101947.13231472.725802168921.268.861.421工业生产总值(X3)3151.6073200.0317687.464819988.82310399553048.9701.933.421建筑业生产总值(X4)31910274.0089289353.0021924060.806521019292.33053441810650076473.6002.144.421进出口总值(X5)3199.0038241318.003927349.58068552969.31774731