数理统计大作业(二)全国各省发展程度的聚类分析及判别分析数理统计大作业(二)全国各省发展程度的聚类分析及判别分析指导教师院系名称材料科学与工程院学号学生姓名2015年12月21日数理统计大作业(二)全国各省发展程度的聚类分析及判别分析II目录全国各省发展程度的聚类分析及判别分析.........................1摘要:...............................................................................1引言...................................................................................11实验方案.........................................................................21.1数据统计.................................................................21.2聚类分析.................................................................31.3判别分析.................................................................42结果分析与讨论..............................................................52.1聚类分析结果..........................................................52.2聚类分析结果分析:...............................................82.3判别分析结果..........................................................92.4Fisher判别结果分析:.........................................11参考文献:......................................................................16数理统计大作业(二)全国各省发展程度的聚类分析及判别分析1全国各省发展程度的聚类分析及判别分析摘要:利用SPSS软件对全国31个省、直辖市、自治区(浙江、安徽、甘肃除外)的主要经济指标进行多种聚类分析,分析选择最佳聚类类数,并对浙江、湖南、甘肃进行类型判别分析。通过这两个方法对全国各省进行发展分类。本文选取了7项社会发展指标作为决定发展程度的影响因素,其中经济因素为主要因素,同时评估城镇化率和人口素质因素。各项数据均来自2014年国家统计年鉴。分析结果表明:北京市和上海市和天津市为同一类;江苏省和山东省和广东省为同一类型;河北、湖北、河南、湖南、四川、辽宁为同一类;其余的为另一类。关键词:聚类分析、判别分析、发展引言聚类分析是根据研究对象的特征对研究对象进行分类的多元统计分析技术的总称。它直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。系统聚类分析又称集群分析,是聚类分析中应用最广的一种方法,它根据样本的多指标(变量)、多个观察数据,定量地确定样品、指标之间存在的相似性或亲疏关系,并据此连结这些样品或指标,归成大小类群,构成分类树状图或冰柱图。判别分析是根据多种因素(指标)对事物的影响来实现对事物的分类,从而对事物进行判别分类的统计方法。判别分析适用于已经掌握了历史上分类的每一个类别的若干样品,希望根据这些历史的经验(样品),总结出分类的规律性(判别函数)来指导未来的分类。聚类分析与判别分析都是研究分类的,但是它们有所区别:(1)聚类分析一般寻求客观的分类方法,在进行聚类分析以前,对总体到底数理统计大作业(二)全国各省发展程度的聚类分析及判别分析2有几种类型并不知道。判别分析则是在总体类型划分已知,在各总体分布或来自总体训练样本的基础上,对当前的新样本判定它们属于哪个总体。(2)两类方法的建立的模型不一样,因此在处理某些特定的问题时,就会得出不一样的结果,就本题看来,出现了经济类型上的判别不一致的细微差异,但是作为分类方法来说,两种方法在大部分情况下都能取得一致的效果。(3)聚类分析与判别分析也是有联系的。如我们对研究的多元数据的特征不熟悉,当然要先进行聚类分析,才能考虑判别分析的问题。随着改革开放的进行,我国进入了一个前所未有的经济飞速发展时期,整体经济实力与日俱增。但是,我们也应该看到各个地区的发展不平衡,沿海地区发展较快,经济增长也较快,而中西部发展相对较慢。因此,基于这种现状,本文对全国各地区的经济进行聚类分析。首先对除浙江、安徽、甘肃三省的其他各省经济进行聚类,然后对浙江、安徽、甘肃三省的经济类型进行判别分析。通过本文的分析研究,可以清楚地认识到我国经济类型构成,以及各地区的发展差异。本文采用多元统计分析方法,对全国31个省、直辖市、自治区的7项经济指标进行聚类分析和判别分析,从而能够比较客观地反映了当前各地区的发展程度。1实验方案1.1数据统计本文根据2014年国家统计年鉴,选取了2013年31个省、直辖市、自治区的7项经济指标[1],如表1所示。其中包括:、第一产业生产总值X1、第二产业生产总值X2、第三产业生产总值X3、固定资产投资X4,外商投资总值X5,城镇人口比X6,高等教育人口(大专及以上)X7。其中第二产业包括工业建筑业。第三产业包括交通运输、仓储,批发和零售业,住宿和餐饮业,金融业,房地产业和其他.高等教育人口是是2013年全国人口变动情况抽样调查样本数据,抽样比为0.822‰。数理统计大作业(二)全国各省发展程度的聚类分析及判别分析31.2聚类分析将表1所示的31个省、直辖市、自治区(除浙江、安徽和甘肃)2013年的各项数据导入SPSS。为了便于分析,在聚类分析前,先对数据进行标准差标准化处理,其过程为:“Analyze→DescriptiveStatistics→Descriptives…”,然后对标准差标准化后的数据进行聚类分析(HierarchicalClusterAnalysis)。其过程为:依次选择“Analyze→Classify→HierarchicalCluster”,引入的变量是X1至X7。从而对样品(个案)进行聚类,即Q型聚类分析(对研究对象本身分类)。聚类方法使用Between-groupslinkage(类间平均链锁法),距离测量技术选择SquaredEuclideandistance(Euclidean距离平方,即两观察单位间的距离为其值差的平方和,该技术用于Q型聚类)。最终得出聚类分析结果。值得注意的是本文选择的聚类分类方案选择了2-5类表12013年我国31个省、直辖市、自治区的各项指标数据统计数理统计大作业(二)全国各省发展程度的聚类分析及判别分析4地区X1(亿元)X2X2(亿元)X3(亿元)X(亿元)X5(亿美元)X6(%)X7(人)北京161.834352.314986.43(亿元)6847.1177186.36859天津188.457276.686905.039130.2127482.012670河北3500.4214762.110038.8923194.254548.124307山西773.816792.685035.7511031.934252.563013内蒙古1599.419084.196148.7814217.422958.711966辽宁2321.6314269.4610486.5625107.7183266.456924吉林1509.346858.234613.899979.331854.22509黑龙江2516.795918.225947.9211453.122857.43708上海129.288027.7713445.075647.8457989.64703江苏3646.0829094.0326421.6436373.3666464.118462浙江1784.6218446.6517337.2220782.12404647464安徽2348.0910403.966286.8218621.941647.864186福建1936.3111315.38508.0315327.4156560.772554江西1636.497671.385030.6312850.358848.873228山东4742.6327422.4722519.2336789.1176553.757445河南4058.9817806.3910290.4926087.547843.85757湖北3098.1612171.569398.7719307.365454.515304湖南3099.2311517.359885.0917841.440547.964343广东3047.5129427.4929688.9722308.4512667.766665广西2343.576863.045171.3911907.731944.812732海南756.47871.291518.72697.927052.74593重庆1016.746397.925242.0310435.258858.342162四川3425.6113579.039256.1320326.172544.96597贵州1029.053243.73734.047373.611937.832419云南1895.344927.824897.759968.324140.482763西藏86.82292.92427.938761323.7155陕西1526.058911.645607.5214884.136651.310673463甘肃879.372821.042567.66527.96540.131788青海207.591204.31689.152361.13048.51553宁夏222.981264.961077.122651.13552.01559新疆1468.293765.973125.987732.36544.4721741.3判别分析选择SPSS→Analyze→Classify→DiscriminantAnalysis,将聚类分析的类作判别种类,采用自变量全进入模型来进行判别分析。使用Fisher判别法。数理统计大作业(二)全国各省发展程度的聚类分析及判别分析52结果分析与讨论2.1聚类分析结果通过SPSS对数据进行标准差标准化,结果如表2所示。从表中的方差结果可以看出,由于方差的数值很大,所以各地区的差异还是相当大的,这也说明各地区发展的不平衡。表2描述统计量N极小值极大值均值标准差统计量统计量统计量统计量标准误统计量X1(亿元)2886.824742.631855.1736252.954921338.51162X2(亿元)28292.9229427.499824.65001508.283997981.08870X3(亿元)28428296898574.961372.5617262.910X4(亿元)28876.036789.114096.6711776.69579401.3902X5(亿美元)281366641111.93312.3511652.805X62823.7189.6054.85682.6938614.25459X7(人)285584623731.68432.2212287.100有效的N(列表状态)28再对标准差标准化后的数据进行聚类分析,结果如表3、4所示。表3显示,进行聚类分析的只有28个省、直辖市、自治区。采用的是组间聚类。表3案例处理汇总a,b案例有效缺失总计N百分比N百分比N百分比28100.00.028100.0a.平方E