北航数理统计第二次大作业

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

数理统计大作业(二)全国各省、直辖市经济类型聚类和判别分析指导老师:冯伟院系名称:航空科学与工程学院学号:姓名:2014年12月25日摘要本文利用SPSS统计软件,选取了7个主要经济指标,利用聚类分析方法对我国26个省、直辖市的经济类型进行了分类,结果表明可以分为三类,并根据各省市当前的发展情况和经济水平对分类结果进行了评价分析,得出该分类结果是合理的。并采用判别分析的方法对剩下的5个省的经济类型进行了判别分类,结果表明各如分类正确率为100%,证明了分类结果的合理性。关键词:聚类分析,系统聚类,判别分析,Fisher判别目录1引言....................................................................................................................12聚类分析............................................................................................................12.1基本概念.................................................................................................12.2数据采集和整理.....................................................................................22.3聚类分析过程.........................................................................................32.4结果分析.................................................................................................53判别分析............................................................................................................63.1基本概念.................................................................................................63.2判别分析过程.........................................................................................63.3结果分析.................................................................................................84结论.....................................................................................................................85参考文献............................................................................................................811引言进入21世纪后,中国经济迅速发展,财政收入、国内生产总值(GDP)等稳步增长,世界排名也名列前茅。2013年,我国GDP以90386.6亿美元的总量超过日本,仅次于美国。随着经济的快速发展,中国城市化进程的脚步也在不断加快。2012年8月国家统计局发布报告显示,十六大以来中国城市化水平进一步提高,城镇化率达51.27%,超过一半的人口已经居住在城镇中。但是中国国土面积辽阔,各地区的地理位置、自然环境、资源分布、人口构成、开发程度等都存在较大的差异,因此各地区的经济发展状况也存在不同程度的差异,依照各省、市、区经济社会发展水平,可把全国大致分成东部、中部、西部三个经济地带。而这只是一个在较大区域内大划分,没有对各省市的经济水平做出更进一步的划分。显然研究各省市的经济水平差异,对于政府合理引导资源向薄弱省市适当倾斜具有一定的指导作用,对于国家制定总体发展计划也有一定的帮助。考虑到各省市在各方面都存在较大的差异,评价各省市经济水平的指标要选择的合理,既要考察总量,也要将人均水平纳入考核中。从这方面考虑,从《国家统计年鉴2013》[1]上选取了我国26个省和直辖市2012年的7个经济数据来进行评价分类,即城乡居民储蓄存款、地区生产总值、居民消费水平、人均地区生产总值、农村居民纯收入、城镇居民年平均收入和公共财政预算收入。利用SPSS统计软件进行聚类分析,并对聚类结果进行判别分析来判断聚类分析结果的合理性和正确性。2聚类分析2.1基本概念聚类分析是研究对象的特征来对研究对象进行分类的多元分析技术的总称,分类问题在科学研究、生产实践、社会生活中到处可见。人们可以靠相关经验和专业知识对事物实现分类,但当反映事物的性质、特性的指标较多,且对分类要求较高时,仅凭经验和专业知识就不能达到确切的分类目的,于是数学方法就被引进到分类问题中来。聚类分析的核心思想是,从一批样本的多个观测指标变量中,定义能度量样品间相似程度的统计量,在次基础上求出各样品之间的相似程度度量值,按相似2程度的大小,将样品逐一归类,关系密切的聚集到一个小的分类单位,关系疏远的聚集到一个大的分类单位,直到所有的样品都聚集完毕,把不同的类型一一划分出来,形成一个亲疏关系谱系图,用以更直接的显示分类对象的差异和联系。聚类分析方法较多,本文采用的是系统聚类分析方法,它是目前最流行的方法。2.2数据采集和整理从《中国统计年鉴2013》中选取了2012年全国26个省和直辖市的7个经济数据,整理成表格,如下所示。表1各省、直辖市经济数据城乡居民储蓄存款(元)地区生产总值(亿元)居民消费水平(元)人均地区生产总值(元)农村居民纯收入(元)城镇居民年平均收入(元)公共财政收入(亿元)北京21644.9017879.4030349.5287475.0016475.7441103.113314.93天津7055.4012893.8822983.9593173.0014025.5432944.011760.02河北20665.1026575.0110749.4236584.008081.3921899.422084.28山西11997.0012112.8310828.9933628.006356.6322100.311516.38内蒙古6597.2015880.5815195.5163886.007611.3124790.791552.75辽宁17785.9024846.4317998.7556649.009383.7225915.723105.38吉林6875.1011939.2412276.2643415.008598.1721659.641041.25上海19506.7020181.7236892.8685373.0017803.6844754.503743.71江苏30057.2054058.2219452.2668347.0012201.9532519.105860.69安徽11178.6017212.0510977.7328792.007160.4623524.561792.72福建10507.4019701.7816143.8752763.009967.1730877.921776.17江西8471.9012948.8810572.9328800.007829.4321150.241371.99山东26343.3050013.2415094.9951768.009446.5428005.614059.43河南17469.0029599.3110380.3431499.007524.9421897.232040.33湖北13419.7022250.4512283.0038572.007851.7122903.851823.05湖南12578.3022154.2311739.5333480.007440.1722804.551782.16广东45533.8057067.9221823.2854095.0010542.8434044.386229.18广西7900.8013035.1010519.4827952.006007.5523209.411166.06海南2172.702855.5410634.4932377.007408.0022809.87409.44重庆8361.6011409.6013655.4438914.007383.2724810.981703.49贵州4806.106852.208371.9619710.004753.0020042.881014.05云南7744.7010309.479781.5522195.005416.5423000.431338.153西藏403.90701.035339.5122936.005719.3820224.1786.58甘肃5050.105650.208541.9721978.004506.6618498.46520.40青海1275.301893.5410289.1333181.005364.3819746.63186.42宁夏1679.402341.2912120.3636394.006180.3221902.24263.962.3聚类分析过程采用数据输入软件中,选择系统聚类方法,将地区作为个案,其余数据作为变量,距离选择平方欧式距离,分类数设为3,其他为软件的默认选项,点击确认进行计算。表2给给出了有效个案和缺失个案及其总数,从表上可以看出所有的个案均为有效的。案例处理摘要a案例有效缺失合计N百分比N百分比N百分比26100.0%00.0%26100.0%a.平方Euclidean距离已使用表3显示了进行聚类分析时,软件总共的分析步骤,本次聚类分析一共进行了25步。表3聚类表阶群集组合系数首次出现阶群集下一阶阶群集组合系数首次出现阶群集下一阶群集1群集2群集1群集2群集1群集213群集1群集2115161151691418.0820023221242212411151921.082812203182231822151634.119101320431443141717511.1220018519265192681856.15617022641064101019917.1860021741274121320319.231161522481925819252121913.3341902494189418142235.4062018251031510315122312.5271402411720117201424191.5212321251221231221231825131.943242201347134716表4群集成员案例3群集案例3群集案例3群集1:北京110:安徽219:海南22:天津111:福建220:重庆23:河北212:江西221:贵州24:山西213:山东322:云南25:内蒙古214:河南223:西藏26:辽宁215:湖北224:甘肃27:吉林216:湖南225:青海28:上海117:广东326:宁夏29:江苏318:广西2表4给出了最后聚类分析得到的结果为三类,对其进行适当整理得表5。表5聚类分析结果第一类北京、天津、上海第二类河北、山西、内蒙古、辽宁、吉林、安徽、福建、江西、河南、湖北、湖南、广西、海南、重庆、贵州、云南、

1 / 11
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功