2014年中国各省份生产总值聚类分析与判别分析姓名:卢湘晗学号:SY1501210摘要本文使用SPSS软件对2014年中国各省份生产总值进行聚类分析与判别分析。通过对各省份的第一产业增加值、第二产业增加值、第三产业增加值进行分析,把省份分成四类,再用判别分析对聚类分析的结果判别。并对分出的组别和最终检验结果进行了分析。关键词:SPSS,聚类分析,判别分析,各省份生产总值。一、研究背景及意义。地区生产总值(地区GDP)是指本地区所有常住单位在一定时期内生产活动的最终成果。地区生产总值等于各产业增加值之和。上世纪80年代初中国开始研究联合国国民经济核算体系的国内生产总值(GDP)指标。1985年,中国开始建立GDP核算制度。1993年,正式取消国民收入核算,GDP成为国民经济核算的核心指标。地区生产总值是三大产业增加值之和,所以三大产业对地区生产总值有重大影响,但各产业影响不同。这不同的影响就说明了该地区经济的发展状况。世界各国把各种产业划分为三大类:第一产业、第二产业和第三产业。第一产业是指提供生产资料的产业,包括种植业、林业、畜牧业、水产养殖业等直接以自然物为对象的生产部门。第二产业是指加工产业,利用基本的生产资料进行加工并出售。第三产业又称服务业,它是指第一、第二产业以外的其他行业。第三产业行业广泛。包括交通运输业、通讯业、商业、餐饮业、金融保险业、行政、家庭服务等非物质生产部门。通过对各省份的地区生产总值对各产业增加值进行聚类分析,可以将各省份进行归类,即不同的发展状态。二、分析方法及原理。2.1聚类分析聚类分析又称群分析,是指依据研究对象的个体特征,对其进行分类的方法。分类在经济、管理、社会学、医学等领域,都有着广泛的应用。聚类分析分为层次聚类分析和快速聚类分析。层次聚类分析是根据观察与变量之间的亲疏程度,将最相似的对象结合在一起,以逐次聚合的方式,将观察值分类,直到最后所有样品都聚成一类。层次聚类分析有两种形式,一种是对样品(个案)进行分类,称为Q型聚类;另一种是对研究对象的观察值进行分类,称为R型聚类。K-均值法(又称快速聚类法),是由MacQueen于1967年提出的,它将数据看成K维空间上的点,以距离作为测度个体“亲疏程度”的指标,并通过牺牲多个解为代价换得高的执行效率。但是,K-均值法只能产生指定类数的聚类结果,而类数的确定离不开实践经验的积累。2.2判别分析判别分析是根据多种因素(指标)对事物的影响来实现对事物的分类,从而对事物进行判别分类的统计方法。判别分析适用于已经掌握了历史上分类的每一个类别的若干样品,希望根据这些历史的经验(样品),总结出分类的规律性(判别函数)来指导未来的分类。本文对2014年中国各省省份的地区生产总值进行聚类分析和判别分析。所用数据从中国统计年鉴2015版获得。从2014年各省份的第一产业增加值、第二产业增加值和第三产业增加值三个方面进行了分析。留出青海省、宁夏回族自治区、新疆维吾尔自治区三省判别分析。三、分析过程。3.1原始数据以下数据收集于中国统计年鉴2015:地区生产总值第一产业增加值第二产业增加值第三产业增加值北京市21330.831594545.5116626.3天津市15722.47199.847731.387791.25河北省29421.153447.4615020.1710953.5山西省12759.44788.146343.295628.01内蒙古17769.511627.179119.797022.55自治区辽宁省28626.582285.7514384.6411956.2吉林省13803.811524.567287.264991.99黑龙江省15039.382611.465503.986923.94上海市23560.94124.268164.7915271.9江苏省65088.323634.3331057.4730396.5浙江省40153.51779.2619152.7319221.5安徽省20848.752392.3911204.027252.34福建省24055.762014.9112515.369525.49江西省15708.591683.728388.265636.61山东省59426.594798.3628788.1125840.1河南省34939.384160.8117902.6712875.9湖北省27367.043176.8912840.2211349.9湖南省27048.463148.7512481.8811417.8广东省67792.243166.6731345.7733279.8广西壮族自治区15672.972412.217335.65925.16海南省3500.72809.64874.421816.66重庆市14265.41061.036531.866672.51四川省28536.663531.0514519.4110486.2贵州省9251.011275.453847.064128.5云南省12814.591991.175281.825541.6西藏自治区920.8391.57336.84492.42陕西省17689.941564.949689.786435.22甘肃省6835.27900.82924.863009.61青海省2301.12215.931232.11853.08宁夏回族自治区2752.1216.841343.131192.13新疆维吾尔自治区9264.11538.63927.823797.683.2聚类分析选取上表中31个省份进行聚类分析:共31个有效数据(Valid)参加了分析,无缺失值记录(Missing),总记录数为31个(Total)。上表给出了反映聚类过程的聚类进度表。它的每一行表示一次聚类,并给出聚类对象的名称,第一列对应的格中给出这次聚在一起的两个群间的距离。第一步:样品29和样品30聚成一类,凝聚系数是0.000。与样品29、样品30的欧式距离相等。CaseProcessingSummarya31100.0%0.0%31100.0%NPercentNPercentNPercentValidMissingTotalCasesSquaredEuclideanDistanceuseda.AgglomerationSchedule2930.0000051718.0000012527.0010010323.00100122629.00301242431.0030017714.0040010422.0050018820.006001557.00837202128.0090017317.01142221213.015001919.0160028825.01790201019.01900252124.0271162124.0300821612.0310132358.039101523221.063181724316.0661202756.082201926226.089215261015.1441603025.196242328311.2492202912.25814262913.4802827301101.83229250Stage123456789101112131415161718192021222324252627282930Cluster1Cluster2ClusterCombinedCoefficientsCluster1Cluster2StageClusterFirstAppearsNextStage第二步:样品17和样品18聚成一类,凝聚系数是0.000,与样品17、样品18欧式距离相等。第三步:样品5和样品27聚成一类,凝聚系数是0.001,与样品5、样品27欧式距离相等。以此类推。由于出现了乱码,所以使用手绘树状图来表达:下图为分三组、或分四组、或分五组的情况:选择分四组可以归纳为:第一类:北京市、上海市;第二类:天津市、山西省、内蒙古、辽宁省、吉林省、黑龙江省、安徽省、福建省、江西省、广西、海南、重庆、贵州、云南省、西藏、陕西省、甘肃省、青海省、宁夏、新疆;第三类:河北省、浙江省、河南省、湖北省、湖南省、四川省;第四类:江苏省、山东省、广东省。3.3判别分析本文采用Fisher判别函数,判别函数效果的验证方法是交互验证(Cross-Validation)法,在建立判别函数时依次去掉一例,然后用建立起来的判别函数对该例进行判别,用这种方法可以非常有效地避免强影响点的干扰。选取青海省、宁夏、新疆三省进行判别分析。ClusterMembership111221332221221221221221111443532221221221443332332332443221221221332221221221221221221221221Case1:北京市2:天津市3:河北省4:山西省5:内蒙古自6:辽宁省7:吉林省8:黑龙江省9:上海市10:江苏省11:浙江省12:安徽省13:福建省14:江西省15:山东省16:河南省17:湖北省18:湖南省19:广东省20:广西壮族21:海南省22:重庆市23:四川省24:贵州省25:云南省26:西藏自治27:陕西省28:甘肃省29:青海省30:宁夏回族31:新疆维吾5Clusters4Clusters3Clusters组统计量分析:组均值的均等性的检验:AnalysisCaseProcessingSummary2890.30.00.039.739.731100.0UnweightedCasesValidMissingorout-of-rangegroupcodesAtleastonemissingdiscriminatingvariableBothmissingorout-of-rangegroupcodesandatleastonemissingdiscriminatingvariableTotalExcludedTotalNPercentGroupStatistics22445.891576.9259022.000141.630024.5648922.0006355.15002559.2174322.00015949.11957.7266422.00014428.536867.804431717.0001484.3971762.307821717.0007017.66003802.262571717.0005926.47352703.148941717.00031244.375221.5106966.0003207.3700789.3444566.00015319.512694.2560666.00012717.483285.6339366.00064102.384269.0840133.0003866.4533840.2463933.00030397.121400.8768933.00029838.813751.0648033.00023926.7916812.160332828.0002012.91391283.008062828.00011254.258232.098872828.00010659.638086.759452828.000地区生产总值第一产业增加值第二产业增加值第三产业增加值地区生产总值第一产业增加值第二产业增加值第三产业增加值地区生产总值第一产业增加值第二产业增加值第三产业增加值地区生产总值第一产业增加值第二产业增加值第三产业增加值地区生产总值第一产业增加值第二产业增加值第三产业增加值分类1234TotalMeanStd.DeviationUnweightedWeightedValidN(listwise)TestsofEqualityofGroupMeans.12257.653324.000.31117.717324.000.15244.638324.000.11362.646324.000地区生产总值第一产业增加值第二产业增加值第三产业增加值Wilks'LambdaFdf1df2Sig.下图显示特征值:下图为分类函数系数