基于spss的主成分分析在城市建设综合评价中的应用张贞贞应用统计20120402520003摘要:城市建设是我国经济发展战略重要的研究课题,对实现整个国家经济社会协调发展具有重要的战略意义。本文基于主成分分析的思想以及spss统计软件的应用并结合实例,利用主成分综合得分对各主要地区城市建设进行分析及评价,体现了主成分分析在城市建设评价中的可操作性和实用性。关键词:主成分分析;spss;城市建设;综合评价一、主成分分析的基本思想各指标间既然有一定的相关性,就必然存在着起支配作用的共同因素,根据这一点,通过对原始变量相关矩阵内部结构关系的研究,找出影响某一过程的几个综合指标,使综合指标为原来变量的线性组合,并使其尽可能多的反映原来指标的信息,综合指标反映的信息量用其方差来表达,即综合指标的方差越大,表示其包含的信息越多。在所有的线性组合中方差最大的称为第一主成分,如果第一主成分不足以代表原来P个指标的信息,再选取第二个线性组合作为第二主成分,第一主成分已有的信息就不需要再出现在第二主成分中,依次可造出P个主成分。这些主成分之间不仅不相关,而且它们的方差依次递减。在解决实际问题时,一般不是取P个主成分,而是根据累计贡献率的大小取前几个最大主成分,既保留了原指标大部分的信息,又达到降维的目的。二、主成分分析的原理及模型主成分分析(PrincipalComponentAnalysis,PCA)是将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。该方法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上用来降维的一种方法。通常的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现再F2中,用数学语言表达就是要求Cov(F1,F2)=0,则称F2为第二主成分,依此类推可以构造出第三、四,……,第P个主成分。主成分分析的数学模型:设原始变量为x1,x2,…,xp,考虑它们的线性变换yi=a1ix1+a2ix2+…+apixp(i=1,2,…,p)其中y1,y2,…,yp满足以下条件:(1)Cov(yi,yj)=0,(i≠j);(2)D(y1)≥D(y2)≥…≥D(yp),即y1是x1,x2,…,xp的一切线性组合中方差最大者,y2是方差次大者,依此类推,称y1为x1,x2,…xp的第一主成分,y2为第二主成分,…,yp为第p个主成分。Z1=b11x1+b12x2+…+b1mxmZ2=b21x1+b22x2+…+b2mxm………………………………Zm=bm1x1+bm2x2+…+bmmxm式中Xi为标准化变量,此表达式由标准化变量的协方差矩阵(即相关矩阵)求特征值及其对应的特征向量。Z1=c11x1+c12x2+…+c1mxmZ2=c21x1+c22x2+…+c2mxm……………………………..Zm=cm1x1+cm2x2+…+cmmxm式中Xi为标准化变量,此表达式的系数在上式系数的基础上,乘以相应主成分的特征值之平方根。在结合具体问题解释各主成分时,此表达式优于上式,因为因子载荷量就是主成分与变量间的相关系数,此时,因子载荷量的大小和它前面的正负号直接反映了主成分与相应变量之间关系的密切程度和方向。基于上述基本原理,主成分数学模型的系数求解步骤如下:(1)将原有变量数据进行标准化处理。(2)计算变量的简单相关系数矩阵R。(3)确定主成分个数m。(4)确定主成分Fi的表达式。(5)计算主成分Fi的综合评价值。三、主成分分析的应用实例综上所述,主成分分析法是通过对少数几个主成分的分析来研究多变量的方差-协方差结构的分析方法,即求解出几个主成分,以便使其尽可能多地保留原始变量的相关信息,且相互之间不相关。本案例基于以上原理,根据2011年各地省市建设面积的统计资料,结合spss软件并依据结果分析评价各省城市建设用地的情况,并对城市建设进行综合排名。资料如下:地区城区面积建成区面积城市建设征用土地城市人口用地面积面积密度北京121871231.31425.950.41428天津2334.5710.6710.6442636河北66271684.61625.242.72362山西3400.8956.9878.425.82977内蒙古10996.710771179.527.9764辽宁12821.72276.52249.1185.71712吉林4718.212711203.875.32371黑龙江2653.21678.61722.147.75146江苏13272.33493.83552.6182.92013浙江10484.32221.12263.488.91741安徽5572.91597.71565117.52265福建4481.41130107751.72306江西1890.71019.9986.457.54527山东20157.63751.23680.7141.61389河南4213.72098.12019.3415124湖北9049.21811.62042.674.41969湖南4602.414081474.984.62908广东17957.24829.34172.473.42637广西5789.11014.4931.6121.81569海南850.1238267.914.72639重庆5696.61034.9945.554.51830四川59991788.11745.572.42782贵州1673.8508.3524.26.63502云南2084.6804.1887.561.23811西藏94889.740.23.1515陕西1373.4809706.533.85821甘肃1436.6655.6615.433.63824青海512.3122.1121.70.82487宁夏2063.5371.331310.51147新疆1429.7921.893315.74563表-1运行spss软件,结果分析:第一步:确定是否适合应用主成分分析方法。相关矩阵城区面积(平方公里)建成区面积(平方公里)城市建设用地面积(平方公里)征用土地面积(平方公里)相关城区面积(平方公里)10.8580.8780.668建成区面积(平方公里)0.85810.990.665城市建设用地面积(平方公里)0.8780.9910.701征用土地面积(平方公里)0.6680.6650.7011表—2相关系数矩阵表-2是原有变量的相关系数矩阵。观察相关系数矩阵,可以看到:大部分相关系数都较高,各变量呈较强的线性关系,能从中提取公共因子,适合进行主成分分析。另外也可以通过巴特利球度检验和KMO检验以及反映像相关矩阵判断该原有变量适合主成分分析。第二步:公因子的提取。公因子方差初始提取城区面积(平方公里)10.862建成区面积(平方公里)10.923城市建设用地面积(平方公里)10.951征用土地面积(平方公里)10.658提取方法:主成份分析。表—3上表显示了所有的变量共同度数据。第一列是因子分析初始解下的变量共同度,它表明:如果原有7个变量采用主成分分析法提取所有特征值,那么原有变量的所有方差都可以被解释。事实上,因子个数小于原有变量的个数才是因子分析的目标,所以不可能提取所有特征值。第二列数据时在按制定提取条件,这里指特征值大于1是提取的特征值。可以看到:4个变量的绝大分信息可被因子解释,三个变量大于83%,一个接近83%,这些变量的信息丢失较少。因此,本次提取因子的总体效果还算理想。第三步:主成分的确定。解释的总方差成份初始特征值提取平方和载入合计方差的%累积%合计方差的%累积%13.39484.85484.8543.39484.85484.85420.42610.64495.49830.1714.28699.78440.0090.216100提取方法:主成份分析。表—4表-4为解释的总方差,在全部解释方差表的初始特征根中,给出了按顺序排列的主成分得分的方差,在数值上等于相关系数矩阵的各个特征根λ,因此可以直接根据特征根计算每一个主成分的方差百分比。由于全部特征根的总和等于变量数目,即有m=∑λi=4,故第一个特征根的方差百分比为1/m=3.394/4=84.854,第二个特征根的百分比为λ2/m=0.426/4=10.644,……,其余依此类推。然后可以算出方差累计值。在,给出了从左边栏目中提取的1个主成分及有关参数,提取的原则是满足λ1,这一点我们在运行spss软件时进行了限定。也可以依据方差的累计贡献率,方差贡献反映对应主成分的重要程度,选取85%,即累计贡献率达到85%以上,其含义是此前n个主成分所包含的信息占原始变量包含的总信息的85%,其余变量对方差影响很小。由上表,第一个主成分的累计贡献率为84.854%,接近85%,所以选取一个主成分。图—1在图-1中,横坐标是因子数目,纵坐标为特征值。根据碎石图:第1个主成分特征值出现陡峭的拐点,由此可知,第一个主成分特征值较高,对解释原有变量的贡献最大,第一个以后的因子特征值都较小,对解释原有变量的贡献很小,已经成为可以被忽略的“高山脚下的碎石”,因此本案例中提取一个因子是合适的。第四步:主成分综合得分的计算成份矩阵a成份得分系数矩阵成份成份11城市建设用地面积(平方公里)0.975城区面积(平方公里)0.273建成区面积(平方公里)0.961建成区面积(平方公里)0.283城区面积(平方公里)0.928城市建设用地面积(平方公里)0.287征用土地面积(平方公里)0.811征用土地面积(平方公里)0.239提取方法:主成份。提取方法:主成份。构成得分。表—5表-6表-5为主成分载荷矩阵,是主成分分析的核心内容。该表表明,4个变量在第一个主成分上的载荷都很高(都较接近1),意味着该主成分与原有变量的相关性均较高,它对变量的解释作用均较显著,可以完全解释这些变量。表-6为主成分得分系数矩阵,成分得分系数矩阵的数值是主成分载荷除以相应的特征根得到的结果。0.975/3.394=0,287,0.961/3.394=0.283,0.928/3.394=0.273,0.811/3.394=0.239。由此可得出,综合得分计算公式:F1=0.273城区面积+0.283建城区面积+0.287城市建设用地面积+0.239征用土地面积下面可用Excel软件做进一步的处理,得出各城市建设综合得分情况,在此,只选取具有代表性省市的处理结果:地区城区建城区城建征用地综合得分排序北京0.273121870.2831231.30.2871425.90.23950.440976山西0.2733400.80.283956.90.287878.40.23925.8145720内蒙古0.27310996.70.28310770.2871179.50.23927.936527辽宁0.27312821.70.2832276.50.2872249.10.239185.748344江苏0.27313272.30.2833493.80.2873552.60.239182.956753浙江0.27310484.30.2832221.10.2872263.40.23988.941625江西0.2731890.70.2831019.90.287986.40.23957.5110221山东0.27320157.60.2833751.20.2873680.70.239141.676551湖南0.2734602.40.28314080.2871474.90.23984.6209815广东0.27317957.20.2834829.30.2874172.40.23973.