1对我国主要城市空气质量的聚类分析和判别分析摘要本文应用多元统计分析中聚类分析和判别分析的理论,使用SPSS17.0软件和spss13.0对我国主要城市的空气质量进行了聚类分析,将31个城市按照空气质量的类型分为了四类。在此基础上,对这些城市的空气质量归属进行了回报判别,结果令人满意。关键词:spss,聚类分析,判别分析,回报判别,空气质量类型Abstract:AccordingtothetheoryofClusterAnalysisandReturnDiscriminationinthebookofMultivariateStatisticalAnalysisandaccordingtothesoftwareofSPSS17.0andSPSS13.0,andprocessingthedateofourmainlycityinourcounty,andclassify31citiesintofouraccordingtotheairofquality.Basedonthefoundation,accordingtoReturnDiscriminationtomakeprocessaboutairqualitytodecidewhichrankbelongto,theoutcomeissatisfactory.Keyword:SPSS;ClusterAnalysis;DiscriminantAnalysis;ReturnDiscriminationTypeofAirQuality1引言经济发展水平是衡量人民生活水平的重要指标。对各地区经济发展水平的充分认识与探究有利于调整经济发展战略,有利于各地区经济均衡发展。聚类分析的基本思想是:在样品之间定义距离,在变量之间定义相似系数,距离或相似系数代表样品或者变量之间的相似程度。按相似程度的大小,将样品逐一归类,关系密切的类聚集到一个小的分类单位,然后逐步扩大,使得关系疏远的聚合到一个大的分类单位,直到所有的样品都聚集完毕,形成一个表示亲疏关系的谱系图,依次按照某些要求对样品进行分类。一般地,根据分类对象的不2同,聚类分析可以分为Q型和R型两大类。Q型聚类分析是对样本进行分类处理,R型聚类分析是对变量进行分类处理。[2]判别分析也是一种数据的分析方法。在事先已经建立了样品分类,需要将新样本归入到已知分类的样本组中时,就可以使用判别分析。本文以8指标为变量,采用系统聚类分析Ward方法(离差平方和法),对我国31个主要城市的空气质量类型进行了聚类。并在此基础上,对这些城市的空气质量归属进行了回报判别。2聚类分析和主要城市空气质量类型的划分2.1指标的选取本文选取了全国31个城市的2008年的四项空气质量指标作为对空气质量类型划分的依据,所选数据全部来自《中国统计年鉴》,具体见下表。主要城市空气质量指标(2008年)单位:毫克/立方米城市空气质量达到及可吸入颗粒物二氧化硫二氧化氮好于二级的天数(天)北京0.1230.0360.049274天津0.0880.0610.041322石家庄0.1160.0460.031301太原0.0940.0730.021303呼和浩特0.0700.0490.045340沈阳0.1180.0590.037323长春0.0960.0300.038342哈尔滨0.1020.0430.055308上海0.0840.0510.056328南京0.0980.0540.053322杭州0.1100.0520.053301合肥0.1340.0220.0252573福州0.0710.0230.046354南昌0.0830.0500.036344济南0.1260.0520.022295郑州0.0940.0600.047325武汉0.1130.0510.054294长沙0.0970.0530.043329广州0.0710.0460.056345南宁0.0560.0400.044352海口0.0430.0090.017366重庆0.1060.0630.043297成都0.1110.0490.052319贵阳0.0820.0640.023347昆明0.0670.0510.039366拉萨0.0510.0050.024353西安0.1130.0500.044301兰州0.1320.0700.054268西宁0.1180.0290.030296银川0.0840.0490.021330乌鲁木齐0.1450.1050.0652612.2解决问题的方法和计算结果通过SPSS使用离差平和方法(Ward方法),计算样本的欧氏距离,样本变量按照Z得分进行标准化处理。离差平方和法,也称沃尔德法.思想是同一类内案例的离差平方和应该较小,不同类之间案例的离差平方和应该较大.求解过程是首先使每个案例自成一类,每一步使离差平方和增加最小的两类合并为一类,直到所有的案例都归为一类为止.4采用欧氏距离,它倾向于把案例数少的类聚到一起,发现规模和形状大致相同的类.此方法效果较好,使用较广.欧氏距离定义:欧氏距离(Euclideandistance)是一个通常的距离定义,它是在m维空间中两个点之间的真实距离。在二维和三维空间中的欧式距离的就是两点之间的距离,二维的公式是:d=sprt[(x1-x2)^2+(y1-y2)^2]三维的公式是:d=sprt[(x1-x2)^2+(y1-y2)^2+(z1-z2)^2]推广到n维空间,欧式距离的公式是:d=sprt[∑(xi1-xi2)^2]这里i=1,2..nxi1表示第一个点的第i维坐标,xi2表示第二个点的第i维坐标n维欧氏空间是一个点集,它的每个点可以表示为(x(1),x(2),...x(n)),其中x(i)(i=1,2...n)是实数,称为x的第i个坐标,两个点x和y=(y(1),y(2)...y(n))之间的距离d(x,y)定义为上面的公式.聚类结果将31个城市分成四种空气质量类型。聚类分析得到的聚类分析图谱如下图1所示。表15表2RescaledDistanceClusterCombineCASE0510152025LabelNum+---------+---------+---------+---------+---------+11-+27-+3-+4-+15-+29-+17-+-----+22-+|8-+|9-++-------------+18-+||30-+||2-+-----+|10-+|6-++---------------------------+16-+||23-+||621-+---+||25-+|||13-++---------------+|26-+||20-+---+|5-+|7-+|14-+|19-+|24-+|12-+|31-+-----------------------------------------------+1-+28-+表3类型城市第一类合肥,兰州,太原,呼和浩特,郑州,银川,长沙,上海,成都第二类南京,广州,乌鲁木齐,石家庄,杭州,武汉,长春,贵阳第三类拉萨,重庆,南昌,西安,海口,哈尔滨,沈阳,济南,南宁,昆明第四类天津,西宁,福州,北京从图1,2中可以看出,全国31个城市可以分为四种空气质量类型,如表3所示。2.3结果讨论按照表3聚类分析的分类结果,可以将我国31个城市的空气质量类型分为四类:优、良、污染和轻微污染。第一类型的城市空气质量良好。第二类型的城市属于轻微污染型,这些城市的工业类型多以轻工业为主,对大气环境的污染较轻。第三类型的城市空气质量优,尤其是拉萨,作为我国独具特色的一个旅游城市,在发展经济的同时,特别需要将环境保护的重要性提上日程,不可再走先污染后治理的道路。第四类型的城市属于污染型城市,这些城市人口密集、交通拥挤、工业发达,像北京是全国的政治文化中心,汽车拥有量很大,汽车尾气的排放对环境的污染7十分严重。这些城市的大气质量急需改善。第三类型的城市空气质量优,尤其是拉萨,作为我国独具特色的一个旅游城市,在发展经济的同时,特别需要将环境保护的重要性提上日程,不可再走先污染后治理的道路。总的来说,结合这些城市的工业等的发展状况,该聚类结果还是比较符合实际的。3判别分析定义:判别分析产生于20世纪30年代,是利用已知类别的样本建立判别模型,为未知类别的样本判别的一种统计方法。近年来,判别分析在自然科学、社会学及经济管理学科中都有广泛的应用。判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则。当遇到新的样本点时,只要根据总结出来的判别公式和判别准则,就能判别该样本点所属的类别。判别分析按照判别的组数来区分,可以分为两组判别分析和多组判别分析。建立的判别规则为:计算自变量x到每一个组中心的广义平方距离,并把x判入最近的类。广义平方距离的计算可能使用合并的协方差阵估计或者单独的协方差阵估计,并与先验概率有关,定义为:其中:8Vt=St(使用单个类的协方差阵估计)或Vt=S(使用合并的协方差阵估计)。mt可以用第t组的均值\overline{X_t}代替。在使用合并协方差阵时,其中x'S−1x是共同的可以不考虑,于是在比较x到各组中心的义平方距离时,只要计算线性判别函数,当x到第t组的线性判别函数最大时把x对应观测判入第t组。在如果使用单个类的协方差阵估计Vt=St则距离函数是x的二次函数,称为二次判别函数。后验概率可以用广义距离表示为:因此,参数方法的判别规则为:先决定是使用合并协方差阵还是单个类的协方差阵,计算x到各组的广义距离,把x判入最近的组;或者计算x属于各组的后验概率,把x判入后验概率最大的组。如果9x的最大的后验概率都很小(小于一个给定的界限),则把它判入其它组。非参数判别方法仍使用Bayes后验概率密度的大小来进行判别,但这时第t组在x处的密度值ft(x)不再具有参数形式,不象参数方法那样可以用mt和St(或St)表示出来。非参数方法用核方法或最近邻方法来估计概率密度ft(x)。最近邻估计和核估计也都需要定义空间中的距离。除了可以用欧氏距离外,还可以用马氏(Mahalanobis)距离,定义为:其中Vt为以下形式之一:Vt=S合并协方差阵Vt=diag(S)合并协方差阵的对角阵Vt=St第t组内的协方差阵Vt=diag(St)第t组内的协方差阵的对角阵Vt=I单位阵,这时距离即普通欧氏距离下面对这些城市的空气质量归属进行了回报判别,判别分析采用逐步选择判别分析Fisher判别法。本文采用Wilk’Lambda(每步选择Wilk的λ统计量值最小的变量进行判别函数)方法进行样品分析及分类。表4表示对判别函数的显著行检验,其中Wilk的λ值很小,10显著概率Sig=0.000,从而认为判别函数有效。表4显著性检验表函数检验Wilks的Lambda卡方dfSig.1到3.07967.2999.0002到3.45221.0464.0003.996.1031.748表5是逐步判别后给出的判别函数系数表,最后进入的自变量是可吸入颗粒物、二氧化硫和二氧化氮的含量,分别设这三个变量为x1、x2、x3,其判别函数如下:F1=687.606x1+573.39x2+325.217x3-65.827F2=433.725x1+488.629x2+422.513x3-42.275F3=573.032x1+400.508x2+189.123x3-40.646F4=274.6x1+119.857x2+118.602x3-11.182表5分类函数系数WardMethod1234687.606433.725573.032274.600573.390488.629400.508119.857325.217422.513189.123118.602-65.827-42.275-40.646-11.182Fisher的线性判别式函数表6为回报判别的结果。可以看到所有的回报率均为1,所以采用的判别分析方法是适用的。表6分类结果a预测组成员合计1234170