SPSS的综合运用——以我国城市空气质量分析为例年欢管理科学与工程2013200644(一)实验目的近年来随着现代化和工业化的进程,我国大气污染状况十分严重,主要呈现煤烟型污染特征,城市大气环境中总悬浮颗粒浓度普遍超标、二氧化硫污染保持在较高水平、机动车尾气污染物排放总量迅速增加、氮氧化物污染趋势加重、全国形成多个酸雨区等,危害生态环境、影响人民群众身体健康。从污染物构成来看,我国大气污染来源主要有三个方面:一是生活污染源,包括饮食或取暖时燃料向大气排放有害气体和烟雾;二是工业污染源,包括火力发电、钢铁和有色金属冶炼,各种化学工业给大气造成的污染;三是交通污染源,包括汽车、飞机、火车、船舶等交通工具的煤烟、尾气排放。本文通过聚类分析和主成分分析法,研究我国主要城市的空气质量,以及各参数对空气质量好坏的影响以及最主要的影响因素。并据此提出科学合理的对策建议。(二)问题描述在2013年之前,大部分人对于雾霾天气的认知都会自然而然觉得是北京的事。然而,12月伊始,我国遭受了入冬以来最大范围雾霾天气,今年12月伊始,我国中东部地区迎来了严重雾霾事件,几乎涉及中东部所有地区。天津、河北、山东、江苏、安徽、河南、浙江、上海等多地空气质量指数达到六级严重污染级别,使得京津冀与长三角雾霾连成片。由于能见度过低,导致多处高速公路封道关闭,给车辆出行带来了不便,也严重影响了市民的正常工作与生活。(三)数据来源通过查询“中华人民共和国国家统计局官方网站”的“国家统计数据库”,《中国统计年鉴》获得。(四)案例中使用的SPSS方法1.描述性分析2.相关分析3.聚类分析4.主成分分析(五)实验内容与步骤1.城市空气质量因素的描述性统计本实验对城市空气质量的可吸入颗粒物、二氧化硫、二氧化氮、空气质量达到及好于二级的天数、年平均气温和年平均相对湿度六项影响空气质量的因素做描述性统计分析,包括频数、极小值、极大值、均值和标准差五个项目,见表1.1。表1.1描述统计量描述统计量N极小值极大值均值标准差可吸入颗粒物31.040.138.09121.021762二氧化硫31.008.079.03902.015930二氧化氮31.016.068.04005.011855空气质量达到及好于二级的天数31244365326.8127.463年平均气温315.223.313.8774.9856年平均相对湿度31348163.3511.047有效的N(列表状态)31从表1.1可以看出,在影响空气质量的因素中,可吸入颗粒物的最小值为0.04毫克/立方米,最大值为0.138毫克/立方米,平均值为0.9121毫克/立方米,标准差为0.21762;二氧化硫的最小值为0.08毫克/立方米,最大值为0.079毫克/立方米,平均值为0.03902毫克/立方米,标准差为0.01593;二氧化氮的最小值为0.016毫克/立方米,最大值为0.068毫克/立方米,平均值为0.04005毫克/立方米,标准差为0.011855;空气质量达到及好于二级的天数最小值为244天,最大值为365天,平均值为326.81天,标准差为27.463;年平均气温的最小值为5.2摄氏度,最大值为23.3摄氏度,平均值为13.877摄氏度,标准差为4.9856;年平均相对湿度最小值为34%,最大值为81%,平均值为63.35%,标准差为11.047。2.相关分析(1)按照顺序:分析——相关——双变量打开相关分析的对话框(2)在简单相关分析的主对话框中将所有变量选入“变量”中。在“显著性检验”框中,有“双侧检验”和“单侧检验”。系统默认是双侧检验。(3)点击“OK”,输出结果见表2.1。表2.1Pearson相关系数相关性可吸入颗粒物二氧化硫二氧化氮空气质量达到及好于二级的天数年平均气温年平均相对湿度可吸入颗粒物Pearson相关性1.560**.460**-.901**-.412*-.132显著性(双侧).001.009.000.021.480N313131313131二氧化硫Pearson相关性.560**1.311-.468**-.448*-.232显著性(双侧).001.089.008.011.210N313131313131二氧化氮Pearson相关性.460**.3111-.359*-.040.073显著性(双侧).009.089.047.831.696N313131313131空气质量达到及好于二级的天数Pearson相关性-.901**-.468**-.359*1.412*.241显著性(双侧).000.008.047.021.192N313131313131年平均气温Pearson相关性-.412*-.448*-.040.412*1.617**显著性(双侧).021.011.831.021.000N313131313131年平均相对湿度Pearson相关性-.132-.232.073.241.617**1显著性(双侧).480.210.696.192.000N313131313131**.在.01水平(双侧)上显著相关。*.在0.05水平(双侧)上显著相关。表2.1给出了Pearson相关系数,以一个矩阵的形式表现出来。从中可以看出,可吸入颗粒物、二氧化硫、二氧化氮空气质量达到好于二级的天数、年平均温度和年平均相对湿度的相关系数分别为0.901、0.56、0.46、0.468、0.617和0.617,在这些数据的右边都有两个星号,表示在0.01的显著性水平下,是显著相关的,还有一些相关系数带有一个星号表示在0.05的显著性水平下,相关系数是显著的。故得出空气质量达到及好于二级的天数和可吸入颗粒物、二氧化硫和二氧化氮在0.01置信度条件下呈高负相关,其中空气质量达到及好于二级的天数和可吸入颗粒物的相关性大雨二氧化硫和二氧化氮与空气质量达到及好于二级的天数的相关性;空气质量达到及好于二级的天数和年平均温度、年平均相对湿度在0.01置信度条件下呈高度正相关,其中年平均温度与空气质量达到及好于二级的天数相关性等于平均相对湿度与空气质量达到及好于二级的天数的相关性。3.聚类分析3.1.衡量指标衡量指标的选取对于聚类分析来说至关重要,具有决定性的意义,影响空气质量好坏的因素有很多,有,温度,湿度等等,为此本文选取了四个指标,分别是可吸入颗粒物,二氧化硫,二氧化氮,空气质量达到及好于二级的天数。用以衡量我国主要的31个城市的空气质量,数据来源于中国统计年鉴2011年:12-19主要城市空气质量指标(2011年)单位:毫克/立方米城市可吸入颗粒物二氧化硫二氧化氮空气质量达到及空气质量达到二级以上好于二级的天数天数占全年比重(%)(天)北京天津石家庄太原呼和浩特沈阳长春哈尔滨上海南京杭州合肥福州南昌济南郑州武汉长沙广州南宁海口重庆成都贵阳昆明拉萨西安兰州西宁银川乌鲁木齐(PM)(SO)(NO)10220.1130.0280.05628678.40.0930.0420.03832087.70.0990.0520.04132087.70.0840.0640.02330884.40.0760.0540.03934795.10.0960.0590.03333291.00.0910.0260.04334594.50.0990.0410.04631786.80.0800.0290.05133792.30.0970.0340.04931786.80.0930.0390.05833391.20.1130.0220.02530383.00.0690.0090.03236098.60.0880.0560.03834795.10.1040.0510.03632087.70.1030.0510.04731887.10.1000.0390.05630683.80.0830.0400.04734193.40.0690.0280.04936098.60.0730.0260.03335196.20.0410.0080.016365100.00.0930.0380.03132488.80.1000.0310.05132288.20.0790.0490.03034995.60.0650.0370.044365100.00.0400.0090.02336499.70.1180.0420.04130583.60.1380.0480.04224466.80.1050.0430.02631686.60.0950.0380.03033391.20.1320.0790.06827675.63.2操作步骤(1)选择分析——分类——系统聚类打开系统聚类分析对话框。(2)在主对话框中将用于聚类的所有变量选入“变量”,把区分样本的标签变量选入“标注个案”。(3)单击“方法”按钮,展开分层聚类分析的方法选择对话框。(4)点击“统计量”选中“合并进程表”。选择“方案范围”分别输入“2”和“4”,点击“继续”回到主对话框,此时分析结果中就包含了凝聚状态表。点击“绘制”选中“树状图”,点击“继续”回到主对话框,此时分析结果中就包括了冰柱图。(5)点击“保存”,然后再弹出的对话框中点击“继续”,最后回到主对话框中点击“OK”。完成上述步骤后,会得到凝聚状态表(表3.1)和树状图(图3.2)。表3.1分成2~4类时各地区所属的类别群集成员群集成员案例4群集3群集2群集案例4群集3群集2群集1:北京1118:哈尔滨1112:天津1119:上海1113:石家庄11110:南京1114:太原11111:杭州1115:呼和浩特11112:合肥1116:沈阳11113:福州1117:长春11114:南昌11115:济南11124:贵阳11116:郑州11125:昆明11117:武汉11126:拉萨22118:长沙11127:西安11119:广州11128:兰州33220:南宁11129:西宁11121:海口22130:银川11122:重庆11131:乌鲁木齐43223:成都111HIERARCHICALCLUSTERANALYSISDendrogramusingAverageLinkage(BetweenGroups)RescaledDistanceClusterCombineCASE0510152025LabelNum+---------+---------+---------+---------+---------+南京10-+成都23-+-+武汉17-++-+杭州11---++-----+北京1-----+|呼和浩特5-+|南昌14-+-+|贵阳24-++---+|沈阳6---+|+-+重庆22-++-+||银川30-+---+||||西宁29-+|||||哈尔滨8-++-+|||郑州16-+-+|+-+|石家庄3-+|||+---+济南15-++-+|||天津2-+||||西安27---+|||太原4---------+||福州13---+---+||南宁20---++-----++---------------------+广州19-+-+|||昆明25-++---+||上海9-+-+|+---------+长沙18-+||||长春7---+|||合肥12-----------------+||海口21-+-------------------------------------+|拉萨26-+|兰州28-----------------------+-------------------------+乌鲁木齐31-----------------------+图3.2树状图从图3.2可以直观地观测整个聚类过程和结果。图中的第一行给出的是聚类方法“系统聚类分析”;第2行给出的是计算类间距离的方法是“Wardmethod”;第3行是类别合并的相对距离,它是把类别间的最大距离作为相对距离25,其余的距离都换算成与之相比的相对距离大小。图3.2中左边一列是参加聚类的对象;第2列是地区的编号;图3.2中线的长短表示类别之间的相对距离远近。该图提供了1~31个类别的所有分类结果,想