13空气中PM2.5问题的研究一、问题分析2013年初以来,我国发生大范围持续雾霾天气,其中对人类健康危害极大的细颗粒物PM2.5是产生灰霾的主要因素。对人们的生活和健康产生的重大影响,为了更好地对空气质量进行监测、预报和控制等,本文对空气中PM2.5进行分析研究。针对问题一,首先,本文利用附件一给的数据对AQI中6个基本监测指标的相关与独立性进行定量分析;然后,又重点对PM2.5(含量)与其它5项分指标及其对应污染物(含量)之间的相关性及其关系进行分析,建立了多元线性回归模型。针对问题二,本文绘制了西安市13个监测点的PM2.5含量随时间变化图,并选取两组方差最大的地区绘制了它们的PM2.5含量随时间变化图。根据这两图分析了该地区内PM2.5的时空分布及其规律,并分区进行了污染评估。根据问题一所建的模型,结合风力与温度的影响,建立了该地区PM2.5的发生和演变规律的数学模型,并根据所建的模型进行了分析。并将西安市的监测值与用建立的模型计算出的模拟值进行了比较,证明了模型建立正确。针对问题三,本文根据前面建的模型和分析结果,给出了该地区未来五年内,综合治理和专项治理相结合的逐年达到治理目标的方案。二、问题一:PM2.5的相关因素分析1、模型的建立变量间的相关性涉及到变量或变量组之间的多种相关性,下面分别阐述。(1)两变量间的相关性。最简单的就是这种两个变量之间的相关性,通常定义一个相关系数来量化两个变量之间的相关程度。它常被用于衡量两个指标间的相关性或相似性;更一般地,当我们观察到多个变量时,要分析多个变量间的相似性,进行根据一定的标准,对这些变量进行筛选。因此,两个变量之间的相关性是变量间相关性分析的基础。(2)复相关性。复相关性分析指多元变量组中某一变量与其余剩余变量之间的相关性的分析,其量化指标是复相关系数(或多重相关系数)。这种相关性显然不同于多于变量整体相关性,涉及的是一个变量与一组变量之间的相关性问题。此外还有偏相关性和典型相关性。首先,本问题利用第(1)种相关性,对AQI中6个基本监测指标的相关与独立性进行定量分析。衡量两个变量之间的相关性利用相关系数,其价值在于定量刻画两个数据向量TnTnyyyYxxxX,,,,,,,2121的相似程度。两个变量X和Y可能是两组数据向量,如nkkx1和nkky1是取自某两个连续变量X和Y的地震波波形采样时间序列,或者是某两个随机变量X和Y的总体抽样数据等,这时衡量它们的线性关程度可以如下思考:先由一组数据如nkkxX1确定一条拟合直线bxa,然后再考察数据组nkky1到该直线距离的14平均值的最小性,niiiRbRabxaynQ1,||1min为了计算的方便,将绝对值符号去掉,代之以平方和,niiiRbRabxaynQ12,)(1min如果找到某个参数a、b使得上式的值Q=0,则可以认为X和Y完全相同,否则以Q的大小来衡量二者的相关程度。为了求出Q的值,可应用微分中值定理求解。通过推导(这里略去推导过程,有兴趣的读者不妨参考文献[1]),问题等价于用公式212111),(),(YyXxYyXxYXcorrYXiniiniiidefdefdef衡量X与Y的相关程度,上式被称为相关系数。显然,1||1,当||1的值越大,说明X和Y越相关(相似),当||1的值越小(越接近于零),说明X和Y越不相关(不相似)。尤其是,当1||1时,1XX与1YY(是各分量为1的列向量,常称为1向量,表示为1)线性相关,当0||1时,1XX与1YY正交,即最不相关。但在实际应用中要判断变量X和Y之间是否存在线性相关性,或相关程度有多大,需要通过统计样本计算判断。这种计算带有一定的随机性。样本容量越小,随机性越大。因此,相关系数的推断涉及到显著性检验问题。对总体相关系数01的假设检验就是对总体是否相关做出推断。有了这些理论基础,下面给出简单线性相关分析过程步骤:①、设假设检验问题:0H:01。②、用上述公式计算相关系数。③、假设检验问题。计算统计量21211nt则统计量)2(~ntt。给定显著性水平,查t分布表以确定相应的临界值2/t。④、判断。如果统计量计算的值满足2/||tt,则接受假设0H,表明变量X与Y之间没有线性相关关系。否则,拒绝假设0H,表明变量X与Y之间有线性相15关关系。其次,又重点对PM2.5(含量)与其它5项分指标及其对应污染物(含量)之间的相关性及其关系进行分析,建立了多元线性回归模型。现在用数学语言来描述多元复相关问题。假设给定一个变量(常称为因变量)TnyyyY,,,21和一组变量(常称为自变量)数据TnkkkkxxxX,,,21,k=1,2,…,p。考虑这p个变量的线性组合(称为综合因素)pppkkkXaXaXaXa22111则称pkkkRadefpdefdefXaYXXYXYk111133,,),(max为Y与变量组pXXX,,,21的多重相关系数或称复相关系数。有时为了显示变量组中变量个数,也将其记为p12,1。对于给定的变量pXXXY,,,,21,假设获得样本数据,记其相关矩阵为2221121RRRR容易证明,复相关系数为2/1211221213,RRRXY显然,12R是变量Y与变量组pXXX,,,21的样本相关矩阵,22R是变量组pXXX,,,21的样本相关矩阵。由于PM2.5与二氧化硫、二氧化氮、可吸入颗粒物一氧化碳和臭氧有着较强的相关关系,下面建立PM2.5对二氧化硫、二氧化氮、可吸入颗粒物一氧化碳和臭氧的多元线性回归模型。pppxxxyxxy...,...,221101:的多元线性回归模型为与(确定性)变量随机变量定满足:为随机误差项,通常假2)var(0)(E写成矩阵形式为:Xy的估计值为yXXX1ˆ2、模型的求解由附件一的数据,利用spss软件画出了各指标含量曲线图(见图2.1)。16图2.1各指标含量曲线图从图中可以直观的看出各指标间存在着一定的相关关系。问题一:PM2.5的相关因素分析本问题利用附件一的数据对问题一的各模型进行求解,用的是spss软件。首先,两变量间的相关性求解:1、spss软件操作步骤①、把附件一的数据导入spss中,建立数据文件,其中包括日期、二氧化硫、二氧化氮、可吸入颗粒物、一氧化碳、臭氧、PM2.5、空气质量指数、首要污染物、空气质量指数级别空气质量指数类别11个变量。②、在菜单栏中依次选择“分析”|“相关”|“双变量”命令,打开“双变量相关”对话框。③、将“PM2.5”、“二氧化硫”、“二氧化氮”、“可吸入颗粒物”、“一氧化碳”和“臭氧”选入“变量”列表。④、单击“确定”按钮,输出结果。2、结果及分析表1给出了各个指标间的相关系数和显著性值。从表中可知PM2.5与二氧化硫、二氧化氮、可吸入颗粒物、一氧化碳和臭氧的相关系数分别为0.726、0.734、0.779、0.822和-0.352,说明PM2.5与二氧化硫、二氧化氮、可吸入颗粒物和一氧化碳有着较强的正相关关系,而与臭氧有着较弱的负相关关系,且它们的双侧显著值都小于0.01,说明的相关系显著。同理可得到臭氧与PM2.5、二氧化硫、二氧化氮、可吸入颗粒物、一氧化碳之间存在不完全相关且为负相关,其中与二氧化氮和可吸入颗粒物的显著值大于0.01,表示在0.01的显著水平上肯定了它们之间的不相关的假设,所以它们之间不存在显著相关关系。最后,在PM2.5、二氧化硫、二氧化氮、可吸入颗粒物、一氧化碳两两之间都存在着较强的正相关关系,且显著水平高。17表1相关性PM2.5二氧化硫二氧化氮可吸入颗粒物一氧化碳臭氧PM2.5Pearson相关性1.726**.734**.779**.822**-.352**显著性(双侧).000.000.000.000.000N238238238236238238二氧化硫Pearson相关性.726**1.807**.678**.659**-.179**显著性(双侧).000.000.000.000.006N238238238236238238二氧化氮Pearson相关性.734**.807**1.727**.626**-.063显著性(双侧).000.000.000.000.336N238238238236238238可吸入颗粒物Pearson相关性.779**.678**.727**1.586**-.069显著性(双侧).000.000.000.000.295N236236236236236236一氧化碳Pearson相关性.822**.659**.626**.586**1-.381**显著性(双侧).000.000.000.000.000N238238238236238238臭氧Pearson相关性-.352**-.179**-.063-.069-.381**1显著性(双侧).000.006.336.295.000N238238238236238238**.在.01水平(双侧)上显著相关。其次,复相关性以及多元线性回归模型的求解:1、spss软件操作步骤①、把附件一的数据导入spss中,建立数据文件,其中包括日期、二氧化硫、二氧化氮、可吸入颗粒物、一氧化碳、臭氧、PM2.5、空气质量指数、首要污染物、空气质量指数级别空气质量指数类别11个变量。②、在菜单栏中依次选择“分析”|“回归”|“线性”命令,打开“线性回归”对话框。③、然后将“PM2.5”选入“因变量”,将“二氧化硫”、“二氧化氮”、“可吸入颗粒物”、“一氧化碳”和“臭氧”选入“自变量”。④、单击“统计量”按钮,打开“线性回归:统计量”对话框。选中“估计”、“置信区间”、“模型拟合度”和“Durbin-Watson”,然后单击“继续”按钮,保存设置。⑤、其他设置使用系统默认设置即可。⑥、单击“确定”按钮,输出结果。2、结果及分析表2给出了模型的输入/移去的变量情况。18表2输入/移去的变量a模型输入的变量移去的变量方法1臭氧,二氧化氮,一氧化碳,可吸入颗粒物,二氧化硫b.输入a.因变量:PM2.5b.已输入所有请求的变量。表3给出了评价每个模型的检验统计量。从中可以得到R、2R、调整的2R、标准估计的误差及D-W统计量,其中R就是复相关系数,等于0.915,接近于1,说明PM2.5与二氧化硫、二氧化氮、可吸入颗粒物、一氧化碳和臭氧有着很强的相关关系。表3模型汇总b模型RR方调整R方标准估计的误差Durbin-Watson1.915a.837.83330.554.928a.预测变量:(常量),臭氧,二氧化氮,一氧化碳,可吸入颗粒物,二氧化硫。b.因变量:PM2.5表4给出了方差分析的结果。从中可以得到模型的显著性P值是0.000,小于显著水平0.05,因此可以判断模型整体非常显著。表4Anovaa模型平方和df均方FSig.1回归1099458.2755219891.655235.543.000b残差214717.030230933.552总计1314175.305235a.因变量:PM2.5b.预测变量:(常量),臭氧,二氧化氮,一氧化碳,可吸入颗粒物,二氧化硫。表5给出了多元线性回归模型的回归系数及相应的一些统计量。表5系数a模型非标准化系数标准系数tSig.B的95.0%置信区间B标准误差试用版下限上限1(常量)-32.9567.174-4.594.000-47.091-18.821二氧化硫.173.205.041.847.398-.230.577二氧化氮.442.155.1452.855.005.137.747可吸入颗粒物.882.092.3919.576.000.7001.063一氧化碳2.207.213.41710.