1空气中PM2.5问题的研究摘要:从2013年开始,大范围的持续性雾霾天气开始席卷全国。柴静的《穹顶之下》更是将“雾霾”这一名词引入了人们的视野。对雾霾,这一与工业化进程相伴产生的副产品的治理措施也受到了国家安全部门的高度重视。要想彻底,全面的根治雾霾天气,就必须从原理上科学,透彻地进行分析。本篇论文正是针对与雾霾形成有关的因素进行相关性分析;结合数据及相关影响因素,对雾霾的扩散与衰减进行模拟和预测,并最终给出科学的治理方案。本文的研究分两个方面问题一:通过建立合适数型的方法,对AQI(二氧化硫2SO、二氧化氮2NO、可吸入颗粒物PM10细颗粒物PM2.5、臭氧3O和一氧化碳CO)中的6个主要检测指标进行相关性和独立性的分析。其中,着重分析PM2.5的含量与其他5个分指标及其对应污染物含量之间的相关性及其关系问题二:描述该地区PM2.5的时空分布情况,考虑风力,湿度等环境因素,建立能够描述该地区PM2.5扩散和衰减规律的数学模型,并带入该地区额数据,进行定量和定性的分析,并考虑如果突发事件发生,如工业大火,导致某地PM2.5含量激急速变化,对当地的影响。关键词:相关系数偏相关系数多元回归插值拟合偏微分扩散高斯扩散中图分类号:0121.8;G558一.引言为了对PM2.5的发生和演变进行科学性的定量分析,并进而得出对其治理方案,一个严谨的研究方案是:分析与PM2.5有关的物质的时空分布情况。目前已知的相关物质有二氧化硫2SO、二氧化氮2NO、可吸入颗粒物PM10细颗粒物PM2.5、臭氧3O和一氧化碳CO。这些数据正是AQI(空气质量指数)所检测的数据。针对问题一,为了分析PM2.5与其影响因素之间的相关性,以及各影响因素之间的相关性,本文首先分别计算了两变量之间的Pearson相关系数和Spearman相关系数。与Spearman相关系数相比,Pearson模型在正负相关性上存在一定误差,故最终选择Spearman相关系数用以描述各数据两两之间的相关性。此外,对所给数据定性的分析表明,数据之间的联系并不是简单地一对一的关系,一个变量很有可能受到不止一个其他变量的影响。因此,作为对这种潜在可能性的补充,本文又分析计算了各数据之间的偏相关系数,并对之前的结果进行了修正。考虑到PM2.5的含量不止受一个变量的影响,本文引入多元线性回归分析的理论,讨论了PM2.5与AQT检测的五个指标之间的综合关系。通过忽略线性关系较小的三个参数对PM2.5的影响,再次求出PM2.5与剩余指标间的综合关系。为了弥补线性关系较小的三个指标对PM2.5的影响,本文再次结合权重分析法和多元线性回归法,对这三个指标进行了非线性修正。最后,本文讨论了天气状况和温度对PM2.5浓度的影响。针对问题二,首先通过EXCEL分析了附件二的数据,得出PM2.5的时间分布。并通过附件五,六的方法,建立了观测点的二维坐标系,进而插值拟合的方法得到PM2.5的空间分布,并根据GB3095-2012对13个观测点进行了分区。根据上述数据分析,剔除出5个污染源可2能性较小的观测点。结合以上分析,建立了PM2.5的偏微分扩散模型,并对已有模型进行了修正。由问题一可知:降水对PM2.5有抑制作用。因此,通过引入衰减系数Ψ,以晴天为基准,在不同天气情况下,对PM2.5的浓度进行总体控制。考虑到模型是基于无风情况下的,不符合实际情况,进而对风向进行额外的讨论。由高斯扩散模型获得启发,将其二维正态分布扩散简化为平面60°扩散,并根据流体力学相关知识,对扩散范围内的浓度进行了权重分配,建立起了修正后的扩散模型。根据所建模型,对题目要求突发情况进行预测,并进行了分析,建立空间分布图,得出突发情况的污染扩散预测情况。最后,通过对比PM2.5的模型预测结果和实际分布情况,分析出了本模型存在的不足,并分析了影响PM2.5分布的综合因素(包括工业,天气,人类活动的影响)。二.模型假设1.假设所搜集的的数据真实可信,能够真实地反映该地区的环境因素;2.假设将来很长一段时期内,该地区的环境变化趋势不会发生剧烈的,不可预期的变动;3.假设同等空气质量的污染等级相同;4.假设空气流动不受建筑物的影响。各环境因素在一天内保持稳定,不发生剧烈变化;5.假设不考虑PM2.5的垂直分布;6.假设该城市中的全部污染源以全部检测到,没有遗漏;三.符号说明符号符号含义ρ相关系数i,j元素的角标a,b,d常数x,y空间坐标ijm第i点第j天的5.2PM质量u(x,y)位于(x,y)的浓度Zij影响因素k扩散系数α,β,ε系数t时间四.模型的建立和求解4.1.问题一4.1.1.问题分析本文的讨论基于一种普遍接受的假设:PM2.5与AQT所检测的五项主要指标有关。故为了严格的探究PM2.5的生成演变机理,在所能搜集到的数据容量限制下,比较可行的方案是:3计算影响PM2.5的参数与PM2.5含量之间的数量关系,进而求解出PM2.5含量与其影响指标之间的函数关系。初步的分析从相性关系开始。为此,本文引入了两个计算相关性的方法:Pearson积矩相关系数和Spearman秩相关系数,详细的解释会在第二部分展开。通过对两两指标之间线性相关的计算,并对得出的结果进行分析,可以剔除出一些对PM2.5无显著相关性的因素,使问题简化。然而,影响因素之间也是相互影响的,考虑到这一点,本文对这一多元变量组中各变量与其余剩余变量之间的相关性有加以分析,引入多元负相关的概念,并最终得出PM2.5的含量与AQT所检测的五个指标之间的函数关系。此外,考虑到除AQT所测指标外,一些可能的其他因素也会对PM2.5产生影响。经过科学合理的分析,验证,本文最后得出温度和降水对PM2.5的含量也会有不同程度的影响。4.1.2.Pearson模型在统计学中,一般采用Pearson积矩相关系数来描述两个变量X和Y之间的线性关系。两个变量之间的Pearson积矩相关系数定义为这两个变量的协方差与二者标准差之积的商,即ρXY=cov(X,Y)𝜎𝑋𝜎𝑌=𝐸(𝑋−𝜇𝑋)(𝑌−𝜇𝑌)𝜎𝑋𝜎𝑌上式为总体相关系数的定义。若用样本协方差的标准差代替总体协方差和标准差,则为样本相关系数,即:γ=∑(𝑋𝑖−𝑋)(𝑌𝑖−𝑌)𝑛𝑖=1√∑(𝑋𝑖−𝑋)2𝑛𝑖=1√∑(𝑌𝑖−𝑌)2𝑛𝑖=1(1.1)Pearson积矩相关系数的取值范围在[-1,+1]之间。取1时表示X和Y具有严格的线性关系。Y随X的增大而增大,且所有点落在一条直线上;取-1时表示X随Y的增大而减小,且所有点仍落在一条直线上;取0表示X和Y之间没有线性相关性。考虑到所给的武汉市的数据在时间分布上不是均匀变化的,在计算Pearson积矩相关系数之前,本文先对这些数据进行了处理,得出每个月各参数在该地区地区的平均值。将武汉市的这些数据导入EXCEL,绘制出散点图,并粗略地进行人工分析。图1SO2与PM2.5的关系4图2NO2与PM2.5的关系图3可吸入颗粒物与PM2.5的关系图4NO与PM2.5的关系5图5O3与PM2.5的关系以上这五张图粗略地描述了PM2.5与SO2,NO2,可吸入颗粒物,CO,O3之间的关系。从图中可以看出,斜率越大则说明相关系数越大,斜率为负则表示负相关。通过人为观察,粗略地得出五项分指标及其污染物对PM2.5的相关性排序为:C0可吸入颗粒物NO2SO2O3之后,再将这些数据导入SPSS软件,代入公式(1.1),求得Pearson积矩相关系数:相关性PM2.5二氧化硫二氧化氮可吸入颗粒物臭氧一氧化碳PM2.5Pearson相关性1.726**.734**.779**-.352**.822**二氧化硫Pearson相关性.726**1.807**.678**-.179**.659**二氧化氮Pearson相关性.734**.807**1.727**-.063.626**可吸入颗粒物Pearson相关性.779**.678**.727**1-.069.586**臭氧Pearson相关性-.352**-.179**-.063-.0691-.381**一氧化碳Pearson相关性.822**.659**.626**.586**-.381**1**.在.01水平(双侧)上显著相关。4.1.3.Spearman模型另一种描述相关系数的指标是Spearman秩相关系数,用来度量两个变量之间的统计相关性。在没有重复数据的情况下,如果一个变量是另一个变量的严格单调的函数,则两者之间的Spearman秩相关系数就是+1或-1。在介绍Spearman秩相关系数之前,需要引入一个相关概念-“秩次”。所谓秩次就是一个数据在所处数据组中,按照从大到小的顺序排列所处的位次。如果一组数据中有多个相同6的值,那么在计算中所采用的秩次就是该数值所处位次的平均值。Spearman秩相关系数通常被认为是排列之后的变量之间的Pearson线性相关系数。假设所求数据Xi,Yi已经按从大到小的顺序排列完成,则记Xi,,Yi,为原Xi,Yi在排列后的数据组中所在的秩次,记di=Xi,-Yi,的秩次之差。如果没有相同的秩次存在,则Spearman秩相关系数可由下式计算:ρs=1-6∑𝑑𝑖2𝑛(𝑛2−1)(1.2)如果有相同的秩次存在,则需要计算秩次之间的Pearson线性相关系数ρs=∑(𝑋𝑖−𝑋)(𝑌𝑖−𝑌)𝑛𝑖=1√∑(𝑋𝑖−𝑋)2𝑛𝑖=1√∑(𝑌𝑖−𝑌)2𝑛𝑖=1(1.3)将Pearson模型中的处理过的武汉市的数据导入SPSS软件,利用公式(1.2)和公式(1.3)(SPSS软件会自动区分有无相同只存在,并带入到相应的公式中去),得到其Spearman秩相关系数:相关系数PM2.5二氧化硫二氧化氮可吸入颗粒物臭氧一氧化碳Spearman的rhoPM2.5相关系数1.000.723**.784**.839**-.356**.876**二氧化硫相关系数.723**1.000.799**.765**-.171**.696**二氧化氮相关系数.784**.799**1.000.810**-.122.727**可吸入颗粒物相关系数.839**.765**.810**1.000-.051.677**臭氧相关系数-.356**-.171**-.122-.0511.000-.413**一氧化碳相关系数.876**.696**.727**.677**-.413**1.000**.在置信度(双测)为0.01时,相关性是显著的。4.1.4.对Pearson模型和Spearman模型的对比然而,使用Pearson线性相关系数必须满足两个苛刻的前提:1.必须假设数据是成对的从正态分布中取得的;2.数据至少在逻辑范畴内必须是等间距的。不仅如此,由图六可以看出,Pearson相关系数仅仅反映的是参数之间的线性相关的程度,无法描述线性关系的斜率。7图6不同散点图所对应的Pearson相关系数与此形成鲜明对照的,Spearman相关系数反应的是参数之间是否是严格单调的,单调性越强,Spearman相关系数的绝对值越接近1.图7同一散点图的不同相关系数相比而言,只要变量之间具有严格单调增加的函数关系,变量之间的Spearman相关系数就是1;相同情况下,Pearson相关系数在变量不满足线性函数的情况下,其绝对值会很低。基于这一结论,本文采用Spearman相关系数描述武汉市各参数的线性关系。4.1.5.偏相关分析考虑到影响PM2.5的因素不只一个,为了研究这五个变量整体与PM2.5的相关性,引入多元复相关。多元复相关是指多元变量组中某一变量与其余变量之间的相关性分析,描述指标用复相关系数表示。通过SPSS软件,计算得出在考虑其他因素影响的条件下的PM2.5与相应参数的关系,作为对Spearman相关系数的改进:8相关性控制变量PM2.5二氧化硫二氧化氮&臭氧&一氧化碳&可吸入颗粒物PM2.5相关性1.000.056二氧化硫相关性.0561.000相关性控制