1城市空气污染程度的分析和预测摘要本文讨论了有关城市污染程度、污染因素及污染扩散的问题。对于问题一,本文主要从大气污染、噪声污染和水体污染这三个面选取主要污染物,查阅北京、天津、上海、重庆和西安五座城市2007-2012年的年度平均污染数据,采用降维的思想,运用主成分分析法减少变量个数,再借助Matlab软件计算各主成分的贡献率,分析知可选取前三个主成分作为衡量污染程度的标准,最后根据综合指标得到这五个城市的污染程度从高到低依次为:重庆、上海、北京、天津、西安。通过判断相关系数的大小,确定五个城市影响人们生活的主要污染因素是水污染,其四项指标依次为化学需氧量、总氮、总磷和氨氮。对于问题二,以北京市大气污染为例。首先,利用GPS记录北京市14个城区观测点的位置,并查阅2013年污染指标2SO、2CO、5.2PM与10PM的污染数据,绘制出相应的空间浓度分布图,估计这四种污染物的大致污染源位置依次为:)100,110(附近、)83,130(附近,)85,125(附近和)80,132(附近;其次,根据污染扩散原理和方式,建立Cauchy污染传播模型,根据各地区空气污染物的浓度分布,运用Matlab软件对数据非线性拟合,得出扩散模型各参数的值,计算得出各项污染指标的污染源位置依次为:)3.97,5.115(,)3.85,2.128(,)8.80,1.129(和)6.87,5.125(;最后,比较污染物位置的计算值与实际值,发现误差相差较小,故模型建立较为合理。对于问题三,分析西安市的主要污染——大气污染。收集西安市2014年4.1-7.31日的空气污染数据,根据时间序列的平稳性特点及AIC定阶准则选取合适的时间序列模型)11(ARMA,,利用Matlab软件对序列模型的各项参数进行估计并检验模型的合理性,并将模型用于数据预报。利用时间序列模型预测西安市未来10天的空气污染状况总体等级为良。对于问题四,基于问题一、二、三对污染因素的分析和污染扩散的特点,主要从减少污染物的产生和治理净化已产生的污染物两方面,针对大气污染、水体污染和噪声污染为相关部门提供合理化防治建议。关键词主成分分析;Cauchy污染传播模型;时间序列模型;Matlab软件2一、问题重述环境质量的好坏对人们的生活有着最直接的影响,包括身体健康、寿命长短、生活质量以及经济发展水平、生态环境等。因此保护环境的工作需要个人、集体、国家、乃至全球各国的共同努力。事实上,环境保护事业从1962年起步至今,一直备受人们关注和重视,环境污染的防治工作也一步步开展运营,然而较经济发展的速度和水平,还有很多需要为之努力的工作要做。环境保护工作一方面是要从减少污染物的产生方面,预防和控制污染源头污染物的排放,另一方面是治理净化已产生的污染物。环境污染是指环境因受人类活动影响而改变了原有性质和状态的现象,其实质是人类活动中将大量的污染物排入环境,影响其自净能力,降低了生态系统的功能。为考察某时期某区域的环境状况,需统计该地区各项污染指标的数据,根据各污染指标的污染排放标准,确定其污染程度,并通过污染发生的原因、途径和后果制定合理的污染治理方案,加以实施运行,改善环境。统计北京、天津、上海、重庆和西安五座城市的污染数据,讨论如下问题:问题一:比较五座城市的污染程度及影响人们生活的主要污染因素;问题二:建立城市污染扩散模型确定某城市污染程度并检验;问题三:给出西安市某方面污染状况的中长期预测数据;问题四:给相关部门提供一篇治理污染的建议短文。二、问题分析对于问题一,本文将查阅收集北京、上海、天津、重庆以及西安五座城市大气污染、噪声污染和水体污染2007-2012年的数据,由于各项污染指标众多,所以选取具有代表性的污染物:可吸入颗粒物10PM、2SO、2CO、道路交通噪声、区域环境噪声、化学需氧量、氨氮、总氮和总磷这9项指标来综合衡量各城市的污染程度,本文将运用降维的思想,利用主成分分析法计算前几个主成分的贡献率大小及通过线性组后的综合指标,以此来衡量各城市的污染程度,根据各主成分的相关系数大小即可确定影响人们生活的主要污染因素([1])。对于问题二,本文将以北京市的大气污染为例,收集北京市2013年14个城区的2SO、2CO、5.2PM和10PM的污染数据,绘制出这四种污染物浓度的空间浓度分布图,估算出这四种污染物的大致污染源位置;建立Cauchy污染传播模型,根据各地区空气污染物的浓度分布,运用Matlab软件对数据nlinfit非线性拟合,计算出扩散模型各参数值,得出各空气污染物的污染源位置;比较污染物位置的计算值与实际值,检验污染传播模型建立是否合理([2])。对于问题三,本文将考虑西安市大气污染的各项污染指标,搜集2014年4月1日至2014年7月31日的污染数据,根据时间序列的平稳性特点及AIC定阶准则选取合适的时间序列模型,利用Matlab软件([3])估计序列模型的各项参数并检验模型的合理性,考核通过时方可用于数据预报。对于问题四,基于问题一、二、三对污染因素的分析和污染扩散的特点,主要从减少污染物的产生和治理净化已产生的污染物两方面,针对大气污染、水体污染和噪声污染为相关部门提供合理化防治建议。3三、模型假设1.所有城市污染数据均真实有效,具有统计价值;2.污染数据的取样为瞬时取样且在某个平面内,不考虑取样前后污染物的浓度变化;3.绘制北京大气污染浓度分布图时不考虑海拔因素的影响;4.大气污染过程经历着扩散与衰减,且沿yx,轴方向上的扩散系数分别为常数,衰减与浓度成正比;5.不考虑日照等自然因素对各项指标污染浓度的影响。四、符号说明4.1模型一1x:可吸入颗粒物(单位3/mmg);2x:二氧化硫(单位3/mmg);3x:二氧化氮(单位3/mmg);4x:道路交通噪声(单位分贝);5x:区域环境噪声(单位分贝);6x:化学需氧量(单位万吨);7x:氨氮(单位万吨);8x:总氮(单位万吨);9x:总磷(单位万吨);:样本协方差矩阵;i:协方差矩阵的特征值;ie:协方差矩阵的特征向量;iiXY,:相关系数;i:样本方差向量;:样本相关矩阵;i:样本相关矩阵的特征值;ie:样本相关矩阵的特征向量;i:样本均值向量;iY:主成分;Y:污染程度综合指标。(其中9,,2,1i)4.2模型二x:位置坐标/横轴;y:位置坐标/纵轴;z:位置坐标/竖轴;c:污染物浓度;m:污染物质量;4M:污染物排放量;:扩散系数。4.3模型三tX:序列;t:平稳白噪声;)(MAq:滑动平均序列;)(ARp:自回归序列;),(ARMAqp:自回归滑动平均序列;c:常数;k:自协方差函数;k:自相关函数;)(xf:概率密度;i:未知参数向量)(ˆmk:最大似然估计;l:自回归参数。plkit,,2,1;,,2,1;,2,1,0五、模型建立与求解5.1问题一的模型建立与求解环境因受人类活动影响而改变了原有性质和状态的现象称为环境污染。环境污染的实质是人类活动中将大量的污染物排入环境,影响其自净能力,降低了生态系统的功能。然而生活中环境的污染也是多方面的,污染按环境要素分类,可分为:大气污染、土壤污染和水体污染。为此,本文选取环境污染的主要污染影响指标,建立污染评价模型,即主成分分析模型,比较北京、天津、上海、重庆和西安五座城市的污染程度,并得出影响人们生活的主要污染因素。5.1.1建立主成分分析模型首先选取环境污染的部分污染指标:可吸入颗粒物1x、二氧化硫2x、二氧化氮3x、道路交通噪声4x、区域环境噪声5x、化学需氧量6x、氨氮7x、总氮8x和总磷9x。北京、天津、上海、重庆和西安五座城市的各项指标年平均数据(见附录表1)。问题中变量太多不但会增加计算的复杂性,也给合理的分析问题和解决问题带来很大困难;同时,这些变量之间存在的相关性,也使得这些变量所反映的信息在一定程度上有所重叠。为了减少变量个数,本文采用了降维的思想,利用主成分分析法得出污染空气的主要因素变量,提高问题研究的合理性,同时不会使数据反映的信息量有大的损失。设是T321),,,,(pxxxxx的协方差矩阵,的特征值与正交化特征向量分别为0321p及peeee,,,,321,且x的第i个主成分为),,3,2,1(,332211pixexexexeYpipiiii(1)5根据平均值计算公式n1ji1ijxnx代入数据计算样本),,,,(321pxxxxx的均值向量),,,,(321pxxxxx为)3475.09390.22110.35925.234760.543480.680434.00354.00986.0(x根据协方差矩阵计算公式T1))((1n1xxxxiini(2)利用Matlab软件代入数据可求得随机变量),,,,(321pxxxxx)9(p相应样本协方差矩阵为(只写下三角部分)0437.03485.01690.07574.11029.00963.00005.00003.00003.08425.24350.18003.147895.09387.00049.00039.00028.00058.30630.163881.03351.00051.00062.00281.05272.1108197.30768.50409.00031.01114.02917.00891.000003.00020.07820.00050.00064.00034.00000001.00001.00003.0由于协方差矩阵对角线元素即为样本),,,,(321pxxxxx的方差值,观察矩阵易知其方差值相差较大,即各量纲间分散程度较大,不适用于环境污染模型中各成分指标间的相关性分析,为消除由于量纲不同可能带来的结果误差,故将样本变量),,,,(321pxxxxx)9(p标准化,即令9,,2,1,ixXiiiii(3)得到一组新的数据),,(921XXXX。其中i为ix的平均值,ii为ix的方差。此时,),,(921XXXX的协方差矩阵即为样本变量),,(921xxxx的相关矩阵ppij)(,其中jjiijijiijXXYX),(Cov),(E(4)),(ovjXXCi为j,XXi的协方差。则根据公式(4)运用Matlab软件代入数据即可得其样本相关矩阵为19891.04664.07998.09114.05213.03486.01325.00887.014909.08350.08670.06296.04691.02378.00908.018813.04144.02186.04726.03709.08787.016727.05461.06245.00229.05744.011866.00013.00485.01965.019102.07446.02097.015158.01171.016026.016由特征值计算公式0E(5)第i个主成分的贡献率pi(6)及前k个主成分的累计贡献率pkss1(7)其中9p。计算的特征值及各标准化主成分的贡献率和累计贡献率如表1所示:表1的特征值、贡献率和累计贡献率ii贡献率(%)累计贡献率(%)14.742052.6952.6922.588428.7681.4531.476816.4197.8640.19282.14100500100600100700100800100900100由表1易知,第一、第二和第三主成分的累积贡献率为97.86%,并且只有第一、第二和和第三主成分对应的特征值大于1,所以选取第一主成分1Y和第二主成分2Y第三主成分3Y作为标准化数据),,,(*8*2*1*XXXX