基于LSTM循环神经网络的PM2.5预测

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第36卷第1期   计算机应用与软件Vol36No.12019年1月  ComputerApplicationsandSoftwareJan.2019基于LSTM循环神经网络的PM2.5预测白盛楠1 申晓留21(华北电力大学控制与计算机工程学院 北京102200)2(华北电力大学能源互联网与电力大数据研究所 北京102200)收稿日期:2018-09-11。国家自然科学基金项目(71071053);北京市自然科学基金项目(9122021)。白盛楠,硕士生,主研领域:数据挖掘,人工智能。申晓留,教授。摘 要  PM2.5要素对空气质量影响较大。PM2.5浓度变化是多种因素作用的结果,且过程突发、非线性,具有明显的不确定性,难以使用传统的方法进行预测。针对该问题,以气象、大气污染物因素作为PM2.5预测指标,提出基于LSTM循环神经网络的PM2.5预测模型。使用灰色关联度分析方法对多个气象、大气污染指标进行关联强度分析;对数据进行平滑处理,将时间序列问题处理为监督问题;搭建多变量的LSTM循环神经网络PM2.5预测模型,实现PM2.5日值浓度的准确预测。使用北京市2010年-2017年气象数据和大气污染物数据进行仿真实验,结果表明该模型能够较好地预测PM2.5的日值变化趋势。关键词  空气质量 PM2.5预测 灰色关联度 循环神经网络 LSTM中图分类号 TP39    文献标识码 A    DOI:10.3969/j.issn.1000386x.2019.01.012PM2.5PREDICTIONBASEDONLSTMRECURRENTNEURALNETWORKBaiShengnan1 ShenXiaoliu21(SchoolofControlandComputerEngineering,NorthChinaElectricPowerUniversity,Beijing102200,China)2(ResearchInstituteofEnergyInternetandElectricityBigData,NorthChinaElectricPowerUniversity,Beijing102200,China)Abstract  PM2.5factorhasagreatinfluenceonairquality.PM2.5concentrationchangeistheresultofmanyfactors,andtheprocessissudden,nonlinear,andhasobviousuncertainty,soitisdifficulttousetraditionalmethodstopredict.Tosolvethisproblem,aPM2.5predictionmodelbasedonLSTMrecurrentneuralnetworkwasproposedwithmeteorologicalandatmosphericpollutantfactorsasPM2.5predictionindicators.Weusedthegreycorrelationanalysismethodtoanalyzethecorrelationintensityofseveralmeteorologicalandatmosphericpollutionindicators.Thedatawassmoothedandthetimeseriesproblemwastreatedasasupervisoryproblem.WebuiltamultivariableLSTMrecurrentneuralnetworkPM2.5predictionmodeltoachieveaccuratepredictionofPM2.5concentration.WeusedthemeteorologicaldataandairpollutantdataofBeijingfrom2010to2017tosimulatetheexperiment.TheresultsshowthatthemodelcanbetterpredictthedailyvariationtrendofPM2.5.Keywords  Airquality PM2.5prediction Greyrelationaldegree Recurrentneuralnetwork LSTM0 引 言空气污染不仅会对人体健康造成一定的危害,也会引起一系列的环境问题。近年来,北方地区污染天气出现频率逐步增加,河北、北京等地相继出现雾霾等极端污染天气。空气质量指数(AQI)能够反映污染程度,根据相关数据显示,相较于2012年,北京市2014年污染天数(AQI>100)急剧增多,且主要集中在轻度污染区域(150>AQI>101),全年未出现优质天气(AQI<50)。空气质量下降,空气污染成为北京市亟待解决的问题。探究空气质量变化,掌握其变化规律对空气质量管理、改善空气污染是十分必要的。污染天气的出现是多种因素综合作用的结果,根据研究[1-3]表明,北京地区呈现高颗粒物浓度与高臭氧浓度并存的区域性的大气复合污染特点。其中,困 68      计算机应用与软件2019年扰北方的雾霾天气与细微颗粒物浓度存在一定的关系。《霾的观测和预报等级》指出,霾是大量极微细的干尘粒等均匀地浮游在空中,使水平能见度<10.0km的空气普遍混浊现象,并将PM2.5作为判别霾的指标。PM2.5是空气动力学等效直径≤2.5μm的大气气溶胶质量浓度,当该指标超过75μg/m3时,且相对湿度处于80%~90%时,可判断为霾天[4]。1 研究现状目前国内外关于空气质量的预测集中在数值模拟和统计计算两个方面。其中:数值模拟需要详细的高空、地表数据且模型计算复杂,因此适用范围受限;使用统计类方法进行预测更加广泛,多采用多元统计、机器学习、神经网络等方法。郑毅等[5]依据空气质量数据(NO2,SO2,CO,O3,PM2.5,PM10)提出了基于深度信念网络的区域PM2.5日均值预测方法,并与RBF神经网络、BP神经网络方法比较,验证了其方法的可行性和预测精度。但该研究数据量较少,只有224天日均值数据,且未考虑PM2.5与风速、降水等气象因子的相关性。王敏等[6]考虑到不同时间内的污染物浓度不尽相同,根据不同时段PM2.5的分布特征,建立了分时段ARIMA时间序列预测模型。该模型解决了时间会影响PM2.5预测这一问题,但未考虑其他因素,只使用PM2.5历史数据进行模拟预测缺乏可靠性。滕浩宇[7]在污染数据和气象数据的基础上,通过主成分方法确定PM2.5与其他因素的关系,并使用多元回归模型预测PM2.5。但多元线性回归模型相对简单,难以准确地预测PM2.5与其影响因素之间的非线性关系,具有局限性。我国对空气质量的监测相对较晚,数据量少、监测要素不全面是PM2.5预测的难点之一。同时,PM2.5的变化受多种因素的影响,如气象场、排放源、下垫面,增大了研究难度。综上所述,本文充分考虑气象因素、污染因素以及时间因素,探究多种因素与PM2.5之间的复杂联系,建立基于LSTM的PM2.5预测模型。2 关联度分析PM2.5的变化受多种因素的影响,包括气象因素和污染物因素,而气象、污染物因素的变化对PM2.5动态变化的影响具有不确定性。灰色关联分析方法能够根据因素之间发展趋势的相似或相异程度来衡量因素间的关联程度[8]。因此,使用灰色关联度分析方法研究对PM2.5变化影响强的因素。PM2.5浓度作为参考数列,比较数列包括NO2、SO2、PM10、CO、O3、日照时数、最大风速、极大风速、平均风速、最高气压、最低气压、平均气压、最高气温、最低气温、平均气温、最高0cm地温、最低0cm地温、平均0cm地温、蒸发量、相对湿度、降水量等21个因素。首先对PM2.5和其他因素进行标准化处理,选取分辨系数为0.5,再将标准化数据按照下式进行关联度分析:ξoi(k)=Δmin+ρΔmaxΔoi(k)+ρΔmax(1)ri=1N∑Nk=1ξoi(k)(2)式中:Δmin、Δmax分别为各时刻两序列绝对差的最小值和最大值;ρ为分辨系数,ρ∈(0,1),通常取值0.5;Δoi(k)为k时刻两序列的绝对差;ξoi(k)为子序列i与母序列o在k时刻的关联度。N为数据序列长度;ri为各个时刻的平均值,即平均关联度。ri值越接近1,关联度越大,说明比较序列与参考序列关系越密切[9]。关联结果如表1所示。表1 关联结果参考指标比较指标关联度PM2.5日照时数0.5103最大风速0.5834最高气压0.5963最高气温0.5974最低0cm地温0.6015平均气温0.6021平均气压0.6037极大风速0.6106最低气压0.6173平均0cm地温0.6281最低气温0.6288O30.6530平均风速0.7005蒸发量0.7107最高0cm地温0.7297相对湿度0.7652降水量0.7887NO20.8014SO20.8317PM100.8585CO0.8840可以看出,在参与分析的因子中,CO、PM10、SO2、NO2、降水量、相对湿度是影响PM2.5变化最主要的6 第1期   白盛楠等:基于LSTM循环神经网络的PM2.5预测69   个关联因子,其次是最高0cm地温、蒸发量、平均风速3个因子,均超过了0.7。本文选择以上9个因子作为PM2.5预测模型的输入特征。3 基于LSTM的PM2.5预测模型3.1 LSTM长短时记忆单元(LSTM)是递归神经网络(RNN)中的一种,RNN与传统的前馈神经网络不同,是基于时间序列的模型,能够建立先前信息和当前环境之间的时间相关性。LSTM是由Hochreiter和Schmidhuber[10]在1997年提出,解决了循环神经网络(RNN)出现的梯度爆炸和梯度弥散问题,即当网络层数增加时,后续节点对前面节点的感知能力变弱,出现随着时间推移会忘记前面信息的现象。LSTM主要解决了数据分类问题,应用于自然语言翻译、图像字幕和语音识别等多个方面,由于可以完美地模拟多个输入变量的问题,也可以用于时间序列预测[11-13]。LSTM添加了一个专门用于保存历史信息的记忆单元。LSTM的记忆单元的示意图如图1所示。历史信息通过三个门:输入门,遗忘门,输出门的控制进行更新。图1 LSTM记忆单元结构遗忘门ft、输入门it、输入结点gt、输出门ot、本单元状态st和本单元输出ht依次按照式(3)-式(8)计算。ft=σ(Wfxxt+Wfhht-1+bf)(3)it=σ(Wixxt+Wihht-1+bi)(4)gt=σ(Wgxxt+Wghht-1+bg)(5)ot=σ(Woxxt+Wohht-1+bo)(6)st=gt·it+st-1·ft(7)ht=(st)·ot(8)其中:xt∈Rk表示时刻的向量的输入;Wfx、Wfh、Wix、Wih、Wgx、Wgh、Wox、Woh是权重矩阵;bf、bi、bg、bo是对应权重的偏置。σ是sigmoid函数;是tanh函数;·表示点积。ht是t时刻以及之前时刻存储了所有有用信息的隐状态向量。3.2 数据预处理由于采集信息过程中会受到各种因素的干扰,需要对气象数据、污染数据进行预处理,保证数据有效性,提高其精度。在数据预处理阶段,去掉缺失值,选择Mallat方法进行小波变换模极大值去噪,剔除由噪声产生的模极大值点,保留信号对应的模极大值点[14],并进行归一化处理,数据范围为(0,1)。本文选用的数据集是时间序列数据集,按照时间索引排序,而监督学习数据集由输入X和输出Y组成。通过数据平移操作将处理后的数据集转换为监督学习问题,经过转化的数据集作为模型的输入变量。3.3 模型构建相对浅层网络的学习,深度学习堆叠多层神经网络和依靠随机优化来执行机器学习任务[15]。基于LSTM的预测模型由输入层、隐藏层、输出层组成,如图2所示。其中最核心的设计是中间的隐藏层,图2中设置了2层LSTM隐藏单

1 / 5
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功