基于ARIMA-ANN的时间序列组合预测模型

xiaodaolove
3 ℃
2020-01-03

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

基于ARIMA-ANN的时间序列组合预测模型张吉刚梁娜（咸宁学院数学系，湖北咸宁437100）摘要：目前，时间序列预测主要采用基于传统研究方法或人工神经网络技术的单项预测方法。近年来的研究表明，组合预测方法比单项预测具有更高的预测精度。本文提出了一种基于BP神经网络和ARIMA组合模型的预测新方法，对中国GDP的变化趋势进行了综合分析与预测，预测结果表明这种方法相对于单一的预测方法具有更高的精度，该模型在非平稳时序的预测中的应用是可行、有效的。关键词：BP神经网络；ARIMA模型；单位根检验中图分类号：F59文献标识码：A1引言时间序列中国GDP受到许多因素的制约，这些因素之间呈现出错综复杂的关系，其中既包含线性关系又包含非线性规律，单纯用一种模型进行预测很难同时考虑到线性和非线性变化。组合预测本质上是将各种单项预测看作代表不同信息的片段，通过信息的集成分散单个预测特有的不确定性和减少总体不确定性，从而提高预测精度[1]。本文提出了一种基于自回归综合移动平均(ARIMA:AutoRegressiveIntegratedMovingAverage)和反向传播(BP：BackPropogation)神经网络组合模型对中国GDP进行预测的新方法。其中ARIMA模型描述历史数据的线性关系，BP神经网络模拟数据的非线性规律。采用1978-2000年中国GDP统计数据，建立ARIMA和BP神经网络组合预测模型，并利用该模型预测2001-2004年中国GDP。2ARIMA-ANN模型的原理先使用ARIMA模型预测中国GDP，使其线性规律信息包含在ARIMA模型的预测结果中，这时非线性规律包含在了ARIMA模型的预测误差中。然后用BP神经网络预测ARIMA模型的误差，使非线性规律包含在BP神经网络的预测结果中。最后用ARIMA的预测结果与BP神经网络的预测相加得到组合预测模型的预测值，其原理如图1所示。图1ARIMA-ANN模型原理示意图3ARIMA模型的建模过程3.1ARIMA模型的概念[2]定义1：如果序列ty，通过d次差分成为一个平稳序列，而这个序列差分1d次时却不平GDP历史数据ARIMA模型预测误差BP网络模型预测结果预测结果组合模型预测结果=+稳，那么称序列ty为d阶单整序列，记为()tyId。特别地，如果序列ty本身是平稳的，则为零阶单整序列，记为(0)tyI。定义2：设ty是d阶单整序列，即()tyId，记dttwy，tw为平稳序列，即(0)twI，则可对tw建立(,)ARMApq模型为：1111ttptpttqtqwcww式中12,,p是自回归系数，p是自回归阶次，12,,q是移动平均系数，q是移动平均阶次，{}t是白噪声序列。定义3：经过d次差分变换后的(,)ARMApq模型称为(,,)ARIMApdq模型。3.2ARIMA模型的建模步骤（1）ARIMA模型中d的确定由以上定义可知，ARIMA模型中d是序列ty通过差分变换后成为平稳的单整序列的阶数，而单整阶数是序列中单位根的个数，因此我们采用单位根检验方法来检验序列的平稳性以及求得d值，单位根检验方法有多种，有DF(Dickey-Fuller)检验、ADF(augmentedDickey-FullerTest)检验、PP(Phillips-Perron)检验、KPSS(Kwiatjowski,Phillips,Schmidt,andShinTest)检验、ERS(Elliot,Rothenberg,andStockPointOptimalTest)检验、NP(NgandPerronTests)检验。这里选用ADF检验。图2GDP随时间的变化曲线图图2为1978-2004年中国GDP值的时间序列趋势图，从图中，我们可以观察到中国GDP具有明显的上升趋势，因此，在ADF检验时应选择含有常数项和时间趋势项。检验结果显示（见表1），GDP序列以较大的P值，即87.83%的概率接受原假设，即存在单位根的结论。将GDP序列做1阶差分，然后对GDP进行ADF检验，此时选择含有常数项和时间趋势项，检验结果显示（见表1），GDP序列在5%的显著性水平下拒绝原假设，接受不存在单位根的结论，但是属于趋势平稳，即具有线性趋势。而PP检验的结果接受原假设，GDP存在单位根的结论，是非平稳的。再对GDP序列做1阶差分，对2GDP做ADF检验，此时选择不含常数项和时间趋势项，检验结果显示（见表1），二阶差分序列2GDP在1%的显著性水平下拒绝原假设，接受不存在单位根的结论，因此可以确定GDP序列是2阶单整序列，即d值取为2，(2)GDPI。表1检验中国GDP序列的平稳性GDPt统计量概率值（P值）ADF统计量-1.2310.8783显著性水平1%检验临界值-4.4415%-3.63310%-3.255GDPt统计量概率值（P值）ADF统计量-4.3600.0118显著性水平1%检验临界值-4.4415%-3.63310%-3.2552GDPt统计量概率值（P值）ADF统计量-3.9380.0004显著性水平1%检验临界值-2.6805%-1.95810%-1.608（2）ARIMA模型中p和q的确定计算2GDP序列的自相关系数(AC)和偏相关系数(PCA)，见表2。比较2GDP序列的自相关系数(AC)和偏相关系数(PCA)，可知，2GDP序列的自相关系数AC在1阶截尾，偏相关系数PCA在2阶截尾，则取模型的阶数2p和1q，建立(2,2,1)ARIMA模型。表22GDP序列的自相关和偏相关系数ACPCAQ-StatProb10.5680.5687.77840.0052-0.053-0.5547.85060.0203-0.452-0.19413.3430.0044-0.532-0.20221.3700.0005-0.316-0.04824.3880.0006-0.028-0.12224.4140.000(3)中国GDP值ARIMA(2,2,1)预测模型的应用利用ARIMA(2,2,1)模型对中国GDP数据进行预测，统计数据从1978-2000年，共23年的数据，预测结果及误差见表3。4BP-ANN预测ARIMA误差过程由于ARIMA模型预测的误差只有1980-2000年，所以BP-ANN的总样本量21N。以1980-1984，1985-1989，1990-1994，1995-1999年ARIMA预测误差数据作为网络输入，1985-2000年的数据作为理想输出，即以前5年数据作为BP-ANN的输入变量，以当年数据作为BP-ANN的输出变量，组成样本数据对网络进行训练。因此，BP-ANN的输入神经元为5，输出神经元为1，中间层的节点数经过实验对比，最终选定为8个，网络结构为5-8-1，如图3所示。图3BP神经网络结构图采用体现数值优化思想[3,4]的L-M学习算法，在MATLB7[5]的神经网络工具箱中，L-M学习算法的训练函数是trainlm，输入层与隐层、隐含层与输出层之间的传递函数选为tansig,purelin函数。训练次数最大设置为1000次，网络收敛误差为0.00001。将数据归一化后，加载到设置好的BP神经网络中。训练样本的预测结果见表3，检验样本(2001年-2004年)的预测结果见表4。表3三种模型拟合结果比较年份GDPARIMA模型BP网络模型组合预测模型预测值绝对误差误差预测预测值绝对误差19783605.61979407419804551.35060.63-509.3319814901.45215.14-313.7419825489.25405.2583.9519836076.36703.37-627.0719847164.47134.9729.431119858792.19174.52-382.42-387.038796.74.6119861013311297.68-1164.68-1155.510124-9.1819871178511808.45-23.45-16.3411778-7.1119881470414379.31324.70322.45147062.2519891646619107.07-2641.07-2663.41648822.3319901832018060.91259.10263.418316-4.319912128021304.59-24.59-28.75212844.1619922586425993.46-129.46-152.832588723.3719933450132157.932343.072330.23451412.8719944669145586.711104.301062.54673341.819955851159642.22-1131.22-1150.55853019.281tx2tx3tx4tx5txˆtx19966833067995.17334.83345.6968319-10.8619977489475516.85-622.85-627.61748994.7619987900379350.73-347.73-352.01790074.2819998267382983.28-310.28-302.4482665-7.8420008934188371.38969.63959.038935210.6表4三种模型预测结果比较年份GDPARIMA模型BP网络模型组合预测模型预测值绝对误差误差预测预测值绝对误差20019859399286.99-693.99-2455.81003501761.82002107897108484.51-587.51-281.21107590-306.32003121511.4117334.574176.8276.391254103900.42004140775.8139845.54930.26918.6414079011.62表3中BP网络误差预测，是利用BP-ANN对ARIMA模型的绝对误差进行预测的结果。组合模型预测值为ARIMA模型预测值与BP-ANN预测值之和。从表3可以看出，基于ARIMA-ANN的组合模型预测值与实际值的偏差比较小，最大偏差为1989年的22.33亿元，最小偏差为1988年的2.25亿元。而单纯用ARIMA模型预测的偏差比较大，其最大绝对误差为1989年的-2641.07亿元，最小绝对误差为1987年的-23.45亿元，因此，ARIMA-ANN组合预测模型预测效果较好。从表4可以看出，基于ARIMA-ANN的组合模型预测值与实际值的偏差比较小，最大偏差为2003年的3900.4亿元，最小偏差为2004年的11.62亿元。而单纯用ARIMA模型预测的偏差比较大，其最大绝对误差为2003年的4176.8亿元，最小绝对误差为2002年的-587.51亿元，因此，ARIMA-ANN组合预测模型预测效果较好。综合表3、4的结论，可以认为ARIMA-ANN组合预测模型效果较好、有效。5结论本文的ARIMA-ANN组合预测模型，既能描述历史统计数据中的线性规律，又能描述历史统计数据中的非线性规律，而且比单纯使用一种模型进行预测的精度高，预测数据合理、可靠，因此，可以说该模型实用、有效，同时该模型也对其他预测有一定借鉴意义。参考文献：[1]雷可为.基于BP神经网络和ARIMA组合模型的中国入境游客量预测[J].旅游学刊,2007（4）:20-25.[2]高铁梅.计量经济分析方法与建模EViews应用及实例[M].北京：清华大学出版社,2006.[3]阎平凡,张长水.人工神经网络及模拟进化计算[M].北京：清华大学出版社,2002.[4]ZhaoH.NeuralnetworksupervisedcontrolbasedonLevenberg-Marquardtalgorithm[J].JournalofXi’anJiaotongUniversity,2002,36(5):523-527.[5]飞