第六节时间序列模型的建立与预测ARIMA过程yt用(L)(Δdyt)=+(L)ut表示,其中(L)和(L)分别是p,q阶的以L为变数的多项式,它们的根都在单位圆之外。为Δdyt过程的漂移项,Δdyt表示对yt进行d次差分之后可以表达为一个平稳的可逆的ARMA过程。这是随机过程的一般表达式。它既包括了AR,MA和ARMA过程,也包括了单整的AR,MA和ARMA过程。一.识别用相关图和偏相关图识别模型形式(确定参数d,p,q)二.估计对初步选取的模型进行参数估计三.诊断与检验包括参数的显著性检验和残差的随机性检验不可取模型可取吗可取止图建立时间序列模型程序图建立时间序列模型通常包括三个步骤。(1)模型的识别,(2)模型参数的估计,(3)诊断与检验。1模型的识别就是通过对相关图的分析,初步确定适合于给定样本的ARIMA模型形式,即确定d,p,q的取值。模型参数估计就是待初步确定模型形式后对模型参数进行估计。样本容量应该50以上。诊断与检验就是以样本为基础检验拟合的模型,以求发现某些不妥之处。如果模型的某些参数估计值不能通过显著性检验,或者残差序列不能近似为一个白噪声过程,应返回第一步再次对模型进行识别。如果上述两个问题都不存在,就可接受所建立的模型。建摸过程用上图表示。下面对建摸过程做详细论述。1、模型的识别模型的识别主要依赖于对相关图与偏相关图的分析。在对经济时间序列进行分析之前,首先应对样本数据取对数,目的是消除数据中可能存在的异方差,然后分析其相关图。识别的第1步是判断随机过程是否平稳。由前面知识可知,如果一个随机过程是平稳的,其特征方程的根都应在单位圆之外;如果(L)=0的根接近单位圆,自相关函数将衰减的很慢。所以在分析相关图时,如果发现其衰减很慢,即可认为该时间序列是非平稳的。这时应对该时间序列进行差分,同时分析差分序列的相关图以判断差分序列的平稳性,直至得到一个平稳的序列。对于经济时间序列,差分次数d通常只取0,1或2。实际中也要防止过度差分。一般来说平稳序列差分得到的仍然是平稳序列,但当差分次数过多时存在两个缺点,(1)序列的样本容量减小;(2)方差变大;所以建模过程中要防止差分过度。对于一个序列,差分后若数据的极差变大,说明差分过度。第2步是在平稳时间序列基础上识别ARMA模型阶数p,q。表1给出了不同ARMA模型的自相关函数和偏自相关函数。当然一个过程的自相关函数和偏自相关函数通常是未知的。用样本得到的只是估计的自相关函数和偏自相关函数,即相关图和偏相关图。建立ARMA模型,时间序列的相关图与偏相关图可为识别模型参数p,q提供信息。相关图和偏相关图(估计的自相关系数和偏自相关系数)通常比真实的自相关系数和偏自相关系数的方差要大,并表现为更高的自相关。实际中相关图,偏相关图的特征不会像自相关函数与偏自相关函数那样“规范”,所以应该善于从相关图,偏相关图中识别出模型的真实参数p,q。另外,估计的模型形式不是唯一的,所以在模型识别阶段应多选择几种模型形式,以供进一步选择。2表1ARIMA过程与其自相关函数偏自相关函数特征3模型自相关函数特征偏自相关函数特征ARIMA(1,1,1)xt=xt-1+ut+1ut-1缓慢地线性衰减1.00.50.0-0.5-1.024681012141.00.50.0-0.5-1.02468101214AR(1)xt=xt-1+ut若0,平滑地指数衰减0.80.60.40.20.0-0.2-0.4-0.6-0.82468101214若0,正负交替地指数衰减0.80.60.40.20.0-0.2-0.4-0.6-0.82468101214若10,k=1时有正峰值然后截尾0.80.60.40.20.0-0.2-0.4-0.6-0.82468101214若10,k=1时有负峰值然后截尾0.80.60.40.20.0-0.2-0.4-0.6-0.82468101214MA(1)xt=ut+1ut-1若10,k=1时有正峰值然后截尾0.80.60.40.20.0-0.2-0.4-0.6-0.82468101214若10,k=1时有负峰值然后截尾若10,交替式指数衰减0.80.60.40.20.0-0.2-0.4-0.6-0.82468101214若10,负的平滑式指数衰减40.80.60.40.20.0-0.2-0.4-0.6-0.824681012140.80.60.40.20.0-0.2-0.4-0.6-0.82468101214AR(2)xt=xt-1+2xt-2+ut指数或正弦衰减0.80.60.40.20.0-0.2-0.4-0.6-0.82468101214(两个特征根为实根)0.80.60.40.20.0-0.2-0.4-0.6-0.82468101214(两个特征根为共轭复根)k=1,2时有两个峰值然后截尾0.80.60.40.20.0-0.2-0.4-0.6-0.82468101214(0,20)0.80.60.40.20.0-0.2-0.4-0.6-0.82468101214(0,20)MA(2)xt=ut+1ut-1+2ut-2k=1,2有两个峰值然后截尾0.80.60.40.20.0-0.2-0.4-0.6-0.82468101214(10,20)0.80.60.40.20.0-0.2-0.4-0.6-0.82468101214(10,20)指数或正弦衰减0.80.60.40.20.0-0.2-0.4-0.6-0.82468101214(10,20)0.80.60.40.20.0-0.2-0.4-0.6-0.82468101214(10,20)ARMA(1,1)xt=1xt-1+ut+1ut-1k=1有峰值然后按指数衰减1.00.50.0-0.52468101214(10,10)k=1有峰值然后按指数衰减1.00.50.0-0.52468101214(10,10)50.80.60.40.20.0-0.2-0.4-0.6-0.82468101214(10,10)0.80.60.40.20.0-0.2-0.4-0.6-0.82468101214(10,10)ARMA(2,1)xt=1xt-1+2xt-2+ut+1ut-1k=1有峰值然后按指数或正弦衰减0.80.60.40.20.0-0.2-0.4-0.6-0.82468101214(10,20,10)k=1,2有两个峰值然后按指数衰减0.80.60.40.20.0-0.2-0.4-0.6-0.82468101214(10,20,10)ARMA(1,2)xt=1xt-1+ut+1ut-1+2ut-2k=1,2有两个峰值然后按指数衰减0.80.60.40.20.0-0.2-0.4-0.6-0.82468101214(10,10,20)1.00.80.60.40.20.0-0.2-0.4-0.6-0.82468101214(10,10,20)k=1有峰值然后按指数或正弦衰减0.80.60.40.20.0-0.2-0.4-0.6-0.82468101214(10,10,20)1.00.80.60.40.20.0-0.2-0.4-0.6-0.82468101214(10,10,20)ARMA(2,2)xt=1xt-1+2xt-2+ut+1ut-1+2ut-2k=1,2有两个峰值然后按指数或正弦衰减0.60.40.20.0-0.2-0.4-0.62468101214(10,20,10,20)k=1,2有两个峰值然后按指数或正弦衰减0.80.60.40.20.0-0.2-0.4-0.6-0.82468101214(10,20,10,20)0.80.60.40.20.0-0.2-0.4-0.6-0.82468101214(10,20,10,20)0.80.40.0-0.4-0.82468101214(10,20,10,20)2.模型参数的估计对AR(p)模型因为滞后变量都发生在t期之前,这些滞后变量与误差项ut相互独立,所以对AR(p)模型的参数进行OLS估计,所得参数估计量具有一致性。对MA(q)和ARMA(p,q)模型的估计比较复杂。(L)dyt=(L)xt=(L)ut对于yt假定可以观测到T+d个观测值,即y-d+1,…,y0,y1,…,yT,则经过d次差分之后,xt的样本容量为T。以{x1,…,xT}为样本估计ARMA(p,q)模型参数(1,…,p,1,…,q)。这是一个非线性模型,不能直接用OLS估计参数,一般采用迭代式的非线性最小二乘。3、诊断与检验完成模型的识别与参数估计后,应对估计结果进行诊断与检验,以求发现所选用的模型是否合适。若不合适,应该知道下一步作何种修改。估计的模型是否成立应该从3个方面检查。①模型参数估计量必须通过t检验;②模型的全部特征根(包括自回归、移动平均两部分)的倒数都必须在单位圆以内(即模型具有平稳性和可逆性);③模型的残差序列必须通过Q检验(Box-Pierce(1970)提出)。同时也要尽量做到④模型结构应当尽量简练;⑤参数稳定性要好;⑥预测精度要高。4、时间序列模型预测下面以ARMA(1,1)模型为例具体介绍预测方法。其他形式时间序列模型的预测方法与此类似。设对时间序列样本{xt},t=1,2,…,T,所拟合的模型是xt=1xt-1+ut+1ut-1则理论上T+1期xt的值应按下式计算xT+1=1xT+uT+1+1uT6ˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆ用估计的参数1,1和uT分别代替上式中的1,1和uT。上式中的uT+1是未知的,但知E(uT+1)=0,所以取uT+1=0。xT是已知的(样本值)。对xT+1的预测按下式进行xT1=1xT+1uT由xT+1=1xT+uT+1+1uT,理论上xT+2的预测式是xT+2=1xT+1+uT+2+1uT+1仍取uT+1=0,uT+2=0,则xT+2的实际预测式是xT2=1xT1其中xT1是上一步得到的预测值,与此类推xT+3的预测式是xT3=1xT2由上可见,随着预测期的加长,预测式xT+1=1xT+uT+1+1uT中移动平均项逐步淡出预测模型,预测式变成了纯自回归形式。对于AR(p)过程,预测式永远是AR(p)形式的,对于MA(q)过程,当预测期超过q时,预测值等于零。若上面所用的xt是一个差分变量,设yt=xt,则得到的预测值相当于yt,(t=T+1,T+2,…)。因为yt=yt-1+yt所以原序列T+1期预测值应按下式计算yT1=yT+yT1对于tT+1,预测式是yt=yt1+yt,t=T+2,T+3,…其中yt1是相应上一步的预测结果。7