时间序列分析剖析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1时间序列分析2横截面数据时间序列数据•人们对统计数据往往可以根据其特点从两个方面来切入,以简化分析过程。一个是研究所谓横截面(crosssection)数据,也就是对大体上同时,或者和时间无关的不同对象的观测值组成的数据。•另一个称为时间序列(timeseries),也就是由对象在不同时间的观测值形成的数据。•前面讨论的模型多是和横截面数据有关。这里将讨论时间序列的分析。我们将不讨论更加复杂的包含这两方面的数据。3时间序列和回归•时间序列分析也是一种回归。•回归分析的目的是建立因变量和自变量之间关系的模型;并且可以用自变量来对因变量进行预测。通常线性回归分析因变量的观测值假定是互相独立并且有同样分布。•而时间序列的最大特点是观测值并不独立。时间序列的一个目的是用变量过去的观测值来预测同一变量的未来值。也就是说,时间序列的因变量为变量未来的可能值,而用来预测的自变量中就包含该变量的一系列历史观测值。•当然时间序列的自变量也可能包含随着时间度量的独立变量。4例1(数据:Tax.txt,Tax.sav)某地从1995年1月到2005年7月的税收(单位:万元)。该数据有按照时间顺序的按月记录,共127个观测值。图1就是由该数据得到的一个时间序列图。TimeTax199619982000200220042e+054e+056e+058e+051e+065例1(数据:Tax.txt,Tax.sav)从这个点图可以看出。总的趋势是增长的,但增长并不是单调上升的;有涨有落。大体上看,这种升降不是杂乱无章的,和季节或月份的周期有关系。当然,除了增长的趋势和季节影响之外,还有些无规律的随机因素的作用。这个只有一种随着时间变化的变量(税收)的序列一般称为纯粹时间序列(puretimeseries)。下面将通过该例子对纯粹时间序列进行介绍。6时间序列的组成部分•从该例可以看出,该时间序列可以有三部分组成:趋势(trend)、季节(seasonal)成分和无法用趋势和季节模式解释的随机干扰(disturbance)。•例中数据的税收就就可以用这三个成分叠加而成的模型来描述。•一般的时间序列还可能有循环或波动(Cyclic,orfluctuations)成分;循环模式和有规律的季节模式不同,周期长短不一定固定。比如经济危机周期,金融危机周期等等。7时间序列的组成部分•一个时间序列可能有趋势、季节、循环这三个成分中的某些或全部再加上随机成分。因此,•如果要想对一个时间序列本身进行较深入的研究,把序列的这些成分分解出来、或者把它们过虑掉则会有很大的帮助。•如果要进行预测,则最好把模型中的与这些成分有关的参数估计出来。•就例中的时间序列的分解,通过SPSS软件,可以很轻而易举地得到该序列的趋势、季节和误差成分。8去掉季节成分,只有趋势和误差成分的例1的时间序列。TimeTimeSeriesWithoutSeasonal199619982000200220040e+004e+058e+059例1的时间序列分解出来的纯趋势成分和纯季节成分两条曲线TimeTrendandSeasonal199619982000200220040e+002e+054e+056e+0510例1的时间序列分解出来的纯趋势成分和纯误差成分两条曲线TimeTrendandRemainder199619982000200220040e+002e+054e+056e+0511指数平滑•如果我们不仅仅满足于分解现有的时间序列,而且想要对未来进行预测,就需要建立模型。首先,这里介绍比较简单的指数平滑(exponentialsmoothing)。•指数平滑只能用于纯粹时间序列的情况,而不能用于含有独立变量时间序列的因果关系的研究。•指数平滑的原理为:当利用过去观测值的加权平均来预测未来的观测值时(这个过程称为平滑),离得越近的观测值要给以更多的权。•而“指数”意味着:按照已有观测值“老”的程度,其上的权数按指数速度递减。12指数平滑•以简单的没有趋势和没有季节成分的纯粹时间序列为例,指数平滑在数学上这实际上是一个几何级数。这时,如果用Yt表示在t时间的平滑后的数据(或预测值),而用X1,X2,…,Xt表示原始的时间序列。那么指数平滑模型为1(1),(01)tttYXY或者,等价地,0(1)kttkkYX这里的系数为几何级数。因此称之为“几何平滑”比使人不解的“指数平滑”似乎更有道理。13指数平滑•自然,这种在简单情况下导出的公式(如上面的公式)无法应对具有各种成分的复杂情况。•后面将给出各种实用的指数平滑模型的公式。•根据数据,可以得到这些模型参数的估计以及对未来的预测。在和我们例子有关的指数平滑模型中,需要估计12个季节指标和三个参数(包含前面公式权重中的,和趋势有关的g,以及和季节指标有关的d)。•在简单的选项之后,SPSS通过指数平滑产生了对2005年6月后一年的预测。下图为原始的时间序列和预测的时间序列(光滑后的)。下面为误差。1415例1时间序列数据的指数平滑和对未来的预测TimeTax1996199820002002200420060200000600000100000016x=scan(d:/booktj1/data/tax.txt)tax=ts(x,frequency=12,start=c(1995,1))ts.plot(tax,ylab=Tax)#plot(x1,ylab=Sales)a=stl(tax,period)#分解a$time.series#分解结果(三列)ts.plot(a$time.series[,1:3])b=HoltWinters(tax,beta=0)#Holt-Winters滤波指数平滑predict(b,n.ahead=12)#对未来12个月预测pacf(tax);acf(tax)w=arima(tax,c(0,1,1),seasonal=list(order=c(1,2,1),period=12))predict(w,n.ahead=12)w$residuals#残差acf(w$resi)pacf(w$resi)w$coef#估计的模型系数w$aic#aic值17Box-Jenkins方法:ARIMA模型•如果要对比较复杂的纯粹时间序列进行细致的分析,指数平滑往往是无法满足要求的.•而若想对有独立变量的时间序列进行预测,指数平滑更是无能为力。•于是需要更加强有力的模型。这就是下面要介绍的Box-JenkinsARIMA模型。•数学上,指数平滑仅仅是ARIMA模型的特例.18ARIMA模型:AR模型•比指数平滑要有用和精细得多的模型是Box-Jenkins引入的ARIMA模型。或称为整合自回归移动平均模型(ARIMA为AutoregressiveIntegratedMovingAverage一些关键字母的缩写)。该模型的基础是自回归和移动平均模型或ARMA(AutoregressiveandMovingAverage)模型。•它由两个特殊模型发展而成,一个特例是自回归模型或AR(Autoregressive)模型。假定时间序列用X1,X2,…,Xt表示,则一个纯粹的AR(p)模型意味着变量的一个观测值由其以前的p个观测值的线性组合加上随机误差项at(该误差为独立无关的)而得:11ttptptXXXa这看上去象自己对自己回归一样,所以称为自回归模型;它牵涉到过去p个观测值(相关的观测值间隔最多为p个.19ARIMA模型:MA模型•ARMA模型的另一个特例为移动平均模型或MA(MovingAverage)模型,一个纯粹的MA(q)模型意味着变量的一个观测值由目前的和先前的q个随机误差的线性的组合:由于右边系数的和不为1(q甚至不一定是正数),因此叫做“移动平均”不如叫做“移动线性组合”更确切;虽然行家已经习惯于叫“平均”了,但初学者还是因此可能和初等平滑方法中的什么“三点平均”之类的术语混淆。11tttqtqXaaaqq20ARIMA模型:ARMA模型•显然ARMA(p,q)模型应该为AR(p)模型和MA(q)模型的组合了:显然ARMA(p,0)模型就是AR(p)模型,而ARMA(0,q)模型就是MA(q)模型。这个一般模型有p+q个参数要估计,看起来很繁琐,但利用计算机软件则是常规运算;并不复杂。1111ttptpttqtqXXXaaaqq21ARIMA模型:平稳性和可逆性•但是要想ARMA(p,q)模型有意义则要求时间序列满足平稳性(stationarity)和可逆性(invertibility)的条件,•这意味着序列均值不随着时间增加或减少,序列的方差不随时间变化,另外序列本身相关的模式不改变等。•一个实际的时间序列是否满足这些条件是无法在数学上验证的,•这没有关系,但可以从下面要介绍的时间序列的自相关函数和偏相关函数图中可以识别出来。•一般人们所关注的的有趋势和季节/循环成分的时间序列都不是平稳的。这时就需要对时间序列进行差分(difference)来消除这些使序列不平稳的成分,而使其变成平稳的时间序列,并估计ARMA模型,估计之后再转变该模型,使之适应于差分之前的序列(这个过程和差分相反,所以称为整合的(integrated)ARMA模型),得到的模型于是称为ARIMA模型。22ARIMA模型:差分•差分是什么意思呢?差分可以是每一个观测值减去其前面的一个观测值,即Xt-Xt-1。这样,如果时间序列有一个斜率不变的趋势,经过这样的差分之后,该趋势就会被消除了。•当然差分也可以是每一个观测值减去其前面任意间隔的一个观测值;比如存在周期固定为s的季节成分,•那么相隔s的差分为Xt-Xt-s就可以把这种以s为周期的季节成分消除。•对于复杂情况,可能要进行多次差分,才能够使得变换后的时间序列平稳。23ARMA模型的识别和估计•上面引进了一些必要的术语和概念。下面就如何识别模型进行说明。•要想拟合ARIMA模型,必须先把它利用差分变成ARMA(p,q)模型,并确定是否平稳,然后确定参数p,q。•现在利用一个例子来说明如何识别一个AR(p)模型和参数p。•由此MA(q)及ARMA(p,q)模型模型可用类似的方法来识别。24ARMA模型的识别和估计•根据ARMA(p,q)模型的定义,它的参数p,q和自相关函数(acf,autocorrelationsfunction)及偏自相关函数(pacf,partialautocorrelationsfunction)有关。•自相关函数描述观测值和前面的观测值的相关系数;•而偏自相关函数为在给定中间观测值的条件下观测值和前面某间隔的观测值的相关系数。•这里当然不打算讨论这两个概念的细节。引进这两个概念主要是为了能够了解如何通过研究关于这两个函数的acf和pacf图来识别模型。25例:数据AR2.sav为了直观地理解上面的概念,下面利用一个数据例子来描述。Timex0100200300400500-4-202426例:数据AR2.sav;拖尾和截尾先来看该时间序列的acf(左)和pacf图(右)左边的acf条形图是衰减的指数型的波动;这种图形称为拖尾。而右边的pacf条形图是在第二个条(p=2)之后就很小,而且没有什么模式;这种图形称为在在p=2后截尾。这说明该数据满足是平稳的AR(2)模型。05101520250.00.20.40.60.81.0LagACFSeriesx05101520250.00.20.40.60.8LagPartialACFSeriesx27拖尾和截尾•所谓拖尾图形模式也可能不是以指数形式,而是以正负相间的正弦形式衰减。类似地,如果acf图形是在第q=k个条后截尾,而pacf图形为拖尾,则数据满足MA(q)模型。如果两个图形都拖尾则可能满足ARMA(p,q)模型。具体判别法总结在下面表中(并不一定严格!):28acf和pacf图•如acf和pacf图中至少一个不是以指数形式或正弦形式衰减,那么说明该序

1 / 82
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功