时间序列模型-ARIMA时间序列分析概论计量经济分析中常用的数据类型截面数据时间序列数据面板数据一、什么是时间序列:所谓时间序列数据,是指反应社会、经济、自然等现象的某一数量指标进行时间上的观察所得到的数据。而时间序列就是讲这些观测数据按照时间先后顺序排列起来所形成的序列。时间序列具有如下几个特点:时间序列中数据的位置与时间有关,数据的取值随时间的变化而变化。-6-4-202425005000750010000125001500017500SH04,0008,00012,00016,00020,00024,0001980198519901995200020052010GDP1978-2012年国内生产总值不变价2007年上证综指3分钟收益率数据时间序列具有如下几个特点:时间序列是对相关的指标变量在不同时间进行观察得到的结果。时间序列中的数据可以是一个时期内的数据也可能是一个时点上的数据。时间序列通常存在前后时间上的相依性,不一定是相邻时刻,从整体上看,时间序列往往呈现出某种趋势性或出现周期性变化的现象。01,0002,0003,0004,0005,0006,0007,000199219941996199820002002200420062008SALES1992年1季度到2009年1季度批发与零售业增加值(2005年不变价格)按照所研究问题的不同可以将时间序列进行如下分类:1、按照研究对象的多少,时间序列也可以分为一元时间序列和多元时间序列。2、按照观察时间是否连续可以分为离散时间序列和连续时间序列。经济分析中主要研究离散时间序列。3、按时间序列的统计特性,可将时间序列分为平稳时间序列和非平稳时间序列。时间序列分析方法的发展过程基础阶段:G.U.Yule1927年,AR模型G.T.Walker1931年,MA模型,ARMA模型核心阶段:G.E.P.Box和G.M.Jenkins1970年,出版《TimeSeriesAnalysisForecastingandControl》提出ARIMA模型(Box—Jenkins模型)Box—Jenkins模型实际上是主要运用于单变量、同方差场合的线性模型完善阶段:异方差场合RobertF.Engle,1982年,ARCH模型Bollerslov,1986年GARCH模型多变量场合C.A.Sims等,1980年,向量自回归模型C.Granger,1987年,提出了协整(co-integration)理论确定性时间序列分析方法:长期趋势分析、季节变动分析、循环波动分析。随机性时间序列分析方法:ARIMA模型等。模拟时间序列数据:一、时间序列分析的几个基本概念1.随机过程8由随机变量组成的一个有序序列称为随机过程,记为,简记为Yt。随机过程也可以简称为过程,其中每一个元素Yt都是随机变量。将每一个元素的样本点按序排列,称为随机过程的一个实现,即时间序列数据,亦即样本。,tYtT时间序列:随机过程的一次实现称为时间序列,也用{Yt}或Yt表示。随机过程与时间序列的关系如下所示:随机过程:{y1,y2,…,yT-1,yT,}第1次观测:{y11,y21,…,yT-11,yT1}第2次观测:{y12,y22,…,yT-12,yT2}第n次观测:{y1n,y2n,…,yT-1n,yTn}某河流一年的水位值,{y1,y2,…,yT-1,yT,},可以看作一个随机过程。每一年的水位纪录则是一个时间序列,{y11,y21,…,yT-11,yT1}。而在每年中同一时刻(如t=2时)的水位纪录是不相同的。{y21,y22,…,y2n,}构成了y2取值的样本空间。92、随机过程的分布及其数字特征设{Yt}为一个随机过程,对任意一个,Yt的分布函数为:tT()()tYtFyPYy对任意给定的,随机过程{Yt}有两个随机与之对应,其联合分布函数为:12,ttT12,ttYY1212,1212(,)(,)ttYYttFyyPYyYy一般的,对于任意的联合分布函数为:112,,,,,,,mmttmNtttTYY112,,,121(,,,)(,,)tttmmYYYmttmFyyyPYyYy均值方程:()()tttYEYydFy方差函数:22()[()]()ttttYDYyEYdFy自协方差函数:,(,)(,)tsttsstsCovYYEYEYYEYts自相关函数(ACF):,(,),(,),,tstststsCorYYttss偏自相关函数(PACF):1111(,,,),(,,,),,tssttsstCovYYYYtsCorYYYYttss3、随机过程的平稳性随机过程的平稳性是指随机过程的统计特征不随时间的推移而发生变化。随机过程的平稳性可以划分为严(强)平稳和宽(弱)平稳两个层面。严(强)平稳过程:一个随机过程中若随机变量的任意子集的联合分布函数与时间无关,即无论对T的任何时间子集(t1,t2,…,tn)以及任何实数k,(ti+k)T,i=1,2,…,n都有F(x(t1),x(t2),…,x(tn))=F(x(t1+k),x(t2+k),…,x(tn+k))成立,其中F(·)表示n个随机变量的联合分布函数,则称其为严平稳过程或强平稳过程。1213宽(弱)平稳过程如果一个随机过程的均值和方差在时间过程上都是常数,并且在任何两期之间的协方差只和两期间隔的时间长度相关,而和计算该协方差的实际时间不相关,则称该随机过程为平稳随机过程,也称之为协方差平稳过程、二阶平稳过程或广义随机过程。用公式表述就是,对于一个随机过程xt,如果其均值,方差,协方差的大小只与k的取值相关,而与t不相关,则称xt为平稳随机过程。)(txE2)(txVar2),(kkttxxCov14数据的平稳性对时间序列分析非常重要,经典的时间序列回归分析,都是假定数据是平稳的。直观的看,平稳的数据可以看作是一条围绕其均值上下波动的曲线。下面,我们用由Eviews软件模拟一个均值为5、标准差为0.2、样本量为500的平稳数据。4.24.44.64.85.05.25.45.650100150200250300350400450500X平稳数据示例4、常见的随机过程:白噪声过程:对于随机过程{xt,tT},如果E(xt)=0,Var(xt)=2,tT;Cov(xt,xt+k)=0,(t+k)T,k0,则称{xt}为白噪声过程。15-3-2-1012320406080100120140160180200whitenoise-4-202420406080100120140160180200DJPY由白噪声过程产生的时间序列(nrnd)日元对美元汇率的收益率序列随机游走(randomwalk)过程对于下面的表达式:xt=xt-1+ut如果ut为白噪声过程,则称xt为随机游走过程。-25-20-15-10-50520406080100120140160180200randomwalk12001400160018002000220050100150200250300由随机游走过程产生时间序列深圳股票综合指数12.2时间序列模型的分类4.单积(整)自回归移动平均过程差分:用变量xt的当期值减去其滞后值从而得到新序列的计算方法称为差分。若当期减滞后一期变量则称为1阶差分,若当期减滞后k期变量则称为k阶差分。对于随机过程xt,一阶差分可表示为xt-xt-1=Dxt=(1-L)xt=xt-Lxt其中D称为一阶差分算子。L是滞后算子。k阶差分表示为Dkxt=xt-xt-k=(1-Lk)xt=xt-Lkxtxt的2次1阶差分表示为Dxt=D(Dxt)=Dxt-Dxt-1=(xt-xt-1)-(xt-1-xt-2)=xt-2xt-1+xt-2Dxt=(1-L)2xt=(1-2L+L2)xt=xt-2xt-1+xt-2以上两式运算结果相同,说明差分算子和滞后算子可以直接参与运算。注意:(1)对于差分算子Dkd,其上标表示差分次数,其下标表示差分阶数。(2)对于滞后算子Lk,其上标表示滞后阶数。差分与滞后算子滞后算子的性质:常数与滞后算子相乘等于常数。滞后算子适用于分配律。0(1)(1)nnniiniLCL!!()!innCiniLccijijttttit-j(LL)xLxLxxx•滞后算子适用于结合律。ijijttt-i-jLLxLxx•滞后算子的零次方等于1。•滞后算子的负整数次方意味着超前。0ttLxxittiLxx•n次一阶差分展开式:,其中12.2时间序列模型的分类一般分为四种类型。它们是自回归过程(AR)、移动平均过程(MA)、自回归移动平均过程(ARMA)和单积(整)自回归移动平均过程(ARIMA)。1.自回归过程如果一个线性随机过程可表达为xt=1xt-1+2xt-2+…+pxt-p+ut其中i,i=1,…,p是自回归参数,ut是白噪声过程,则这个线性过程xt称为p阶自回归过程,用AR(p)表示。它是由xt的p个滞后变量的加权和以及ut相加而成。用滞后算子表示1-1L-2L2-…-pLp)xt=L)xt=ut其中L)=1-1L-2L2-…-pLp称为自回归算子,或自回归特征多项式。时间序列模型12.2时间序列模型的分类AR(p)过程中最常用的是1阶自回归过程:xt=1xt-1+ut和2阶自回归过程:xt=1xt-1+2xt-2+ut-6-4-202450100150200250300-300-200-100010020019992000200120022003200420052006D(Y)AR(1)序列中国旅游人数差分序列12.2时间序列模型的分类与自回归模型常联系在一起的是平稳性问题。对于一阶自回归过程xt=1xt-1+ut,保持其平稳的条件是特征方程L)=(1-1L)=0的根的绝对值必须大于1,即满足|1/1|1或|1|1。为什么?在|1|1条件下,一阶自回归过程可写为(1-1L)xt=utxt=(1-1L)-1ut=[1+1L+(1L)2+(1L)3+…]ut=(01iiiL)ut既然xt是平稳过程,01iiiL必须收敛,即一阶自回归系数1必须满足|1|1。这是容易理解的,如果|1|1,则(1-1L)-1发散,于是xt变成一个非平稳随机过程。自回归模型的平稳性12.2时间序列模型的分类由AR(1)过程xt=1xt-1+ut,|1|1有xt=ut+1ut-1+12xt-2=ut+1ut-1+12ut-2+…因为ut是一个白噪声过程,所以对于平稳的AR(1)过程,E(xt)=0Var(xt)=E(xt)2=E(ut+1ut-1+12ut-2+…)2=u2+12u2+14u2+…=2111u212.2时间序列模型的分类不同自回归系数的AR(1)序列xt=1xt-1+ut,:-25-20-15-10-50550100150200250300phi=1-6-4-20246850100150200250300phi=0.8-3-2-10123450100150200250300phi=0.4-4-3-2-10123450100150200250300phi=012.2时间序列模型的分类对于自回归过程AR(p),如果特征方程L)=0的所有根的绝对值都大于1,则该过程是一个平稳的过程。为什么?AR(p)过程的特征多项式若满足上条件,可以分解为(L)=1-1L-2L2-…-pLp=(1-G1L)(1-G2L)...(1-GpL)其中G1-1,G2-1,...,Gp-1是特征方程(L)=0的根。由AR(p)过程L)xt=ut,xt