§8.1时间序列平稳性和单位根检验StationaryTimeSerialandUnitRootTest一、时间序列的平稳性二、单整序列三、单位根检验•经典时间序列分析模型:–包括MA、AR、ARMA模型–平稳时间序列模型–分析时间序列自身的变化规律•现代时间序列分析模型:–分析时间序列之间的结构关系–单位根检验、协整检验是核心内容–现代宏观计量经济学的主要内容一、时间序列的平稳性StationaryTimeSeries⒈问题的提出•经典计量经济模型常用到的数据有:–时间序列数据(time-seriesdata);–截面数据(cross-sectionaldata)–平行/面板数据(paneldata/time-seriescross-sectiondata)•时间序列数据是最常见,也是最常用到的数据。•经典回归分析暗含着一个重要假设:数据是平稳的。•数据非平稳,大样本下的统计推断基础——“一致性”要求——被破怀。•数据非平稳,往往导致出现“虚假回归”(SpuriousRegression)问题。–表现为两个本来没有任何因果关系的变量,却有很高的相关性。–例如:如果有两列时间序列数据表现出一致的变化趋势(非平稳的),即使它们没有任何有意义的关系,但进行回归也可表现出较高的可决系数。2、平稳性的定义•假定某个时间序列是由某一随机过程(stochasticprocess)生成的,即假定时间序列{Xt}(t=1,2,…)的每一个数值都是从一个概率分布中随机得到,如果满足下列条件:–均值E(Xt)=是与时间t无关的常数;–方差Var(Xt)=2是与时间t无关的常数;–协方差Cov(Xt,Xt+k)=k是只与时期间隔k有关,与时间t无关的常数;•则称该随机时间序列是平稳的(stationary),而该随机过程是一平稳随机过程(stationarystochasticprocess)。宽平稳、广义平稳•白噪声(whitenoise)过程是平稳的:Xt=t,t~N(0,2)•随机游走(randomwalk)过程是非平稳的:Xt=Xt-1+t,t~N(0,2)Var(Xt)=t2•随机游走的一阶差分(firstdifference)是平稳的:Xt=Xt-Xt-1=t,t~N(0,2)•如果一个时间序列是非平稳的,它常常可通过取差分的方法而形成平稳序列。二、平稳性的图示判断10•平稳随机过程的均值和方差函数是常数,意味着平稳时间序列的取值必然围绕一个水平的中心趋势,以相同的发散程度分布。•根据这一点,可以从数据分布图形直接对数据是否平稳进行判断。•例如当时间序列数据的连线图形出现类似图8.1.1a的情况时,就肯定不是平稳时间序列,因为这两种图形表明时间序列数据都没有不变的中心趋势,或者说中心趋势是变化的,而且也没有稳定的方差。11•多数经济时间序列有上升或下降的趋势性,而不是围绕不变水平波动。•例如图8.1.1b中的时间序列数据就是有明显的上升趋势的时间序列数据。•不符合平稳性定义,但围绕稳定上升趋势的形态与平稳数据是相似的,预测作用也相似。把这种数据排除在平稳序列之外,平稳序列的应用价值必然受到很大限制。12•这个问题可以通过对平稳性概念的扩展解决。•方法是把数据的趋势部分看成先分离出来,然后根据分离趋势后的纯随机部分判定平稳性。•例如一个时间序列t时刻的随机变量可以表示为,其中是一个平稳序列,那么该序列去掉时间趋势之后的部分就是平稳的,称为“趋势平稳”。•趋势平稳时间序列中的时间趋势既可以是线性,也可以是非线性的。tttYtt13自相关图检验•原理:平稳时间序列过程的自协方差,或由协方差计算的自相关函数,应该很小、很快趋向于0,具有截尾或拖尾特征。这些特征正是判断时间序列平稳性的重要依据。•由于自相关是相对量指标,方便横向比较和建立一般标准,因此通常利用自相关函数进行判断。•利用自相关函数判断时间序列平稳性的首要问题是计算自相关函数。14•自相关函数是以协方差函数为基础定义的,其中和分别为协方差和方差函数。•因为只有时间序列的一个实现,因此不可能根据随机变量协方差、方差的定义计算,只能用样本,也就是时间序列观测值的时间平均代替总体平均,时间矩代替总体矩,得到自相关函数的估计。0/kk),(kttkYYCov0()tVarY15•自相关函数最好的估计方法是样本自相关函数:其中:0ˆˆˆkknYYYYntkttk1))((ˆ210()ˆnttYYn16•对不同的k分别计算出样本自相关函数的值以后,可以描绘出对应不同k的的分布图形,根据图形的特征判断时间序列是否平稳。•当样本自相关函数的值(对不同k)有许多落在临界值范围外时,初步判断有非平稳性。•常用计量分析软件都有给出序列相关图的功能,因此运用相关图检验时间序列的平稳性非常方便。kˆkˆ三、平稳性的单位根检验(unitroottest)1、DF检验(Dicky-FullerTest)•通过上式判断Xt是否有单位根,就是时间序列平稳性的单位根检验。tttXX1tttXX1tttttXXX11)1(随机游走,非平稳对该式回归,如果确实发现ρ=1,则称随机变量Xt有一个单位根。等价于通过该式判断是否存在δ=0。•一般检验模型tttXX1tttXX1零假设H0:=0备择假设H1:0可通过OLS法下的t检验完成。•但是,在零假设(序列非平稳)下,即使在大样本下t统计量也是有偏误的(向下偏倚),通常的t检验无法使用。•Dicky和Fuller于1976年提出了这一情形下t统计量服从的分布(这时的t统计量称为统计量),即DF分布。•由于t统计量的向下偏倚性,它呈现围绕小于零均值的偏态分布。•如果t临界值,则拒绝零假设H0:=0,认为时间序列不存在单位根,是平稳的。单尾检验样本容量显著性水平2550100500∝t分布临界值(n=∝)0.01-3.75-3.58-3.51-3.44-3.43-2.330.05-3.00-2.93-2.89-2.87-2.86-1.650.10-2.63-2.60-2.58-2.57-2.57-1.282、ADF检验(AugmentDickey-Fullertest)•为什么将DF检验扩展为ADF检验?•DF检验假定时间序列是由具有白噪声随机误差项的一阶自回归过程AR(1)生成的。但在实际检验中,时间序列可能由更高阶的自回归过程生成,或者随机误差项并非是白噪声,用OLS法进行估计均会表现出随机误差项出现自相关,导致DF检验无效。•如果时间序列含有明显的随时间变化的某种趋势(如上升或下降),也容易导致DF检验中的自相关随机误差项问题。•ADF检验模型tmiitittXXX11tmiitittXXX11tmiitittXXtX11零假设H0:=0备择假设H1:0模型1模型2模型3•检验过程–实际检验时从模型3开始,然后模型2、模型1。–何时检验拒绝零假设,即原序列不存在单位根,为平稳序列,何时停止检验。–否则,就要继续检验,直到检验完模型1为止。•检验原理与DF检验相同,只是对模型1、2、3进行检验时,有各自相应的临界值表。•检验模型滞后项阶数的确定:以随机项不存在序列相关为准则。模型统计量样本容量0.010.0250.050.1025-2.66-2.26-1.95-1.6050-2.62-2.25-1.95-1.61100-2.60-2.24-1.95-1.61250-2.58-2.23-1.95-1.61500-2.58-2.23-1.95-1.611500-2.58-2.23-1.95-1.6125-3.75-3.33-3.00-2.6250-3.58-3.22-2.93-2.60100-3.51-3.17-2.89-2.58250-3.46-3.14-2.88-2.57500-3.44-3.13-2.87-2.57500-3.43-3.12-2.86-2.57253.412.972.612.20503.282.892.562.181003.222.862.542.172503.192.842.532.165003.182.832.522.1625003.182.832.522.16模型统计量样本容量0.010.0250.050.1025-4.38-3.95-3.60-3.2450-4.15-3.80-3.50-3.18100-4.04-3.73-3.45-3.15250-3.99-3.69-3.43-3.13500-3.98-3.68-3.42-3.13500-3.96-3.66-3.41-3.12254.053.593.202.77503.873.473.142.751003.783.423.112.732503.743.393.092.735003.723.383.082.725003.713.383.082.72253.743.252.852.39503.603.182.812.381003.533.142.792.382503.493.122.792.385003.483.112.782.3835003.463.112.782.38•一个简单的检验过程:–同时估计出上述三个模型的适当形式,然后通过ADF临界值表检验零假设H0:=0。–只要其中有一个模型的检验结果拒绝了零假设,就可以认为时间序列是平稳的;–当三个模型的检验结果都不能拒绝零假设时,则认为时间序列是非平稳的。3、例:检验1978-2000年间中国支出法GDP时间序列的平稳性•例8.1.6检验1978~2006年间中国实际支出法国内生产总值GDPC时间序列的平稳性。•下面演示的是检验1978~2000年间中国支出法国内生产总值GDPC时间序列的平稳性。•方法原理和过程是一样的,例8.1.6可以作为同学的练习。21101.150.10093.027.22933.1011ttttGDPGDPGDPTGDP(-1.26)(1.91)(0.31)(8.94)(-4.95)•首先检验模型3,经过偿试,模型3取2阶滞后:需进一步检验模型2。LM(1)=0.92,LM(2)=4.16系数的t临界值,不能拒绝存在单位根的零假设。时间T的t统计量小于ADF临界值,因此不能拒绝不存在趋势项的零假设。小于5%显著性水平下自由度分别为1与2的2分布的临界值,可见不存在自相关性,因此该模型的设定是正确的。•检验模型2,经试验,模型2中滞后项取2阶:21115.165.1057.045.357ttttGDPGDPGDPGDP(-0.90)(3.38)(10.40)(-5.63)LM(1)=0.57LM(2)=2.85常数项的t统计量小于AFD分布表中的临界值,不能拒绝不存常数项的零假设。LM检验表明模型残差不存在自相关性,因此该模型的设定是正确的。GDPt-1参数值的t统计量为正值,大于临界值,不能拒绝存在单位根的零假设。需进一步检验模型1。•检验模型1,经试验,模型1中滞后项取2阶:GDPt-1参数值的t统计量为正值,大于临界值,不能拒绝存在单位根的零假设。211194.1701.1063.0ttttGDPGDPGDPGDP(4.15)(11.46)(-6.05)LM(1)=0.17LM(2)=2.67LM检验表明模型残差项不存在自相关性,因此模型的设定是正确的。可断定中国支出法GDP时间序列是非平稳的。ADF检验在Eviews中的实现ADF检验在Eviews中的实现ADF检验在Eviews中的实现—检验GDPPADF检验在Eviews中的实现—检验GDPP•从GDPP(-1)的参数值看,其t统计量的值大于临界值,不能拒绝存在单位根的零假设