第10章自相关:如果误差项相关会有什么结果第10章2本章我们考虑模型如果不满足基本假定中的无自相关假定的情况。我们将考察以下问题:(1)自相关的性质?(2)自相关的理论后果和实际后果?(3)自相关的诊断?(4)自相关的补救措施?第10章310.1自相关的性质10.2自相关的后果10.3自相关的诊断10.4补救措施10.5如何估计10.6校正OLS标准误的大样本方法:Newey-West方法10.7小结第10章4返回首页10.1自相关的性质自相关:在时间(如在时间序列数据中)或者空间(如在横截面数据中)按顺序所列观察值序列的各数据间存在着相关。或者简单说,序列自身前后期数据间存在相关性,称为自相关。在古典线性回归模型中有这样一条假定:随机扰动项中不存在自相关。也即:jiuuEji0)(但是如果随机扰动项前后期之间存在着某种依赖关系,便产生了自相关问题。jiuuEji0)((10-1)(10-2)第10章5图10-1给出了自相关和非自相关的类型。在纵轴上,同时给出了ui(总体扰动项)及相应的(样本扰动项)ei。图10-1a到c表明了u中存在可辨别的模式,而图10-1d则表明不存在系统模式,表示支持古典线性回归模型(10-1)关于无自相关的假定。第10章6(a)(b)(c)(d)ui,eiui,eiui,eiui,eitttt第10章71.惯性2.模型设定误差3.蛛网现象4.数据处理自相关产生的原因:返回首页第10章810.1.1惯性大多数经济时间序列的一个显著特征就是惯性(inertia)或者说是迟缓性(sluggishness)。例如国民生产总值、就业、货币供给、价格指数等时间序列,都呈现商业循环(在经济活动中重复发生或者自我维持波动)。因此,在涉及时间系列数据的回归方程中,连续的观察值之间很可能是相关的。第10章910.1.2模型设定误差回归模型的不恰当设定也可能产生自相关。包括:模型中遗漏重要变量或是模型选择了错误的函数形式等。如果发生这样的模型设定误差(modelspecificationerrors),则重新选择模型后就可以解决自相关问题。第10章1010.1.3蛛网现象许多农产品的供给都呈现出所谓的蛛网现象(thecobwebphenomenon),即供给对价格的反应滞后了一个时期,农民本年度的种植计划是受上一年度价格的影响,所以他们的供给函数为:供给t=B1+B2Pt-1+ut(10-3)在这种情形下,扰动项ut并不是完全随机的,因为,如果农民在第t年生产多了,则他们很可能会在第(t+1)年少生产一些,这样下去,就会形成蛛网模式。第10章11价格产量D(p)S(p)0.06250.06250.06250.30.4250.5831.9)(85.0)1()(127)(tptStptD第10章1210.1.4数据处理在实证分析中,通常原始数据是要经过加工的。例如,在季度数据的时间序列回归中,数据通常是通过月度数据推导而来的,即将3个月的数据简单加总并除以3。这样平均的结果,消除了月度数据的波动性,而这种“平滑”过程本身就可能导致扰动项的系统模式,从而导致自相关。第10章1310.2自相关的后果1.最小二乘估计量是线性无偏但非有效2.OLS估计量的方差是有偏的3.T检验和F检验失效4.计算所得误差方差可能低估了真实方差5.拟合优度检验失效6.预测的方差和标准差无效返回首页第10章1410.3自相关的诊断10.3.1图形法10.3.2杜宾-瓦尔森d检验10.3.3游程检验返回首页第10章15例10.1美国商业部门真实工资与生产率的关系表10-1给出了1959~2006年间美国商业部门真实工资(真实小时工资)与劳动生产率的数据,估计的工资-生产率回归模型如下:下表给出这一回归结果的残差的相关数据(部分)。DependentVariable:RWAGESVariableCoefficientStd.Errort-StatisticProb.C33.636031.40008524.024280.0000PRODUCT0.6614440.01564042.291780.0000R-squared0.974926Meandependentvar90.72910AdjustedR-squared0.974381S.D.dependentvar16.06763S.E.ofregression2.571761Akaikeinfocriterion4.767833Sumsquaredresid304.2420Schwarzcriterion4.845800Loglikelihood-112.4280F-statistic1788.595Durbin-Watsonstat0.146315Prob(F-statistic)0.000000(10-4)第10章16表10-2工资-生产率一例的残差及相关数据etet-1D=et-et-1D2et2Signet(1)(2)(3)(4)(5)(6)e1-5.5315---30.5980-e2-4.6395-5.53150.89200.795821.5250-e3-4.0293-4.63950.61020.372416.2351-e4-3.4225-4.02930.60680.368211.7136-e5-3.3494-3.42250.07310.005311.2184-e6-2.9543-3.34940.39500.15618.7282-e7-2.8642-2.95430.09020.00818.2036-e8-1.8191-2.86421.04511.09233.3090-e9-0.8831-1.81910.93600.87610.7798-e100.4787-0.88311.36181.85450.2292+e111.38270.47870.90400.81721.9119+e121.97211.38270.58940.34743.8894+e131.60041.9721-0.37170.13822.5613+e142.56871.60040.96830.93766.5982+e152.86942.56870.30070.09048.2332+e162.55802.8694-0.31140.09696.5434+e171.73622.5580-0.82180.67533.0145+e182.48491.73620.74860.56046.1745+e192.80542.48490.32050.10277.8701+e203.63422.80540.82890.687013.2076+返回10.3.3第10章1710.3.1图形法检验自相关1.et-t图下面的et-t图表明:残差随时间表现出一定的规律,可据此判断模型中可能存在自相关。-6-4-2024660657075808590950005RWAGESResiduals第10章18图10-4方程(10-4)式的残差相关图2.et-et-1图下面的et-et-1图表明:残差与滞后一期的残差之间存在正自相关,也即原模型存在正自相关。第10章1910.3.2杜宾-瓦尔森d检验(也称DW检验)杜宾-瓦尔森d统计量定义为:nttnttteeed12221例如利用表(10-2)中,可计算得:1463.0242.3045150.44d(10-5)第10章20注意作为d统计量最基础的一些假设:(1)回归模型包括一个截距项。因此,d统计量无法用来判定那些通过原点的回归模型的自相关问题。(2)变量X是非随机变量。(3)扰动项ut的产生机制是:ut=ρut-1+vt-1≤ρ≤1(10-6)称为马尔可夫一阶自回归或者简称为一阶自回归,通常标记为AR(1)。这是最常见的一种序列相关问题。ρ称为自相关系数。第10章21(4)在回归方程中,并没有把应变量的滞后值作为解释变量。即该检验对下面的模型是不适用的:Yt=B1+B2Xt+B3Yt-1+ut(10-7)其中Yt-1是应变量Y的一期滞后值。称这类模型为自回归模型。第10章22下面我们来看d与自相关系数ρ的关系:nttnttteee1221ˆˆ12d我们可以证明对大样本来说,式(10-5)可以近似地表达如下:其中:有:-1≤ρ≤1,则0≤d≤4,且:ρ值d值(近似)1.ρ=-1(完全负相关)d=42.ρ=0(无自相关)d=23.ρ=1(完全正相关)d=0第10章23杜宾和瓦尔森给出了D-W表,可以根据样本容量n和解释变量k查D-W表得到用以判断自相关的上下限dL和du,判断依据如下:0dLdu24-du4-dL4存在正自相关无法判断无法判断无自相关存在负自相关d图10-5杜宾-瓦尔森d统计量第10章24D-W检验的步骤如下:(1)进行OLS回归并获得残差(2)计算d值(3)查表得临界值(4)根据上面规则进行判断第10章25例工资-生产率方程由工资-生产率方程(10-4)可得d=0.1463,对n=48,k=1,查表得临界值为1.503和1.585(5%显著水平下的上下限),由于计算所得的d值低于这个临界下限,因此可认为模型存在正自相关。第10章26d检验的缺陷是:如果计算得到的d值落入非决策区域或者说是盲区(见图10-5),那么我们就无法作出是否存在自相关的结论。在这种情形下也可以使用非参数检验和图形检验。另外需要注意的是:如果d检验本身所需条件都不满足的话,那么就无法使用这种检验方法了。特别需要指出的是:d检验不能对形如式(10-7)的自回归模型进行序列相关检验。第10章2710.3.3游程检验方法:记录下残差的符号(+或者-),相连的符号构成一个游程。例如下面的这些符号:(+++++++)(-)(+++)(-----)(++++)共20个残差,有5个游程(一组括号表示一个游程,括号内所包含的符号个数定义为游程的长度)。若残差序列中游程太多,它意味着e在频繁地变换着符号,表明存在负的序列相关。类似地,如果游程太少,则意味着正的自相关。第10章28令N—观察值的总个数(=N1+N2);N1—+号(也就是正的残差)的个数;N2—-号(也就是负的残差)的个数;在残差是独立的假设下,Swed和Eisenhart建立了一些特殊的表格,这些表格给出了在N个观察值的随机次序下预期游程的临界值。第10章29例如上例,N=20,N1=14(正值数),N2=6(负值数),k=5(游程数),查表得临界值是5,所以拒绝零假设,模型中存在自相关。对于小样本,我们可以利用Swed-Eisenhart游程临界值表来确定临界值,对于大样本(N大于30),游程分布近似于正态分布,可通过正态分布表来确定临界值。第10章3010.4补救措施返回首页由于自相关可能导致非常严重的后果,所以我们有必要寻找一些补救措施。补救措施取决于我们对误差项ut相互依赖的性质的了解。常用的补救措施有以下几种:广义差分法、科克兰内-奥克特法、杜宾两步法。本章我们给大家主要介绍的是广义差分法。第10章3110.4补救措施若已知模型Yt=B1+B2Xt+ut存在如下自相关:ut=ρut-1+vt-1≤ρ≤1现在对该模型作变化以消除自相关:对Yt-1=B1+B2Xt-1+ut-1(10-12)两边同乘以ρ,得到:ρYt-1=ρB1+ρB2Xt-1+ρut-1(10-13)将上面两式相减,可得:Yt-ρYt-1=B1-ρB1+B2(Xt-Xt-1)+vt(10-14)该方程即为消除自相关后的方程。返回首页广义差分法第10章32即:Yt*=B1*+B2Xt*+vt(10-15)其中,Yt*=(Yt-ρYt-1);Xt*=(Xt-ρXt-1);B1*=B1(1-ρ)对变换后的模型使用OLS得到的估计量称为广义最小二乘(generalizedleastsquares)估计量(GLS)。我们将方程(10-14)或(10-15)称为是广义差分方程(generalizeddifferenceequation)。第10