异方差和自相关对于经典计量模型,我们的基本假设有:假设对于解释变量的所有观测值,随机误差项有相同的方差。22)()(iiEVar1,2,...in()[()][()]'(')VarUEUEUUEUEUUnnEE11)(μμ21121nnnEI22211100)var(),cov(),cov()var(nnn此时可得:在存在异方差的情况下:21()(')VarXX211()(')'(')VarXXXXXX因此,估计结果无偏,但不是有效的(随机误差项方差变大)。误差项存在异方差:U的方差-协方差矩阵Var(u)主对角线上的元素不相等。212220..00...0......00...n异方差是违背了球型扰动项假设的一种情形。在存在异方差的情况下:(1)OLS估计量依然是无偏、一致且渐近正态的。(2)估计量方差Var(b|X)的表达式不再是σ2(X’X)−1,因为Var(ε|X)≠σ2I。(3)Gauss-Markov定理不再成立,即OLS不再是最佳线性无偏估计(BLUE)。一般截面数据容易产生异方差而时间序列数据容易产生自相关异方差的检验1。残差图2。怀特检验3。Breusch-Pagan(BP)检验4。G-Q检验(Goldfeld-Quandt,1965)5。Szroeter's秩检验(Szreter,1978)后两种现在已经基本不用。1。画图:散点图和残差图。1。残差图:rvfplot(residual-versus-fittedplot)rvpplotvarname(residual-versus-predictorplot)作图命令一定要在回归完成之后进行rvfplotyline(0)2。怀特检验:2。怀特检验命令:做完回归后,使用命令:estatimtest,whiteBreuschandPagan检验根据异方差检验的基本思路,BreuschandPagan(1979)和CookandWeisberg(1983)主要思路:用ei2/avg(ei2)对一系列可能导致异方差的变量作回归。2201122/()...iikkieavgeaaXaXaXuH0:a1=a2=...=0(不存在)H1:a1,a2...不全为0(存在)Step1:估计原方程,提取残差,并求其平方ei2。Step2:计算残差平方和的均值avg(ei2)。Step3:估计方程,被解释变量为ei2/avg(ei2),解释变量依然为原解释变量。Step4:构造统计量Score=0.5*RSS服从自由度为k的卡方分布。查表检验整个方程的显著性。注意:在第3步中,方便起见也可以用被解释变量的拟合值作为解释变量。3。BP检验:做完回归后,使用命令:estathettest,normal(使用拟合值yˆ)estathettest,rhs(使用方程右边的解释变量,而不是yˆ)最初的BP检验假设扰动项服从正态分布,有一定局限性。Koenker(1981)将此假定放松为iid,在实际中较多采用,其命令为:estathettest,iidestathettest,rhsiid1.sysuseauto,clearregpriceweightlengthmpg检查是否具有异方差。2。regweightlengthmpg检查是否具有异方差。3。useproduction,clearreglnylnklnl检查是否具有异方差4。usenerlove,clearreglntclnqlnpllnpflnpk检验是否具有异方差异方差的处理1。使用“OLS+异方差稳健标准误”(robuststandarderror):这是最简单,也是目前比较流行的方法。只要样本容量较大,即使在异方差的情况下,只要使用稳健标准误,则所有参数估计、假设检验均可照常进行。sysusenlsw88,clearregwagettl_expraceageindustryhoursregwagettl_expraceageindustryhours,r2。利用广义最小二乘法(GLS)广义最小二乘法是对原模型加权,使之变成一个新的不存在异方差性的模型,然后采用普通最小二乘法估计其参数。其含义为Var(b)=σ2(X'X)-1(X'ΣX)(X'X)-1通过加权使得Σ=I因此,GLS和WLS要求Σ已知。加权最小二乘法(WLS):sysuseauto,clearregpriceweightlengthforeignestathettest,normal假设异方差由weight引起,即:22*iilengthregpriceweightlengthforeign[aw=1/length]estathettest,normal2212*(**)iiialengthaforeign在本题中,造成异方差的更可能是解释变量的线性组合,例如:此时需要下载命令wls0finditwls0wls0priceweightlengthforeign,wvar(lengthforeign)type(e2)estathettest,normalGLS和WLS的一个缺点是假设扰动项的协方差矩阵为已知。这常常是一个不现实的假定。因此,现代计量经济学多使用“可行广义最小二乘法”(FGLS)。可行广义最小二乘法FGLS(1)对原方程用OLS进行估计,得到残差项的估计ûi,(2)计算ln(ûi2)(3)用ln(û2)对所有可能产生异方差的的解释变量进行回归,然后得到拟合值ĝi(4)计算ĥi=exp(ĝi)(5)用1/ĥi作为权重,做WLS回归。FGLS的步骤predictu,resgenlnu2=ln(u^2)reglnu2x1x2…predictg,xbgenh=exp(g)geninvvar=1/hregyx1x2…[aweight=invvar]使用FGLS方法对nerlove.dta的方程重新进行估计。结论:1.GLS估计是BLUE的(如果Σ矩阵已知且设置正确),但FGLS不一定是BLUE的(FGLS估计时要事先估计Σ矩阵的参数,需要做一些假设)。2.Robust稳健性估计更加稳健,而FGLS更加有效,选择时要在稳健性和有效性之间进行权衡。在实际应用中,避免异方差的两种方法。其一,使不同变量的测度单位接近。比如,不同国家的收入和消费数据。如果利用总收入和总消费进行分析,由于不同国家的总量相差非常巨大,因此模型中难免出现异方差。如果利用人均收入和人均消费进行分析,就可以使得减弱不同国家变量之间的测度差异,从而降低异方差的程度甚至消除异方差。其二,可能的情况下对变量取自然对数。变量取对数降低了变量的变化程度,因此有助于消除异方差。自相关经典假设随机误差项彼此之间不相关njiji,,2,1,如果存在自相关,则:0)(),(jijiECov(,)0ijCOVuu时间序列数往往存在着自相关,即:1(,)0iiCOVuu(,)0iikCOVuu一般时间序列数据中,i.i.d假设不成立如果存在自相关:随机误差项的方差-协方差矩阵的非主对角线上的元素不为0。1222121..1...().........1nnnnVaru自相关包含一阶自相关和高阶自相关。一阶自相关:1tttuuv212...ttttuuuv高阶自相关:考察英国政府如何根据长期利率(r20)的变化来调整短期利率(rs),数据集为ukrates.dta(1)做如下回归:,其中:回归方程为:useukrates,cleartssetmonthregD.rsLD.r20tttrrs1201tttrsrsrs211202020tttrrr自相关的检验1。图形法:自相关系数和偏自相关系数predicte1,resace1pace1corrgrame1,lag(10)2。t检验和F检验(wooldridge)思想:t检验,如果存在一阶自相关,残差项与其一阶滞后项回归后系数显著,如果解释变量非严格外生,回归时可加入解释变量。rege1L.e1rege1L.e1LD.r20同理,可以用F检验检验是否存在高阶自相关rege1L(1/2).e13。DW检验:只能检验一阶自相关的序列相关形式,并且要求解释变量严格外生。根据样本个数和自由度查表得到DL和DU,并且构造不同的区域。regD.rsLD.r20dwstatRejectH0UncertaintyAcceptH0UncertaintyRejectH00DLDU4-DU4-DL4经验上DW值1.8---2.2之间接受原假设,不存在一阶自相关。DW值接近于0或者接近于4,拒绝原假设,存在一阶自相关。4。Q检验和Bartlett检验regD.rsLD.r20predicte2,reswntestqe2wntestqe2,lag(2)wntestbe2如果不能保证解释变量严格外生,例如解释变量中包含被解释变量的滞后项,可以用以下方法:5。D-W’sh检验estatdurbinaltestatdurbinalt,lag(2)6。对于高阶自相关的检验方法:B-G检验bgodfreybgodfrey,lag(2)自相关的处理1.使用OLS+异方差自相关稳健的标准误(HAC)方法被称为Newey-West估计法(NeweyandWest,1987)regD.rsLD.r20neweyD.rsLD.r20,lag(1)(假设存在一阶自相关)neweyD.rsLD.r20,lag(2)(假设存在二阶自相关)系数完全相同,但标准差和t值不同。可行广义最小二乘法(FGLS):广义差分法:CO-PW方法Cochrane-Orcutt(1949)估计(舍弃第一期观察值)Prais-Winsten(1954)估计(对第一期观察值进行处理sqrt(1-rho^2)*y1)Cochrane-Orcutt(1949)估计(舍弃第一期观察值)praisD.rsLD.r20,corcpraisD.rsLD.r20,rho(dw)corcPrais-Winsten(1954)估计(对第一期观察值进行处理sqrt(1-rho^2)*y1)praisD.rsLD.r20praisD.rsLD.r20,rho(dw)时间序列一般样本不会太大,因此不要轻易舍弃。多重共线性直观上说:当模型的R2非常高,但多数解释变量都不显著,甚至系数符号相反,可能存在多重共线性完全的多重共线性stata会自动drop掉,例如gendom=1-foreignregpriceweightlengthforeigndom多重共线性的检验:膨胀因子estatvif经验上当(1)VIF的均值=2(2)VIF的最大值接近或者超过10认为有较为严重的多重共线性。多重共线性的处理1。不作处理:如果模型重点关注的是整体对被解释变量的解释能力,而不是具体回归系数是否显著,则可不处理。2。不作处理:如果存在多重共线性,但变量显著,此时消除多重共线性,只会使变量更加显著,此时可不作处理。3。删除引起多重共线性的某个变量。4。合并引起多重共线性的变量,例如,a和b是引起多重共线性的变量,引入新变量c=a/b,同时删除a和b。5。增大样本容量。regpricempgweightlengthforeignestatvif还可以利用解释变量的相关系数pwcorrmpgweightlengthforeign结论:weight和length具有严重的多重共线性可以考虑去掉weight。regpricempglengthforeignestatvifpwcorrmpglengthforeign多重共线性基本消除