第五章:OLS的渐进性(OLSAsymptotics)§5.1一致性§5.2渐近正态和大样本推断§5.3OLS的渐进有效性第一节一致性(consistency)一、一致性的含义令Wn是基于样本y1,y2…yn的关于参数θ的估计量,如果对任意ε0,当n→∞时,Pr(|Wn−θ|ε)→0,Wn就是θ的一个一致估计量(consistentestimator)。当Wn具有一致性时,我们也称θ为Wn的概率极限(probabilitylimitofWn),记作Plim(Wn)=θ。1.定义2.为什么要考虑一致性我们已经讨论了有限样本(finitesample),也就是小样本(smallsample)中OLS估计量(OLSestimators)和检验统计量(teststatistics)具有的如下性质:在MLR.1-4下OLS估计量具有无偏性(Unbiasedness)在MLR.1-5下OLS估计量是最优线性无偏无计量(BLUE)在MLR.1-6下OLS估计量是最小方差无偏估计量(MVUE)T统计量的分布为t分布样本容量为任意n时,这些性质都成立。由于在很多情形下误差项可能呈现非正态分布,了解OLS估计量和检验统计量的渐近性,即当样本容量任意大时(whenthesamplesizegrowswithoutbound)的特性就是重要的问题。虽然在高斯-马尔可夫假定下OLS是最优线性无偏估计量,但在别的情形下不一定能找到无偏估计量。因此,在那些情形下,我们只要找到一致的估计量,即n∞时,这些估计量的分布退化为参数的真值即可。当n增加时样本的分布(SamplingDistributionsasnincreases)b1n1n2n3β1的样本分布例:n1:每次从班上抽取10人,抽若干次后,平均身高的分布;n2:每次从班上抽取100人,抽若干次后,平均身高的分布;n3:每次从班上抽取200人,抽若干次后,平均身高的分布。的一致估计量、、、是、、方法得到的下,通过可以证明,在假定的分布紧缩成一个点趋于无穷大时,当的周围。的分布越来越集中在样本容量的增加,随着估计量是一致的,那么概率分布。如果都有一个,估计量,对于每一个的是kkjjjjjjjOLS.MLRnOLSnOLSbbbbbbbbbbbbb1010413.一致性和无偏性的关系(Consistencyv.s.unbiasedness)一个估计量是否有可能在有限样本(小样本)中是有偏的但在大样本条件下又具有一致性?假设Z的真值为0,一个随机变量X以(n-1)/n的概率取值为Z,而以1/n的概率取值为n。那么,X的期望为1,也就是:记plim(x)为n趋向无穷大时x的取值,则有:plim(x)=z=0111nnnnZXE是否有可能一个估计量是无偏的但又不具备一致性?依然假设Z的真值为0,一个随机变量X以0.5的概率取0.5,而以0.5的概率取-0.5,那么X的期望为0,也就是说,X是Z的无偏估计量。但是,X总是在X=0这条线上下摆动,当n趋向无穷大时,它的方差并不会趋于0。因此,X并不是Z的一致估计量,也就是说X不具备一致性。无偏估计量未必是一致的,但是那些当样本容量增大时方差会收缩到零的无偏估计量是一致的。二、OLS估计量的一致性1.定理5.1在假设MLR.1到MLR.4下,OLS截距估计量和斜率估计量都是一致的估计量。2.证明一致性在简单回归中,斜率的估计量为:21111111211111211111ˆxxnuxxnxxuxxxxyxxiiiiiiiiibbbn→∞时,分子趋近于0,但分母却不趋近于0,因此,当n→∞时,Plim()=1ˆb1b3.一个更弱的假定要获得估计量的无偏性(unbiasedness),我们假定零条件期望(zeroconditionalmean):E(u|x1,x2,…,xk)=0而要获得估计量的一致性(consistency),我们可以使用更弱的假定:零期望和零相关性假定,即:E(u)=0,Cov(xj,u)=0,j=1,2,…,k。如果连这个较弱的假定也不成立,OLS将是有偏(biased)而且不一致的(inconsistent)。上述讨论表明:如果OLS估计量是无偏的,那么它一定是一致的;但是如果OLS估计量是一致的,却不能保证它是无偏的。推导不一致性定义渐近偏差(asymptoticbias)为:,并考虑下面的真实模型和待估计模型。11plimbbvxxy22110bbbuxy110bbvxu22b真实的模型为:实际进行估计的模型为:显然:1121~lim0)(ββp,,xxCov则此时,如果12121112211122111111,,,,,~limxVarxxCovxVarvxCovxxCovxVarvxxCovxVaruxCovpbbbbbbbb则:因此,考虑渐近偏差的方向就像是考虑存在一个遗漏变量时偏差的方向。主要的区别在于渐近偏差用总体方差和总体协方差表示,而遗漏变量时的偏差则是基于它们在样本中的对应量。bbb211~limp121,xVarxxCov1211~~bbbE2112111~xxxxxiii1102~~~xx值得注意的是,不一致性是一个大样本问题。因此,当数据增加时候这个问题并不会消失。也就是说,即使样本容量再大,OLS估计的偏误也不会消失,而且会收敛到一个有偏误的值。4.存在内生性时的一致性考虑真实模型为y=b0+b1x1+b2x2+u,但u和x1相关,即cov(u,x1)≠0。则OLS估计量的不一致性(inconsistency)为:1111111111lim0),(lim0),()(),(limbbbbbbpuxCovpuxCovxVaruxCovp,则如果,则如果若x1和x2相关,即cov(x1,x2)≠0,而u和x2不相关,即cov(u,x2)=0时,则对b1和b2的OLS估计量都是不一致的。若x1和x2不相关,即cov(x1,x2)=0,且u和x2不相关,即cov(u,x2)=0时,则只有对b1的OLS估计量是不一致的。存在内生性时对其他参数估计量的一致性的影响)(),(lim1111xVaruxCovpbb5.渐近有效性我们知道,如果总体回归模型满足MLR.1-5,那么OLS估计量是最优线性无偏估计量。事实上,可以证明在这些假定下,OLS估计量是渐近有效的(asymptoticefficient)。也就是说,随着样本容量无限增大,OLS估计量具有最小的渐近方差。第二节渐近正态和大样本推断(AsymptoticNormalityandLargeSampleInference)估计量的一致性是一条重要性质,但我们并不能只靠它来进行统计推断。在经典线性模型假设下,样本的分布是正态分布,因而我们推出t分布和F分布用于检验。这种准确的正态分布来自于总体误差(populationerror)的分布是正态分布的假定。这个正态误差的假定意味着当x给定时,y的分布也是正态分布。为什么需要正态性假定?为了证明无偏性?×为了证明最优线性估计量?×为了能够用t统计量和F统计量做精确的推断?√很容易碰到一些例子,其中严格的正态性假定并不能成立。因为正态分布是对称的,所以,任何一个明显不对称(clearlyskewed)的变量,像拘捕次数,储蓄量等都不可能服从正态分布。当样本容量变大时是否估计量会渐近地趋向于正态分布?我们关注的OLS估计是否量满足渐近正态性。中心极限定理(CentralLimitTheorem)基于中心极限定理,我们能够证明OLS估计量是渐近正态。渐近正态意味着当n时,P(Zz)F(z)或者P(Zz)Ф(z)。中心极限定理指出任何一个均值为μ,方差为σ2的总体的标准化平均值的分布渐近趋同于N0,1,或者记作:1,0~NnYZaY1.中心极限定理是研究独立随机变量和的极限分布为正态分布的问题。2.定理5.2:OLS的渐近正态性(AsymptoticNormalityofOLS)在高斯——马尔科夫假设MLR.1—MLR.5前提下:1)符合渐近正态分布,也就是说:其中,是的渐近方差;,而是xj对其他解释变量进行回归所得到的残差。jbˆ22,0~ˆjjjNnbb22jjjnbbˆ212ˆlimijjrnpijrˆ2)是的一个一致性估计。3)随着样本容量n的扩大,对任意j,都有:2ˆ21,0~ˆˆNsejjjbbb的一致估计量是相应地,2211iukn在定理5.2中什么才是我们的假定误差的分布具有有限的方差(finitevariance)零条件期望(Zeroconditionalmean)同方差性(Homoskedasticity)线性结构(Linearstructure)随机样本(randomsample)1)去掉了正态性假定(normalityassumption)MLR.62)仍然保留以下假定:对定理5.2的理解为什么在1)中考虑的是,而不是jjnbbˆjjbbˆ因为jjjjjjjSSRSSTSSRSSTRSSTVar22221ˆb2jijjxxSST2ˆijjrSSR注意到的样本方差为的样本方差为jxnSSTjijrˆnSSRj2ˆ22ˆrjjnSSRVarb其中,是的总体方差。ijrˆ2ˆr令,那么有:cr2ˆ2ncVarjbˆ当时,以的速度减小到零,因此,只有按照的比例增大,才能讨论渐近分布。njVarbˆn1njbˆ因为自由度很大的t分布接近于正态分布,我们也可以得到:1~ˆˆknajjjtsebbb注意到尽管我们在大样本中不再需要正态性假定,我们仍然需要同方差性(homoskedasticity)。渐近标准误差(AsymptoticStandardErrors)ncseRSSTsejjjjjbbˆ,1ˆˆ22所以,我们预计标准误差减小的速度与成正比。如果u不是正态分布,我们有时把标准误差称作渐近标准误差,因为:n大样本推断(Largesampleinference)OLS估计量的渐近正态性告诉我们,如果样本容量足够大,而且总体回归模型满足MLR.1-5,那么t统计量近似地服从标准正态分布或t分布,从而可以进行t检验。此时,不必要求满足正态性假定。如果样本容量足够大,而且总体回归模型满足MLR.1-5,那么通常的F检验也是适用的。需要注意的是,进行大样本推断的前提是MLR.5(同方差假定)必须成立。拉格朗日乘子统计量(LagrangeMultiplierstatistic)当我们使用大样本并且依靠渐近正态性(asymptoticnormality)进行推断时,除了t和F统计量,我们还可以使用别的统计量。拉格朗日乘子或LM统计量是检验多重限定性约束(multipleexclusionrestrictions)的另一种选择,LM统计量使用一个辅助性的回归(auxiliaryregression),因此它有时也被叫做nR2统计量。对于大样本数据,可以使用LM检验对多个线性假设进行检验,前提是高斯-马尔科夫假定(MLR.1-5)成立假设我们有一个标准模型:y=b0+b1x1+b2x2+...bkxk+u而我们的零假设为:H0:bk-q+1=0,...,bk=0我们的备选假设为:H1:bk-q+1,...,bk中至少有一个不为零pcLMc)q(~nRLM)3(Reu~)2(~~~~~)1(022u2u110qq110的显著性水平精确。当然也可计算出,可以拒绝,如果临界值以及相应的平。对于