1第二章线性回归模型回顾与拓展(12-15学时)第四节三大检验(LRWaldLM)一、极大似然估计法(ML)(一)极大似然原理假设对于给定样本,YX,其联合概率分布存在,,;fYX。将该联合概率密度函数视为未知参数的函数,则,;fYX称为似然函数(LikelihoodFunction)。极大似然原理就是寻找未知参数的估计ˆ,使得似然函数达到最大,或者说寻找使得样本,YX出现的概率最大ˆ。(二)条件似然函数VS无条件似然函数,;;;fYXfYXfX若与没有关系,则最大化无条件似然函数,;fYX等价于分别最大化条件似然函数;fYX和边际似然函数;fX,从而的最大似然估计就是最大化条件似然函数;fYX。(三)线性回归模型最大似然估计YXu,2(0,)uNI2222()()(,;,)(2)exp{}2nYXYXLYX对数似然函数:22()()2222nnYXYXlLnLLnLn于是22241ˆ(22)0ˆˆ21ˆˆ()()0ˆˆˆ22lXYXXlnYXYX2得到12ˆ()1ˆMLMLXXXYeen(三)得分(Score)和信息矩阵(InformationMatrix)(;,)lfYX称为得分;12...kllll得分向量;(Gradient)海瑟矩阵(HessianMatrix):2lH信息矩阵:三*、带约束条件的最小二乘估计(拉格朗日估计)在计量经济分析中,通常是通过样本信息对未知参数进行估计。但有些时候可能会遇到非样本信息——对未知参数的约束限制(如生产函数中的规模报酬不变等)。在这种情况下,我们就可以采用拉格朗日估计法。对于线性模型(1),若其参数具有某种线性等式约束:0H(6)其中H是mk矩阵(mk,()rankHm)。可视为除分量0以外的1k矩阵。上式表明未知参数12,,,k之间的某些线性关系的信息。现在的问题是寻求满足上式又使()()YXYX达到最小的估计量0ˆH。3为此,构造拉格朗日函数。(是1m的向量)()()LYXYXH(7)于是ˆˆ220ˆHHHLXYXXH(8)ˆ0ˆHHLH(9)由(8)可得11ˆˆˆ()2HHXXH(10)(10)式的ˆ是OLS的估计量。两边再左乘H,并结合(9)式有11ˆˆˆ0()2HHHHHXXH所以,11ˆˆ2[()]HHXXHH代入(10)式,我们便得到估计量:111ˆˆˆ()[()]HXXHHXXHH(11)这就是拉格朗日估计,或称为带约束的最小二乘估计。它既利用了样本信息,也利用了非样本信息。另外,ˆH也是带约束的极大似然估计量(证明从略)。四、广义最小二乘估计(GLS)1、数理过程在实际经济问题的分析过程中,常常遇到古典假定中2的不满足,即随机扰动项存在异方差或自相关。比如利用截面数据进行分析时,随机因素的方差会随着解释变量的增大而增大(即所谓的递增异方差——如在研究消费收入的关系时,随着收入的增加,随机因素的变化会增大)。而利用时间序列数据进行分析时,由于经济变量的惯性作用,随机扰动项之间也会有联系,较为普遍的现象是4扰动项的一阶自相关。(即1tttuu)当存在异方差或自相关的情况下,传统的OLS不再是有效估计,这时,我们应采用广义最小二乘法来解决这类问题。具体地,2'Euu(12)其中212122nnww时tu存在异方差,1221211111nnnn时tu存在一阶自相关。需要说明的是,无论是异方差还是自相关,矩阵是正定矩阵。于是,存在非奇异矩阵P,使得PP或1()PPI在模型YXu两边同时左乘1P,得111PYPXPu或写成***YXu(13)此时,**111212'['()]()EuuEPuuPPPI即*u已无异方差和自相关。那么,对(13)式运用OLS可以得到**1**11111111ˆ()(())()()XXXYXPPXXPPYXXXY(14)5这就是未知参数的广义最小二乘估计量GLS。它同样具有良好的统计性质。即它是无偏的、一致的、渐近正态211ˆˆ(,())EVarXX的估计量。换句话说,GLS估计量是广义模型中的最小方差线性无偏估计。这就是所谓的Aitken定理,当I时高斯—马尔科夫定理为其特例。2、WLS和广义差分法广义最小二乘法是处理异方差和自相关问题的一般良好估计方法。当已知时,比如异方差时,各个22iiw已知,此时,矩阵P12wPw,11211wPw11*1nnYwYPYYw,11*1nnXwXPXXw,11*1nnuwuPuuw。这时由(13)式估计出来的,其实同加权最小二乘估计(WLS)是相同的。换句话说,加权最小二乘实际上是广义最小二乘的特例。再比如随机扰动项有一阶自相关且已知,此时1221211111nnnnPP,可以算得2100001100001000001P那么(13)式中的621*12111nnYYYYPYYY,21*12111nnXXXXPXXX此时估计(13)式得出的ˆ,其实就是所谓的广义差分法。也就是说广义差分法也是GLS的特例。所以,GLS是一个普遍适用的方法。3、未知时的GLS当然,上述情形只是已知的情况。而在现实应用时,往往是未知的。于是我们面临一个问题——如何确定?回答当然是对中的未知量进行估计(比如自相关中的,异方差中的iW)。那么又该如何估计呢?在回答这个问题之前,我们先考察一下GLS与最大似然估计的关系(可对照OLS与ML的关系)一般来说,当2(0,)N或2(,)YNX时,Y的对数似然函数为221112()()()222nInLInInYXYX或者考虑到PP,而1*PYY、1*PXX,又有(经过适当的运算)2****21lnln2lnln||()()222nnLPYXYX最大化上式,对求导令其为0,可得到的极大似然估计量(它其实就是GLS)。对或P中的未知量求导令其为0,可得到中未知量(比如)的估计。这是一种理论上可行的方法,但实际操作可能会遇到障碍,尤其是在有异方差存在时。为此,我们介绍另一种方法——可行广义最小二乘法FGLS4、可行广义最小二乘法(FGLS)异方差的具体形式是复杂多样的,但总的来说都是与解释变量有关的,随解释变量的变化而变化。以下三种假设情况基本上涵盖了文献中讨论过的大多数情形。7(i)2011iipipZZ(ii)011iipipZZ(iii)2011iipiplnZZ(或2011exp()iipipZZ)我们称这些方程为扰动项方差的辅助方程。式中的Z是原模型中部分或全部的X或X的函数(比如21121312Z=X,Z=X,ZXX等等)。可行广义最小二乘法的基本思想就是,先利用辅助函数求得参数估计值ˆi,然后得出估计值ˆi从而得到ˆ及最终的GLS结果。FGLS的步骤如下:(1)Y对常数项和12,,,KXXX回归,求得的OLS估计值;(2)计算残差011ˆˆˆiiikkieYXX(3)选择上述方程的适当形式(3i)2ie对常数项及1,,PZZ回归,求得的估计值。这是针对上述(i)的情况。式中的Z为原来X的平方或交叉乘积。然后把这些的估计值代回(i)便得到2i的估计值2ˆi。再使用GLS或WLS得出最终结果。需要指出的是,这种方式并不能保证所有的2ˆi都为正,如果其中出现了0或负数,那么我们就只能使用原来的2ie代替2ˆi了。(3ii)对应于上述方程(ii),让ie对常数项及1,,PZZ回归,求得的OLS估计值,代入(ii)得到ˆi,然后使用GLS或WLS(此时选择权数为1ˆi,如ˆi为负,那么权数为1ie)。(3iii)对应于方程(iii),让2ilne对常数项及1,,PZZ回归,求出的OLS估计值,再代回(iii)求得2ˆiln或2ˆi。然后利用GLS或WLS得出结果。这里值得一提的是,此时的2ˆi只会产生正值,不存在0或负的情况,这也是此种8方法很有吸引力的地方。以上便是可行广义最小二乘法的一般步骤。由此得到的FGLS估计量是一致估计量。而且他们的方差和协方差也是一致的。同时渐近地(大样本场合)比OLS估计更有效。五、矩估计及GMM简介事实上就参数估计方法来说,矩估计是最简便直观的方法。即用样本矩作为总体矩的估计。矩估计广义矩估计综上所述,我们将传统的单一方程的估计方法总结如下:OLS(BLUE)ML(OLS)LM(WLS(GLS(()FGLS()普通最小二乘法,满足古典假定时的极大的似然估计,另一种优良的估计法,结果与相同估拉格朗朗日乘数,或带约束最小二乘估计)计方加权最小二乘,异方差存在且已知法广义最小二乘)广义差分存在自相关且可估计量可行广义最小二乘,未知,需要对其中参数进行估计回归的其他形式(标准化,与量纲回归,过原点回归等);第三节线性回归模型的检验方法及拓展9有个对检验的总体说明作为统计推断的核心内容,除了估计未知参数以外,对参数的假设检验是实证分析中的一个重要方面。对模型进行各种检验的目的是,改善模型的设定以确保基本假设和估计方法比较适合于数据,同时也是有关理论有效性的验证。正态性JB检验、峰度、偏度检验一、假设检验的基本理论及准则假设检验的理论依据是“小概率事件原理”,它的一般步骤是:(1)建立两个相对的假设(零假设和备择假设)(2)在零假设条件下,寻求用于检验的统计量及其分布(3)得出拒绝或接受零假设的判别规则。另一方面,对于任何的检验过程,都有可能犯错误,即所谓的第一类错误(拒真)和第二类错误(采伪)。而犯这两类错误的概率(分别记为和)是一种此消彼长的情况,于是如何控制这两个概率,使他们尽可能的小以满足要求,就成了寻找优良的检验方法的关键。下面先就假设检验的有关基本理论做一简要介绍。参数显著性检验的具体步骤是:已知总体的分布(,)Fx,其中是未知参数。总体真实分布完全由未知参数的取值所决定。对提出某种假设001000:(:,)HH或等,从总体中抽取一个容量为n的样本,确定一个统计量及其分布,决定一个拒绝域W,使得0P(W)=,或者对样本观测数据X,0P(XW)。即是显著性水平,也是犯第一类错误的概率。既然犯两类错误的概率不能同时被控制,所以通常的做法是限制犯第一类错误的概率,使犯第二类错误的概率尽可能的小,即在P(XW)0的条件下,使得P(XW),0达到最大。其中P(XW)表示总体分布为(,)Fx时,事件{XW}的概率,0为10零假设集合(0只含一个点时成为简单原假设,否则