1第一节极大似然估计法第二节似然比检验、沃尔德检验和拉格朗日乘数检验第三节广义矩(GMM)估计2除普通最小二乘法(OLS)外,极大似然估计(MLE)和广义矩估计(GMM)也是计量经济学中重要的估计方法。极大似然估计法和广义矩估计法适用于大样本条件下参数的估计,它们在大样本条件下显示了优良的性质。本章主要介绍极大似然法和广义矩方法以及基于极大似然估计的似然比(LR)检验、沃尔德(W)检验和拉格朗日乘数(LM)检验。3第一节极大似然估计法极大似然估计法(MaximumLikelihoodmethodML)的应用虽然没有普通最小二乘法广泛,但它是一个具有更强理论性质的点估计方法,它以极大似然原理为基础,通过概率密度函数或者分布律来估计总体参数。对于一些特殊类型的计量经济模型,如我们后面将介绍的Logit和Probit模型,最小二乘法不再适用,极大似然法成为首选的估计方法。4一、极大似然法的思路极大似然估计的出发点是已知被观测现象的分布,但不知道其参数。极大似然法用得到观测值(样本)最高概率的那些参数的值来估计该分布的参数,从而提供一种用于估计刻画一个分布的一组参数的方法。5例4.1设有一枚不均衡的硬币,我们关心的是在每次抛掷该硬币出现正面的概率p。抛掷该硬币N次,假设得到N1次正面,N-N1次反面。由于每次抛硬币都是相互独立的,根据二项分布,得到这样一个样本的概率为:111)1()(1NNNNNppCNP次正面上式中的表达式可看作是未知参数p的函数,被称为似然函数(Likelihoodfunction)。对p的极大似然估计意味着我们选择使似然函数达到最大的p值,从而得到p的极大似然估计量。6实际计算中,极大化似然函数的对数往往比较方便,这给出对数似然函数p)-)ln(1N-(N)ln(lnc)(ln111pNpLNN01)(ln11pNNpNdppLdNNp/ˆ1解之,得到p的极大似然估计量上式达到极大的一阶条件是7二、极大似然原理下面我们以一般化的数学语言来描述极大似然估计法的基本原理和参数估计过程。(,)fx(,)fx12,,...,nXXX极大似然法的思路是,设是随机变量X的密度函数,其中是该分布的未知参数,若有一随机样本,则的极大似然估计值是具有产生该观测样本的最高概率的那个值,或者换句话说,的极大似然估计值是使密度函数达到最大的值。由于总体有离散型和连续型两种分布,离散型分布通过分布律来构造似然函数,而连续型分布通过概率密度函数来构造似然函数,因此二者有区别,下面分别讨论。8离散型随机变量极大似然原理若总体为离散型分布,容易求得从样本取到观察值的概率,亦即事件发生的概率为:其中,是待估参数向量。这一概率随的取值而变化,它是的函数,称为样本的似然函数。12,,...nXXX12,,...,nxxx1122,,...,nnXxXxXx121()(,,...,;)(;)nniiLLxxxpx12(,,...,)k()L9极大似然估计法就是在取值的可能范围内挑选使似然函数,达到最大的参数值作为参数的估计值,即求,使得12(x,,,;)nLxxˆˆ1212ˆ(,,...,;)(,,...,;)nnLxxxMaxLxxx一般通过微分的方法求得,即令得到,有时候也可通过迭代法来求,具体的计算方法根据随机变量的分布来确定ˆˆ()/0LˆˆML这样得到的称为参数的极大似然估计值,而相应的统计量通常记为,称为参数的极大似然估计量。10连续型随机变量极大似然原理若总体为连续型分布,其概率密度函数为密度函数的形式已知。其中,是待估参数向量。设是来自总体的随机样本,则的联合概率密度为设是相应于样本的一组样本值,则随机点()落在点()的邻域内的概率可近似地表示为其值随的取值而变化。(;)fx12(,,...,)k12,,...nXXX12,,...nXXX1(,)(43)niifx12,,...,nxxx12,,...nXXX12,,...,nxxx1(,)(44)niifxdx11与离散型的情况一样,我们取的估计值使取到极大值,但不随而变,故只需考虑函数的极大值,这里称为样本的似然函数。若则称为的极大似然估计量,记为。ˆnidx1121()(,,...,;)(;)nniiLLxxxfx1212ˆ(,,...,;)(,,...,;)nnLxxxMaxLxxxˆˆML()L1(,)niifxdx12通常情况下,关于可微,这时可从方程解得。因为与在同一点处取到极值,的极大似然估计值通常从方程解得,式中称为对数似然函数。为了后面内容表述方便起见,我们将对数似然函数的一阶导数向量表示为称为score向量或梯度向量,的极大似然估计通过求解得到,因此称为似然方程。()Lˆ()/0L()Lln()Lˆln()/0Lln()LS()lnL()/)(SS()0S()013三、极大似然估计量的性质极大似然估计量(MLE)的优势在于它们的大样本性质(渐近性质)。为介绍这些渐近性质,我们用表示参数向量的极大似然估计量(MLE),表示参数向量的真值。如果极大似然函数被正确设定,可以证明,在弱正则条件下,极大似然估计量具有以下渐近性质:ˆML014(1)一致性:是的一致估计量,即,(2)渐近有效性:是渐近有效的且达到所有一致估计量的Cramèr-Rao下界,即在所有一致渐近正态估计量(consistentasymptoticallynormalestimators)中具有最小方差。(3)渐近正态性:即渐近地服从正态分布,其中V是渐近协方差矩阵ˆML0ˆlimMLpˆML)(,~ˆ00VNML15协方差矩阵V由对数似然函数的形状决定。为了说明这一点,我们引入信息矩阵(InformationMatrix)的概念,信息矩阵定义为在适当的正则条件下,可以证明,极大似然估计量的渐近协方差矩阵等于信息矩阵的逆矩阵,即2lnL()()Ι-1[()]VI16四、线性回归模型的极大似然估计线性回归模型是计量经济学应用最为广泛的模型,因此讨论线性模型的极大似然估计是非常必要的。下面我们在随机扰动项服从正态分布的假设下分别讨论双变量线性回归模型和多元线性回归模型的极大似然估计。非线性模型的极大似然估计,将在第五章中介绍。17双变量线性回归模型的极大似然估计双变量线性回归模型:其中,为待估参数,为随机扰动项。对随机扰动项作出如下假设:即随机扰动项具有0均值、同方差、不相关和服从正态分布的性质。ntuxyttt,,2,1,tu222()0,(),()0,~(0,)ttijtEuEuEuuijuN18因此,的概率密度函数为:),(~2ttxNytynteyfttxyt...,,2121)(22)(21,212()2211(,,)()()2ntttyxnnttLfye根据以上假设可知:由于独立同分布,因此,联合概率密度函数,即似然函数为:19对数似然函数为:22221()ln(,,)ln(2)ln()(4.13)222ntttyxnnL0),,(ln2L0),,(ln2L0),,(ln22L222ˆˆˆˆˆˆ()ˆtMLMLtttMLtMLttMLMLtMLYnXXYXXYXn令:得:20不难看出,前两式与用普通最小二乘法得出的正规方程相同,故我们有ˆˆˆˆ,MLOLSMLOLS2222ˆˆ()ˆ22tttOLSeYXnn22222(2)2ˆ()()tMLenEEnnn但最后一式表明,的极大似然估计量与最小二乘估计量不同,我们记得,最小二乘估计量是一个无偏估计量。而21这表明,是一个有偏估计量不难看出,当样本容量趋向无穷时,因而是一个渐近无偏估计量。22ˆˆ()ˆtMLMLtMLYXn2222n2ˆML22多元线性回归模型的极大似然估计下面我们来讨论一般形式的线性回归模型的极大似然估计,并以矩阵形式表示:对随机扰动项作出如下假设:根据以上假设,我们有:因此,的概率密度函数为:YXβu22()()~(,)nnEENu0uuIu0I2~(,)tyNXβ2()21()12,...,2tfyetnYXβ)(YXβ,ty23由于独立同分布,因此,联合概率密度函数,即似然函数为:对数似然函数为:2()2211(,)()()2nnttLfyeYXβ)(YXβ222()ln(,)ln(2)(417)22nLYXβ)(YXβ2()(4.18)iRSSeeeYXβ)(YXβYYYXββXY+βXXβYY2YXβ+βXXβty对于残差平方和有:这里最后一个等号成立是因为第二行中所有各项都是标量,且中间两项互为转置矩阵,因而相等。24RSS对微分,得到:这里用到了矩阵微分的以下两条规则:(1)(2),第二个等号成立的条件是A为对称矩阵。在(4.19)式中,a是,A是。22(4.19)RSSXYXXββ/abba()/()2bAbbA+AbAbβYXXX25由(4.19)式的结果,使对数似然函数(4.17)达到极大的一阶条件为22ln(,)2202LβXYXXββ2242ln(,)()()022LYnβXβYXβˆ(ML-1βXX)XY2()ˆ//MLRSSnnnYXβ)(YXβee解此二正规方程,得:26因此,在随机扰动项满足标准假设条件的情况下,的极大似然估计量与普通最小二乘估计量相同,方差的ML估计量与OLS估计量则不同。是无偏的,而是有偏的,但在大样本下渐近无偏。22()()ˆ1OLSnkYXβYXβ2ˆOLS2ˆMLβ27将这些极大似然估计量代入(4.17),就得到lnL的极大值:为了得到的无偏估计量的Cramèr-Rao下界,需要先计算信息矩阵222ˆˆˆln(,)ln(2)ˆ22ln(2)ln()222ln()2MLMLMLMLnLnnnnneeeeee常数222222222ln/ln/(,)(4.22)ln/ln/LLIELLβββββ28信息矩阵是按分块对角的,这是扰动项为正态分布的回归模型的一个重要性质,意味着Cramèr-Rao下界为:值得注意的是,达到了Cramèr-Rao下界。在正态性的假设下,是最小方差无偏估计量(MVU),这表明,在所有无偏估计量而不仅仅是线性无偏估计量中方差最小。2β和21124()0(,)(4.24)02/EnXXIβˆˆMLOLSββˆOLSβˆOLSβ通过对矩阵中各项二阶偏导数的计算,我们得到224()/0(,)(423)0/2EnXXIβ29例4.2以简单的消费函数为例,说明极大似然估计法的估计过程。根据经济理论,消费和收入与价格密切相关,因此建立以国内生产总值GDP和消费价格指数p为解释变量,国内总消费TC为被解释变量的消费方程。数据区间为1988—2007年。消费方程设定为:其中服从正态分布。0121988,1989,...,2007tttttcgdpputtu30普通最小二乘估计的结果为:极大似然估计的EViews结果为:可见,对于线性方程