1第五章IV和GMM一、IV估计量1、内生解释变量(1)什么是内生性回顾经典假设:对于回归模型,YXu,OLS的基本假设:(见陈强,书P15)严格外生性假定可以推出:Cov[X,u]=0。即:解释变量X与随机项不相关;定义:内生解释变量。——如果X与随机项u之间存在相关性,称X为内生解释变量。(2)内生性解释变量产生的原因①遗漏了重要的解释变量–True:012wageeduabilu–Do:01wageeduu②观测误差–True:**X=X+e(X为真实值)—Do:01011Y=()()XeuXueX与1()ue是否相关?比如吸烟与健康的调查中。不吸烟者的误差为零。吸烟者对吸烟次数的报告有较大的偏差2③滞后被解释变量t0121Y=ttXYu如果时间序列中有自相关的话④联立方程中(说明见陈强书:第十章,P120-121)(3)、内生性的后果①参数估计是有偏的,有时甚至(同期相关)是不一致的。难以通过扩大样本改善估计性质。内生性问题'1''1''1''1''1'Cov(X,u)0ˆ)ˆ()[)()][))][))][))]XXXYEEXXXXuEXXXXEXXXuEXXXu参数估计:((((((因为'EX0u,所以OLS估计是有偏的)②此时参数估计的偏差不仅仅存在于内生解释变量的参数上,而是所有的参数估计值都会受到影响32、工具变量对内生变量的解决思路•增加遗漏的变量,或者其代理变量•面板数据•工具变量法(Instrumentvariables)(1)工具变量的定义:工具变量:在模型估计过程中被作为工具使用,以替代模型中与随机误差项相关的随机解释变量。(2)工具变量要满足的条件:①工具变量相关性:工具变量与所替代的随机解释变量高度相关;cov(,)0ZX②工具变量外生性:工具变量与随机误差项不相关;cov(,)0Zu另外:所找的工具变量要尽量与模型中其它解释变量不相关,以避免出现多重共线性。3、IV估计量和TSLS(1)思路X的变动中,一部分与u无关,一部分与u相关。用工具变量抓住X变动中与u无关的部分。忽略那些与u相关的X的变动(正是这部4分变动导致了OLS估计的有偏)(2)一个工具变量的情形01YXu,X为内生变量,找到一个工具变量Z第一阶段:做回归011XZvX被分解为两个部分:①与u无关的部分:由于Z与u无关,因此线性部分011Z是X中没有问题的部分;②与u有关的部分v:忽略v第二阶段:做回归01ˆYXu得到TSLS的估计量(3)多个工具变量的情形对于模型:01YXu,假设X为内生变量,若存在两个工具变量z1和z2,将得到两个IV估计量。问题:如何将这两个IV估计量合并起来?第一阶段:01122XZZ,得到x的拟合值ˆX,ˆX视为x的工具变量第二阶段:01ˆYXu。5*****************说明***************************************TSLS软件会直接执行两个步骤,无需分开自行求解。自行求解时残差序列是错误的**工具变量个数一定不能少于内生变量个数。如果工具变量个数恰好等于内生变量个数,称为系数恰好识别如果工具变量个数大于内生变量个数,称为系数过度识别**可以把外生变量,看做自己的工具变量。也就是此时可见OLS是IV估计的特例(4)矩阵的视角看IV估计(IV估计可以解决问题吗?)'''ˆYXeZYZXZe因为工具变量外生性,所以'0Ze'''''1ˆˆˆ()IVZYZXZeZXZXZY*IV估计不是用Z代替X,而只是分离出与u不相关的部分,只是部分的代替(5)IV估计的性质在大样本下,IV估计是一致的,64、工具变量有效性的检验(1)假设1:工具变量相关性①什么是弱工具变量几乎不能解释X变动的工具变量称为弱工具变量②为什么若工具变量是个问题?如果工具变量较弱,TSLS不再是可靠的。事实上,如果工具变量较弱,TSLS估计严重偏向OLS估计的方向(有偏)以一元为例,说明为什么弱工具变量是一个问题的OLS估计:对于01YXu,计算011cov(,)cov(,)cov(,)cov(,)XYXXuXXXuOLScov(,)ˆcov(,)XYXXIV估计:011cov(,)cov(,)cov(,)cov(,)ZYZXuZXZucov(,)ˆcov(,)IVZYZX如果是弱工具变量,X与Z相关性很小,甚至为0,则导致结果严重偏离。7③弱工具变量检验的经验法则问题:工具变量与X的相关性多大才能使估计效果好?思路:TSLS的第一阶段,衡量了X与Z的关系。第一阶段用F统计量检验工具变量系数都为0的假设。F统计量度量了工具变量包含的信息,包含的信息越多,则F统计量的期望值越大。方法:利用F统计量检验TSLS第一阶段中工具变量系数都为0的假设。经验法则是:如果F统计量超过10,无需担心弱工具变量。(此时TSLS的偏差大约只有OLS偏差的1/9左右)④如果存在弱工具变量怎么办?**如果有很多工具变量,其中一些是弱工具变量,在TSLS分析中忽略弱工具变量而选用相关性最强的工具变量子集**若系数恰好识别,(工具变量数与内生变量数一样),此时要么:寻找其他较强的工具变量要么:利用弱工具变量进行实证分析,但不要用TSLS,而采用LIML:有线信息最大似然估计。LIML的估计量比TSLS更靠近参数的真实值。8(2)假设2:工具变量的外生性①能否从统计上检验工具变量的外生性?能也不能。***当系数恰好识别时(工具变量个数m=内生变量个数k),无法检验。评估工具变量外生的唯一方法是:利用专家观点和你对于待解决问题的认识***当系数过度识别时(工具变量数量m内生变量个数k),可以检验。原因:(为何此时可以检验工具变量外生性的原因:)假设只有一个内生变量,但有两个工具变量。如果两个工具变量都是外生的,则两个估计量(都是一致的)比较接近。如果两个估计量非常不同,可以得到一个或者两个工具变量都不是外生的。②过度识别约束检验***为什么要进行过度识别约束检验:由于工具变量多余内生变量,需要检验这些工具变量是否与扰动项相关,即工具变量是否合理?9***思路:工具变量的外生性意味着他们与u不相关。也就是说Z与ˆtslsu近似不相关。其中(用TSLS的估计,而不是OLS估计(有偏))0111ˆˆˆˆˆˆ()tslsTSLSTSLSTSLSTSLSTSLSkkkkkrruYXXWWX为内生变量,个数kW为外生变量,个数r分析:如果工具变量是外生的,则上述残差关于工具变量和外生变量回归中,工具变量的系数为0。***步骤:工具变量外生性检验,过度识别约束检验(J统计量)S1,计算TSLS的估计残差:0111ˆˆˆˆˆˆ()tslsTSLSTSLSTSLSTSLSTSLSkkkkkrruYXXWW,为基于所有工具变量的TSLS回归估计残差。注意:残差是利用解释变量(X,W),而不是拟合值(Xhat)计算的。S2,构造辅助回归01111ˆtslsmmmmrruZZWWe其中,e为回归误差项。Z为工具变量m个,W为外生变量r个S3,计算统计量0:11:0mHH否则可以证明同方差,并且H0成立时,22J=nmkR。其中m-k为过度识别度(m为工具变量个数,k为内生变量)(前提是同方差,若异方差需要修正,见斯托克计量经济学第12章)10S4,判断如果J临界值,拒绝原假设。则工具变量与扰动项相关,工具变量不是外生的。如果J=临界值,不拒绝原假设,可以认为工具变量是外生的**如果是恰好识别,则J统计量的自由度为0,因此无法进行工具变量外生性检验。5、OLSvsIV我们假设解释变量有内生性,那么解释变量是否真的有内生性?(1)如果所有解释变量都是外生变量,则OLS比IV更有效。此时使用IV,虽然估计量是一致的,但会增加估计量的方差。(2)如果存在内生变量,OLS是不一致的,而IV是一致的。(3)检验思想如果所有解释变量都是外生的,无论是OLS还是IV估计都是一致的,则两个估计量差距ˆˆ()IVOLSββ不大。如果有部分解释变量是内生的,则OLS估计是不一致的,而IV估计是一致的,两个估计量差距ˆˆ()IVOLSββ较大。(4)检验方法①H0所有解释变量均为外生变量H1,至少有一个解释变量为内生变量11②构造统计量:'1ˆˆˆˆ()()IVOLSIVOLSDββββ可以证明在H0成立时,上述统计量服从卡方分布2()r(其中r为内生解释变量的个数)③计算统计量'1ˆˆˆˆ()()IVOLSIVOLSDββββ④查卡方分布表,得到临界值2()r⑤判断如果计算的统计量大于临界值2()r,拒绝原假设如果计算的统计量不超过临界值2()r,则认为原假设合理*工具变量的寻找是很困难的*时间序列或面板数据模型中的工具变量,有时可以用滞后值。12二、广义矩估计法(GMM:GeneralizedMethodofMoments)1、为什么要用GMM(1)OLS和MLE的缺陷①OLS的局限,只有在经典假设满足的条件下,估计量才具有优良性质。②MLE的局限,必须对随机扰动项的分布作出某种假设。(2)GMM的优势①不考虑随机扰动项的准确分布信息。GMM估计量的一致性仅取决于矩条件的正确设定②允许随机扰动项存在异方差,自相关等情况。为传统估计方法计算困难提供了方便的方法③大样本情况下,GMM估计量渐进有效。④OLS、MLE、IV都可以看做是GMM的特例。为OLS,IV,MLE提供了一个统一的分析框架。132、矩估计法(MM:MethodofMoments)(1)矩法什么叫做矩:对于随机变量来说,矩是其最广泛,最常用的数字特征矩法的思想:母体ξ的各阶矩一般与ξ的分布中所含的未知参数有关,有的甚至就等于未知参数。由辛钦大数定律知,简单随机子样的子样原点矩依概率收敛到相应的母体原点矩。这就启发我们想到用子样矩替换母体矩,进而找出未知参数的估计,基于这种思想求估计量的方法称为矩法。矩估计:用矩法求得的估计称为矩法估计,简称矩估计。它是由英国统计学家皮尔逊Pearson于1894年提出的。矩条件:就是一个同时含有随机变量和待估计参数的式子(2)OLS矩估计(GMM估计的特例)矩条件:考虑经典线性回归模型的OLS估计量,该模型的一个重要假设条件是解释变量与扰动项无关,即()[()]iiiiiEEyxuxxβ0样本对应物:这组矩条件的样本对应物是1111ˆ()nniiiiiiieynnxxxβ014例如:01122331,2,,iiiiiyxxxin•如果满足所有基本假设,OLS的正规方程组为:0112233011223310112233201122333ˆˆˆˆ[()]0ˆˆˆˆ[()]0ˆˆˆˆ[()]0ˆˆˆˆ[()]0iiiiiiiiiiiiiiiiiiiyxxxyxxxxyxxxxyxxxx即:0100,1,2,3(1njiiiixejx其中)(总体矩要求EXu=0)求解上述矩条件(样本矩),可以得到参数估计ˆβ。不难看出,这些矩条件正好是OLS估计量的正规方程,因此我们看到,OLS估计量是矩估计量。(3)IV估计是矩估计(GMM估计)的特例例如:01122331,2,,iiiiiyxxxin如果x2为随机变量(内生解释变量),z2为它的工具变量,IV的正规方程组为:0112233011223310112233201122333ˆˆˆˆ[()]0ˆˆˆˆ[()]0ˆˆˆˆ[()]0ˆˆˆˆ[()]0