OLS估计和IV估计原理Ballentine图示假设使用CLR模型,其中Y取决于X和一个误差项。•圆圈Y表示因变量Y的变化。YYX假设使用CLR模型,其中Y取决于X和一个误差项。•圆圈Y表示因变量Y的变化•圆圈X表示解释变量X的变化YX假设使用CLR模型,其中Y取决于X和一个误差项。Y=β0+β1·X+u•蓝色区域代表在Y的变化可以通过OLS被X的变化所解释的意义下,X和Y共同具有的变化。•蓝色区域反映了估计斜率β1的过程中所使用的信息…•…这一区域越大,就有越多的信息被用于估计…•…从而估计量的方差越小。两个解释变量X1和X2的OLS估计Y=β0+β1·X1+β2·X2+u•现在Y由X1、X2和u共同决定。•X1和X2通常会有一定程度的共线性(即图中有红色+橙色区域)•如果Y只对X1回归–(蓝色区域+红色区域)的信息可用于估计beta1•如果Y只对X2回归–(绿色区域+红色区域)的信息可用于估计beta2•但如果Y对X1和X2共同回归,会怎样呢?YX1X2两个解释变量X1和X2的OLS估计Y=β0+β1·X1+β2·X2+u•在Y对X1和X2的多元回归中,OLS估计量用蓝色区域估计beta1,绿色区域估计beta2,而红色区域的信息被放弃。•蓝色区域的信息对应于只和X的变化相匹配的Y的变化,因此使用这些信息可以得到beta1的无偏估计。•同理,使用绿色区域的信息也可以得到beta2的无偏估计。YX2X1多元回归中红色区域的信息呢?•在斜率系数的估计中,红色区域的信息被舍弃掉…•…因为其中的信息反映的是X1和X2的变化所确定的Y的变化。–在蓝色区域中,Y的变化被全部归因于X的变化,所以把Y的变化和X1的变化关联起来就可以得到beta1的无偏估计。–而红色区域中,并非Y的所有变化都取决于X的变化。YX2X1放弃红色区域的信息是否有代价呢?•是的。这使得用于估计斜率系数的信息减少,从而增大估计的方差。YX2X1如果X1和X2相互独立会如何?•如果X1和X2相互独立,则红色区域将消失…•…此时将Y对两个变量分别回归与将Y对两个变量共同回归,得到的斜率系数的估计相同。YX2X1如果两个解释变量高度相关…•如果X1和X2高度共线,则重叠部分将很大,而蓝色和绿色区域将变得很小…•…这意味着当Y对X1和X2共同回归时只有非常少的信息用于估计β1和β2…•这使得这些估计的方差变大YX2X1YXR2:一元回归的情形•蓝色区域代表由X解释的Y的变化。•因此R2由蓝色区域占整个圆圈Y的比例给出。R2:多元回归的情形•此时由X1和X2共同解释的部分是:蓝+红+绿•因此R2对应:(蓝+红+绿)/Y•注意:红色区域的信息只是在估计斜率系数时才被舍弃,而在解释/预测Y时并没有被舍弃掉:一旦系数被估计出来,则X和Z的所有变化就能够用来预测YYX2X1U:黄色区域•黄色区域代表由误差项u引起的Y的变化。•黄色区域面积代表误差方差σ2的大小–例:如果在回归时遗漏了变量X2,则σ2将由黄色区域+绿色区域估计(即被高估)YX2X1IV估计原理Ballentine图示内生性问题:X和u不独立。•设Y由X和u决定,但X和u不独立。–红色区域表示X和u对Y的共同影响。–如果Y对X回归,则红色和蓝色区域的信息将用来估计betax。•由于红色区域并不反映真正只由X的变化引起的Y的变化,所以这个估计是有偏误的。•因此必须寻找其他方法消除红色区域。YXuIV方法•Z表示X的工具变量。•Z的两个基本性质:(1)它必须独立于误差项u(所以在图中它不与红色区域和黄色区域相交);(2)它必须尽可能地与X高度相关(所以在图中它与X有一个很大的重合部分)。YXZuIV方法•Z的两个基本性质:(1)独立于u–不与红色区域和黄色区域相交(2)与X高度相关–与X有很大的重合部分YZuXIV方法•2SLS:(1)X对Z回归,得到Xhat(橙&紫)(2)将Y对Xhat回归,得到betax的估计值–图中紫色区域的信息被用于估计YZuXIV方法•IV方法消除了红色区域产生的偏误,但…•用于估计betax的信息集却从(红+蓝+紫)减少到(紫)…•…这说明IV估计量的方差将大大高于OLS估计量的方差YZuXIV方法•为什么作为IV的Z要尽可能地与X相关呢?•紫色区域应尽可能地大,从而减少IV估计量的方差。YZuX