OLS估计和IV估计原理

q6644444
0 ℃
2021-03-06

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

OLS估计和IV估计原理Ballentine图示假设使用CLR模型，其中Y取决于X和一个误差项。•圆圈Y表示因变量Y的变化。YYX假设使用CLR模型，其中Y取决于X和一个误差项。•圆圈Y表示因变量Y的变化•圆圈X表示解释变量X的变化YX假设使用CLR模型，其中Y取决于X和一个误差项。Y=β0+β1·X+u•蓝色区域代表在Y的变化可以通过OLS被X的变化所解释的意义下，X和Y共同具有的变化。•蓝色区域反映了估计斜率β1的过程中所使用的信息…•…这一区域越大，就有越多的信息被用于估计…•…从而估计量的方差越小。两个解释变量X1和X2的OLS估计Y=β0+β1·X1+β2·X2+u•现在Y由X1、X2和u共同决定。•X1和X2通常会有一定程度的共线性（即图中有红色+橙色区域）•如果Y只对X1回归–（蓝色区域+红色区域）的信息可用于估计beta1•如果Y只对X2回归–（绿色区域+红色区域）的信息可用于估计beta2•但如果Y对X1和X2共同回归，会怎样呢？YX1X2两个解释变量X1和X2的OLS估计Y=β0+β1·X1+β2·X2+u•在Y对X1和X2的多元回归中，OLS估计量用蓝色区域估计beta1，绿色区域估计beta2，而红色区域的信息被放弃。•蓝色区域的信息对应于只和X的变化相匹配的Y的变化，因此使用这些信息可以得到beta1的无偏估计。•同理，使用绿色区域的信息也可以得到beta2的无偏估计。YX2X1多元回归中红色区域的信息呢？•在斜率系数的估计中，红色区域的信息被舍弃掉…•…因为其中的信息反映的是X1和X2的变化所确定的Y的变化。–在蓝色区域中，Y的变化被全部归因于X的变化，所以把Y的变化和X1的变化关联起来就可以得到beta1的无偏估计。–而红色区域中，并非Y的所有变化都取决于X的变化。YX2X1放弃红色区域的信息是否有代价呢？•是的。这使得用于估计斜率系数的信息减少，从而增大估计的方差。YX2X1如果X1和X2相互独立会如何？•如果X1和X2相互独立，则红色区域将消失…•…此时将Y对两个变量分别回归与将Y对两个变量共同回归，得到的斜率系数的估计相同。YX2X1如果两个解释变量高度相关…•如果X1和X2高度共线，则重叠部分将很大，而蓝色和绿色区域将变得很小…•…这意味着当Y对X1和X2共同回归时只有非常少的信息用于估计β1和β2…•这使得这些估计的方差变大YX2X1YXR2：一元回归的情形•蓝色区域代表由X解释的Y的变化。•因此R2由蓝色区域占整个圆圈Y的比例给出。R2：多元回归的情形•此时由X1和X2共同解释的部分是：蓝+红+绿•因此R2对应:(蓝+红+绿)/Y•注意：红色区域的信息只是在估计斜率系数时才被舍弃，而在解释/预测Y时并没有被舍弃掉：一旦系数被估计出来，则X和Z的所有变化就能够用来预测YYX2X1U：黄色区域•黄色区域代表由误差项u引起的Y的变化。•黄色区域面积代表误差方差σ2的大小–例：如果在回归时遗漏了变量X2，则σ2将由黄色区域+绿色区域估计（即被高估）YX2X1IV估计原理Ballentine图示内生性问题：X和u不独立。•设Y由X和u决定，但X和u不独立。–红色区域表示X和u对Y的共同影响。–如果Y对X回归，则红色和蓝色区域的信息将用来估计betax。•由于红色区域并不反映真正只由X的变化引起的Y的变化，所以这个估计是有偏误的。•因此必须寻找其他方法消除红色区域。YXuIV方法•Z表示X的工具变量。•Z的两个基本性质：（1）它必须独立于误差项u（所以在图中它不与红色区域和黄色区域相交）；（2）它必须尽可能地与X高度相关（所以在图中它与X有一个很大的重合部分）。YXZuIV方法•Z的两个基本性质：（1）独立于u–不与红色区域和黄色区域相交（2）与X高度相关–与X有很大的重合部分YZuXIV方法•2SLS：（1）X对Z回归，得到Xhat（橙&紫）（2）将Y对Xhat回归，得到betax的估计值–图中紫色区域的信息被用于估计YZuXIV方法•IV方法消除了红色区域产生的偏误，但…•用于估计betax的信息集却从（红+蓝+紫）减少到（紫）…•…这说明IV估计量的方差将大大高于OLS估计量的方差YZuXIV方法•为什么作为IV的Z要尽可能地与X相关呢？•紫色区域应尽可能地大，从而减少IV估计量的方差。YZuX