模型设定偏误问题

142197
0 ℃
2020-02-12

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

§5.3模型设定偏误问题一、模型设定偏误的类型二、模型设定偏误的后果三、模型设定偏误的检验一、模型设定偏误的类型•模型设定偏误主要有两大类:(1)关于解释变量选取的偏误，主要包括漏选相关变量和多选无关变量，(2)关于模型函数形式选取的偏误。1、相关变量的遗漏（omittingrelevantvariables）•例如，如果“正确”的模型为22110XXY而我们将模型设定为vXY110即设定模型时漏掉了一个相关的解释变量。这类错误称为遗漏相关变量。•动态设定偏误（dynamicmis-specification）:遗漏相关变量表现为对Y或X滞后项的遗漏。2、无关变量的误选(includingirrevelantvariables)•例如，如果Y=0+1X1+2X2+仍为“真”，但我们将模型设定为Y=0+1X1+2X2+3X3+即设定模型时，多选了一个无关解释变量。3、错误的函数形式(wrongfunctionalform)•例如，如果“真实”的回归函数为eXAXY2121但却将模型设定为vXXY22110二、模型设定偏误的后果•当模型设定出现偏误时，模型估计结果也会与“实际”有偏差。这种偏差的性质与程度与模型设定偏误的类型密切相关。1、遗漏相关变量偏误采用遗漏相关变量的模型进行估计而带来的偏误称为遗漏相关变量偏误（omittingrelevantvariablebias）。设正确的模型为Y=0+1X1+2X2+却对Y=0+1X1+v进行回归，得2111ˆiiixyx将正确模型Y=0+1X1+2X2+的离差形式iiiixxy2211代入2111ˆiiixyx得21121212121221112111)()(ˆiiiiiiiiiiiiiixxxxxxxxxxyx(1)如果漏掉的X2与X1相关，则上式中的第二项在小样本下求期望与大样本下求概率极限都不会为零，从而使得OLS估计量在小样本下有偏，在大样本下非一致。(2)如果X2与X1不相关，则1的估计满足无偏性与一致性；但这时0的估计却是有偏的。由Y=0+1X1+v得2121)ˆ(ixVar由Y=0+1X1+2X2+得)1()()ˆ(22122212221222121xxiiiiiirxxxxxxVar如果X2与X1相关，显然有)ˆ()ˆ(11VarVar如果X2与X1不相关，也有)ˆ()ˆ(11VarVarWhy?2、包含无关变量偏误采用包含无关解释变量的模型进行估计带来的偏误，称为包含无关变量偏误（includingirrelevantvariablebias）。设Y=0+1X1+v(*)为正确模型，但却估计了Y=0+1X1+2X2+(**)如果2=0，则(**)与(*)相同，因此，可将(**)式视为以2=0为约束的(*)式的特殊形式。由于所有的经典假设都满足，因此对Y=0+1X1+2X2+(**)式进行OLS估计，可得到无偏且一致的估计量。但是，OLS估计量却不具有最小方差性。Y=0+1X1+v中X1的方差:2121)ˆ(ixVarY=0+1X1+2X2+中X1的方差:)1()ˆ(2212121xxirxVar当X1与X2完全线性无关时:)ˆ()ˆ(11VarVar否则：)ˆ()ˆ(11VarVar注意：3、错误函数形式的偏误当选取了错误函数形式并对其进行估计时，带来的偏误称错误函数形式偏误（wrongfunctionalformbias）。容易判断，这种偏误是全方位的。例如，如果“真实”的回归函数为eXAXY2121vXXY22110却估计线性式显然，两者的参数具有完全不同的经济含义，且估计结果一般也是不相同的。三、模型设定偏误的检验1、检验是否含有无关变量可用t检验与F检验完成。检验的基本思想:如果模型中误选了无关变量，则其系数的真值应为零。因此，只须对无关变量系数的显著性进行检验。t检验：检验某1个变量是否应包括在模型中；F检验：检验若干个变量是否应同时包括在模型中2、检验是否有相关变量的遗漏或函数形式设定偏误（1）残差图示法•残差序列变化图（a）趋势变化：模型设定时可能遗漏了一随着时间的推移而持续上升的变量（b）循环变化：模型设定时可能遗漏了一随着时间的推移而呈现循环变化的变量•模型函数形式设定偏误时残差序列呈现正负交替变化图示：一元回归模型中，真实模型呈幂函数形式，但却选取了线性函数进行回归。（2）一般性设定偏误检验但更准确更常用的判定方法是拉姆齐(Ramsey)于1969年提出的所谓RESET检验（regressionerrorspecificationtest）。基本思想：如果事先知道遗漏了哪个变量，只需将此变量引入模型，估计并检验其参数是否显著不为零即可；问题是不知道遗漏了哪个变量，需寻找一个替代变量Z，来进行上述检验。RESET检验中，采用所设定模型中被解释变量Y的估计值Ŷ的若干次幂来充当该“替代”变量。例如，先估计Y=0+1X1+v得110ˆˆˆXY3221110ˆˆYYXY再根据第三章第五节介绍的增加解释变量的F检验来判断是否增加这些“替代”变量。若仅增加一个“替代”变量，也可通过t检验来判断。例如，在一元回归中，假设真实的函数形式是非线性的，用泰勒定理将其近似地表示为多项式：RESET检验也可用来检验函数形式设定偏误的问题。313212110XXXY因此，如果设定了线性模型，就意味着遗漏了相关变量X12、X13，等等。因此，在一元回归中，可通过检验(*)式中的各高次幂参数的显著性来判断是否将非线性模型误设成了线性模型。（*）对多元回归，非线性函数可能是关于若干个或全部解释变量的非线性，这时可按遗漏变量的程序进行检验。例如，估计Y=0+1X1+2X2+但却怀疑真实的函数形式是非线性的。322122110ˆˆYYXXY这时，只需以估计出的Ŷ的若干次幂为“替代”变量，进行类似于如下模型的估计再判断各“替代”变量的参数是否显著地不为零即可。例5.3.1：在§4.3商品进口的例中,估计了中国商品进口M与GDP的关系，并发现具有强烈的一阶自相关性。然而，由于仅用GDP来解释商品进口的变化，明显地遗漏了诸如商品进口价格、汇率等其他影响因素。因此，序列相关性的主要原因可能就是建模时遗漏了重要的相关变量造成的。下面进行RESET检验。用原回归模型估计出商品进口序列ttGDPM020.091.152ˆR2=0.9484（-0.085）（8.274）（-6.457）（6.692）R2=0.984232ˆ0759.8ˆ0028.0072.0860.3~tttMEMGDPM))1(/()1(/)(222qknRqRRFURU5.22)424/()984.01(2/)948.0984.0(在=5%下，查得临界值F0.05(2,20)=3.49判断：拒绝原模型与引入新变量的模型可决系数无显著差异的假设，表明原模型确实存在遗漏相关变量的设定偏误。*（3）同期相关性的豪斯蔓（Hausman）检验由于在遗漏相关变量的情况下，往往导致解释变量与随机扰动项出现同期相关性，从而使得OLS估计量有偏且非一致。因此，对模型遗漏相关变量的检验可以用模型是否出现解释变量与随机扰动项同期相关性的检验来替代。这就是豪斯蔓检验（1978）的主要思想。当解释变量与随机扰动项同期相关时，通过工具变量法可得到参数的一致估计量。而当解释变量与随机扰动项同期无关时，OLS估计量就可得到参数的一致估计量。因此，只须检验IV估计量与OLS估计量是否有显著差异来检验解释变量与随机扰动项是否同期无关。对一元线性回归模型Y=0+1X+所检验的假设是H0：X与无同期相关。设一元样本回归模型为iiieXY10ˆˆ以Z为工具变量，则IV估计量为：iiiixzyz~iiiiiiiiixzezxzexz11ˆ)ˆ((*)(*)式表明，IV估计量与OLS估计量无差异当且仅当ziei=0，即工具变量与OLS估计的残差项无关。检验时，求Y关于X与Z的OLS回归式：iiiZXYˆˆˆˆ10在实际检验中，豪斯蔓检验主要针对多元回归进行，而且也不是直接对工具变量回归，而是对以各工具变量为自变量、分别以各解释变量为因变量进行回归。如对二元回归模型iiiiXXY22110iiiiiXXXXY221122110ˆˆ通过增加解释变量的F检验，检验联合假设：H0：1=2=0。拒绝原假设，就意味着（*）式中的解释变量与随机扰动项相关。(*)（4）线性模型与双对数线性模型的选择无法通过判定系数的大小来辅助决策，因为在两类模型中被解释变量是不同的。为了在两类模型中比较，可用Box-Cox变换:第一步，计算Y的样本几何均值。)ln1exp()(~/121innYnYYYY第二步，用得到的样本几何均值去除原被解释变量Y，得到被解释变量的新序列Y*。YYYii~/*第三步，用Y*替代Y，分别估计双对数线性模型与线性模型。并通过比较它们的残差平方和是否有显著差异来进行判断。)ln(2112RSSRSSn其中，RSS1与RSS2分别为对应的较大的残差平方和与较小的残差平方和，n为样本容量。可以证明：该统计量在两个回归的残差平方和无差异的假设下服从自由度为1的2分布。因此，拒绝原假设时，就应选择RSS2的模型。Zarembka（1968）提出的检验统计量为：例5.3.2在§4.3中国商品进口的例中，采用线性模型:R2=0.948;采用双对数线性模型:R2=0.973，但不能就此简单地判断双对数线性模型优于线性模型。下面进行Box-Cox变换。计算原商品进口样本的几何平均值为：12.583)ln(exp(~1tnMM计算出新的商品进口序列：MMMtt~./*以Mt*替代Mt，分别进行双对数线性模型与线性模型的回归，得：ttGDPMln7836.03565.1)ˆln(*RSS1=0.5044ttGDPM000035.02622.0ˆ*RSS2=1.5536于是，49.13)1249.1ln(2421)ln(2112RSSRSSn在=5%下，查得临界值20.05(1)=3.841判断：拒绝原假设，表明双对数线性模型确实“优于”线性模型。