第13章模型设定和诊断检验

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1第十三章计量经济建模:模型设定和诊断检验2经济学家多年来对“真理”的寻求曾给人一种观感:经济学家们就好像在一间黑房子里搜寻一直原本并不存在的黑猫;而计量经济学家还经常声称找到了一只。3经典线性回归模型的假定之一(假定9)是,分析中所使用的模型被“正确地”设定;如果模型并未被明确设定,我们就遇到了这样的问题:模型设定误差(modelspecificationerror)或者模型设定偏误(modelspecificationbias)。4寻找正确的模型就像寻找圣杯一样。具体而言,我们需要考虑如下问题:我们如何去寻找一个“正确”的模型?换言之,在经验分析中选择一个模型的准则有哪些?在实践中,容易遇到哪些类型的模型设定误差?设定误差的后果有哪些?如何侦查设定误差?换言之,我们可以使用哪些诊断工具?一旦侦查出设定误差,我们能采取哪些补救措施?如何评价几个表现不相上下的备选模型?5§13.1模型选择准则根据亨得利和理查德的观点,一个被选用于经验分析的模型应满足如下准则:数据容纳性;即从模型做出的预测必须有逻辑上的可能性。与理论一致;即必须有好的经济含义。回归元的弱外生性;即解释变量或回归元必须与误差项不相关。6表现出参数的不变性;即参数的值必须稳定,否则预测就很困难。表现出数据的协调性;即从模型中估计的残差必须完全随机(从技术上而言必须是白噪音)。模型有一定的包容性;即模型应该包容或包括所有与之竞争的模型。7§13.2设定误差的类型1、漏掉一个有关变量(1.OmittingARelevantVariable)为了简明起见,令这个模型为:(13.2.1)其中,Yi=生产的总成本,Xi=产量。等式(13.2.1)是立方总成本函数。2312341iiiiiYXXXu8但是,假设出于某种原因,研究者决定使用以下模型:(13.2.2)由于(13.2.1)被认为是真实的,采用(13.2.2)就构成了一种设定误差,即漏掉了一个有关变量(Xi3)的误差。因此,(13.2.2)中的误差项u2i事实上是:21232iiiiYXXu3214iiiuuX92、包含了一个无需或无关的变量(Includinganunnecessaryorirrelevantvariable)假定另一个研究者使用了以下模型:(13.2.4)新的误差项是:(13.2.5)因为真模型中λ5=0234123453iiiiiiYXXXXu43151iiiiuuXu103、错误的函数形式(Wrongfunctionalform)再假定又一研究者拟定以下模型:(13.2.6)23i12i3i4i4ilnYXXXu114、测量偏误的误差(Errorsofmeasurementbias)考虑有研究者使用如下模型:(13.2.7)其中,,,εi和ωi均为测量误差。(13.2.7)所表明的是,研究者没有使用真正的Yi和Xi,却用了含有测量误差的替代变量Yi*和Xi*。******2**3*i12i3i4iiYXXXu*iiiYY*iiiXX125、对随机误差项ui不正确的设定(Specificationerrorstothestochasticerror)如果真实的、正确的模型是:(13.2.8)并且lnui满足CLRM的假定误设为:(13.2.9)iiiYXuiiiYXu13§13.3模型设定误差的后果1、模型拟合不足(漏掉一个相关变量)真实的模型:(13.3.1)但出于某种原因,我们拟合了如下模型:(13.3.2)后果将会如何?i122i33iiYXXui1122iiYbbX三变量回归模型的离差形式:(1)有:(2)(3)两边分别除以∑X2i2:(4)回到前面,有(X3对X2回归)142233iiiiYXXuu22223232()iiiiiiiYXXXXXuu23332233()iiiiiiiYXXXXXuu233222ˆbiiiXXX232322222222()iiiiiiiiiYXXXXuuXXX2i1222YˆbiiXX15于是,等式(4)变换为:(5)分别取等式两边的期望值(6)(其中,β2和β3都是常数,ui与X2i和X3i不相关)122332ˆˆ()Ebb212233222()ˆˆbbiiiXuuX16于是,漏掉变量X3的后果如下:1、如果X3与X2相关,r23≠0,那么和是有偏误且非一致的。也就是说,2、如果X3与X2不相关,r23=0,那么,尽管现在无偏,但是无偏的。3、干扰的方差σ2将被不正确地估计。4、的方差()是真实估计量的方差的一个有偏误的估计值。5、通常的置信区间和假设检验程序容易给出错误的结论。6、所作出的预测不可靠。1ˆb12ˆb11ˆE(b)122ˆE(b)32ˆb012ˆb1ˆb12ˆb222iX17结论:一旦根据相关理论把模型建立起来,切忌从中再忽略掉一个变量。182、包含一个无关变量(模型拟合过度)现在让我们假定(13.3.6)是真实模型,而我们拟合了一下模型:(13.3.7)122iiiYXu12233iiiiYXXv19我们知道:22332322222323()()()()ˆ2()yxxyxxxxxxx2222ˆ1iiiyxx真实模型的离差形式为:20将(3)代入(2):因此,仍是无偏的。我们发现:将(3)代入(5):22223232222222323()()()ˆ()4()xxxxExxxx23222332222323()()()()ˆ(5)()yxxyxxxxxxx22232232322222323()()()()ˆ()06()xxxxxxExxxx2ˆx3在真实模型中不存在,它的系数为0。因此,这一设定误差(拟合过度)将导致如下后果:(1)所有参数的OLS估计量都是无偏且一致的,即,(2)误差方差σ2的估计是正确的。(3)通常的置信区间和假设检验仍然有效。21112233ˆˆ()()()0EEE22(4)但是,一般而言,诸α系数的估计值将不是有效的,也就是说,它们的方差一般都大于真实模型中的方差。例如:22222222223ˆˆvar(),var()(1)iixxr而222323220r1,011ˆˆvar()var()r一个无益的结论似乎是:与其忽略有关变量,不如含有无关变量。23但是,这种理论是不值得维护的,因为增加不必要的变量将导致:1、估计量的效率损失2、多重共线性问题3、自由度的损失一般而言,最好的方法是,根据理论,仅仅包含那些直接影响因变量,而又不能由已被引进的其他变量来代替的解释变量。24§13.4设定误差的检验一、对过度拟合的侦察假设,为了解释某一现象,我们提出一个k变量模型:(13.4.1)若要判断变量Xk是否真的属于这个模型,一个简单的方法是用t检验:12233......iiikkiiYXXXuˆˆ()kktse25我们可以用F检验来判断X3和X4是否真的属于这个模型。034:0H问题:1、能否反复使用t检验,首先是的显著性,然后是等等的显著性,最后是的显著性?3ˆ4ˆˆk26这种建模策略被称为自下而上的方法(bottom-upapproach)(从一个较小的模型开始,然后逐渐扩大模型)或者多少带有轻薄口吻地称之为:数据开采(datemining)方法回归捕捉(regressionfishing)方法数据窥探(datasnooping)方法数字斟酌(numbercrunching)方法。27本专业的纯化论者很看不起数据开采的实践。谴责“数据开采”的原因之一如下:在数据开采情况下的名义的与真实的显著性水平是不同的。一种数据开采的危险是,诸如1%、5%、10%的常用的显著性水平α并非是真实的显著性水平。28洛弗尔(Lovell,1983)曾指出,如果有c个备用的回归元,根据数据开采的情况,从中最后选出k个(k≤c),则真实的显著性水平(α*)和名义上的显著性水平(α)有如下关系:(13.4.2)或近似地为(13.4.3)例如,若c=15,k=5,α=5%,由(13.4.3),真实的显著性水平为(15/5)(5%)=15%29在实践中,多数研究者都仅报告其“最终”回归结果,而不透露此前是如何通过大量数据开采或预检验而得到这些结果的详情。——这与个人升迁有关!但是,在应用计量经济学家看来,纯粹主义者(即非数据开采者)的建模方法也存在问题。30查曼(Zaman,1995)的观点:如果我们从一个更开阔的视角来看待数据开采,把它看成一种寻求经验规律的过程,并能从这些经验规律中判断现有理论模型中是否存在错误或纰漏,那么它将起到一个非常大的作用。肯尼迪(Kennedy,1992)认为,“应用计量经济学家的艺术在于,容许数据驱动理论进展而又不致陷入太大的数据开采的危险。”31二、对遗漏变量和不正确函数形式的检验1.残差分析P518-519和figure13.1结论:如果有设定误差,残差图必定展现出明显的样式。322.再次使用德宾-沃森d统计量德宾-沃森d统计量的定义:由于和只在一次观察中有区别,因而它们近似相等。因此:2ˆtu21ˆtu33由于若=1,d=0,表明残差存在完全的正相关关系;若=-1,d=4,残差存在完全负相关关系;若=0,d=2,残差不存在一阶的自相关。如果真实的模型是:而拟合的模型是:或者则d值表明存在正向的自回归。参见P519Table13.1的d值3435为了用德宾-沃森检验来侦察模型设定误差,我们以如下方式进行:(1)从假定的模型求得OLS残差。(2)如果认为假定的模型因排除了一个有关的解释变量,比如说Z而是误设的,则将第1步中所得的残差按Z值的递增次序排列。注意:Z变量可以是假定模型所含的X变量之一,或该变量的某一函数,如23XX或36(3)由这样排列的残差计算d统计量。注意:t在这里是观测次数,并不一定指时间序列数据。(4)根据德宾-沃森表,如果估计的d值是显著的,就可接受模型误设的假设。问:如何补救?n2tt1t2n2tt1ˆˆ(uu)dˆu373.拉姆齐的RESET检验拉姆齐(Ramsey)曾指出一种称为RESET(regressionspecificationerrortest)的一般性设定误差检验。答:增加解释变量。38拉姆齐的RESET检验:我们仍然使用成本—产出的例子,并假定成本是产出的线性函数:(13.4.6)其中,Y=总成本,X=产出123iiiYXu39如果用此回归的残差对描图,就会得到一个如下所示的图形:3ˆiuˆiY40虽然和都是零,图中的残差仍表明其均值系统地随而变化的模式。这提示我们,如果以某种形式将当做回归元引入(13.4.6),则应使增大。而如果的增大是统计上显著的,就表明线性成本函数(13.4.6)是误设的。ˆiuˆˆiiuYˆiYˆiY2R2R41RESET的操作步骤如下:(1)从所选的模型,例如(13.4.6)得到的估计值。ˆiYiY42(2)将某种形式的作为增补的回归元引入,重做(13.4.6)。由图13.2,我们观察到与之间存在曲线关系,表明可引进和作为增补的回归元。作回归:(3)记来自(13.4.7)的R2为R2新,得自(13.4.6)的为R2旧,然后引入F检验:(8.5.18)iˆYiˆuiˆY231234ˆˆ(13.4.7)iiiiiYXYYu2ˆiY3ˆiY43(4)如果所计算的F值是显著的,就可接受模型(13.4.6)被误设的虚拟假设。即:H0:模型被误设若,则接受H0P

1 / 97
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功