1第五章模型的建立与估计中的问题及对策2本章内容第一节误设定第二节多重共线性第三节异方差性第四节自相关3OLS估计量令人满意的性质,是根据一组假设条件而得到的。在实践中,如果某些假设条件不能满足,则OLS就不再适用于模型的估计。下面列出实践中可能碰到的一些常见问题:l误设定(Misspecification或specificationerror)l多重共线性(Multicollinearity)l异方差性(Heteroscedasticity或Heteroskedasticity)l自相关(Autocorrelation)l随机解释变量(Stochasticexplanatoryvariables)本章将对上述问题作简要讨论,主要介绍问题的后果、检测方法和解决途径。4第一节误设定采用OLS法估计模型时,实际上有一个隐含的假设,即模型是正确设定的。这包括两方面的含义:函数形式正确和解释变量选择正确。在实践中,这样一个假设或许从来也不现实。我们可能犯下列三个方面的错误:l选择错误的函数形式l遗漏有关的解释变量l包括无关的解释变量从而造成所谓的“误设定”问题。5一.选择错误的函数形式这类错误中比较常见的是将非线性关系作为线性关系处理。函数形式选择错误,所建立的模型当然无法反映所研究现象的实际情况,后果是显而易见的。因此,我们应当根据实际问题,选择正确的函数形式。6我们在前面各章的介绍中采用的函数形式以线性函数为主,上一章还介绍了因变量和解释变量都采用对数的双对数模型,下面再介绍几种比较常见的函数形式的模型,为读者的回归实践多提供几种选择方案。这几种模型是:•半对数模型•双曲函数模型•多项式回归模型71.半对数模型半对数模型指的是因变量和解释变量中一个为对数形式而另一个为线性的模型。因变量为对数形式的称为对数-线性模型(log-linmodel)。解释变量为对数形式的称为线性-对数模型(lin-logmodel)。我们先介绍前者,其形式如下:对数-线性模型中,斜率的含义是Y的百分比变动,即解释变量X变动一个单位引起的因变量Y的百分比变动。这是因为,利用微分可以得出:tttuXY10ln)1(1ln1dXYdYdXdYYdXYd8这表明,斜率度量的是解释变量X的单位变动所引起的因变量Y的相对变动。将此相对变动乘以100,就得到Y的百分比变动,或者说得到Y的增长率。由于对数-线性模型中斜率系数的这一含义,因而也叫增长模型(growthmodel)。增长模型通常用于测度所关心的经济变量(如GDP)的增长率。例如,我们可以通过估计下面的半对数模型得到一国GDP的年增长率的估计值,这里t为时间趋势变量。ttutGDP10)ln(9线性-对数模型的形式如下:与前面类似,我们可用微分得到因此这表明tttuXYln10XdXdY11XdXdYdXdYX1XXYXY的相对变动的绝对变动1XXY1上式表明,Y的绝对变动量等于乘以X的相对变动量。因此,线性-对数模型通常用于研究解释变量每变动1%引起的因变量的绝对变动量是多少这类问题。1102.双曲函数模型双曲函数模型的形式为:不难看出,这是一个仅存在变量非线性的模型,很容易用重新定义的方法将其线性化。双曲函数模型的特点是,当X趋向无穷时,Y趋向,反映到图上,就是当X趋向无穷时,Y将无限靠近其渐近线(Y=)。双曲函数模型通常用于描述著名的恩格尔曲线和菲利普斯曲线。tttuXY11000113.多项式回归模型多项式回归模型通常用于描述生产成本函数,其一般形式为:其中Y表示总成本,X表示产出,P为多项式的阶数,一般不超过四阶。多项式回归模型中,解释变量X以不同幂次出现在方程的右端。这类模型也仅存在变量非线性,因而很容易线性化,可用OLS法估计模型。2012......ptttpttYXXXu12二.遗漏有关的解释变量模型中遗漏了对因变量有显著影响的解释变量的后果是:将使模型参数估计量不再是无偏估计量。三.包括无关的解释变量模型中包括无关的解释变量,参数估计量仍无偏,但会增大估计量的方差,即增大误差。[注]有关上述两点结论的说明请参见教科书P112-113。13四.选择解释变量的四条原则在模型设定中的一般原则是尽量不漏掉有关的解释变量。因为估计量有偏比增大误差更严重。但如果方差很大,得到的无偏估计量也就没有多大意义了,因此也不宜随意乱增加解释变量。在回归实践中,有时要对某个变量是否应该作为解释变量包括在方程中作出准确的判断确实不是一件容易的事,因为目前还没有行之有效的方法可供使用。尽管如此,还是有一些有助于我们进行判断的原则可用,它们是:14选择解释变量的四条原则1.理论:从理论上看,该变量是否应该作为解释变量包括在方程中?2.t检验:该变量的系数估计值是否显著?3.:该变量加进方程中后,是否增大?4.偏倚:该变量加进方程中后,其它变量的系数估计值是否显著变化?2R2R如果对四个问题的回答都是肯定的,则该变量应该包括在方程中;如果对四个问题的回答都是“否”,则该变量是无关变量,可以安全地从方程中删掉它。这是两种容易决策的情形。15但根据以上原则判断并不总是这么简单。在很多情况下,这四项准则的判断结果会出现不一致。例如,有可能某个变量加进方程后,增大,但该变量不显著。2R在选择变量的问题上,应当坚定不移地根据理论而不是满意的拟合结果来作决定,对于是否将一个变量包括在回归方程中的问题,理论是最重要的判断准则。如果不这样做,产生不正确结果的风险很大。在这种情况下,作出正确判断不是一件容易的事,处理的原则是将理论准则放在第一位。16*五、模型的选择上一段讨论了某个解释变量应否包括在模型中的几条原则。实践中,要解决的一个问题是如何从大量的潜在解释变量的集合中选择一个最合适的子集,以得到一个正确设定的模型。上个世纪六十年代后相当一段时间,人们使用逐步回归法来解决解释变量的选择问题。这种由计算机机械挑选变量的做法如今已不流行了。目前比较通行的做法是从少量精心设定的备选模型中选择一个。计量经济学家就此提出了很多基于统计学的选择标准,我们这里讨论其中几种,如表5-1所示。17令RSSj表示第j个模型(有kj个解释变量)的残差平方和,并定义为第j个模型的的估计值。我们用表示包含全部k个解释变量的模型的估计值。2ˆjjjRSSnk2ˆm221822/()/[()(1)]2()/()exp[2(1)/]jjjjjjjmjjjjjppRRSSnkSRSSnknkCRSSkPCRSSnknkAICRSSkn表5-1选择回归模型的准则准则计算公式191.准则希尔(Theil)的准则基于如下假设:所考虑的模型中有一个是正确模型。对于正确模型,,对于不正确模型,。因此,选择最小的模型一般就能选出正确模型。由于最小化与最大化是一回事,我们习惯上称该准则为最大准则。这个准则的主要问题是,一个包括正确模型的所有解释变量但同时也包括一些无关变量的模型也会给出,在这种情况下,我们所选择的其实并非正确模型。当备选模型包含大量无关变量时,选出正确模型的概率较低。2R2R2ˆ2ˆ2R2R22ˆ()jE22ˆ()jE22ˆ()jE202.基于预测的均方误差最小的三个准则希尔的准则是基于回归的标准误差最小,下列三个准则则是基于预测的均方误差(MSE)最小。这三个准则是:马娄斯(Mallows)的准则霍金(Hocking)的准则阿美米亚(Amemiya)的PC准则假设正确的方程有k个解释变量,我们考虑的方程有个解释变量,问题是如何选择k1以及具体的k1个解释变量的集合。在上述三个预测准则中,这是通过使的均方误差达到最小实现的,其中是Y的未来值,而是预测值。1()kkfYˆfY2ˆ()ffEYYpCpS21上述三个准则都是基于预测的均方误差最小,但在估计预测的均方误差时采用的假设有所不同,因而形成各自的计算公式,孰优孰劣,并无定论,在实践中可根据所用软件提供的输出结果选用其中一个作为模型选择的准则。具体做法是比较备选的几个模型的、或PC值,选其中最小的即可。在三个预测准则的情况下,我们感兴趣的是改善预测的MSE,只要能改善,可以去掉某些变量,即便是正确模型中包括它们也在所不惜。pCpS223.赤池信息准则(AIC)赤池信息准则(Akaike’sInformationCriterion,AIC)是一个更一般的准则,它可以应用于任何一个可用极大似然法估计的模型。对于我们这里的应用,AIC的计算公式为与赤池信息准则类似的还有施瓦茨信息准则(Schwarzinformationcriterion,SIC):上述两个准则与前述准则一样,可用于模型选择,其值也是越小越好。2(1)/knRSSAICen(1)/knRSSSICnn23六.检验误设定的RESET方法前面给出了选择解释变量的四条原则。可是,有时这些原则不能提供足够的信息使研究人员确信其设定是最恰当的,在这种情况下,可考虑使用一些更正规的检验方法来比较不同估计方程的性质。这类方法相当多,这里就不一一列出,仅介绍拉姆齐(J.B.Ramsey)的回归设定误差检验法(RESET法,RegressionSpecificationErrorTest)。24RESET检验法的思路RESET检验法的思路是在要检验的回归方程中加进等项作为解释变量,然后看结果是否有显著改善。如有,则可判断原方程存在遗漏有关变量的问题或其它的误设定问题。直观地看,这些添加的项是任何可能的遗漏变量或错误的函数形式的替身,如果这些替身能够通过F检验,表明它们改善了原方程的拟合状况,则我们有理由说原方程存在误设定问题。另一方面,等项形成多项式函数形式,多项式是一种强有力的曲线拟合装置,因而如果存在(函数形式方面的)误设定,则用这样一个装置可以很好地代表它们。432ˆˆ,ˆYYY和432ˆˆ,ˆYYY和25RESET检验法的步骤拉姆齐RESET检验的具体步骤是:(1)用OLS法估计要检验的方程,得到(2)由上一步得到的值(i=1,2,…,n),计算,然后用OLS法估计:(3)用F检验比较两个方程的拟合情况(类似于上一章中联合假设检验采用的方法),如果两方程总体拟合情况显著不同,则我们得出原方程可能存在误设定的结论。使用的检验统计量为:iiiXXY22110ˆˆˆˆ234ˆˆˆ,iiiYYY和iYˆiiiiiiiuYYYXXY45342322110ˆˆˆ26)1/(/)(knRSSMRSSRSSFM其中:RSSM为第一步中回归(有约束回归)的残差平方和,RSS为第二步中回归(无约束回归)的残差平方和,M为约束条件的个数,这里是M=3。应该指出的是,拉姆齐RESET检验仅能检验误设定的存在,而不能告诉我们到底是哪一类的误设定,或者说,不能告诉我们正确的模型是什么。但该方法毕竟能给出模型误设定的信号,以便我们去进一步查找问题。另一方面,如果模型设定正确,RESET检验使我们能够排除误设定的存在,转而去查找其它方面的问题。27第二节多重共线性应用OLS法的一个假设条件是;矩阵X的秩=K+1N。即自变量之间不存在严格的线性关系,观测值个数大于待估计的参数的个数。这两条无论哪一条不满足,则OLS估计值的计算无法进行,估计过程由于数学原因而中断,就象分母为0一样。这两种情况都很罕见。然而,自变量之间存在近似的线性关系则是很可能的事。当某些解释变量高度相关时,尽管估计过程不会中断,但会产生严重的估计问题,我们称这种现象为多重共线性。解释变量间存在严格线性相关关系时,称为完全的多重共线性。28一定义在实践中,若两个或多个解释变量高度线性相关,我们就说模型中存在多重共线性。二后果1.不改变参数估计量的无偏性;这是因为,尽管解释变量之间存在多重共线性,但并不影响扰动项和解释变量观测值的性质,故