第8章1本章试图回答以下问题:多重共线性的性质是什么?多重共线性的理论后果是什么?多重共线性的实际后果是什么?在实际中,如何发现多重共线性?多重共线性是否真的是一个问题?消除多重共线性的弥补措施有哪些?多重共线性的性质:完全多重共线性的情形8.2近似或不完全多重共线性的情形8.3多重共线性的理论后果8.4多重共线性的实际后果8.5多重共线性的诊断8.6多重共线性必定不好吗8.7一个扩展例子:1960至1982年期间美国的鸡肉需求8.8如何解决多重共线性:补救措施8.9小结考虑一个简单的数字例子。表8-1给出了两列收入数据,假定X3和X4是由两位研究员估计的,为了区别,称X3为收入,X4为收益。将需求函数加以扩展,写成:Yi=A1+A2X2i+A3X3i+ui(8-1)Yi=B1+B2X2i+B3X4i+ui(8-2)这两个需求函数的不同之处在于对收入的不同测度。8.1多重共线性的性质:完全多重共线性的情形当用表8-1的数据来进行回归时,计算机拒绝估计“回归”。(用Excel软件和Eviews软件情况不同。)作价格(X2)和收入(X3)的关系图,见图8-1。如果作X3对X2的回归则得到如下方程:X3i=300-2X2iR2(=r2)=1.00(8-3)即收入变量(X3)和价格变量(X2)完全相关,也即存在多重共线性。=-2X2+300R2=1278280282284286288290292294296298300024681012图8-1收入X3与价格X2的关系图由于存在完全共线性,所以我们不能对方程(8-1)进行回归估计。若把方程(8-3)代入方程(8-1)中,有:Yi=A1+A2X2i+A3(300-2X2i)+ui=(A1+300A3)+(A2-2A3)X2i+ui=C1+C2X2i+ui(8-4)其中,C1=A1+300A3(8-5)C2=A2-2A3(8-6)X3i=300-2X2i变量变换式(8-4)的估计结果如下:se=(0.746)(0.1203)t=(66.538)(-17.935)r2=0.9757(8-7)iiXY21576.2667.49ˆ我们可以估计得到C1=49.667,C2=-2.1576,但无法得到A1、A2和A3的估计值。当解释变量之间存在完全多重共线性时,无法获得所有参数的唯一估计值,也不能对参数进行假设检验。注意这里的多重共线性指的是两个或多个变量完全线性相关,是完全多重共线性的情况。在实际中,完全多重共线性是比较少的,多数情况下是:两个或多个解释变量接近完全线性相关,或说是高度线性相关,我们称之为接近或不完全多重共线性或高度多重共线性。结论:近似或不完全多重共线性的情况结果如下:se=(120.06)(0.8122)(0.4003)t=(1.2107)(-3.4444)(-0.7971)R2=0.9778(8-8)iiiXXY423191.07975.237.145ˆ从现在起,我们所说的多重共线性是指不完全多重共线性。仍然利用表8-1的数据,以收益作为收入变量来进行回归。软件回归结果:lsycx2x4DependentVariable:YMethod:LeastSquaresSample:110Includedobservations:10VariableCoefficientStd.Errort-StatisticProb.C145.3650120.06221.2107470.2653X2-2.7974750.812185-3.4443830.0108X4-0.3190800.400306-0.7970890.4516R-squared0.977752Meandependentvar37.80000AdjustedR-squared0.971396S.D.dependentvar6.613118S.E.ofregression1.118463Akaikeinfocriterion3.305113Sumsquaredresid8.756717Schwarzcriterion3.395889Loglikelihood-13.52557F-statistic153.8192Durbin-Watsonstat2.560899Prob(F-statistic)0.000002先验信息Eviews文件(F-statistic)0.000002VariableCoefficientStd.Errort-StatisticProb.C49.666670.74643966.538110.0000X2-2.1575760.120300-17.935020.0000R-squared0.975733Meandependentvar37.80000AdjustedR-squared0.972700S.D.dependentvar6.613118S.E.ofregression1.092675Akaikeinfocriterion3.191992Sumsquaredresid9.551515Schwarzcriterion3.252509Loglikelihood-13.95996F-statistic321.6650Durbin-Watsonstat2.051315Prob(F-statistic)0.000000结论:(1)尽管不能估计回归方程(8-1),但是能估计(8-2)。(2)与预测相同,方程(8-7)和(8-8)中的价格系数都是负的,并且两者之间的数值差异不大。(3)方程(8-8)R2的值比(8-7)只增加了0.0020,这一增加量在统计上不显著。(4)收入(收益)变量的系数是统计不显著的。而且对于一般商品,这个符号是错误的。(5)尽管收入变量是不显著的,但价格和收益联合地对商品的需求有显著影响。作价格与收入的关系图(参见图8-2)。从图上可以看出,价格和收益之间存在高度相关。这两个变量之间的回归方程是:X4i=299.92-2.0055X2i+ei(8-9)se=(0.6748)(0.1088)t=(444.44)(-18.44)r2=0.9770回归结果表明:价格与收益高度相关。相关系数为-0.9884,也即高度共线性,或是接近完全多重共线性。如果相关系数是-1,则是完全多重共线性的情况。=-2.0055X2+299.92R2=0.977275280285290295300024681012图8-2收益X4与价格X2的关系图注意:在只有两个解释变量的情形下,相关系数r可用作共线性程度的测度。但当解释变量多于两个时,相关系数则不适合度量共线性。多重共线性的理论后果在古典线性回归模型(CLRM)假定下,OLS估计量是最优线性无偏估计量(BLUE)。如果解释变量间存在多重共线性,OLS估计量会怎样?完全多重共线性的后果:参数估计量不存在,无法估计出模型中的参数。接近或者高度多重共线性的后果:(1)即使在接近共线性的情形下,OLS估计量仍然是无偏的。仍然是最优线性无偏估计量,即使某些系数是统计不显著的。(2)接近共线性也并未破坏OLS估计量的最小方差性。但最小方差并不意味着方差值也较小。(3)多重共线性本质上是一个样本(回归)现象。多重共线性的实际后果在接近或者高度多重共线性的情形下,我们可能遇到如下一个或者多个后果:(1)OLS估计量的方差和标准差较大。(2)置信区间变宽。(3)t值不显著。(4)R2值较高,但t值并不都显著。(5)OLS估计量及其标准差对数据的微小变化非常敏感。(6)回归系数符号有误。(7)难以衡量各个解释变量对回归平方和或R2的贡献。因为解释变量间存在共线性,解释变量前的参数并不反映各自与被解释变量间的结构关系,而是反映它们对被解释变量的共同影响。所以各自的参数已经失去了应有的经济含义,于是经常表现出似乎反常的现象,回归参数的符号与经济理论不符。简言之,多重共线性的存在使得OLS估计量的标准差变大,参数估计量的经济含义不合理,变量的显著性检验失去意义,无法衡量各解释变量的贡献。多重共线性的诊断因为多重共线性所产生的严重后果,所以我们非常关心模型中是否存在多重共线性以及多重共线性的程度。多重共线性是一个样本特性(samplespecific),我们需要注意以下问题:(1)多重共线性是一个程度问题而不是存在与否的问题。(2)由于多重共线性是在假定解释变量是非随机的条件下出现的问题,因而它是样本的特征,而不是总体的特征。度量特定样本多重共线性的程度时常用的经验法则如下:(1)R2较高但t值显著的不多。(见(8-8)的回归结果)(2)解释变量两两高度相关。但这一标准并不十分可靠。因为解释变量两两相关系数较低时也可能存在高度多重共线性。(3)检查偏相关系数。假设有三个解释变量,X2,X3,X4。r23表示X2与X3之间的相关系数。相关系数r23.4,称为偏相关系数,它是在变量X4为常数的条件下X2和X3之间的相关系数。偏相关系数是检验多重共线性的另一手段。(4)从属(subsidiary)或辅助(auxiliary)回归。作每个解释变量对其他剩余解释变量的回归并计算相应的R2值。其中的每一个回归都被称为是从属或者辅助回归,从属于Y对所有变量的回归。例如:考虑Y对X2,X3,X4,X5,X6,X7—这6个解释变量的回归。如果回归结果表明存在多重共线性,则可通过辅助回归,来判断哪些解释变