项目6多重共线性问题1.知识目标:多重共线性的含义、原因及其后果;多重共线性的检验方法包括相关矩阵法、辅助回归模型检验、方差膨胀因子法等;多重共线性的修正包括改变模型形式、删除自变量、减少参数估计量的方差等几类方法。2.能力目标:理解多重共线性的含义;理解多重公共线产生的原因与后果;掌握多重共线性的检验方法与应用;掌握多重共线性的修正方法与应用。【学习目标】【情景写实】经济学家在研究人们的消费水平时,发现除了收入因素外,人们的财富也是决定消费的一项重要的因素。但从收入与财富的实际数据分析,可得出两者具有很强的相关性:富有的人一般收入也较高。从理论上看收入与财富可以成为解释消费水平的两个变量,但实际却很难将收入与财富对消费水平的影响分离开来。因此,在建立线性回归模型时,自变量之间的相关性是确定模型自变量的一个重要因素。任务6.1多重共线性问题概述多元线性回归模型中假定任意自变量之间没有明确的线性关系。如果回归模型中自变量之间存在线性相关性,则称模型存在多重共线性的问题。多重共线性违背了多元回归模型的基本假定,将影响模型回归系数的普通最小二乘估计。对于一个回归模型,为模型的个自变量,如果其中的某两个或多个自变量之间存在完全或准确的线性相关性,则称该模型存在多重共线性。多重共线性分为完全多重共线性与不完全多重共线性两种类型。当自变量之间存在完全的线性相关性时,称为完全多重共线性。用数学方法解释为,存在不全为零的数,使得下式成立:表明模型中至少有一个自变量可以用其他自变量的线性组合表示。当自变量之间存在近似的线性相关性时,称为不完全多重共线性。用数学方法解释为,存在不全为零的数,使得下式成立:其中为随机误差项。表明模型中至少存在一个自变量可由其它自变量的线性组合与随机误差项共同表示。一、多重共线性的含义12,,,kXXXL12,,kL11220,1,2,.iikkiXXXinLL12,,kL11220,1,2,.iikkiiXXXinLLii【相关链接】我国居民家庭对电力的需求模型建立一个我国居民家庭电力需求量模型,以居民人均居住面积和人均可支配收入指数为解释变量。下表是一组相关数据:观察表中的数据发现居民年人均可支配收入指数越高相应的人均居住面积越大,说明两者可能存在较强的相关性。根据数据我们对和进行相关性分析,得出它们的相关系数为。将对进行回归,得到:,分析结果表明居民收入与居住面积之间有高度的线性相关性。说明以居民收入和居住面积为解释变量的居民电力需求模型存在不完全多重共线性。2X1X1X2X12=0.96310.8r124.11270.0368ttXX20.9276R二、多重共线性的原因在现实情况中,除了人为构造的数据以外,完全多重共线性是几乎不存在的。较常见的是不完全多重共线性的问题,也就是模型自变量之间存在近似或高度的相关性。这种多重共线性问题产生的原因可能有以下几点。(1)模型中所包含的一些自变量同时随时间呈现增减变化,具有相同的时间趋势。如在经济繁荣时期,社会的收入、消费、投资、通货膨胀率、就业率等经济因素都呈上升趋势;经济萧条时,这些因素又都呈下降趋势。说明这些基本经济因素之间存在较强的共线性,若将它们同时引入到同一个回归模型中作为自变量,会导致非常严重的多重共线性问题。(2)数据采集的范围有限,或采集的样本量小于模型的自变量个数。如在罕见疾病的研究过程中,由于病情罕见、病因又相当复杂,而只能在少数的患者身上采集大量的变量信息。(3)模型中的一些变量是另外一些变量的滞后变量。例如杜森贝利相对收入假设消费函数,其简化形式为:其中,、分别为第期、第期的消费支出,为第期的收入,为随机误差项。杜森贝利相对收入理论假设与期的消费支出具有较强的相关性。显然,第期的收入与期的消费支出具有较强的相关性。0121,1,2,.ttttCYCtnLtC-1tCt1ttYttttY1t-1tC(4)实际中模型的一些自变量之间存在密切的关系。例如建立一个服装需求模型,模型以消费者收入与服装价格为解释变量。在现实生活中,收入较高的消费者购买的服装价格也相对较高;反之亦然。说明消费者收入与服装价格之间存在较强的线性相关性,模型存在多重共线性问题。三、多重共线性的后果在多元回归模型中,不管存在完全多重共线性,还是不完全多重共线性,都会对模型回归系数的普通最小二乘估计产生严重的影响。下面以二元线性回归模型为例进行说明。(一)完全多重共线性的情况下,模型回归系数的普通最小二乘参数估计值无法确定,并且估计量的方差为无穷大。二元线性回归模型的基本形式如下:由第三章中的结论可知回归系数的普通最小二乘估计量及其方差分别为:01122,1,2,.iiiiYXXinL21221212221212ˆiiiiiiiiiiiyxxyxxxxxxx2122112ˆvar1ixr若模型存在完全多重共线性,则模型自变量与的相关系数,并且存在不为零的常数,使得,代入上述估计量及其方差中得:可见无法确定,且。同理也无法确定,且22211111222221110ˆ0iiiiiiiiiyxxyxxxxx2121ˆvar.11ix1X2X121r21iiXX1ˆ1ˆvar2ˆ2ˆvar(二)不完全多重共线性情况下,对模型的可能产生的后果主要有以下几点:(1)不完全多重共线性问题存在的情况下,模型回归系数的普通最小二乘估计量存在,并且仍然是最优线性无偏估计量。也就是说在回归系数的所有线性无偏估计量中,普通最小二乘估计量的方差是最小的。但是方差在不完全多重共线性的影响下变大,使得估计量的可靠度降低。以上述的二元线性回归模型为例,回归系数的普通最小二乘估计量的方差为:引入方差膨胀因子(variance-inflatingfactor,VIF),定义为:推广到元回归模型中,模型回归系数估计量的方差为:其中方差膨胀因子为:其中代表自变量变量对其余自变量做回归模型的拟合优度。则的方差可表示为:12122112ˆvar.1ixr2121;1VIFrkˆj222ˆvar1jjjxR22jjVIFx211jjVIFR2jRjX1ˆ2121ˆvar.iVIFx根据方差膨胀因子的表达式,可以看出与的方差成正比,能够反映估计量的方差的增长速度。若二元回归模型存在不完全多重共线性,则自变量与的相关系数。当线性相关的程度越大,即相关系数越接近1时,方差膨胀因子越大并趋于无穷。此时普通最小二乘估计量的方差也迅速增大,同时趋于无穷。VIFVIFVIF1ˆ1ˆ1ˆ1X2X120.81r12r(2)回归系数的普通最小二乘估计量的经济含义不合理。如普通最小二乘估计量的意义是:在自变量维持不变的情况下,自变量每变化一个单位时因变量的均值的变化率。然而,模型在存在不完全多重共线性的问题时,自变量和是高度线性相关的。因此无法做到保持变量不变的情况下,只变化变量的值。也就是说此时反映的是自变量和对因变量的共同影响,而不是对的独立影响,并且没有方法能够度量中自变量、对因变量的各自影响的大小。因此,失去了原本的经济含义。1ˆ2X1XY1X2X2X1X1X2XY1XY1ˆ1X2XY1ˆ(3)回归模型的拟合优度较大,但是变量的显著性检验值变小,不显著的可能性变大。如对变量进行显著性检验,原假设为,检验统计量值为。如前所述,当自变量、存在高度线性相关,并且相关程度越来越高时,的方差和标准差迅速增大,从而使得值变小,接受原假设的可能性增大,即变量无法通过显著性检验的概率增大。2Rt1X10t11ˆˆ/s1X2X1t【相关链接】多重共线性的后果引用相关链接6.1中我国居民家庭电力需求模型的数据,以居民人均居住面积和人均可支配收入指数为解释变量,电力需求量为因变量建立二元回归模型,Eviews6.0运行结果如下表:由回归结果得到二元回归方程为:模型的拟合优度,总体的检验显著。自变量的检验结果只有自变量是显著的,而自变量的显著性检验值为(不显著),这意味着只有收入对居民的电力需求量有显著影响,而人均居住面积对电力需求量没有显著的影响。12ˆ125.35302.80860.4409tttYXX20.9910RFt2X1Xt1.748822XY1XY任务6.2多重共线性的检验在意识到多重共线性可能产生的后果之后,该如何解决多重共线性问题呢?这之前我们首先需要明确模型中是否存在多重共线性问题,也就是找到检验多重共线性是否确切存在的方法。在6.1节中我们以简单的二元回归模型为例,对多重共线性问题作出说明,可以发现检验二元线性回归模型的多重共线性方法比较简单,只需计算两个解释变量的相关系数,判断是否达到高度相关的程度。那么,如何检验多元线性回归模型中是否存在多重共线性,即检验是否存在两个或多个自变量存在完全或高度线性相关?这将涉及到更复杂的多个自变量之间的相关性问题。一、多重共线性的检验方法多重共线性本质上是一种样本特征,而不是总体特征。它是基于我们对解释变量的非实验数据的研究所得出的结果,更确切地说样本决定了模型中多重共线性的程度。因此,目前检验多重共线性的多种方法,其实是基于样本数据研究的一些经验规则,并没有一种被普遍接受。下面我们主要介绍以下几种常见方法。考察多元线性回归模型的回归结果,如果模型的拟合优度值很大(超过0.8),但是模型的多个或全部解释变量的检验结果不显著,说明模型可能存在多重共线性问题。这是线性回归模型存在多重共线性问题的一个“经典”标志。如相关链接6.2中,我国居民家庭电力需求模型存在多重共线性,模型的拟合优度,而两个解释变量中居民人均居住面积的检验结果却不显著。1.值大而显著的值比率少2Rt2Rt20.99100.8R1Xt2.相关矩阵法检验多重共线性的另一种较普遍的方法是利用模型自变量的相关矩阵。对于多元线性回归模型:则模型自变量的相关系数矩阵为:01122,1,2,.iiikkiiYXXXinLL12,,,kXXXL11121121212222121212111kkkkkkkkkkrrrrrrrrrrRrrrrrLLLLMMOMMMOMLL其中是自变量与的相关系数。显然每个自变量都与自身完全相关,因此相关系数矩阵对角线上的元素值均为1。而矩阵非对角线上的元素则包含所有自变量两两之间的相关系数,如果这些相关系数中存在部分相关系数绝对值大于0.8,说明该相关系数涉及的两个自变量之间存在高度线性关系,那么模型就存在不完全多重共线性。,1,2,,ijrijkLiXjXR但是我们仔细思考又会发现一个问题,相关系数矩阵反映的是两两自变量之间的相关程度,那么如果相关矩阵上的所有元素的绝对值均小于0.8,能够说明该模型不存在多重共线性吗?答案是不能。这是由于矩阵中的所有相关系数绝对值小于等于0.8,只能说明模型中所有自变量两两之间不相关,并不代表模型的三个或者三个以上的自变量之间不存在高度相关关系,因此不能说明此时模型不存在多重共线性问题。这就是相关矩阵法的局限所在。RR3.辅助回归模型检验根据多重共线性的性质,即模型中至少存在一个自变量可以由其他自变量的准确或近似线性组合表示。那么如果我们找出一个或者多个自变量与其他自变量的这种准确或近似的线性关系的话,就能够说明模型存在多重共线性。因此,考虑做每一个自变量对其他自变量的线性回归模型,并计算出相应的拟合优度,这样的回归模型称为辅助回归模型。模型的形式如下:其中;。辅助回归模型的拟合优度记为。做模型中的每个自变量