§4.3多重共线性一、多重共线性的概念二、实际经济问题中的多重共线性三、多重共线性的后果四、多重共线性的检验五、克服多重共线性的方法六、案例一、多重共线性的概念对于模型:Yi=0+1X1i+2X2i++kXki+ii=1,2,…,n其基本假设之一是解释变量之间是互不相关的。如果某两个或多个解释变量之间出现了相关性,则称为存在多重共线性(Multicollinearity)。如果存在不全为0的数c1、c2、…、ck,使c1X1i+c2X2i+…+ckXki=0i=1,2,…,n即:某个解释变量完全可以由其它解释变量的线性组合来表示则称为解释变量间存在完全共线性(perfectmulticollinearity)。#完全共线性与近似共线性如果存在不全为0的数c1、c2、…、ck,使c1X1i+c2X2i+…+ckXki+vi=0i=1,2,…,n即:某个解释变量近似地可以由其它解释变量的线性组合来表示则称为解释变量间存在近似共线性(approximatemulticollinearity)。#共线性示例X1X2X31050521575751890972412012930150152•X2=5X1完全共线性•X3=5X1+V近似共线性knnnkkXXXXXXXXXX212221212111111•完全共线性下,X中至少有一列向量可由其他列向量(不包括第一列)线性表出,这意味着:秩(X)k+1。即:设计矩阵X是非列满秩的!•近似共线性下,X依然满足列满秩的条件#共线性下的设计矩阵X在矩阵表示的线性回归模型:Y=X+中:这里定义的多重共线性仅对解释变量X之间的线性相关而言。对于解释变量之间存在非线性相关的模型,并不视为存在多重共线性问题。如:#对多重共线性的说明2012YXX实际问题中,完全的多重共线性并不多见,但是近似共线性却是一个普遍的现象。基于此,我们关注的多重共线性并不是一个“有无”的问题,而是一个“强弱”的问题。当各X之间的线性相关程度较弱时,我们将认为模型并不存在多重共线性问题。二、实际经济问题中的多重共线性一般地,产生多重共线性的主要原因有以下三个方面:(1)经济变量相关的共同趋势时间序列样本:经济繁荣时期,各基本经济变量(收入、消费、投资、价格)都趋于增长;衰退时期,又同时趋于下降。横截面数据:生产函数中,资本投入与劳动力投入往往出现高度相关情况,大企业二者都大,小企业都小。(2)滞后变量的引入在经济计量模型中,往往需要引入滞后经济变量来反映真实的经济关系例如:消费=f(当期收入,前期收入)显然,两期收入间有较强的线性相关性。(3)样本资料的限制由于完全符合理论模型所要求的样本数据较难收集,特定样本可能存在某种程度的多重共线性。多重共线性本质上是一种样本现象。换言之,即使在总体中诸X之间没有线性关系,但在具体获得的样本中仍可能有线性关系。三、多重共线性的后果1、完全共线性下参数估计量不存在完全共线性——X非列满秩——(X’X)不满秩——(X’X)-1不存在——无法得到参数的估计量。μXβY的OLS估计量为:YXXXβ1)(ˆ例:对离差形式的二元回归模型如果两个解释变量完全相关,如x2=x1,则这时,只能确定综合参数1+2的估计值:这一后果的实际意义是:无法得到回归系数的唯一解,但可以得到这些系数的线性组合的唯一解Y=0+1X1+2X2+Y=0+(1+2)X1+2、近似共线性下解释变量的单独作用无法区分实际问题中的直接表现是:模型的回归系数经常表现出反常的现象!例如1本来应该是正的,结果却是负的。经验表明,如果存在这种反常情形,应该首先怀疑多重共线性。经典假设下,回归系数βj表达了在其它解释变量不变的情形下,Xj对Y的单独作用(净影响)如果模型中两个解释变量具有线性相关性,例如X2=X1,这时,X1和X2前的参数1、2并不反映各自与被解释变量之间的结构关系,而是反映它们对被解释变量的共同影响从而解释变量的单独作用无法无区分,1、2失去了应有的经济含义3、近似共线性下OLS估计量的方差变大近似共线性下,可以得到OLS参数估计量,并且可以证明,此时参数估计量依然满足线性、无偏和有效性,即OLS依然是BLUE但是,此时参数估计量的方差会增大。参数估计量方差的表达式为由于|X’X|0,引起(X’X)-1主对角线元素较大,使参数估计值的方差增大12)()ˆ(XXβCov这意味着:(1)无法精确的估计参数(以较高的精度估计参数)(2)基于参数估计量的标准差的变量显著性检验失效以二元线性模型Y=0+1X1+2X2+为例:2221221212221222122211121)(1/)()()ˆvar(iiiiiiiiiixxxxxxxxxxXX2221221)(iiiixxxx恰为X1与X2的线性相关系数的平方r2由于0r21,故1/(1-r2)1212211ˆvar()1ixr#方差膨胀因子(VarianceInflationFactor,VIF)显然:多重共线性的存在使得参数估计值的方差增大,其增加的倍数可以采用1/(1-r2)衡量当完全不共线时,r2=02121/)ˆvar(ix当近似共线时,0r212122212111)ˆvar(iixrx表4.3.1方差膨胀因子表相关系数平方00.50.80.90.950.960.970.980.990.999方差膨胀因子12510202533501001000当完全共线时,r2=1)ˆvar(1定义:1/(1-r2)称为方差膨胀因子(VarianceInflationFactor,VIF)1-r2=1/VIF称为容忍度(Tolerance,TOL)更一般地,对于K元回归模型Y=0+1X1+2X2+…+kXk+βj的VIF定义为:有:22ˆvar()jjjiVIFx#方差膨胀因子的一般性定义211jjVIFR其中:Rj2为下述回归的可决系数:0(1,2,...,,)jiiXaaXikij注意:•除非是完全共线性,多重共线性并不意味着任何基本假设的违背;•因此,即使出现较高程度的多重共线性,OLS估计量仍具有线性性等良好的统计性质。•问题在于:即使OLS法仍是最好的估计方法,它却不是“完美的”,尤其是在统计推断上无法给出真正有用的信息。多重共线性的检验可以从两个角度进行:(1)共线性的定义——变量的线性相关性(2)共线性的后果——方差变大、系数反常等对多重共线性的检验需要完成两个基本任务:(1)检验多重共线性是否“存在”——是否严重到需要重视的程度(2)估计多重共线性的范围——判断哪些变量之间存在共线性。三、多重共线性的检验1、相关系数法计算解释变量两两之间的简单相关系数,进行判断(1)对两个解释变量——简单相关系数(2)对多个解释变量——相关系数矩阵若|r|接近1,则说明两变量存在较强的多重共线性。注意:相关系数多大才算是严重的共线性,并无统一标准,只能凭经验判断。经验认为,如果rij0.8,比较严重0.9,非常严重•若在OLS法下,出现以下现象,则可能意味着共线性的存在:a、系数估计值的符号不合常理;b、R2与F值较大,方程具有显著性,但各参数估计值的t检验值均较小,多个解释变量并不显著说明各解释变量对Y的联合线性作用显著,但各解释变量间存在共线性而使得它们对Y的独立作用不能分辨,故t检验不显著。2、经验判断法•将每个解释变量Xi对其它解释变量Xj进行回归,•观察其拟合优度R2和F检验值,如果某个Ri2接近1,Fi显著超出临界值,则表明该Xi与其它解释变量存在多重共线性。3、辅助回归检验法•计算每个回归系数的VIF或TOL•方差膨胀因子越大(或容忍度越小),表明模型的多重共线性越强。•当VIF5或VIF10时,认为存在较严重的多重共线性。4、方差膨胀因子和容忍度(VIF&TOL)211jjVIFR21jjTOLR模型存在较严重的多重共线性时,|X’X|≈0,由线性代数,若λ1,…,λk+1为矩阵X’X的特征值,则:|X’X|=λ1×…×λk+1≈0表明,特征值中至少有一个接近于0。因此可利用矩阵X’X的特征值检验多重共线性。•条件指数(病态数)CN(ConditionalNumber)CN=最大特征值/最小特征值=λmax/λmin•病态指数CI(ConditionalIndex):CI=SQRT(CN)CN和CI均反映了特征值的离散程度,数值越大表明多重共线性越严重5、特征值检验法在模型中排除某一个解释变量Xj,估计模型;如果拟合优度与包含Xj时十分接近,则说明Xj与其它解释变量之间存在共线性。6、剔除检验法以Y为被解释变量,逐个引入解释变量,构成回归模型,进行模型估计,根据拟合优度的变化决定新引入的变量是否独立。如果拟合优度变化显著,则说明新引入的变量是一个独立解释变量;如果拟合优度变化很不显著,则说明新引入的变量与其它变量之间存在共线性关系。7、引入检验法找出引起多重共线性的解释变量,将它排除出去。以逐步回归法得到最广泛的应用。注意:这时,剩余解释变量参数的经济含义和数值都发生了变化如果模型被检验证明存在多重共线性,则需要发展新的方法估计模型,最常用的方法有三类。四、克服多重共线性的方法1、第一类方法:排除引起共线性的变量2、第二类方法:差分法时间序列数据、线性模型:将原模型变换为差分模型:Yi=1X1i+2X2i++kXki+i可以有效地消除原模型中的多重共线性。一般讲,增量之间的线性关系远比总量之间的线性关系弱得多。表4.3.2中国GDP与居民消费C的总量与增量数据(亿元)年份CYC/Y△C△Y△C/△Y19781759.13605.60.48819792005.44074.00.492246.3468.40.52619802317.14551.30.509311.7477.30.65319812604.14901.40.531287.0350.10.82019822867.95489.20.522263.8587.80.44919833182.56076.30.524314.6587.10.53619843674.57164.40.513492.01088.10.45219854589.08792.10.522914.51627.70.56219865175.010132.80.511586.01340.70.43719875961.211784.70.506786.21651.90.47619887633.114704.00.5191671.92919.30.57319898523.516466.00.518890.41762.00.50519909113.218319.50.497589.71853.50.318199110315.921280.40.4851202.72960.90.406199212459.825863.70.4822143.94583.30.468199315682.434500.70.4553222.68637.00.373199420809.846690.70.4465127.412190.00.421199526944.558510.50.4616134.711819.80.519199632152.368330.40.4715207.89819.90.530199734854.674894.20.4652702.36563.80.412199836921.179003.30.4672066.54109.10.503199939334.482673.10.4762413.33669.80.658200042911.989112.50.4823577.56439.40