第六章多重共线性的情形及其处理6.1多重共线性产生的背景和原因6.2多重共线性对回归模型的影响6.3多重共线性的诊断6.4消除多重共线性的方法6.5主成分回归6.6本章小结与评注第六章多重共线性的情形及其处理如果存在不全为0的p+1个数c0,c1,c2,…,cp,使得c0+c1xi1+c2xi2+…+cpxip=0,i=1,2,…,n(6.1)则称自变量x1,x2,…,xp之间存在着完全多重共线性。在实际经济问题中完全的多重共线性并不多见,常见的是(6.1)式近似成立的情况,即存在不全为0的p+1个数c0,c1,c2,…,cp,使得c0+c1xi1+c2xi2+…+cpxip≈0,i=1,2,…,n(6.2)称自变量x1,x2,…,xp之间存在着多重共线性(Multi-collinearity),也称为复共线性。§6.1多重共线性产生的经济背景和原因当我们所研究的经济问题涉及到时间序列资料时,由于经济变量随时间往往存在共同的变化趋势,使得它们之间就容易出现共线性。例如,我们要研究我国居民消费状况,影响居民消费的因素很多,一般有职工平均工资、农民平均收入、银行利率、全国零售物价指数、国债利率、货币发行量、储蓄额、前期消费额等,这些因素显然既对居民消费产生重要影响,它们之间又有着很强的相关性。§6.1多重共线性产生的经济背景和原因许多利用截面数据建立回归方程的问题常常也存在自变量高度相关的情形。例如,我们以企业的截面数据为样本估计生产函数,由于投入要素资本K,劳动力投入L,科技投入S,能源供应E等都与企业的生产规模有关,所以它们之间存在较强的相关性。§6.1多重共线性产生的经济背景和原因再如,有人在建立某地区粮食产量回归模型时,以粮食产量为因变量y,以化肥用量x1,水浇地面积x2,农业投资x3等为自变量,从表面上看,x1,x2,x3都是影响粮食产量y的重要因素,可是建立的回归方程效果很差。原因:尽管x1,x2,x3都是影响y的重要因素,但是农业投资x3与化肥用量x1、水浇地面积x2有很强的相关性,农业投资主要用于购买化肥和开发水利,即农业投资的效应已被化肥用量和水浇地面积体现出来。通过分别计算x3与x1、x2的相关系数得r13=0.98、r23=0.99,呈现高度相关。剔除x3后重新建立回归模型,结果无乱从预测和结构分析来看都十分理想。§6.2多重共线性对回归模型的影响y=β0+β1x1+β2x2+…+βpxp+ε存在完全的多重共线性,即对设计矩阵X的列向量存在不全为零的一组数c0,c1,c2,…,cp,使得c0+c1xi1+c2xi2+…+cpxip=0,i=1,2,…,n设计矩阵X的秩rank(X)p+1,此时|x′x|=0,正规方程组的解不唯一,(x′x)-1不存在,回归参数的最小二乘估计表达式不成立。yXXXβ-1)(ˆ§6.2多重共线性对回归模型的影响对非完全共线性,即存在不全为零的一组数c0,c1,c2,…,cp,使得c0+c1xi1+c2xi2+…+cpxip≈0,i=1,2,…,n此时设计矩阵X的秩rank(X)=p+1虽然成立,但是此时|x′x|≈0,(x′x)-1的对角线元素很大,βˆ的方差阵D(βˆ)=σ2(X′X)-1的对角线元素很大,而D(βˆ)的对角线元素即为)ˆvar(,),ˆvar(,)ˆvar(p10因而β0,β1,…,βp的估计精度很低。这样,虽然用OLSE还能得到β的无偏估计,但估计量βˆ的变差很大,不能正确判断解释变量对被解释变量的影响程度,甚至出现估计量的经济意义无法解释。对非完全共线性,存在不全为零的一组数c0,c1,c2,…,cp,使得c0+c1xi1+c2xi2+…+cpxip≈0,i=1,2,…,n§6.2多重共线性对回归模型的影响我们做y对两个自变量x1,x2的线性回归,假定y与x1,x2都已经中心化,此时回归常数项为零,回归方程为2211ˆˆˆxxy记niiniiiniixxxxL122221211212111L,L,,则x1与x2之间的相关系数为22111212LLLr§6.2多重共线性对回归模型的影响)ˆ,ˆ(ˆ21的协方差阵为cov(βˆ)=σ2(X′X)-122121211LLLLXX111212221--1)(LLLLXXXX111212222122211--1LLLLLLL111212222122211--)1(1LLLLrLL§6.2多重共线性对回归模型的影响由此可得1121221)1()ˆvar(Lr(6.3)2221222)1()ˆvar(Lr(6.4)可知,随着自变量x1与x2的相关性增强,1ˆ和2ˆ的方差将逐渐增大。当x1与x2完全相关时,r=1,方差将变为无穷大。§6.2多重共线性对回归模型的影响当给不同的r12值时,由表6.1可看出方差增大的速度。为了方便,我们假设σ2/L11=1,相关系数从0.5变为0.9时,回归系数的方差增加了295%,相关系数从0.5变为0.95时,回归系数的方差增加了670%。表6.1r120.00.20.500.700.800.900.950.991.00)ˆvar(11.01.041.331.962.785.2610.2650.25∞§6.2多重共线性对回归模型的影响在例3.3中,我们建立的中国民航客运量回归方程为:=450.9+0.354x1-0.561x2-0.0073x3+21.578x4+0.435x5其中:y—民航客运量(万人),x1—国民收入(亿元),x2—消费额(亿元),x3—铁路客运量(万人),x4—民航航线里程(万公里),x5—来华旅游入境人数(万人)。5个自变量都通过了t检验,但是x2的回归系数是负值,x2是消费额,从经济学的定性分析看,消费额与民航客运量应该是正相关,负的回归系数无法解释。问题出在哪里?这正是由于自变量之间的复共线性造成的。yˆ§6.3多重共线性的诊断一、方差扩大因子法对自变量做中心标准化,则X*′X*=(rij)为自变量的相关阵。记C=(cij)=(X*′X*)-1(6.5)称其主对角线元素VIFj=cjj为自变量xj的方差扩大因子(VarianceInflationFactor,简记为VIF)。根据(3.31)式可知,pjLcjjjjj,,1,/)ˆvar(2其中Ljj是xj的离差平方和,由(6.6)式可知用cjj做为衡量自变量xj的方差扩大程度的因子是恰如其分的。(6.6)§6.3多重共线性的诊断记2jR为自变量xj对其余p-1个自变量的复判定系数,可以证明211jjjRc(6.7)(6.7)式同样也可以作为为方差扩大因子VIFj的定义,由此可知VIFj≥1。§6.3多重共线性的诊断Coefficientsa450.909178.0782.532.030.354.0852.4474.152.002.0011963-.561.125-2.485-4.478.001.0011741-7.E-03.002-.083-3.510.006.3153.17121.5784.030.5315.354.000.01855.5.435.052.5648.440.000.04025.2(Constant)X1X2X3X4X5BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.ToleranceVIFCollinearityStatisticsDependentVariable:Ya.§6.3多重共线性的诊断ModelSummary.9997452991a.999.999175.08601Model1RRSquareAdjustedRSquareStd.ErroroftheEstimatePredictors:(Constant),x5,x3,x4,x2a.VariablesEntered/Removedbx5,x3,x4,x2a.EnterModel1VariablesEnteredVariablesRemovedMethodAllrequestedvariablesentered.a.DependentVariable:x1b.§6.3多重共线性的诊断经验表明,当VIFj≥10时,就说明自变量xj与其余自变量之间有严重的多重共线性,且这种多重共线性可能会过度还可用p个自变量所对应的方差扩大因子的平均数来度量多重共线性。当pjjVIFpVIF11远远大于1时就表示存在严重的多重共线性问题。§6.3多重共线性的诊断当某自变量xj对其余p-1个自变量的复判定系数2jR超过一定界限时,SPSS软件将拒绝这个自变量xj进入回归模型。称Tolj=1-2jR为自变量xj的容忍度(Tolerance),SPSS软件的默认容忍度为0.0001。也就是说,当2jR>0.9999时,自变量xj将被自动拒绝在回归方程之外,除非我们修改容忍度的默认值。§6.3多重共线性的诊断以下用SPSS软件诊断例3.2中国民航客运量一例中的多重共线性问题。Coefficientsa450.909178.0782.532.030.354.0852.4474.152.002.0011963-.561.125-2.485-4.478.001.0011741-7.E-03.002-.083-3.510.006.3153.17121.5784.030.5315.354.000.01855.5.435.052.5648.440.000.04025.2(Constant)X1X2X3X4X5BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.ToleranceVIFCollinearityStatisticsDependentVariable:Ya.§6.3多重共线性的诊断二、特征根判定法(一)特征根分析根据矩阵行列式的性质,矩阵的行列式等于其特征根的连乘积。因而,当行列式|X′X|≈0时,矩阵X′X至少有一个特征根近似为零。反之可以证明,当矩阵X′X至少有一个特征根近似为零时,X的列向量间必存在复共线性,证明如下:§6.3多重共线性的诊断记X=(X0,X1,…,Xp),其中Xi为X的列向量,X0=(1,1,…,1)′是元素全为1的n维列向量。λ是矩阵X′X的一个近似为零的特征根,λ≈0c=(c0,c1,…,cp)′是对应于特征根λ的单位特征向量,则X′Xc=λc≈0§6.3多重共线性的诊断上式两边左乘c′,得c′X′Xc≈0从而有Xc≈0即c0X0+c1X1+…+cpXp≈0写成分量形式即为c0+c1xi1+c2xi2+…+cpxip≈0,i=1,2,…,n这正是(6.2)式定义的多重共线性关系。§6.3多重共线性的诊断(二)条件数特征根分析表明,当矩阵X′X有一个特征根近似为零时,设计矩阵X的列向量间必存在复共线性。那么特征根近似为零的标准如何确定哪?这可以用下面介绍的条件数确定。记X′X的最大特征根为λmp,0,1,2,i,imik为特征根λi的条件数(ConditionIndex)。§6.3多重共线性的诊断0<k<10时,设计矩阵X没有多重共线性;10≤k<100时,认为X存在较强的多重共线性;当k≥100时,则认为存在严重的多重共线性。用条件数判断多重共线性的准则§6.3多重共线性的诊断CollinearityDiagnosticsa5.5781.000.00.00.00.00.00.00.3783.842.00.00.00.00.00.003.745E-0212.205.01.00.00.00.03.194.203E-0336.431.17.00.01.09.50.041.939E-0353.643.72.00.01.66.15.718.080E-05262.762