多重共线性的情形及其处理一、多重共线性对回归模型的影响设回归模型ppxxxy22110存在完全的多重共线性,即对设计矩阵X的列向量存在不全为零的一组数pcccc,,,,210,使得:022110ippiixcxcxcc(ni,,2,1),此时设计矩阵X的秩Rank(X)p+1,此时|XX|=0,正规方程组ˆXX=yX的解不唯一,1)(XX不存在,回归参数的最小二乘估计表达式yXXX1)(ˆ不成立。在实际问题研究当中,022110ippiixcxcxcc,虽然Rank(X)=p+1成立,但是|XX|0,1)(XX的对角线元素很大,ˆ的方差阵12)()ˆ(XXD的对角线元素很大,而)ˆ(D的对角线元素即为)ˆvar(0,)ˆvar(1,…,)ˆvar(p,因而p,,,10的估计精度很低,这样,虽然OLSE能得到的无偏估计,但估计量ˆ的方差很大,不能正确判断解释变量对被解释变量的影响程度。例如在二元回归中,假定y与1x,2x都已经中心化,此时回归常数项为零,回归方程为2211ˆˆˆxxy,由此可以得到1121221)1()ˆvar(Lr,2221222)1()ˆvar(Lr,其中niixL12111,niiixxL12112,niixL12222则1x,2x之间的相关系数22111212LLLr。随着自变量1x与2x的相关性增强,1ˆ和2ˆ的方差将逐渐增大。当1x与2x完全相关时,r=1,方差将变为无穷大。当给定不同的12r值时,从下表可以看出方差增大的速度。表6.1r120.00.20.500.700.800.900.950.991.00)ˆvar(11.01.041.331.962.785.2610.2650.25∞为了方便,假设1112L,相关系数从0.5变为0.9时,回归系数的方差增加了295%,相关系数从0.5变为0.95时,回归系数的方差增加了670%、当回归自变量1x与2x相关程度越高,多重共线性越严重,那么回归系数的估计值方差就越大,回归系数的置信区间就变得很宽,估计的精确性就大幅度降低,使估计值稳定性变得很差,进一步致使在回归方程整体高度显著时,一些回归系数则通不过显著性检验,回归系数的正负号也可能出现倒置,使得无法对回归方程得到合理的经济解释,直接影响到最小二乘法的应用效果,降低回归方程的价值。如果利用模型去作经济结构分析,要尽可能避免多重共线性;如果是利用模型去作经济预测,只要保证自变量的相关类型在未来时期中保持不变,即未来时期自变量间仍具有当初建模时数据的联系特征,即使回归模型中包含有严重多重共线性的变量也可以得到较好的预测结果;如果不能保证自变量的相关类型在未来时期中保持继续不变,那么多重共线性就会对回归预测产生严重的影响。二、多重共线性的诊断1、方差扩大因子法对自变量作中心标准化,则)(ijrXX为自变量的相关阵,记1)()(XXcCij称其主对角线元素jjjcVIF为自变量jx的方差扩大因子。jjjjjLC2)ˆvar((pj,,2,1),其中jjL为jx的离差平方和。记2JR为自变量jx对其余p-1个自变量的复决定系数,则有211jjjRc,该式子同样也可以作为方差扩大因子jVIF的定义。由于2JR度量了自变量jx与其余p-1个自变量的线性相关程度,这种相关程度越强,说明自变量之间的多重共线性越严重,2JR也就越接近于1,jVIF也就越大。由此可见jVIF的大小反映了自变量之间是否存在多重共线性,因此可以由它来度量多重共线性的严重程度。经验表明,当jVIF10时,就说明自变量jx与其余自变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计值。也可以用p个自变量所对应的方差扩大因子的平均数来度量多重共线性,当pjjVIFpVIF11远远大于1时就表示存在严重的多重共线性问题。对于只含两个解释变量1x和2x的回归方程,判断它们是否存在多重共线性,实际上就是计算1x和2x的样本决定系数212R,如果212R很大,则认为1x和2x可能存在严重的多重共线性。为什么说可能存在多重共线性?因为2R和样本容量n有关,当样本容量较小时,2R容易接近与1,就像当n=2时,两点总能连成一条直线,2R=1。所以我们认为当样本容量还不算小,而2R接近于1时,可以肯定存在多重共线性。当某自变量jx对其余p-1个自变量的复决定系数2jR超过一定界限时,SPSS软件将拒绝这个自变量jx进入回归模型。称21jjRTol为自变量jx的容忍度。下面看一个民航客运实例分析的结果:UnstandardizedCoefficientsStandardizedCoefficientstSig.CollinearityStatisticsBStd.ErrorBetaToleranceVIF(Constant)450.909178.0782.5320.030x10.3540.0852.4474.1520.0020.0011963.000x2-0.5610.125-2.485-4.4780.0010.0011741.000x3-0.0070.002-0.083-3.5100.0060.3153.171x421.5784.030.5315.3540.0000.01855.488x50.4350.0520.5648.4400.0000.04025.193a.DependentVariable:y从上面共线性诊断的分析结果可以看到1x,2x的方差扩大因子很大,分别为1VIF=1963,1VIF=1741,远远超过10,说明民航客运量回归方程也存在这严重的多重共线性。1x和2x的简单相关系数为0.9989,高度相关。一般情况下,当一个回归方程存在严重的多重共线性时,有若干个自变量所对应的方差扩大因子大于10,这个回归方程多重共线性的存在就是方差扩大因子超过10的这几个变量引起的,说明这几个自变量间有一定的多重共线性关系存在。2、特征根判定法当矩阵XX有一个特征根近似为零时,设计矩阵X的列向量间必存在多重共线性,并且XX有多少个特征根接近于零,X就有多少个多重共线性关系。记XX的最大特征根为m,称imik,(pi,,2,1,0)为特征根i的条件数。在一些书籍中,条件数定位为imik,没有开平方根,SPSS软件是采用开平方根的,使用软件时要注意这一点。条件数度量了矩阵XX的特征根散步程度,可以用它来判断多重共线性是否存在以及多重共线性的严重程度。通常认为0k10时,设计矩阵X没有多重共线性;10k100时,认为X存在较强的多重共线性;当k100时,则认为存在严重的多重共线性。在看上面的例子,用SPSS软件计算出特征根与条件数结果如下所示。DimensionEigenvalueConditionIndexVarianceProportions(Constant)x1x2x3x4x515.578100000020.3783.84200000030.03712.2050.010000.030.1940.00436.4310.1700.010.090.50.0450.00253.6430.7200.010.660.150.7160.0000808262.7620.10.990.990.250.310.06a.DependentVariable:y从条件数看到,最大的条件数6k=262.762,这与方差扩大因子法结果是一致。输入结果中特征根是按照从大到小的顺序排列的,不是按自变量的顺序排列的,这与方差扩大因子法不同。如何判定究竟是哪几个自变量间存在共线性呢?可以由条件数表中右边的方差比例粗略判断。如果有某几个自变量的方差比例值在某一行同时较大(接近1),则这几个自变量间就存在多重共线性。表中第6行1x和2x的系数都为0.99,说明1x和2x之间存在强的多重共线性;表中第5行0x(常数项),3x,5x的系数分别为0.72,0.66,0.71说明0x(常数项),3x,5x之间存在多重共线性。由于设计矩阵X的第一列有一列1,代表常数项,X共有p+1列,XX是p+1阶方阵。当一个自变量的取值范围很小,接近常数时,这个自变量就与常数项存在多重共线性。如在多重共线性的定义式中,如果032pccc,而0,010cc,这时自变量1x就与常数项存在多重共线性。3、直观判定法(1)当增加或剔除一个自变量,或者改变一个观测值时,回归系数的估计值发生较大变化。(2)从定性分析认为,一些重要的自变量在回归方程中没有通过显著性检验。(3)有些自变量的回归系数所带正负号与定性分析结果违背。(4)自变量的相关矩阵中,自变量间的相关系数较大。(5)一些重要的自变量的回归系数的标准误差较大。三、消除共线性的方法1、删除一些不重要的解释变量在选择回归模型时,可以将回归系数的显著性检验、方差扩大因子VIF的多重共线性检验与自变量的经济含义结合起来考虑,以引进或剔除变量。2、增大样本容量建立一个实际经济问题的回归模型,如果所手机的样本数据太少,也容易产生多重共线性。例如,在建立二元回归模型时,假设数据都已经中心化,有1121221)1()ˆvar(Lr,2221222)1()ˆvar(Lr。其中niixL12111,niiixxL12112,niixL12222则1x,2x之间的相关系数22111212LLLr,可以看到,在12r固定不变时,当样本容量n增大时,11L和22L都会增大,两个方差均可减小,从而减弱了多重共线性对回归方程的影响。因此,增大样本容量也是消除多重共线性的一个途径。在实践中,当所选的变量个数接近样本容量n时,自变量间就容易产生共线性。所以在运用回归分析研究经济问题时,要尽可能使样本容量n远大于自变量个数p。但是,增加了样本数据,可能新的数据距离原来样本数据的平均值较大,会产生一些新的问题,使模型拟合变差,没有收到增加样本数据期望的效果。四、回归系数的有偏估计为了消除多重共线性对回归模型的影响,还可以采取有偏估计为代价来提高估计量稳定性的方法,如岭回归,主成份回归法,偏最小二乘法等。五、主成份回归主成分分析是多元统计分析的一个基本方法,是对数据做一个正交旋转变换,就是对原有变量做一些线性变换,变换后的变量都是正交的。为了避免变量的量纲不同所产生的影响,要先把数据做中心标准化,中心标准化后的自变量样本观测数据矩阵X就是n行p列的矩阵,XXr)(就是相关阵。六、一些问题在建立经济问题的回归模型时,当发现解释变量之间的简单相关系数很大时,可以断定自变量间存在着严重的多重共线性,但是,一个回归方程存在严重的多元共线性时,并不能完全肯定解释变量之间的简单相关系数就一定很大。例如对含有三个自变量的回归模型:3322110xxxy,假定三个变量之间有完全确定的关系:321xxx,因为1x可以由2x和3x线性表示,所以变量1x与2x和3x的复决定系数223,1R=1,回归方程存在完全的多重共线性。再假定2x与3x的简单相关系数23r=-0.5,2x与3x的离差平方和3322LL=1,此时33222323LLrL=-0.5,2323221111))(()(xxxxxxL=222)(xx+233)(xx+)()(3322xxxx=1+1+2(-0.5)=1,2322223232221112)))((())((LLxxxxxxxxxxL=1-0.5=0.5因而,22111212LLLr=0.5,13r=0.5从这个例子中可以看出,三个自变量的简单相关系数的绝对值都是0.5,都不高,但是三者之间却存在着完全的多重共线性。所以,当回归方程中的自变量数目超过2个时,并不能由自变量间的简单相关