一、多重共线性的概念二、多重共线性的后果三、多重共线性的诊断四、克服多重共线性的方法五、案例§6.1多重共线性第六章多重共线性、异方差、自相关随机解释变量问题一、多重共线性的概念如果某两个或多个解释变量之间出现了相关性,则称为多重共线性(Multicollinearity)。含义:解释变量的样本向量近似线性相关。多重共线性来源:(1)解释变量x受到同一个因素的影响;例如:政治事件对很多变量都产生影响,这些变量同时上升或同时下降。(2)解释变量x自己的当期和滞后期;(3)错误设定。1212...kkxxxY对于模型其基本假设之一是解释变量是互相独立的。二、多重共线性的后果的OLS估计量为:YXXXβ1)(ˆ完全共线性指的是解释变量中某个变量是其他变量的线性组合,即c1X1+c2X2+…+ckXk=0其中ci不全为0,i=1,…k1、完全共线性下参数估计量不存在YX如果存在完全共线性,则不存在,无法得到参数的估计量。1()XX例:对离差形式的二元回归模型2211xxy如果两个解释变量完全相关,如x2=x1,则121)(xy这时,只能确定综合参数1+2的估计值:一个方程确定两个未知数,有无穷多个解。2、近似共线性下OLS估计量非有效12)()ˆ(XXβCov近似共线性下,可以得到OLS参数估计量,但参数估计量方差的表达式为10()XX由于,引起主对角线元素较大,使参数估计值的方差增大,OLS参数估计量非有效。近似共线性指的是解释变量中某个变量不完全是其他解释变量的线性组合,还差个扰动项。即c1X1+c2X2+…+ckXk+vi=0,其中ci不全为0,i=1,…k1()XX如果模型中两个解释变量具有线性相关性,例如X2=X1,这时,X1和X2前的参数1、2并不反映各自与被解释变量之间的结构关系,而是反映它们对被解释变量的共同影响。1、2已经失去了应有的经济含义,于是经常表现出似乎反常的现象:例如1本来应该是正的,结果恰是负的。3、参数估计量经济含义不合理多重共线性诊断的任务是:(1)检验多重共线性是否存在;(2)估计多重共线性的范围,即判断哪些变量之间存在共线性。多重共线性表现为解释变量之间具有相关关系,所以用于多重共线性的检验方法主要是统计方法:如判定系数检验法、逐步回归检验、方差膨胀因子(VIF)法等。三、多重共线性的诊断(1)对两个解释变量的模型,采用简单相关系数法求出X1与X2的简单相关系数r,若|r|接近1,则说明两变量存在较强的多重共线性。(2)对多个解释变量的模型,采用综合统计检验法若在OLS法下:R2与F值较大,但t检验值较小,说明各解释变量对Y的联合线性作用显著,但各解释变量间存在共线性而使得它们对Y的独立作用不能分辨,故t检验不显著。1、检验多重共线性是否存在如果存在多重共线性,需进一步确定究竟由哪些变量引起。2、判明存在多重共线性的范围(1)判定系数检验法使模型中每一个解释变量分别以其余解释变量为解释变量进行回归,并计算相应的拟合优度。如果某一种回归Xji=1X1i+2X2i+kXki的判定系数较大,说明Xj与其他X间存在共线性。具体可进一步对上述回归方程作F检验:式中:Rj•2为第j个解释变量对其他解释变量的回归方程的可决系数,若存在较强的共线性,则Rj•2较大且接近于1,这时(1-Rj•2)较小,从而Fj的值较大。因此,给定显著性水平,计算F值,并与相应的临界值比较,来判定是否存在相关性。构造如下F统计量2/2/1(1,)()()1jjjkRFknkFRnk~在模型中排除某一个解释变量Xj,估计模型;如果拟合优度与包含Xj时十分接近,则说明Xj与其它解释变量之间存在共线性。另一等价的检验是:(2)逐步回归法以Y为被解释变量,逐个引入解释变量,构成回归模型,进行模型估计。根据拟合优度的变化决定新引入的变量是否独立。如果拟合优度变化显著,则说明新引入的变量是一个独立解释变量;如果拟合优度变化很不显著,则说明新引入的变量与其它变量之间存在共线性关系。(3)方差膨胀因子(VIF:VarianceInflationFactor)VIF指标:2()1,...,11KKKkVIFbRXk与其余变量回归所得的可决系数VIF范围:[+1,+∞)判断:若VIF≥5,则认为多重共线性强,不可接受。(4)条件数(ConditionIndix)maxmin=条件数解释变量的相关矩阵的最大特征值与最小特征值相比调用数据库neiyun.dta讲解。条件数大于30,认为多重共线存在。找出引起多重共线性的解释变量,将它排除出去。以逐步回归法得到最广泛的应用。注意:这时,剩余解释变量参数的经济含义和数值都发生了变化。如果模型被检验证明存在多重共线性,则需要发展新的方法估计模型,最常用的方法有三类。四、克服多重共线性的方法1、第一类方法:排除引起共线性的变量时间序列数据、线性模型:将原模型变换为差分模型:Yi=1X1i+2X2i++kXki+i可以有效地消除原模型中的多重共线性。一般讲,增量之间的线性关系远比总量之间的线性关系弱得多。2、第二类方法:差分法多重共线性的主要后果是参数估计量具有较大的方差,所以采取适当方法减小参数估计量的方差,虽然没有消除模型中的多重共线性,但确能消除多重共线性造成的后果。例如:增加样本容量可使参数估计量的方差减小。3、第三类方法:减小参数估计量的方差六、案例——中国粮食生产函数根据理论和经验分析,影响粮食生产(Y)的主要因素有:农业化肥施用量(X1);粮食播种面积(X2)成灾面积(X3);农业机械总动力(X4);农业劳动力(X5)已知中国粮食生产的相关数据,建立中国粮食生产函数:Y=0+1X1+2X2+3X3+4X4+5X5+调用数据库E:\博士计量课程软件应用\multi表4.3.3中国粮食生产与相关投入资料年份粮食产量Y(万吨)农业化肥施用量1X(万公斤)粮食播种面积2X(千公顷)受灾面积3X(公顷)农业机械总动力4X(万千瓦)农业劳动力5X(万人)1983387281659.811404716209.31802231645.11984407311739.811288415264.01949731685.01985379111775.810884522705.32091330351.51986391511930.611093323656.02295030467.01987402081999.311126820392.72483630870.01988394082141.511012323944.72657531455.71989407552357.111220524448.72806732440.51990446242590.311346617819.32870833330.41991435292806.111231427814.02938934186.31992442642930.211056025894.73030834037.01993456493151.911050923133.03181733258.21994445103317.910954431383.03380232690.31995466623593.711006022267.03611832334.51996504543827.911254821233.03854732260.41997494173980.711291230309.04201632434.91998512304083.711378725181.04520832626.41999508394124.311316126731.04899632911.82000462184146.410846334374.05257432797.5R2接近于1;给定=5%,得F临界值F0.05(5,12)=3.11F=137.113.11,故认上述粮食生产的总体线性关系显著成立。但X4、X5的参数未通过t检验,且符号不正确,故解释变量间可能存在多重共线性。54321028.0098.0166.0421.0213.644.12816ˆXXXXXY(-0.91)(8.39)(3.32)(-2.81)(-1.45)(-0.14)1、用OLS法估计上述模型:发现:X1与X4间存在高度相关性。列出X1,X2,X3,X4,X5的相关系数矩阵:X1X2X3X4X5X11.000.010.640.960.55X20.011.00-0.45-0.040.18X30.64-0.451.000.690.36X40.96-0.040.691.000.45X50.550.180.360.451.002、检验简单相关系数可见,应选第1个式子为初始的回归模型。分别作Y与X1,X3,X2,X4,X5间的回归:1576.464.30867ˆXY(25.58)(11.49)R2=0.8919F=132.12699.018.33821ˆXY(-0.49)(1.14)R2=0.075F=1.304380.00.31919ˆXY(17.45)(6.68)R2=0.7527F=48.75240.219.28259ˆXY(-1.04)(2.66)R2=0.3064F=7.073、找出最简单的回归形式(1.74)(7.25)R2=0.1596F=3.043ˆ37712.860.3549YX将其他解释变量分别导入上述初始回归模型,寻找最佳回归方程。CX1X2X3X4X52RDWY=f(X1)308684.230.88521.56t值25.5811.49Y=f(X1,X2)-438714.650.670.95582.01t值-3.0218.475.16Y=f(X1,X2,X3)-119785.260.41-0.190.97521.53t值0.8519.63.35-3.57Y=f(X1,X2,X3,X4)-130566.170.42-0.17-0.090.97751.80t值-0.979.613.57-3.09-1.55Y=f(X1,X3,X4,X5)-126905.220.40-0.200.070.97981.55t值-0.8717.853.02-3.470.374、逐步回归回归方程以Y=f(X1,X2,X3)为最优:32119.041.026.511978XXXY5、结论§5.2异方差(Heteroscedasticity)1、同方差假定及异方差定义模型的假定条件⑴给出Var()是一个对角矩阵,Var()=2I=210101且的方差协方差矩阵主对角线上的元素都是常数且相等,即每一误差项的方差都是有限的相同值(同方差假定);且非主对角线上的元素为零(无自相关假定),Var()=2=2TTTTTT..............2122221112112I.当这个假定不成立时,Var()不再是一个纯量对角矩阵。当误差向量的方差协方差矩阵主对角线上的元素不相等时,称该随机误差系列存在异方差,即误差向量中的元素取自不同的分布总体。非主对角线上的元素表示误差项之间的协方差值。比如中的ij,(ij)表示与第i组和第j组观测值相对应的i与j的协方差。若非主对角线上的部分或全部元素都不为零,误差项就是自相关的(后面讲自相关)。2.异方差的表现异方差通常有三种表现形式,(1)递增型(2)递减型(3)条件自回归型。递增型异方差见图5.21和5.22。图5.23为递减型异方差。图5.24为条件自回归型异方差(复杂性异方差)。图5.21递增型异方差情形010020030005000100001500020000XY图5.22递增型异方差随着解释变量值的增大,被解释变量取值的差异性增大05010015020025