经济计量学哈尔滨商业大学经济学院逄守艳第八章多重共线性第一节多重共线性及产生的原因第二节多重共线性的后果第三节多重共线性的检验第四节克服多重共线性的方法案例第一节多重共线性及产生的原因一、概念对于模型Yi=0+1X1i+2X2i++kXki+ui(i=1,2,…,n)如果某两个或多个解释变量之间出现了相关性,则称为多重共线性。多重共线性有:完全共线性如果存在c1X1i+c2X2i+…+ckXki=0i=1,2,…,n其中:ci不全为0,则称为解释变量间存在完全共线性。不完全共线性如果存在c1X1i+c2X2i+…+ckXki+vi=0i=1,2,…,n其中ci不全为0,vi为随机误差项,则称为近似共线性或交互相关。注意:完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。不存在多重共线性,只说明xi之间没有线性关系,但不排除它们存在某种程度的非线性关系。二、多重共线性产生的原因(1)经济变量相关的共同趋势◆时间序列样本◆横截面数据(2)滞后变量的引入(3)样本资料的限制一般经验:◆时间序列数据样本:往往存在多重共线性。◆截面数据样本:问题不那么严重,但多重共线性仍然是存在的。第二节多重共线性的后果1、完全共线性下参数估计量不存在如果存在完全共线性,则(X/X)-1不存在,无法得到参数的估计量。的OLS估计量为:YXXXβ1)(ˆY=X+U2、近似共线性下OLS估计量非有效近似共线性下,可以得到OLS参数估计量,但参数估计量方差的表达式为由于|X/X|0,引起(X/X)-1主对角线元素较大,使参数估计值的方差增大,OLS参数估计量非有效。12)()ˆ(XXβCov3、变量的显著性检验失去意义存在多重共线性时参数估计值的方差与标准差变大容易使计算的t值小于临界值,误导作出参数为0的推断可能将重要的解释变量排除在模型之外4、参数估计量经济含义不合理如果模型中两个解释变量具有线性相关性,例如X2=X1,这时,X1和X2前的参数1、2并不反映各自与被解释变量之间的结构关系,而是反映它们对被解释变量的共同影响。1、2已经失去了应有的经济含义。5、模型的预测功能失效变大的方差容易使区间预测的“区间”变大,使预测失去意义。注意:◆即使出现较高程度的多重共线性,OLS估计量仍具有线性等良好的统计性质。◆虽然OLS法仍是最好的估计方法,它却不是“完美的”。一、多重共线性检验的任务是:◆检验多重共线性是否存在;◆判断哪些变量之间存在共线性。多重共线性表现为解释变量之间具有相关关系,所以用于多重共线性的检验方法主要:判定系数检验法、逐步回归检验法等。第三节多重共线性的检验二、检验多重共线性的方法1.采用简单相关系数法求出X1与X2的简单相关系数r,若|r|接近1,则说明两变量存在较强的多重共线性。(1)使模型中每一个解释变量分别以其余解释变量为解释变量进行回归,并计算相应的拟合优度。如果某一种回归Xji=1X1i+2X2i+LXLi的判定系数较大,说明Xj与其他X间存在共线性。2.判定系数检验法在模型中排除某一个解释变量Xj,估计模型;如果拟合优度与包含Xj时十分接近,则说明Xj与其它解释变量之间存在共线性。(2)另一等价的检验3.逐步回归法以Y为被解释变量,逐个引入解释变量,构成回归模型,进行模型估计。根据拟合优度的变化决定新引入的变量是否独立。◆如果拟合优度变化显著,则说明新引入的变量是一个独立解释变量;◆如果拟合优度变化很不显著,则说明新引入的变量与其它变量之间存在共线性关系。4.综合统计检验法若在OLS法下:R2与F值较大,但t检验值较小,说明各解释变量对Y的联合线性作用显著,但各解释变量间存在共线性而使得它们对Y的独立作用不能分辨,故t检验不显著。具体可进一步对上述回归方程作F检验:式中:Rj•2为第j个解释变量对其他解释变量的回归方程的决定系数,若存在较强的共线性,则Rj•2较大且接近于1,这时(1-Rj•2)较小,从而Fj的值较大。因此,给定显著性水平,计算F值,并与相应的临界值比较,来判定是否存在相关性。构造如下F统计量找出引起多重共线性的解释变量,将它排除出去。以逐步回归法得到最广泛的应用。注意:这时,剩余解释变量参数的经济含义和数值都发生了变化。第四节克服多重共线性的方法一、排除引起共线性的变量二、利用已知信息(利用参数之间关系)ttttuXXY22110212ttttuXXY)2(2120若就可将模型变换为模型利用OLS求得,然后根据关系式求得20ˆ,ˆ21ˆ2ˆ1ˆ。研究的主要目的是为了预测,并不需要研究解释变量各自变化对被解释变量的影响。可以将原模型加以变形,使新的模型不再出现多重共线。例如,P----我国厂丝出口价格Pw----世界厂丝出口价格对数回归模型lnY=ao+allnP十a2lnPw+a3lnQw+u012lnlnlnwwPYQuP模型就避免了lnP与lnPw的共线性。三、变换模型的形式四、差分法时间序列数据的线性模型将原模型变换为差分模型:Yi=1X1i+2X2i++kXki+i可以有效地削弱原模型中的多重共线性。一般讲,增量之间的线性关系远比总量之间的线性关系弱得多。见案例例如:表4.3.2中国GDP与居民消费C的总量与增量数据(亿元)年份CYC/Y△C△Y△C/△Y19781759.13605.60.48819792005.44074.00.492246.3468.40.52619802317.14551.30.509311.7477.30.65319812604.14901.40.531287.0350.10.82019822867.95489.20.522263.8587.80.44919833182.56076.30.524314.6587.10.53619843674.57164.40.513492.01088.10.45219854589.08792.10.522914.51627.70.56219865175.010132.80.511586.01340.70.43719875961.211784.70.506786.21651.90.47619887633.114704.00.5191671.92919.30.57319898523.516466.00.518890.41762.00.50519909113.218319.50.497589.71853.50.318199110315.921280.40.4851202.72960.90.406199212459.825863.70.4822143.94583.30.468199315682.434500.70.4553222.68637.00.373199420809.846690.70.4465127.412190.00.421199526944.558510.50.4616134.711819.80.519199632152.368330.40.4715207.89819.90.530199734854.674894.20.4652702.36563.80.412199836921.179003.30.4672066.54109.10.503199939334.482673.10.4762413.33669.80.658200042911.989112.50.4823577.56439.40.556由表中的比值可以直观地看到,增量的线性关系弱于总量之间的线性关系。进一步分析:Y与C之间的判定系数为0.9988,△Y与△C之间的判定系数为0.9567五、减小参数估计量的方差多重共线性的主要后果是参数估计量具有较大的方差,所以采取适当方法减小参数估计量的方差,虽然没有消除模型中的多重共线性,但确能消除多重共线性造成的后果。①增加样本容量,可使参数估计量的方差减小。*②岭回归法(RidgeRegression)70年代发展的岭回归法,以引入偏误为代价减小参数估计量的方差,受到人们的重视。具体方法是:引入矩阵D,使参数估计量为其中矩阵D一般选择为主对角阵,即D=aIa为大于0的常数。YXDXXβ1)(ˆ(*)显然,与未含D的参数B的估计量相比,(*)式的估计量有较小的方差。多重共线性是多元线性回归中的普遍现象,也是一个复杂的问题,关于多重共线性的检验和修正方法都有待进一步的探索。当回归模型主要用于预测时,即使存在较严重的多重共线性,只要这种多重共线性在预测期内仍然存在,就不会对预测结果造成影响,因为预测的精确度主要由拟合优度r的大小决定。案例——中国粮食生产函数根据理论和经验分析,影响粮食生产(Y)的主要因素有:农业化肥施用量(X1);粮食播种面积(X2)成灾面积(X3);农业机械总动力(X4);农业劳动力(X5)已知中国粮食生产的相关数据,建立中国粮食生产函数:Y=0+1X1+2X2+3X3+4X4+4X5+表4.3.3中国粮食生产与相关投入资料年份粮食产量Y(万吨)农业化肥施用量1X(万公斤)粮食播种面积2X(千公顷)受灾面积3X(公顷)农业机械总动力4X(万千瓦)农业劳动力5X(万人)1983387281659.811404716209.31802231645.11984407311739.811288415264.01949731685.01985379111775.810884522705.32091330351.51986391511930.611093323656.02295030467.01987402081999.311126820392.72483630870.01988394082141.511012323944.72657531455.71989407552357.111220524448.72806732440.51990446242590.311346617819.32870833330.41991435292806.111231427814.02938934186.31992442642930.211056025894.73030834037.01993456493151.911050923133.03181733258.21994445103317.910954431383.03380232690.31995466623593.711006022267.03611832334.51996504543827.911254821233.03854732260.41997494173980.711291230309.04201632434.91998512304083.711378725181.04520832626.41999508394124.311316126731.04899632911.82000462184146.410846334374.05257432797.51、用OLS法估计上述模型:R2接近于1;给定=5%,得F临界值F0.05(5,12)=3.11F=137.113.11,故认上述粮食生产的总体线性关系显著成立。但X4、X5的参数未通过t检验,且符号不正确,故解释变量间可能存在多重共线性。54321028.0098.0166.0421.0213.644.12816ˆXXXXXY(-0.91)(8.39)(3.32)(-2.81)(-1.45)(-0.14)2、检验简单相关系数发现:X1与X4间存在高度相关性。列出X1,X2,X3,X4,X5的相关系数矩阵:X1X2X3X4X5X11.000.010.640.960.55X20.011.00-0.45-0.040.18X30.64-0.451.000.690.36X40.96-0.040.691.000.45X50.550.180.360.451.003、找出最简单的回归形式可见,应选第1个式子为初始的回归模型。分别作Y与