29多重共线性(计量经济学-武汉大学刘伟)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

§2.8多重共线性Multi-Collinearity一、多重共线性的概念二、多重共线性的后果三、多重共线性的检验四、克服多重共线性的方法五、案例一、多重共线性的概念1、多重共线性•对于模型ikikiiiXXXY22110(i=1,2,…,n)如果某两个或多个解释变量之间出现了相关性,则称为多重共线性。其基本假设之一是解释变量kXXX,,,21互相独立。如果存在c1X1i+c2X2i+…+ckXki=0i=1,2,…,n其中:ci不全为0,即某一个解释变量可以用其它解释变量的线性组合表示,则称为解释变量间存在完全共线性。如果存在c1X1i+c2X2i+…+ckXki+vi=0i=1,2,…,n其中ci不全为0,vi为随机误差项,则称为一般共线性(近似共线性)或交互相关(intercorrelated)。•在矩阵表示的线性回归模型Y=XB+N中,完全共线性意味着:秩(X)k+1。换言之,矩阵中,至少有一列向量可由其他列向量(不包括第一列)线性表出。knnnkkXXXXXXXXXX212221212111111n×(k+1)注意:完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。例如,如果X2=aX1,则X1与X2的相关系数为a,解释变量X2对因变量的作用完全可以由X1代替。2、实际经济问题中的多重共线性现象•经济变量的共同变化趋势时间序列样本:经济繁荣时期,各基本经济变量(收入、消费、投资、价格)都趋于增长;经济衰退时期,各基本经济变量又同时趋于下降。横截面数据:如生产函数中,资本投入与劳动力投入往往出现高度相关情况,大企业二者都大,而小企业二者都小。•滞后变量的引入在计量经济模型中,往往需要引入滞后经济变量来反映真实的经济关系。例如:消费=f(当期收入It,前期消费Ct-1)Ct=β0+β1It+β2Ct-1+μt(t=1,2,···,n)显然,当期收入与前期消费间有较强的线性相关性。•一般经验对于采用时间序列数据作样本、以简单线性形式建立的计量经济学模型,往往存在多重共线性;以截面数据作样本时,问题不那么严重,但多重共线性仍然是存在的。二、多重共线性的后果1、完全共线性下参数估计量不存在如果解释变量之间存在完全共线性,则(X’X)-1不存在,无法得到参数的估计量。多元线性回归模型XY的普通最小二乘参数估计量为:YXXX1)(ˆ因为如果解释变量kXXX,,,21完全共线性,那么通过适当的线性变换,可以将X中某一列的全部元素变为0,从而行列式0XX。2、近似共线性下OLS法参数估计量非有效在一般共线性(或称近似共线性)下,虽然可以得到OLS法参数估计量,但是由参数估计量方差的表达式12)()ˆ(XXCov可以看出,由于此时|X’X|0,引起(X’X)-1主对角线元素较大,从而使得参数估计量的方差也较大,OLS参数估计量非有效。2221221)(iiiixxxx恰为1x与2x的线性相关系数的平方2r,由于2r1,故1112r。以二元回归模型中的参数估计量1ˆ为例,1ˆ的方差为221222122212221)())(()(ˆ)(ˆ)ˆ(iiiiixxxxxXXVar))(()(1ˆ2221221212iiiiixxxxx所以,多重共线性使参数估计量的方差增大。当完全不共线时,2r=0,2121/)ˆvar(ix当不完全共线(近似共线)时,102r,2122212111)ˆvar(iixrx相关系数平方00.50.80.90.950.960.970.980.990.999方差扩大因子12510202533501001000当完全共线时,2r=1,)ˆvar(1方差扩大因子(VarianceInflationFactor)为1/(1-r2),其增大趋势见下表:3、参数估计量的经济含义不合理如果模型(2.8.1)中两个解释变量具有线性相关性,例如X1和X2,那么它们中的一个变量可以由另一个变量表征。这时,X1和X2前的参数并不反映各自与被解释变量之间的结构关系,而是反映它们对被解释变量的共同影响。所以,各自的参数已经失去了应有的经济含义,于是经常表现出似乎反常的现象,例如本来应该是正的,结果恰是负的。4、变量的显著性检验失去意义存在多重共线性时参数估计值的方差与标准差变大容易使通过样本计算的t值小于临界值,误导作出参数为0的推断可能将重要的解释变量排除在模型之外5、模型的预测功能失效•参数估计量的方差较大,会使预测值的置信区间较大,预测精确度较差,从而使预测失去意义。三、多重共线性的检验•由于多重共线性表现为解释变量之间具有相关关系,所以用于多重共线性的检验方法主要是统计方法,如判定系数检验法、逐步回归检验法等。•多重共线性检验的任务是:(1)检验多重共线性是否存在;(2)估计多重共线性的范围,即判断哪些变量之间存在共线性。1、检验多重共线性是否存在(1)对两个解释变量的模型,采用简单相关系数法求出X1与X2的简单相关系数r,若|r|接近1,则说明两变量存在较强的多重共线性。(2)对多个解释变量的模型,采用综合统计检验法若在OLS法下,模型的R2与F值较大,但各参数估计量的t检验值较小,则说明各解释变量对Y的联合线性作用显著,但各解释变量之间存在共线性而使得它们各自对Y的独立作用不能分辨,故t检验不显著。2、判明存在多重共线性的范围•将模型中每一个解释变量分别以其余解释变量为解释变量进行回归计算,并计算相应的拟合优度,也称为判定系数。•如果在某一种形式Xji=a1X1i+a2X2i++aLXLi中判定系数较大,则说明在该形式中作为被解释变量的Xj可以用其他X的线性组合代替,即Xj与其他X之间存在共线性。(1)判定系数检验法•一种等价的检验:在模型中排除某一个解释变量Xj,估计模型,如果拟合优度与包含Xj时十分接近,则说明Xj与其它解释变量之间存在共线性。(2)逐步回归法•以Y为被解释变量,逐个引入解释变量,构成回归模型,进行模型估计。•根据拟合优度的变化决定新引入的变量是否可以用其它变量的线性组合代替,而不作为独立的解释变量。–如果拟合优度变化显著,则说明新引入的变量是一个独立解释变量;–如果拟合优度变化很不显著,则说明新引入的变量不是一个独立解释变量,它可以用其它变量的线性组合代替,也就是说它与其它变量之间存在共线性关系。四、克服多重共线性的方法克服多重共线性的方法:第一类方法:排除引起共线性的变量第二类方法:差分法第三类方法:减少参数估计量的方差1、第一类方法:排除引起共线性的变量•找出引起多重共线性的解释变量,将它排除出去,是最为有效的克服多重共线性问题的方法。–上述用于检验多重共线性的方法,同时就是克服多重共线性问题的方法,其中又以逐步回归法得到最广泛的应用。•但应注意的是:排除了引起共线性的变量后,剩余解释变量参数的经济含义和数值都发生了变化。它们不再仅仅反映自身与被解释变量的关系,也包含了与它们成线性关系的、被排除的变量对被解释变量的影响。2、第二类方法:差分法•对于以时间序列数据为样本、以直接线性关系为模型关系形式的计量经济学模型,将原模型变换为差分模型Yi=1X1i+2X2i++kXki+i可以有效地消除存在于原模型中的多重共线性。•原因在于:一般来讲,增量之间的线性关系远比总量之间的线性关系弱得多。例如:在中国消费模型中的2个变量:收入(Y:GDP)与消费C的总量与增量数据YC(-1)C(-1)/Y△Y△C(-1)△C(-1)/△Y1981490129760.60721982548933090.60285883330.56631983607636380.59965873290.56051984716440210.561310883830.35201985879246940.533916286730.413419861013357730.5697144110790.748819871178465420.555216517690.465819881470474510.506729209090.311319891646693600.5684176219091.083199018320105560.5762185411960.6451199121280113620.533929608060.2723199225864131460.5083458417840.3892199334501159520.4624863728060.3249199447111201820.42841261042300.3354199559405272160.45811229470340.5721199668498345290.5041909373130.8042•由表中的比值可以直观地看到,两变量增量的线性关系弱于总量之间的线性关系。•进一步分析:Y与C(-1)之间的判定系数为0.9845,△Y与△C(-1)之间的判定系数为0.7456。一般认为:两个变量之间的判定系数大于0.8时,二者之间存在线性关系。所以,原模型经检验被认为具有多重共线性,而差分模型则可以认为不具有多重共线性。五、案例一:服装市场需求函数□1、建立模型•根据理论和经验分析,影响居民服装类支出Y的主要因素有:可支配收入X、居民流动资产拥有量K、服装价格指数P1、物价总指数P0。•已知某地区的有关资料,根据散点图判断,建立线性服装消费支出模型:Y=0+1X+2K+3P1+4P0+2、样本数据由于R2较大且接近于1,而且F=638.4,大于临界值:F0.05(4,5)=15.19,故认为服装支出与上述解释变量间总体线性关系显著。但由于变量K的参数估计值的t检验值较小(未能通过检验),故解释变量间存在多重共线性。3、估计模型(1)用OLS法估计上述模型:4.6389965.09980.0)24.2()20.2()30.0()71.3()76.1(334.0197.0001.010.020.13ˆ2201FRRPPKXY(2)检验简单相关系数•不难看出,各解释变量间存在高度相关性,其中尤其以P1和P0间的相关系数为最高。列出X,K,P1,P0的相关系数矩阵:XKP1P0X10.98830.98040.9878K0.988310.97000.9695P10.98040.970010.9918P00.98780.96950.99181(3)找出最简单的回归形式•可见,应选①为初始的回归模型。分别作Y与X,K,P1,P0间的回归:①XY118.024.1ˆ②KY327.0118.2ˆ(-3.36)(42.48)(2.58)(15.31)2R=0.9950F=1805.12R=0.9629F=234.4③1516.05.38ˆPY④0663.07.53ˆPY(-9.16)(12.53)(-14.77)(18.66)2R=0.9455F=157.12R=0.9747F=348.1(4)逐步回归将其他解释变量分别导入上述初始回归模型,寻找最佳回归方程。YCXKP1P02RF=f(X)-1.250.120.99501805.1t值-3.3642.49=f(X,P1)1.530.13-0.040.9958826.9t0.318.57-0.57=f(X,P1,K)1.060.14-0.04-0.040.9941509.0t0.215.70-0.68-0.53=f(X,P1,P0)-12.450.10-0.190.310.99701003.6t-1.927.55-2.472.59=f(X,P1,P0,K)-13.200.100.01-0.200.330.9965638.4-1.793.710.30-2.202.244、讨论:①在初始模型中引入P1,模型拟合优度提高,且参数符号合理,但P1的t检验未通过;②

1 / 43
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功