第六章新-计量经济学-多重共线性

爱猪的小lg
2 ℃
2020-02-28

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第六章多重共线性在实践中，关于线性回归的基本假定不能全部满足，出现基本假定违背。主要包括：（1）随机项序列不是同方差，而是异方差的；（2）随机项序列相关，即存在自相关；（3）解释变量与随机项相关；（4）解释变量之间线性相关，存在多重共线性。多重共线性是对第（4）个基本假定的违反，导致OLS估计量失去优良性。第一节多重共线性的概念第二节多重共线性的后果第三节多重共线性的检验第四节多重共线性的修正方法第五节案例一、多重共线性的定义多重共线性是指解释变量Xi之间存在完全的或近似的线性关系。在线性模型中，解释变量的观察值距阵X(包括常数项)其秩等于模型中的解释变量的个数加一rank(X)=k+1如果此假定不成立，则称解释变量Xi之间存在多重共线性,至少有一列向量可由其它列向量线性表示。如X2=X1X2与X1的相关系数为1，解释变量X2对因变量Y的作用可由X1完全替代。第一节多重共线性的概念1、经济变量之间的相互依存关系如替代品价格之间会存在多重共线性2、时间趋势影响经济繁荣和经济衰退时间序列样本建立线性模型时，往往存在多重共线。3、样本资料方面的原因样本资料推算数据往往存在多重共线性4、滞后变量的引入同一变量的前后期之值可能是高度线性相关的5、虚拟变量设置不合理6、变量设置过多二、产生多重共线性的原因多重共性的原因原因变量设定：虚变量设计错误、滞后变量引入设置过多变量变量自身存在问题：总体数据：时间趋势相同、变量存在内在关系；样本数据：样本不具代表性一、完全多重共线性的影响1、无法估计模型参数yi=b1x1+b2x2第二节多重共线性的后果00)())(()()())((ˆ)())(())(())((ˆ222222222222222121212122122212122211xxxxyxxyxbxxXXXXxxxxxxyxxyxb得设存在完全多重共线性，与如果BXYUXBYˆYX'-X)(X'BBX)X'Y)(X'1ˆˆ(对上述方程两边同乘观察值距阵X的转置距阵X'一、完全多重共线性的影响•完全共线性:∣X’X∣=0,(X’X)-1不存在，R23=1；•例：0120602060301020104841631421211'XXX2、模型参数估计方差无穷大22222222222121212122212221221)()()()ˆ()())(()()ˆ(xxxubVarxxXXXXuxxxxxbVar得设存在完全多重共线性，与如果当存在多重共线性时，利用OLS无法估计参数，即参数估计值是不确定的，且估计值的方差无穷大。1、可以估计参数，但参数估计不稳定2、参数估计量的方差增大，使参数估计量的精度降低。不能正确判断各解释变量对被解释变量的贡献。3、由于参数估计量的方差和标准差增大，在对参数进行显著性检验性t检验时，增大了接受零假设的可能性。4、若作区间预测也将降低预测的精度。二、不完全多重共线性的影响1、简单相关系数法解释变量组的相关矩阵中解释变量间的简单相关系数的绝对值甚至大于被解释变量与解释变量之间的简单相关系数的绝对值corX1X2几何度量第三节多重共线性的检验22iyixiyixrX2X1X3(x,y)2、综合统计检验法若R2,F均很大,而各t值均偏小,则可以认为存在多重共线性3、用F检验确定哪些解释变量是多重共线的对每个解释变量Xj作它与其它解释变量的回归，并计算样本决定系数R2若FFa（临界值，则认为Xj与X1,…,Xj-1,Xj+1,…,Xk，多重共线显著4、用t检验来找出哪些解释变量是造成多重共线的原因（对自变量两两回归）若TTa，即Xj与Xi是引起多重共线的原因。2第四节多重共线性的修正方法一、删除不重要的变量1、将证实为多重共线性原因的变量删除2、由实际经济分析确定变量的相对重要性，删除不太重要的变量3、变量删除不当，会产生模型设计偏倚二、改变解释变量形式1、采用相对数量如对于需求函数Q=b0+b1Y+b2P0+b3P1+u商品价格P0和替代商品价格P1可能高度线性相关，可将模型改为如下形式：Q=a0+a1Y+a3(P0/P1)+u2、采用增量型变量如对于消费函数Ct=b0+b1Yt+b2Yt-1+u本期收入Yt和上期收入Yt-1可能高度线性相关，可将模型改为如下形式：Ct=a0+a1Yt+a2△Yt+u△Yt=YtYt-13、改变解释变量样本信息（1）改变样本（2）增加样本容量样本容量n增加，x2增大，var(b1)的值会降低，抵消方差增大的影响。^三、利用已知信息进行参数约束修正如对于C—D生产函数的对数形式lnY=lnA+alnL+blnk+u资金和劳动之间可能高度线性相关，如假定规模报酬不变，施加约束条件a+b=1可将模型改为如下形式：ln(Y/K)=lnA+aln(L/K)+ub=1a四、逐步回归法•逐步回归法分为逐个剔除法与逐个引入法•“逐步”指的是在使用回归分析方法建立模型时，一次只能剔除（减少）一个解释变量或者一次只能引入（增加）一个解释变量。进行一次剔除或引入称为“一步”，这样逐步的进行下去，直到最后得到模型达到“最优”——模型中无不显著解释变量。•引入的准则：引入解释变量后使模型的拟合优度（及F）显著增加的，应当引入；否则不引入。•剔除的准则：剔除解释变量后使模型的拟合优度（及F）不显著的减少，应当剔除；否则不剔除。1、逐步剔除法•先将一切可能的解释变量全部引入模型•再依据各个解释变量的显著性•每次从模型中剔除一个不显著的解释变量•从不显著的解释变量中，剔除t最小（对应的概率P最大）的解释变量•直至留在模型中的全部解释变量影响显著，得到最简洁的模型（模型中不包含不显著的解释变量）。逐步剔除与多重共线性如果剔除一个解释变量，使模型拟合优度（及F）显著地减少，那么这个剔除是不应当的。但证明了该剔除变量与留在模型中的解释变量不构成多重共线。它对解释变量Y的贡献不能由已在模型中的解释变量线性表出。如果剔除一个解释变量，使模型拟合优度（及F）不显著地减少，那么这个剔除是应当的。而且证明了它与留在模型中的解释变量构成多重共线。它可由这些变量线性表出，所以剔除不至于引起拟合优度的减少。2、逐个引入法•如果引入解释变量，使模型拟合优度显著地增加，那么这个引入是应当的，而且它与模型中已有的解释变量不构成多重共线。•如果引入解释变量，使模型拟合优度不显著地增加，那么这个引入是不应当的，而且它与已在型中的解释变量构成多重共线，它可由这些解释变量线性表出。也就是说，它对被解释变量的贡献已由这些共线变量提供。所以，引入它并不能提高拟合优度。第五节案例一——中国粮食生产函数根据理论和经验分析，影响粮食生产（Y）的主要因素有：农业化肥施用量（X1）；粮食播种面积(X2)成灾面积(X3);农业机械总动力(X4);农业劳动力(X5)已知中国粮食生产的相关数据，建立中国粮食生产函数：Y=b0+b1X1+b2X2+b3X3+b4X4+b4X5+表4.3.3中国粮食生产与相关投入资料年份粮食产量Y(万吨)农业化肥施用量1X（万公斤）粮食播种面积2X（千公顷）受灾面积3X（公顷）农业机械总动力4X（万千瓦）农业劳动力5X（万人）1983387281659.811404716209.31802231645.11984407311739.811288415264.01949731685.01985379111775.810884522705.32091330351.51986391511930.611093323656.02295030467.01987402081999.311126820392.72483630870.01988394082141.511012323944.72657531455.71989407552357.111220524448.72806732440.51990446242590.311346617819.32870833330.41991435292806.111231427814.02938934186.31992442642930.211056025894.73030834037.01993456493151.911050923133.03181733258.21994445103317.910954431383.03380232690.31995466623593.711006022267.03611832334.51996504543827.911254821233.03854732260.41997494173980.711291230309.04201632434.91998512304083.711378725181.04520832626.41999508394124.311316126731.04899632911.82000462184146.410846334374.05257432797.51、用OLS法估计上述模型：R2接近于1；给定a=5%，得F临界值F0.05(5,12)=3.11F=638.415.19，故认为上述粮食生产的总体线性关系显著成立。但X4、X5的参数未通过t检验，且符号不正确，故解释变量间可能存在多重共线性。54321028.0098.0166.0421.0213.644.12816ˆXXXXXY(-0.91)(8.39)***(3.32)***(-2.81)**(-1.45)(-0.14)75.112.210.005.0tt2、检验简单相关系数•发现：X1与X4间存在高度相关性。列出X1，X2，X3，X4，X5的相关系数矩阵：X1X2X3X4X5X11.000.010.640.960.55X20.011.00-0.45-0.040.18X30.64-0.451.000.690.36X40.96-0.040.691.000.45X50.550.180.360.451.003、找出最简单的回归形式•可见，应选第1个式子为初始的回归模型。1576.464.30867ˆXY(25.58)(11.49)R2=0.8919F=132.1DW=1.562699.018.33821ˆXY(-0.49)(1.14)R2=0.075F=1.30DW=0.124380.00.31919ˆXY(17.45)(6.68)R2=0.7527F=48.7DW=1.115240.219.28259ˆXY(-1.04)(2.66)R2=0.3064F=7.07DW=0.364、逐步回归将其他解释变量分别导入上述初始回归模型，寻找最佳回归方程。CX1X2X3X4X52RDWY=f(X1)308684.230.88521.56t值25.5811.49Y=f(X1,X2)-438714.650.670.95582.01t值-3.0218.475.16Y=f(X1,X2,X3)-119785.260.41-0.190.97521.53t值0.8519.63.35-3.57Y=f(X1,X2,X3,X4)-130566.170.42-0.17-0.090.97751.80t值-0.979.613.57-3.09-1.55Y=f(X1,X3,X4,X5)-126905.220.40-0.200.070.97981.55t值-0.8717.853.02-3.470.374、逐步回归将其他解释变量分别导入上述初始回归模型，寻找最佳回归方程。CX1X2X3X4X52RDWY=f(X1)308684.230.88521.56t值25.5811.49Y=f(X1,X2)-438714.650.670.95582.01t值-3.0218.475.16Y=f(X1,X2,X3)-119785.260.41-0.190.97521.53t值0.8519.63.35-3.57Y=f(X1,X2,X3,X4)-1305