1第八章多重共线性一、多重共线性及其产生原因定义:对于多元线性回归模型:01122...iiikkiiyxxxu如果模型的解释变量之间存在着较强的线性相关关系,或者说,存在一组不全为零的常数12,,....,k,使得:1122...0iikkiixxxv,iv是随机误差项。则称模型存在着多重..共线性,如果0iv,则称存在完全的多重共线性。?直观地看,多重共线性是不是造成了冗余变量,这里的冗余的含义是什么?思考:只有一个解释变量会出现多重共线性吗?产生原因:1.经济变量的内在联系,这是根本原因,这导致多重共线性无法克服。2.经济变量变化趋势的“共向性”。3.解释变量中含有滞后变量。二、多重共线性的影响古典回归模型要求模型不存在完全的多重共线性。所以,即使存在严重的多重共线性,OLS估计仍然是最佳线性无偏估计(BLUE)。但会产生以下问题:(一)增大OLS估计的方差设模型为二元线性,01122iiiiyxxu可以证明,212211121()()1iDxxrVIF被称为方差膨胀因子。分别计算12r分别等于0,0.5,0.9时的方差膨胀因子。?方差变得过大,有什么不好??(二)难以区分每个解释变量的独立影响对于多元线性回归模型,回归系数为2iiyx,根据偏导数的概念,i的经济含义是什么?(三)T检验的可靠性降低可能使T检验失效,原来显著的T值变成不显著的,从而将有重要影响的变量剔除出模型。思考:比较一下和模型存在异方差及自相关时对T检验的影响有何不同?(四)回归模型缺乏稳定性参数估计值对样本的变化比较敏感,这实际上也是OLS估计方差较大的另一个表现。例子来说明:见表一表一Y,X1和X2的人为数据,建立二元线性回归模型。YX1X212420234124605816如果改成:YX1X212420234046125816再重新进行回归,看会发生什么情况?一个理念:多重共线性不可避免。三、多重共线性的检验外在症兆:R-平方很高,但只有极个别或少数几个解释变量前的系数显著(T值偏小)。1.相关系数检验利用相关系数可以分析解释变量之间的两两相关情况。例:服装需求函数。根据理论和经验分析,影响居民服装需求的主要因素有:可支配收入X,流动资产拥有量K,服装类价格指数P1和总物价指数P0。下表给出了有关统计资料。3表服装需求函数有关统计资料年份服装需求可支配收入X流动资产拥有量K服装类价格指数P1总物价指数P019791980198119821983198419851986198719888.49.610.411.412.214.215.817.919.320.882.988.099.9105.3117.7131.0148.0161.8174.2184.717.121.325.129.034.040.044.049.051.053.092939694100101105112112112949697971001011041091111112.方差膨胀因子检验(辅助方程)VIF大于10时,或者是容许度。仍以上例为例。四、多重共线性的解决方法明确两点1如果建立模型的目的是为了预测,只要模型的拟合优度较高,可以忽略多重共线性的问题;但是,如果目的是进行结构分析或政策评价,即利用系数分析,比较各个解释变量的单独影响,则需要消除多重共线性的影响。2引起多重共线性的原因是模型中存在相关的解释变量,消除多重共线性的根本方法只能是从模型中剔除这些变量。但直接剔除变量可能会带来以下问题:模型的经济意义不合理,可能会使模型出现异方差性或自相关性。可以考虑增加样本容量。(一)直接剔除次要或可替代的变量(二)间接剔除重要的解释变量1.利用附加信息以规模报酬不变的C-D生产函数为例。以工业能源需求函数为例。01122yxx2.变换模型的形式如投资函数,0121ttttIYYu可以变换成:0121ttttIYYu又比如,需求函数是:012031QYPPu为了反映自价格与互价格对需求量的影响,将需求函数设成:400121()PQYuP3.综合使用时序数据与横截面数据如果能同时获得变量的时序数据和横截面数据,则先利用某类数据估计出模型中的部分参数,再利用另一类数据估计模型的其余参数。例如,设某类商品的需求函数为,012lnlnlnyxpu,其中,时序数据中X与P高度相关。为此,(1)收集最近一年该商品的销售量和居民收入的统计资料,将需求函数取成:01lnlnyaaxu,可以得到需求的收入弹性1a。(2)将原模型变换成:01lntttyPu,其中,1lnlntttyyax,可以用时序数据估计模型,得到0和1,从而在消除多重共线性的情况下,估计出了各参数值。(四)逐步回归具体步骤为:1.利用相关系数从所有解释变量中选取相关性最强的变量建立一元回归模型。2.在一元回归模型中分别引入第二个变量,共建立K-1个二元回归模型,从这些模型中再选取一个较优的模型。选择时要求:模型中每个解释变量影响显著,参数符号正确,调整后的R-平方有所提高或下降极小。3.在选取的二元回归模型中以同样方式引入第三个变量,如此下去,直至无法引入新的变量时为止。以上例来说明逐步回归的过程。5作业:1.古典回归模型是否要求模型不存在多重共线性?多重共线性是否会影响OLS估计的无偏性和有效性?具体产生哪些不利影响?2.试述产生多重共线性的原因和解决多重共线性的基本思路。3.建立生产函数YALK时,(1)若K,L高度相关,用OLS方法估计模型时会出现什么问题?(2)若已知该生产过程的规模报酬不变(即1),应该如何估计模型?写出具体步骤。4.表3是1978——1997年我国钢材产量Y(万吨)、生铁产量X1(万吨),发电量X2(亿千瓦小时),固定资产投资X3(亿元),国内生产总值X4(亿元),铁路运输量X5(万吨)的统计资料。(1)计算各个变量之间的相关系数,分析多重共线性的可能类型。(2)根据逐步回归原理,建立我国钢产量预测模型。年份钢铁产量Y生铁产量X1发电量X2固定资产投资X3国内生产总值X4铁路运输量X51978220834792566668.7232641101191979247936732820699.3640381118931980271638023006746.9045181112791981267034173093638.2148621076731982292035513277805.9052951134951983307237383514885.26593511878419843372400137701052.43717112407419853693438441071523.51896413070919864058506444951795.321020213563519874386550349732101.691196314065319884689570454522554.861492814494819894859582058482340.5216909151489199051536238621225341854815068119915638676567753139.032161815289319926697758975394473.762663815762719937716895683956811.353463416266319948428974192819355.354675916309319958980105291007010702.975847816585519969338107231081312185.796788516880319979979115111135613838.96744631697346