计量经济学课件:第四章-多重共线性

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1第四章多重共线性第一节违背基本假定的一般描述一、基本假定的回顾1、零均值假定。2、同方差假定。3、无自相关假定。4、解释变量与随机误差项不相关。5、无多重共线性假定。6、正态性假定。除此之外,还有一些需要注意的地方,回归模型关于参数线性;在重复抽样中X值是固定的(或X是非随机的);X的值要有变异;模型设定是正确的。二、假定1和假定6违背的讨论1、违背假定1的情况。(1)正确理解零均值假定是掌握所有假定的关键(参见Wooldridge,计量经济学导轮现代观点,pp.23-25)。(2)假定1不满足的数学描述。设一元线性回归模型为121212'1212,1,2,,()0,iiiiiiiiiiYXuinEukEYXEuXkkXX如果有则有()()()由上式表明,这时在0)(iuE下,改变的只是截距项,而对模型的线性结构并不影响。(3)对假定1被破坏的解释。通常在这种情况下,我们认为是变量所取的数据可能出现了异常表现,即有异常值。因为按照零均值的意义,要求各个散点是均匀地分布在回归线的周围。修正的方法将在后面虚拟变量部分介绍。例如,我们分析江苏省社会商品消费品零售总额与江苏省城乡居民可支配收入之间的关系,发现在1991年该省的社会消费品零售总额存在异常值,表现为样本回归模型的残差在1991年有估计值与实际值存在明显的差异。见下图和下2表DependentVariable:JSSHEHSPMethod:LeastSquaresDate:10/16/04Time:09:38Sample:19801998Includedobservations:19VariableCoefficientStd.Errort-StatisticProb.C-70.4849125.87473-2.7240830.0144JSCZNC0.2432630.00581141.858960.0000R-squared0.990391Meandependentvar751.2384AdjustedR-squared0.989826S.D.dependentvar728.4301S.E.ofregression73.47491Akaikeinfocriterion11.53107Sumsquaredresid91775.55Schwarzcriterion11.63048Loglikelihood-107.5451F-statistic1752.172Durbin-Watsonstat1.905133Prob(F-statistic)0.0000003另一方面,有时通过变量的时序数据的样本折线图也可直接观察到样本是否存在异常表现。如我们根据全国国有经济单位职工人数(万人)从1952年到1998年的数据绘制了折线图为从图形中我们可以看到,在1958年、1959年、1960年这三年中,全国国有经济单位职工人数存在异常情况,其背景是这几年为国家大跃进时期,国有单位职工人数增加迅速。因此,要依据这一数据建立模型,零均值假定就不一定成立。2、违背假定6的情况。在随机误差项不再服从正态分布的条件下,如果建立回归模型的目的仅是估计参数的话,则这一假定是否成立并不重要。但如果利用参数估计对总体进行统计推断,则这一假定不满足将对分析会产生影响。当在大样本情况下,根据中心极限定理,随机误差项应近似地服从正态分布。基于上述描述,对假定6是否成立可弱化看待。三、对违背假定2、3、4、5讨论的思路给出违背假定的定义;提出违背假定时对模型的影响后果;对违背假定的各种表现的检验(诊断);修正违背假定的表现(其中假定4的讨论将在第七章第四节、第九章第三节和第十一章第一节介绍)。4第二节什么是多重共线性一、一个多重共线性的例子下表为利用丰田公司提供的有关货车的数据,所估计出的样本回归模型各个参数的情况。被解释变量为车辆累计维修费(样本容量n=57)变量模型A模型B模型C截距项-626.24(-5.98)-796.07(-5.91)7.29(0.06)购买年限7.35(22.16)27.58(9.58)累计英里数53.45(18.27)-151.15(-7.06)d.f.(自由度)5555542R0.8970.8560.9462ˆ(回归误差的方差)13586119094172010MAPE(绝对平均百分比误差)227.9278.247.3表中括号内为t统计值。再例如,有人研究中国的货币供应与宏观经济总量的关系,被解释变量为GDP,解释变量为M2(广义货币供应量)、商业银行贷款总量。按照我们国家对M2的定义是现金加上所有的存款,而贷款一经形成马上转化为存款,因此从经济意义上判断,M2与贷款总量之间存在很强的(不完全)共线性。二、多重共线性的定义1、完全多重共线性的定义。按照变量之间线性相关的解释,即对于变量23,,,kXXX,如果存在不全为零的数,,,,32k使得22220kkXXX成立,则称变量23,,,kXXX之间存在完全的多重共线性。在经济现象中完全多重共线性十分少见。因为,实际数据不会有这么巧的精确的数学关系式。但是个别情况也是存在的,如某一商品的出口量和它的价格有关,如果在回归模型中同时用国内价格和国外价格作为解释变量,就很有可能出5现完全的多重共线性。再如消费与收入有关,如果用劳动收入和财产收入作为解释变量,还要用总收入作为解释变量,而总收入=劳动收入+财产收入这就存在完全多重共线性的危险,在这种情况下,只能得到总收入对消费的影响,而无法区分劳动收入、财产收入各自对消费的影响。因此,在建模过程中需要特别注意。完全多重共线性只是共线性的一种极端情况,大多数经济现象是下面的不完全多重共线性,怎样表示才符合在经济学中解释的那种变量之间的非精确关系呢?2、不完全多重共线性的定义。解释变量之间的共线性非精确表示,就是一种近似的关系。所以,在上述表达式中引入随机误差项,即对于变量23,,,kXXX,如果存在不全为零的数,,,,32k使得22220kkXXX成立,其中为随机误差项,或者是线性相关的一种近似关系22220kkXXX则称变量23,,,kXXX之间存在不完全的多重共线性,或者说是近似的多重共线性。也可以用矩阵或矩阵的秩来表述不完全多重共线性。即''()0RankXXkXX或例如,用收入和财富作为解释变量来对消费支出作回归分析。数据见下表,6其中,Y为家庭消费水平(元),X2为家庭的可支配收入(元),X3为家庭的财富(元)。根据数据作回归,得如下样本回归函数。从估计结果看,有如下特点:(1)从整体看,拟合效果不错。(2)从个体看,经济意义不对,显著性检验通不过。(3)从经济意义分析,财富与收入之间通常存在某种关系,如果这种关系是线性的,则这一关系就是不完全多重共线性。为什么是不完全多重共线性?事实上家庭的财富不仅要受到收入的影响,还要受到其它因素的影响,如家庭对财产的选择偏好、价格指数等。下面以收入为解释变量,作财富对收入的线性回归。7由EViews计算结果,我们发现财富对收入的回归拟合效果相当不错,说明收入对财富的形成有显著性影响。还可以得到消费水平分别对收入和财富的回归,以及变量之间的简单相关系数表,可进一步观测变量之间这种关系的特征。下面,通过一个例子来看完全多重共线性与不完全多重共线性之间的区别与联系。设模型为12233YXXu解释变量所取的数据为X2X3X3*1050521575751890972412012930150152在表中,很明显看到:有线性关系X3=5X2(即5X2-X3=0)。但X2与X3*之间的关系是一种近似表示X3=5X2+,其中=2,0,7,9,2为随机数。尽管X2与X3*之间是一种近似,但X2与X3*之间的相关系数高达0.9959(X2与X3之间的相关系数为多少?)。我们称前者是完全多重共线性,后者是不完全多重共线性。显然,无论是哪一种情况,无法区分变量X2、X3、X3*对被解释变量的单独影响。需要特别注意,解释变量之间不存在线性关系,不一定不存在非线性关系。8如231234YXXXu式中Y为生产总成本,X为产量。三、产生多重共线性的背景从经济学角度看,多重共线性存在的最根本原因是,在经济现象中,许多要素之间具有内在联系。经济系统中各要素之间是相互依存、相互制约的,在数量上就必然有一定的联系。从这个意义上讲,多重共线性现象是计量经济学建立模型中不可避免的问题,只是影响的程度有大小。依据经济学与经验,多重共线性的产生有如下原因。1、经济变量在随时间的变化过程中存在共同变化趋势。2、用截面数据建立模型,解释变量之间常常在经济意义上有密切的关联度。3、模型中引进大量的滞后变量。4、由于变量选择不当。这一情况跟模型的设定有关(设定误差)。5、在抽样中,变量的个数大于观测的次数(此时肯定有矩阵为非满秩。为什么?)。第二节多重共线性产生的后果一、完全多重共线性下的后果如果解释变量之间存在完全的多重共线性,则从结论上看有1、参数估计值不确定。设有两个解释变量的线性回归模型为12233iiiYXXu其样本回归模型用离差形式表示为2233ˆˆˆiiiyxx式中,222333ˆˆˆ,,iiiiiiyYYxXXxXX,则2和3的估计式为92233232222232323222332222323ˆ()ˆ()iiiiiiiiiiiiiiiiiiiiiiyxxyxxxxxxxyxxyxxxxxxx如果变量2X与3X存在如下关系,23iiXX(注意这时仍然有23iixx),其中0。将上述关系式代入2和3的估计式,得22332322222233232233332222223322333333222223333()ˆ()()0()()0()()()0ˆ()0iiiiiiiiiiiiiiiiiiiiiiiiiiiiiiyxxyxxxxxxxyxxyxxxxyxxyxxxxxxx2、参数估计值的方差会无限大。仍以二元回归模型为例,这时参数估计的方差为2322222232322232222323ˆ()()ˆ()()iiiiiiiiiixVarxxxxxVarxxxx如果变量存在完全的共线性,即23iixx,0,则有223322222223333222222322223333ˆ()()0ˆ()()0iiiiiiiiiiiixxVarxxxxxxVarxxxx说明这时参数估计的方差变为无穷大。二、不完全多重共线性下的后果1、有可能求出参数的估计值,但估计值很不稳定。仍以二元回归模型为例,这时由于是不完全的共线性,设23iiixxv,式中0,iv为误差项,且满足30iixv。以参数3的估计为例,有1023222332222323ˆ()iiiiiiiiiiiyxxyxxxxxxx222233333222222333ˆiiiiiiiiiiiiiyxxvyxyvxxvxx对比完全共线性的情况22333333222223333()()()0ˆ()0iiiiiiiiiiiyxxyxxxxxxx表明,在共线性存在的情况下,参数是能够估计的,但随着iv越趋近0,得到3ˆ就越不确定。同样道理,对于2的估计也有类似的情况。2、参数估计值的方差会随多重共线性(近似)程度的提高而增大。当X2与X3存在不完全的共线性时,它们的简单相关系数的平方为2232232223xxrxx将其代入2的估计的方差,得

1 / 19
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功