多元线性回归——多重共线性

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1多重共线性2引子:发展农业和建筑业会减少财政收入吗?为了分析各主要因素对财政收入的影响,建立财政收入模型:其中:CS财政收入(亿元);NZ农业增加值(亿元);GZ工业增加值(亿元);JZZ建筑业增加值(亿元);TPOP总人口(万人);CUM最终消费(亿元);SZM受灾面积(万公顷)数据样本时期1978年-2003年(资料来源:《中国统计年鉴2004》,中国统计出版社2004年)采用普通最小二乘法得到以下估计结果iiiiiiiiuSZMCUMTPOPJZZGZNZCS65432103VariableCoefficientStd.Errort-StatisticProb.农业增加值NZ-1.5350900.129778-11.828610.0000工业增加值GZ0.8987880.2454663.6615580.0017建筑业增加值JZZ-1.5270891.206242-1.2659890.2208总人口TPOP0.1511600.0337594.4776460.0003最终消费CUM0.1015140.1053290.9637830.3473受灾面积SZM-0.0368360.018460-1.9953820.0605截距项-11793.343191.096-3.6957040.0015R-squared0.995015Meandependentvar5897.824AdjustedR-squared0.993441S.D.dependentvar5945.854S.E.ofregression481.5380Akaikeinfocriterion15.41665Sumsquaredresid4405699.Schwarzcriterion15.75537Loglikelihood-193.4165F-statistic632.0999Durbin-Watsonstat1.873809Prob(F-statistic)0.000000财政收入模型的结果4●可决系数为0.995,校正的可决系数为0.993,模型拟合很好。模型对财政收入的解释程度高达99.5%。●F统计量为632.10,说明0.05水平下回归方程整体上显著。●t检验结果表明,除了工业增加值和总人口以外,其他因素对财政收入的影响均不显著。●农业增加值和建筑业增加值的回归系数是负数。农业和建筑业的发展反而会使财政收入减少吗?!这样的异常结果显然与理论分析和实践经验不相符。若模型设定和数据真实性没问题,问题出在哪里呢?模型估计与检验结果分析5多重共线性讨论四个问题:●什么是多重共线性●多重共线性产生的后果●多重共线性的检验●多重共线性的补救措施6一、什么是多重共线性基本内容:●多重共线性的含义●产生多重共线性的背景71、多重共线性的含义对于模型i=1,2,…,n其基本假设之一是解释变量是互相独立的。如果某两个或多个解释变量之间出现了相关性,则称为多重共线性包括完全多重共线性和不完全多重共线性12233...iiikkiiYXXXu8完全的多重共线性:在计量经济学中所谓的多重共线性(Multi-Collinearity),不仅包括完全的多重共线性,还包括不完全的多重共线性。对于解释变量,如果存在不全为0的数,使得则称解释变量之间存在着完全的多重共线性。23,,kXXX12kλ,λ,...λ12233...01,2,...,iikkiXXXin23,,,kXXX9当时,表明在数据矩阵X中,至少有一个列向量可以用其余的列向量线性表示,则说明存在完全的多重共线性。矩阵表示为不存在即10XXXX()RankkX10不完全的多重共线性实际中,常见的情形是解释变量之间存在不完全的多重共线性。对于解释变量,存在不全为0的数,使得为随机变量。这表明解释变量只是一种近似的线性关系。其中,23,,kXXX12,,k12233...01,2,...,iikkiiXXXuin23,,kXXXiu11无多重共线性如果解释变量之间不存在上述关系,则称解释变量之间无多重共线性.此时:注意:K个解释变量不存在多重共线性(线性相关)并不能说明它们之间无关,不存在非线性关系.()RankkX()RankKXX存在即10XXXX12,解释变量间毫无线性关系,变量间相互正交。这时已不需要作多元回归,每个参数j都可以通过Y对Xj的一元回归来估计。回归模型中解释变量的关系可能表现为三种情形:(1),解释变量间完全共线性。此时模型参数将无法确定。,解释变量间存在一定程度的线性关系。实际中常遇到的情形。(2)(3)0ijxxr1ijxxr01ijxxr<<132、产生多重共线性的原因1)经济变量之间往往存在同方向的变化趋势。当他们被引入同一个模型成为解释变量时,会出现多重共线性.2)模型中包含滞后变量,变量各期值之间有可能高度相关。3)利用截面数据建立模型也可能出现多重共线性。4)经济变量之间往往存在着密切的内在关联度,要素之间互相制约,互相依存。5)样本数据自身的原因,数据收集的范围过窄,造成某些解释变量之间似乎有相同或相反变化趋势的假象。6)在建模过程中由于解释变量选择不当,引起变量之间的多重共线性注:解释变量之间的多重共线性不可避免,只可能使多重共线性的程度尽可能地减弱.14二、多重共线性产生的后果基本内容:●完全多重共线性产生的后果●不完全多重共线性产生的后果151、完全多重共线性产生的后果无法估计导致)(而不存在即ˆˆ011YXXXXXXX161)参数的估计值不确定当解释变量完全线性相关时——OLS估计式不确定▲从偏回归系数意义看:在和完全共线性时,无法保持不变,去单独考虑对的影响(和的影响不可区分)▲从OLS估计式看:可以证明此时2)参数估计值的方差无限大OLS估计式的方差成为无穷大:2X3X3X20ˆ0β=2X2X3X2ˆVar()Y172、不完全多重共线性产生的后果估计值方差将很大。共线变量的参数,。中对角线元素值将很大)()(,而最小方差性。仍满足线性,无偏性和)(则OLSXXCovVarXXYXXXXX121ˆ0ˆˆ018如果模型中存在不完全的多重共线性,可以得到参数的估计值,但是对计量经济分析可能会产生一系列的影响。1)参数估计值的方差增大为对其他解释变量做辅助回归模型的决定系数其中:称为方差膨胀因子.当与其他解释变量存在严重的多重共线性时:22211.)ˆ(iiiRxVar2iR2iX211iiRVIF2iX)ˆ(,,12iiiVarVIFR192)对参数区间估计时,置信区间趋于变大区间估计失去可靠性;预测区间变大,降低预测精度.3)假设检验容易作出错误的判断,检验的可靠性降低,可能导致在假设检验中舍去重要的解释变量.因为:回归参数显著性检验变大。12)()ˆ(XXCovVar发生弃真错误。而变小增大,增大,2/)ˆ(ˆ)ˆ()(~)ˆ(ˆˆtttESVarkntEStiiii204)可能造成可决系数较高,但对各个参数单独的t检验却可能不显著,甚至可能使估计的回归系数符号相反,得出完全错误的结论。无法正确反映每个解释变量对被解释变量的单独影响。5)回归模型缺乏稳定性.当样本观测数据发生微小变化时,模型参数的估计值会有很大的变化.(CHOW氏检验)21三、多重共线性的检验基本内容:●简单相关系数检验法●方差扩大(膨胀)因子法●直观判断法●逐步回归法221、简单相关系数检验法含义:简单相关系数检验法是利用解释变量之间的线性相关程度去判断是否存在严重多重共线性的一种简便方法。判断规则:一般而言,如果每两个解释变量的简单相关系数(零阶相关系数)比较高,例如大于0.8,则可认为存在着较严重的多重共线性。23Klein判别公式:22)()())((jjiijjiiijjiXXXXXXXXrXX之间的相关系数与为对称矩阵相关系数矩阵jiijrr之间的共线性较为严重与则两变量若jiijXXRr,2224注意:1)较高的简单相关系数只是多重共线性存在的充分条件,而不是必要条件。2)只适用于两个解释变量之间存在线性相关检验,对于三个或更多的解释变量之间存在的线性相关关系不适用3)相关系数很大则必存在多重共线性,而相关系数很小却未必没有多重共线性.特别是在多于两个解释变量的回归模型中,有时较低的简单相关系数也可能存在多重共线性。因此并不能简单地依据相关系数进行多重共线性的准确判断。252、辅助回归检验法kkkkkkiFRXXXfXFRXXXfXFRXXXfXKX和和和个回归方程进行回归。得对其他的解释变量将每个解释变量2121222312121321),,,(),,,(),,,(变量存在多重共线性。与其余解释显著的大于临界值,则,越接近重共线性与其余解释变量存在多则显著的大于临界值,接近其中的iiikiiiiXFRRRRRMaxRXFR222222122),,,,()21)1263、方差扩大(膨胀)因子法统计上可以证明,解释变量的参数估计式的方差可表示为其中的是变量(VarianceInflationFactor),即的方差扩大因子其中是多个解释变量辅助回归的可决系数21VIF=1-jjR222221ˆVar()==VIF1-jjjjjσσβxRxVIFjjXjXˆjβ2jR27经验规则●方差膨胀因子越大,表明解释变量之间的多重共性越严重。反过来,方差膨胀因子越接近于1,多重共线性越弱。●经验表明,方差膨胀因子≥10时,说明解释变量与其余解释变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计。284、直观判断法根据回归结果判断也叫不显著系数检验法1)从定性分析认为,一些重要的解释变量的回归系数的标准误差较大,在回归方程中没有通过显著性检验时,可初步判断可能存在严重的多重共线性。F检验大于给定显著性水平下的临界值.但模型中的全部或部分参数估计值却不显著,或系数估计值的符号不对,则模型自变量之间存在多重共线性.8.0)(222RRR很大,一般或如果292)当增加或剔除一个解释变量,或者改变一个观测值时,回归参数的估计值发生较大变化,回归方程可能存在严重的多重共线性。3)有些解释变量的回归系数所带正负号与定性分析结果违背时,很可能存在多重共线性。4)解释变量的相关矩阵中,自变量之间的相关系数较大时,可能会存在多重共线性问题。305、逐步回归检测法也称Frisch综合分析法其基本思想:将变量逐个的引入模型,每引入一个解释变量后,都要进行F检验,并对已经选入的解释变量逐个进行t检验,当原来引入的解释变量由于后面解释变量的引入而变得不再显著时,则将其剔除。以确保每次引入新的变量之前回归方程中只包含显著的变量。在逐步回归中,高度相关的解释变量,在引入时会被剔除。因而也是一种检测多重共线性的有效方法。316、特征值检验法,多重共线性严重。线性。,模型存在较强多重共,模型无多重共线性。经验法则:重值越大多重共线性越严病态指数条件指数有:利用量共线。其对应的变量与其他变零,中至少有一个近似等于即,,则有的特征值为矩阵,,,设当存在严重共线性时:当存在完全共线性时:10010010100)()()(/)(000iiiiiik21k21CICICIMinMaxCIMinMaxCNXXXXXXXX32四、多重共线性的补救措施基本内容:●修正多重共线性的经验方法●逐步回归法331、修正多重共线性的经验方法1)剔除变量法是降低多重共线性最简便的方法.把方差扩大因子最大者所对应的自变量首先剔除再重新建立回归方程,直至回归方程中不再存在严重的多重共线性。注意:若剔除了重要变量,可能引起模型的设定误差。342)增大样本容*样本容

1 / 49
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功