应用回归分析知识点总结

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

U4违背基本假设的情况一、异方差产生的原因在建立实际问题的回归分析模型时,经常会出现某一因素或一些因素随着解释变量观测值的变化而对被解释变量产生不同的影响,导致随机误差项产生不同的方差。即:)var()var(ji,当ji时。样本数据为截面数据时容易出现异方差性。二、异方差性带来的问题1、参数估计值虽然是无偏的,但不是最小方差线性无偏估计。2、参数的显著性检验失效。3、回归方程的应用效果极不理想。三、异方差性的检验1、残差图分析法残差图分析法是一种只管、方便的分析方法。它以残差ie为纵坐标,以其他适宜的变量为横坐标画散点图。常用的横坐标有三种选择:(1)以拟合值yˆ为横坐标;(2)以ix(pi,,2,1)为横坐标;(3)以观测时间或序号为横坐标。(a)线性关系成立;(b)x加入二次方项;(c)存在异方差,需要改变x形式(d)残差与时间t有关。可能遗漏变量或者存在序列相关,需要引入变量。2、等级相关系数法等级相关系数又称斯皮尔曼(Spearman)检验,是一种应用较广泛的方法。这种检验方法既可用于大样本,也可以用于小样本。进行等级相关系数检验通常有三个步骤:第一步,做y关于x的普通最小二乘回归,求出i的估计值,即ie的值第二步,取ie的绝对值,即|ie|,把ix和|ie|按递增或递减的次序排列后分成等级,按下式计算出等级相关系数:niisdnnr122)1(61,其中,n为样本容量,id为对应于ix和|ie|的等级的差数。第三步,做等级相关系数的显著性检验。在n8的情况下,用下式对样本等级相关系数sr进行t检验,检验统计量为:212ssrrnt,如果)2(2ntt可以认为异方差性问题不存在,如果)2(2ntt,说明ix与|ie|之间存在系统关系,异方差性问题存在。(在这个检验中,原假设为:不存在异方差性)等级相关系数可以如实反映单调递增或单调递减趋势的变量间的相关性,而简单相关系数值适宜衡量直线趋势变量间的向关系。四、一元加权最小二乘估计当研究的问题存在异方差性时,就不能用普通最小二乘法进行参数估计了。消除异方差性的方法通常有加权最小二乘法、Box-Cox变换法、方差稳定变换法。对于一元线性回归方程来说,普通最小二乘法的离差平方和为:niiiniiixyyEyQ12101210)())((),(,其中每个观测值的权数相同。在等方差的条件下,平方和的每一项的地位是相同的。然而,在异方差的条件下,平方和中的每一项的地位是不同的,误差项方差2i大的项,在平方和式子中的作用就偏大,因而普通最小二乘估计的回归线就被拉向方差大的项,而方差小的项的拟合程度就差。加权最小二乘估计的方法是在平方和中加入一个适当的权数iw,以调整各项在平方和中的作用。一元线性回归的加权最小二乘的离差平方和为:niiiiniiiixywyEywQ12101210)())((),(,其中iw为给定的权数。使用加权最小二乘法时,为了消除异方差性的影响,为了使各项的地位相同,观测值的权数应该是观测值误差项方差的倒数,即21iiw。误差项方差较大的观测值接受较小的权数,误差项方差较小的观测值接受较大的权数。在社会、经济研究中,经常会遇到这种特色的权数,即误差项方差与x的幂函数mx成比例,其中,m为待定的未知参数。此时权函数为:miixw1。加权最小二乘估计照顾小残差项是以牺牲大残差项为代价的,当回归模型存在异方差时,加权最小二乘估计只是对普通最小二乘法估计的改进,这种改进有可能是细微的,不能理解为加权最小二乘估计一定会得到与普通最小二乘估计截然不同的回归方程,或者一定有大幅度的改进。另外,加权最小二乘以牺牲大方差项的拟合效果为代价改善了小方差项的拟合效果,这也并不总是研究者所需要的。在社会经济现象中,通常变量取值大时方差也大,在以经济总量为研究目标时,更关心的是变量取值大的项,而普通最小二乘恰好能满足这个要求。所以在这样的一些特定场合下,即使数据存在异方差,也仍然可以选择使用普通最小二乘估计。五、多元加权最小二乘估计多元线性回归有多个自变量,通常取权数W为某个自变量jx(pj,,2,1)的幂函数,即mjxW,在pxxx,,,21这p个自变量中,应该选取哪一个自变量,这只需计算每个自变量jx与普通残差的等级相关系数,选取等级相关系数最大的自变量构造权函数。六、自相关性如果一个回归模型不满足0),cov(ji,则称为随机误差项之间存在自相关现象。这里的自相关现象不是指两个或者两个以上的变量之间的相关关系,而指的是一个变量前后期数值之间存在的相关关系。七、自相关产生的背景和原因产生序列自相关的背景及原因通常有以下几个方面。1、遗漏关键变量时会产生序列的自相关性。2、经济变量的滞后性会给序列带来自相关性。3、采用错误的回归函数形式也可能引起自相关性。例如,假定某实际问题的正确回归函数应由指数形式)exp(10xy来表示,但无用了线性回归模型xy10表示,这时,误差项也会表现为自相关性。4、蛛网现象可能带来序列的自相关性。(经济学中的蛛网模型)5、因对数据加工整理而导致误差项之间产生自相关性。八、自相关性带来的问题当一个线性回归模型的随机误差项存在序列相关时,就违背了线性回归方程的基本假设,仍直接用普通最小二乘法估计未知参数,序列相关性会带来下列问题:1、参数估计值不再具有最小方差线性无偏性2、均方误差MSE可能严重低估误差项的方差。3、容易导致对t值评价过高,常用的F检验和t检验失效。4、当存在序列相关性时,ˆ仍然是的无偏估计量,但在任一特定的样本中,ˆ可能严重歪曲的真实情况,即最小二乘估计量对抽样波动变得非常敏感。5、如果不加处理地运用普通最小二乘法估计模型参数,用此模型进行预测和进行结构分析将会带来较大的方差甚至错误的解释。九、自相关性的诊断1、图示法图示法是一种直观的诊断方法,它是把给定的回归模型直接用普通最小二乘法估计参数,求出残差项te,te作为随机项t的真实值的估计值,在描绘te的散点图,根据te的相关性来判断随机项t的序列相关性。(1)绘制te,1te的散点图。图a表明随机扰动项存在正的序列相关,图b表明随机扰动项存在负相关。(2)按照时间顺序绘制回归残差项te的图形,如果te随着t的变化逐次有规律地变化,呈现锯齿形或循环形状的变化,可断言te存在相关,表明t存在着序列相关。如果te随着t的变化逐次变化并不断地改变符号,如下图d所示,那么随机扰动项t存在负的序列相关,这种现象称为蛛网现象;如果te随着t的变化逐次变化并不频繁地改变符号,而是几个正的te后面跟着几个负的,则表明随着扰动项t存在正的序列相关,如下图c所示。2、自相关函数法自相关函数的估计值为nttnttnttteeee2212221ˆ,ˆ作为自相关系数的估计值与样本量有关,需要做统计显著性检验才能确定自相关性的存在,通常采用DW检验代替对ˆ的检验。3、DW检验DW检验是适用于小样本的一种检验方法,而且DW检验只能用于检验随机扰动项具有一阶自回归形式的序列相关问题。DW2(1-ˆ),计算出DW值后,根据样本容量n和解释变量的数目k(包括常数项)查DW分布表,得出临界值Ld和Ud。0D.WLd,误差项n,,,21间存在正相关;LdD.WUd,不能判定是否有自相关;UdD.W4-Ud,误差项n,,,21间无自相关;4-UdD.W4-Ld,不能判定是否有自相关;4-LdD.W4,误差项n,,,21间存在负相关。需要注意的是,DW检验尽管有着广泛的应用,但也有明显的缺点和局限性:(1)DW检验有两个不能确定的区域,一旦DW值落在这两个区域,就无法判断。这时只有增大样本容量或选取其他方法;(2)DW统计量的上、下界表要求n15,这是因为样本如果再小,利用残差就很难对自相关的存在性做出比较正确的诊断;(3)DW检验不适应随机项具有高阶序列相关的检验(只能判断一阶)。/通用格式2345678ex(d)0yx(c)0十、自相关问题的处理方法1、迭代法设一元线性回归模型的误差项存在一阶自相关tttxy10--------------------------------------(1)ttt1------------------------------------------(2)),,2,1,(,0,),cov(,,2,1,0)(2nstststntEstt(2)式表明误差项存在一阶自相关,(1)式表明t满足关于随机扰动项的基本假设。所以回归模型(1)有:11101tttxy--------(3)将(3)式两端乘以,在用(1)式减去乘以的(3)式,则有)()()()(111001ttttttxxyy-------------(4)在(4)式中,令1tttyyy,1tttxxx,)1(00,11于是(4)可以变为tttxy10------------------------(5)模型(5)式有独立随机误差项,满足线性回归模型的基本假设,用普通最小二乘法估计的参数估计量具有通常的优良性。由于自相关系数是未知的,需要对作估计。DW211ˆ,计算出的估计值后,带入计算变换因变量ty和变换自变量tx,然后用(5)式做普通最小二乘回归。一阶自相关模型,通过上述变换,已经消除自相关,迭代法到此结束。如果检验表明误差项t不存在自相关,迭代法结束,如果检验表明误差项t存在自相关,那么对回归模型(5)式重复用迭代法,这个过程可能要重复几次,直至最终消除误差项自相关。2、差分法差分法就是用增量数据代替原来的样本数据,将原来的回归模型变为差分形式的模型。一阶差分法通常适用于原模型存在较高程度的一阶自相关情况。)()()()(111001ttttttxxyy用增量表示为:tttxy1以差分数据ty和tx为样本的回归方程。差分之后的模型,通常不带有常数项,它是回归直线过原点的回归方程。一阶差分的应用条件是自相关系数=1,在实际应用中,接近1时,就可以采用差分法而不用迭代法。有两个原因:第一,迭代法需要用样本估计自相关系数,对的估计误差会影响迭代法的使用效率;第二,差分法比迭代法简单,在建立时序数据的回归方程时,更习惯于用差分法。十一、异常值与强影响点异常值分为两种情况,一种是关于因变量y异常,另一种是关于自变量x异常。1、关于因变量y的异常值在残差分析中,认为超过ˆ3的残差为异常值。标准化残差:ˆiieZRE,学生化残差:iiiiheSRE1ˆ。标准化残差使残差具有可比性,|iZRE|3的相应观测值即判定为异常值,这简化了判断工作,但是没有解决方差不等的问题。学生化残差则进一步解决了方差不等的问题,比标准化残差又有所改进。但是当观测数据中存在关于y的异常观测值时,普通残差、标准化残差、学生化残差这三种残差都不再适用,这是由于异常值把回归线拉向自身,使异常值本身的残差减少,而其余观测值的残差增大,这时回归标准差ˆ也会增大,因而用ˆ3准则不能正确分辨出异常值。解决这个问题的方法是改用删除误差。删除误差的构造思想是:在计算第i个观测值的残差时,用删除掉这个第i个观测值的其余n-1个观测值拟合回归方程,计算出第i个观测值的删除拟合值)(ˆiy,这个删除拟合值与第i个值无关,不受第i个值是否为异常值的影响,定义第i个观测值的删除残差为:)()(ˆiiiyye,删除残差)(ie较普通残差更能如实反映第i个观测值的异常性。可以证明,iiiihee1)(,进一步可以给出第i个观测值的删除学生化残差,记为)(iSRE=212)()1

1 / 27
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功