第5章 多元线性回归模型

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第五章多元线性回归模型一元线性回归模型研究的是某一因变量与一个自变量之间的关系问题。但是,客观现象之间的联系是复杂的,许多现象的变动都涉及到多个变量之间的数量关系。研究某一因变量与多个自变量之间的相互关系的理论和方法就是多元线性回归模型。第1节多元线性回归模型及其假设条件设所研究的对象受多个因素mxxx,,,21的影响,假定各个影响因素与y的关系是线性的,这时就需要建立多元线性回归模型:uxxxymm2211(5.1.1)给定变量y,mxxx,,,21的一组观测值miiiixxxy,,,,21,对应地有imimiiiuxxxy2211,ni,,2,1(5.1.2)uXBY(5.1.4)其中yyynY21xxxxxxmnnmmX2222121111mB21uuunu21多元线性回归模型的基本假设条件如下:假设1:niuEi,,2,1,0)(,即E(u)=E000)()()(2121nnuEuEuEuuu(5.1.5)假设2:niuEuDuii,,2,1,)()(22njijiuuEuuCovjiji,,2,1,,,0),(),(用矩阵形式表示为nnuuuuuuEuuE2121')(=2212221212121nnnnnuuuuuuuuuuuuuuuE=)()()()()()()()()(2212221212121nnnnnuEuuEuuEuuEuEuuEuuEuuEuE=222000000uuu(5.1.6)式(5.1.6)称为高斯-马尔可夫(Gauss-Markov)假设。假设3:mjnixuCovji,,2,1;,,2,1,0),((5.1.7)式(5.1.7)要求随机扰动项u与自变量mxxx,,21不相关。假设4:r(X)=m,nm.假设4限定矩阵X的秩等于参数个数,即要求自变量mxxx,,21不相关。由于随机扰动项包含了“非主要因素”的影响、随机变化、观测误差和模型数学形式设定偏差等各种因素对y的影响的总和,根据中心极限定理,还可以进一步假设随机扰动向量u服从n维正态分布,即u~N(0,2uIn)。第2节模型参数的估计与一元线性回归模型类似,我们仍采用最小二乘法估计参数向量B,设观测值与回归方程估计值的残差向量为E,则YYEˆ其中XBYˆ根据最小二乘法的要求,应有min)ˆ()ˆ(YYYYEE(5.2.1)即min)()(XBYXBYEE由极值原理,根据矩阵求导法则,上式对B求导,并令其等于零,则得:BEE=BXBYXBY)()(=BXBXBXBYYY)2(=-2BXXXY)(2)(=0整理得回归系数向量B的估计值为:YXXXB1)(ˆ(5.2.2)第3节回归系数向量估计值的统计性质Bˆ1.回归系数向量B的估计值Bˆ具有线性性质。由式(5.2.2)可知,回归系数向量B的估计值Bˆ为Y的线性组合。2.估计值Bˆ是回归系数向量B的无偏估计量。回归系数向量估计值Bˆ的数学期望])[()ˆ(1YXXXEBE=)]()[(1uXBXXXE=])()[(11uXXXXBXXXE=)(BE=B(5.3.1)可见Bˆ是B的无偏估计。3.回归系数向量估计值Bˆ具有最小方差性回归系数向量估计值Bˆ的协方差])ˆ)(ˆ[()ˆ,ˆ(BBBBEBBCOV因为BBˆ=)()(1uXBXXX-B=uXXX1)(故)ˆ,ˆ(BBCOV=])()[(1'1XXXuuXXXE=XXX1)()('uuE1)(XXX=XXX1)(Iu21)(XXX=1)(XX2u(5.3.2)式(5.3.2)中矩阵主对角线上的元素为回归系数向量估计值Bˆ的方差,其余元素为回归系数向量估计值Bˆ的协方差。可以证明,回归系数向量估计值Bˆ具有最小方差性。第4节多元线性回归模型的检验在建立多元线性回归模型的过程中,为进一步分析回归模型所反映的变量之间的关系是否符合客观实际,引入的影响因素是否有效,同样需要对回归模型进行检验。常用的检验方法有R检验法,F检验法,t检验法和DW检验法。1.R检验法R检验法是通过复相关系数检验一组自变量mxxx,,,21与因变量y之间的线性相关程度的方法,又称复相关系数检验法。22222)()ˆ(1)()ˆ(yyyyyyyyRiiiii(5.4.1)它可以用来衡量因变量y与自变量mxxx,,,21之线性相关关系的密切程度。22)()ˆ(1yyyyRiii(5.4.2)称为复相关系数。与相关系数检验法一样,复相关系数检验法的步骤为:(1)计算复相关系数;(2)根据回归模型的自由度n-m和给定的显著性水平值,查相关系数临界值表;(3)判别。2.F检验F检验是通过F统计量检验假设0H:021m是否成立的方法。(1)F统计量。)()1()ˆ()ˆ(22mniimiFyyyy(5.4.7)式(5.4.7)中的m-1是回归变差)ˆ(2yyi的自由度,n-m是剩余变差)ˆ(2yyii的自由度。对给定的显著性水平,查F分布表可得临界值),1(mnmF。若F),1(mnmF则否定假设0H,认为一组自变量mxxx,,,21与因变量y之间的回归效果显著;反之,则不显著。回归效果不显著的原因有以下几种:①影响y的因素除了一组自变量mxxx,,,21之外,还有其他不可忽略的因素;②y与一组自变量mxxx,,,21之间的关系不是线性的;③y与一组自变量mxxx,,,21之间无关。这时,回归模型就不能用来预测,应分析其原因另选自变量或改变模型的形式。(2)F统计量与可决系数、相关系数的关系。从(5.4.1)、(5.4.2)和(5.4.7)式中我们可以推导出三者的关系:1122mmnRRF(5.4.8)FmmnFmR)1()()1((5.4.9)同样,F分布的临界值与相关系数临界值也具有上述等式关系。3.t检验t检验是通过t统计量对所求回归模型的每一个系数逐一检验假设0H:mjj,,2,1,0是否成立的方法。(1)t统计量jStjjˆˆmj,,2,1(5.4.10)式中jˆ为第j个自变量xj的回归系数;jSˆ是jˆ的样本标准差。(2)t检验的步骤①计算估计标准误差mniiSyy)ˆ(2对于二元和三元情形,估计标准误差的简捷公式分别为3ˆˆˆ332212niSyxyxyyiiiii(5.4.11)4ˆˆˆˆ44332212niSyxyxyxyyiiiiiii(5.4.12)②计算样本标准差,由式(5.3.2)可知SCSjjjˆ(5.4.13)式中jjC为矩阵)(1XX主对角线上的第j个元素。③计算t统计量④建立假设0H:mjj,,2,1,0若tj)(2mnt成立,则否定假设0H,说明xj对y有显著影响;反之假设成立,mjj,,2,1,0被接受,说明xj对y无显著影响,则应删除该因素。4.DW检验(1)若回归模型存在自相关,若使用最小二乘法估计参数,将可能产生下列严重后果:①估计标准误差S可能严重低估的真实值;②样本方差2ˆjS可能严重低估)(jD的真实值;③估计回归系数jˆ可能歪曲j的真实值;④通常的F检验和t检验将不再有效;⑤根据最小二乘估计量所作的预测将无效。(2)DW检验法。在序列相关中,最常见的是一阶自相关,最常用的检验方法是DW检验法(Durbin-Watson准则)。定义DW统计量为:ninieeeiiiDW1222)(1(5.4.14)其中:yyeiiiˆ,是iu的估计量;因为1iu的最初序号必须是1,所以分子求和公式必须从2开始。将(5.4.14)式展开,得:nininiiinieeeeeiiiDW1222212212(5.4.15)在大样本情况下,即n30,可以认为niiniiniieee1222122,所以上式可以写成:)1(2)1(211221ReeeniniiiiDW(5.4.16)1R是iu与1iu的相关系数1的估计量。当iu与1iu正相关时,11R,0DW;当iu与1iu负相关时,11R,4DW;若不存在自相关或相关程度很小时,01R,2DW。从式(5.4.16)可以看出,DW值在0~4之间。根据DW统计量,检验模型是否存在自相关,其步骤如下:①利用最小二乘法求回归模型及残差ei;②利用(5.4.14)、(5.4.15)或(5.4.16)式计算DW统计量;③确立假设0:10H,即假定回归模型不存在自相关;④根据给定的检验水平及自变量个数m从DW检验表中查得相应临界值ddUL,,并利用表5.4.1判别检验结论。DW值检验结果4-dL﹤DW﹤40﹤DW﹤dLdu﹤DW﹤4-dudL﹤DW﹤du4-du﹤DW﹤4-dL否定假设,出现负自相关否定假设,出现正自相关接受假设,不存在自相关检验无结论检验无结论表5.4.1DW检验判别表在实际预测中,产生自相关的原因可能是:①忽略了某些重要的影响因素。由于许多经济变量往往存在自相关,把它们忽略之后,其影响将在误差项ui中反映出来。②错误地选用了回归模型的数学形式。如果回归模型的数学形式与所研究的变量之间的真实关系形式不一致,则u值在时间上有可能相关。③随机误差项u本身的确存在自相关。例如:战争、自然灾害或某些政策对一些经济变量的影响是有后效的,所以随机因素本身可能存在自相关。针对上述三种情况,合适的补救办法是:①把略去的重要影响因素引入回归模型中来;②重新选择回归模型的形式;③增加样本容量,改善数据的准确性。三、预测区间与一元回归模型相似,多元回归模型的预测值和预测区间计算步骤如下:(1)计算估计标准误差mniiSyy)ˆ(2(2)记预测点为),...,,(002010xxxmX,则预测值为:BXyˆˆ00预测误差yyeˆ000的样本方差为]1[010220)(XXXXSS(5.4.17)(3)当预测值0ˆy的显著性水平为时,多元线性回归模型的预测区间为:020)(ˆSmnyt,n﹤30(5.4.18)ySZy20ˆ,30n(5.4.19)由于这里的x0是一个影响因素数据向量,按公式(5.4.17)计算0S较为复杂,故在实际预测中,一般运用S代替0S近似地估计预测区间。第5节含有虚拟变量的回归模型一、虚拟变量品质变量不像数量变量那样表现为具体的数值。它只能以品质、属性、种类等形式来表现。要在回归模型中引入此类品质变量,必须首先将具有属性性质的品质变量数量化。通常的做法是令某种属性出现对应于1,不出现对应于0。这种以出现为1,未出现为0形式表现的品质变量,就称为虚拟变量。二、带虚拟变量的回归模型常见的带虚拟变量的回归模型有以下三种形式:1、反映政府政策变化或某种因素发生重大变异的跳跃、间断式模型。其模型的形式为uDxyiiii3221(5.5.1)式中yi为因变量,xi2为自变量,iD为虚拟变量,设0i为观测值出现重大变异的年份,则iD的取值为:00,1,0iiiiDi其变化趋势如图5.5.1所示

1 / 33
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功