《管理统计学》马庆国著-课件7

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第十章线性回归分析变量之间的关系有两种:确定型的函数关系不确定型的函数关系这里主要研究不确定型的函数关系,如收入与受教育程度之间的关系,等等问题。但它们之间存在明显的相互关系(称为相关关系),又是不确定的。回归分析是研究随机变量之间相关关系的统计方法。其研究一个被解释变量(因变量)与一个或多个解释变量(自变量)之间的统计关系。例:人均收入X与人均食品消费支出Y的散点图的关系如图。1.一元线性回归是研究一个自变量与一个因变量的统计关系。一.一元线性回归人均收入X人均食品支出YuXY21这两个变量之间的不确定关系,可以用下式表示:式中,人均食品消费支出Y是被解释变量,人均收入X是解释变量,1,2是待估计参数;u是随机干扰项,且与X无关,它反映了Y被X解释的不确定性。如果随机干扰项u的均值为0,对上式求条件均值,有XXYE21)(反映出从“平均”角度看,是确定性关系。例:地区的多孩率与人均国民收入的散点图如下:uLnXY21人均收入X多孩率Y这两个变量之间的不确定关系,大致可以用下式表示:设Z=LnX,可将上式线性关系为:uZY21线性回归的任务:就是用恰当的方法,估计出参数1,2,并且使估计出来的参数具有良好的统计特征,所以,回归问题从某种视角看,视同参数估计问题。如果把X,Y的样本观测值代到线性回归方程中,就得到iiiuXY21i=1,2,…,n,n为样本容量.从重复抽样的角度看,Xi,Yi也可以视为随机变量。2.高斯基本假设对于线性回归模型iiiuXY21i=1,2,…,n,n为样本容量.高斯基本假设如下:(1)ui为随机变量(本假设成立,因为我们研究就是不确定关系).(2)E(ui)=0,随机干扰项的期望值等于零(本假设成立,如果其均值不是零,可以把它并入到1中).(3)Var(ui)=2u,随机干扰项的方差等于常数(本假设有可能不成立,以后讨论不成立时如何处理).(4)E(uiuj)=0(ij)随机干扰项协方差等于零(本假设有可能不成立,以后讨论不成立时如何处理).(5)ui服从N(0,2u)分布;(6)E(Xiuj)=0,对Xi的性质有两种解释:a.Xi视为随机变量,但与uj无关,所以(6)成立.b.Xi视为确定型变量,所以(6)也成立.3.普通最小二乘法(OLS)设线性回归模型XY21ˆˆˆuXY21其中2,1ˆˆ为1,2的估计值,则Y的计算值Ŷ,可以用下式表达:所要求出待估参数,要使Y与其计算值Ŷ之间的“误差平方和”最小.即:使得2,1ˆˆ22122)ˆˆ()ˆ(iiiXYeYYQ最小.为此,分别求Q对的偏导,并令其为零:2,1ˆˆ0ˆ,0ˆ21QQ由上两式,就可求出待估参数的值.2,1ˆˆ4.所求参数的计算公式YYyXXxxyxiiiiiii,,ˆ22其中,XY21ˆˆ2ˆ的另一个表达式为:xxyxxxyxTT,ˆ25.几何解释残差向量e=Y–Ŷ=(Y-Y)-(Ŷ-Y)=y-ŷ向量y,ŷ,e三者之间关系如图所示,普通最小二乘法要使残差平方和e2i最小,也就是要使e的长度尽可能小,等价于在几何上ex.或者说,ŷ的长度应当是y在x上的投影长度.yxexy2ˆˆ二.多元线性回归本节要研究一个被解释变量(因变量),多个解释变量(自变量)的线性模型,即uXXYkk2211.基本假设(1)u为随机变量向量;(2)E(u)=0;(3)cov(u)=E(uuT)=2uIn(包含了两个其本假设:一是不存在序列相关,即ij时,cov(ui,uj)=E(uiuj)=0;二是具有同方差性(齐次方差性),即Var(ui)=2u).(4)u~N(0,2uIn)(5)E(XTu)=0,或者,X为确定矩阵nknkkXXXXXXX2222112111(6)秩(X)=k,(kn)2.普通最小二乘法估计式在模型中,代入样本观测值之后,可得nnkkknnuuXXXXYY1121221111用矩阵方式表达为Y=X+u其中,Y=(Y1,Y2,…,Yn)Tu=(u1,u2,…,un)T=(1,2,…,k)T若估计出,则有Tk)ˆ,,ˆ,ˆ(ˆ21ˆˆXY所以eˆYY于是有eˆeˆXYY两边左乘XT,得eˆTTTXXXYX由几何解释XTe,故有XTe=0,所以可以求出:YXXXTT1)(ˆ这就是普通最小二乘法估计系数公式.3.估计系数的性质ˆ高斯-马尔柯夫定理:在模型的基本假设下,所估计的参数值是最优的.ˆ即,满足最小方差性,线性的、无偏的,且有0)ˆcov(limn4.的方差及分布ˆ1212)()ˆvar()()ˆcov(jjTujTuXXXX表示矩阵的对角线元素,简记cjj.1)(jjTXX1)(XXT(注:为向量)ˆ所以,jjujjujccjˆˆ,)ˆvar(ˆ2即可以证明:(1)(2)分布。)(服从分布。),(服从1)ˆ(ˆ2222jjujjjjujjccN5.干扰项方差的无偏估计得到回归系数后,就可以得到Y的计算值如下:kkXXYˆˆˆˆ221从而有残差值eiiiiYYeˆ向量e由ei组成,niie122e称为残差平方和,记为Q.且knTueeˆ2为的无偏估计量。2uR2称为判定系数,它反映了回归效果的好坏.其定义可以从线性回归的几何解释中引出.多元回归的几何解释的图形与一元回归的几何解释图形完全相同,只是横坐标x不再表示一个变量,而是表示k-1个变量.6.判定系数R2判定系数R2的定义为:2222cosˆyyReyxxy2ˆˆ式中,,其经济解释为YYyYYyXXxiiiiiiˆˆ,,已解释变差占总变差的百分比.判定系数R2的另一种表达:7.回归效果的F检验检验回归效果的F统计量的定义式为:niiniiyeyeyeyyyR12122222222211ˆ)/(1/ˆ22knekyF)(未解释方差已解释方差服从F(k-1,n-k)分布.F越大越好.当计算出的统计值ff(k-1,n-k),就表示回归效果是好的,在水平下,已解释方差(Y的变化中已经解释的部分)明显大于未解释方差(Y的变化中尚未解释的部分).8.F与R2的关系F统计量与R2的统计量的关系,可以从下式的推演中看到:推演中用到勾股定理:。222222111//ˆRRkknkknyeyyF222ˆyye9.校正的判定系数(AdjustedR2)统计量R2中不含有自由度。所谓校正的判定系数,就是指“考虑了自由度的判定系数R2adj”。其定义如下:knnRnykneRadj1)1(1)1/()/(1222这样,R2adj剔除了自由度的影响。10.回归系数的T检验假设Ho:j=0;备择假设H1:j0(即Ho不成立).用统计量:服从t(n-k),可以完成上述假设检验.当时,H1成立,即j显著异于0.jjjtˆˆˆ(n5时,若取=0.05,则当t2时,有H1成立,即j显著异于0)针对回归系数的t统计量的显著性检验,决定了相应的变量能否作为解释变量进入回归方程.)(2kntt注意:1ˆ)(,ˆˆjjTjjjjuXXccj11.回归系数的置信区间得到区间为水平上的置信区间.95.0)}(ˆˆ)({025.0ˆ025.0kntkntp例:=0.05,则给定一置信水平,用统计量jjjtˆˆˆ))(ˆˆ,)(ˆˆ(2/ˆ2/ˆkntknt即95.0))(ˆˆ)(ˆˆ(025.0ˆ025.0ˆkntkntp12.偏相关系数的另一种几何解释定义:偏相关系数是在其他变量不变的情况下,任意两个变量之间的相关系数.例如:已知uXXYkk221偏相关系数kXXYXr,,,32表示排除X3,···,Xk影响后的Y和X2之间的相关关系,其计算过程如下:(1)求中心化数据y对中心化数据x3,···,xk的OLS估计值:ikkiixxy'3'3'ˆˆˆ要求出上式结果,需经两个步骤:a.用中心化数据y对中心化数据x3,···,xk回归,求出回归系数.ˆ,,ˆ''3kb.依托已经求出的回归系数和由样本得到的中心化数据,计算..ˆ,,ˆ''3k'ˆiy(2)令(从yi中剔除x3,···,xk的影响).'*ˆiiiyyy(3)求x2对x3,···,xk的最小二乘估计值:ikkiixxxˆˆˆ33'2要求出上式结果,同样需经两个步骤:先用x2对x3,···,xk回归,求出回归系数,然后求出.kˆ,,ˆ3'2ˆix(4)令(从中剔除x3,···,xk的影响).'22*2ˆiiixxx2ix(5)求得偏相关系数如下:iiiiiiiXXYXxyxyrk2*22**2*,,32偏相关系数的几何解释:在下图中,偏相关系数是图中角的余弦:cos,,32kXXYXr偏相关系数的几何解释'2ˆx'ˆyx2yx3,···,xky*x2*注意:图中,,已知从图中左边的虚线,平移到右边的虚线.'22*2ˆxxx13.复相关系数的另一种几何解释复相关系数R是图中y与其投影向量ŷ的夹角的余弦.或者说,判定系数是该余弦的平方.2222cosˆyyRx2复相关系数的另一种几何解释x3,···,xkŷey14.标准回归系数在上述回归方程中,自变量的单位对回归系数的数量级有很大影响,例如:元、百元、千元、万元等。为了从回归系数的大小中,简单比较相应的自变量对因变量的作用大小,就应当剔除自变量单位的影响。一般的处理方法是把所有的变量“标准化”。所谓标准化就是指对变量Y,X2,···,Xk进行如下处理:YjjjjSYYySXXx,式中,)(11,)(1122iiYijijjYYnSXXnS于是,原始方程:uXXYkk221就转化为标准方程:kkxxy22注:在SPSS中,所谓标准回归系数,就是指这一方程的回归系数.三、逐步回归1.回归系数的F检验检验回归系数j是否显著性异于0,除了T检验外,还有针对回归系数(而不是针对总体回归效果)的F检验.假设Ho:j=0;备择假设H1:j0(即Ho不成立).可以证明,服从2(1)分布,且与(也服从2(n-k)分布)相互独立.jjujc22ˆ2uQ若再记:,则有jjjjcV2ˆFj=(n-k)Vj/Q服从F(1,n-k)分布.把Fj的显著性概率p与置信度水平比较,就可以判断一个变量xj是否应当成为自变量:P0.05,接受Ho,j与0没有显著性差异,xj不应成自变量.P0.05,拒绝Ho,j与0有显著性差异,xj应成自变量.2.偏解释变差(偏回归平方和)在一个回归方程中,当把xj从自变量的队伍中删除以后,我们可以得到一组新的回归系数的估计值:**1*1*2*1ˆ,ˆ,ˆ,,ˆ,ˆkjj从而得到Y的新的计算值:kkXXY*2*2*1*ˆˆˆˆ注意:下标不包含j.如果用小写的y,x表示中心化的数据,就有kkxxy*2*2*1*ˆˆˆˆ这时||ŷ*||2是新的(在自变量中不含xj的)已解释变差(新的回归平方和).可以肯定地说,在自变量中删除一个变量之后,已解释变差只可能变小(在被删除的解释变量多少有一点解释作用的情况下,

1 / 41
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功