第十章线性回归分析变量之间的关系有两种:确定型的函数关系不确定型的函数关系这里主要研究不确定型的函数关系,如收入与受教育程度之间的关系,等等问题。但它们之间存在明显的相互关系(称为相关关系),又是不确定的。回归分析是研究随机变量之间相关关系的统计方法。其研究一个被解释变量(因变量)与一个或多个解释变量(自变量)之间的统计关系。例:人均收入X与人均食品消费支出Y的散点图的关系如图。1.一元线性回归是研究一个自变量与一个因变量的统计关系。一.一元线性回归人均收入X人均食品支出YuXY21这两个变量之间的不确定关系,可以用下式表示:式中,人均食品消费支出Y是被解释变量,人均收入X是解释变量,1,2是待估计参数;u是随机干扰项,且与X无关,它反映了Y被X解释的不确定性。如果随机干扰项u的均值为0,对上式求条件均值,有XXYE21)(反映出从“平均”角度看,是确定性关系。例:地区的多孩率与人均国民收入的散点图如下:uLnXY21人均收入X多孩率Y这两个变量之间的不确定关系,大致可以用下式表示:设Z=LnX,可将上式线性关系为:uZY21线性回归的任务:就是用恰当的方法,估计出参数1,2,并且使估计出来的参数具有良好的统计特征,所以,回归问题从某种视角看,视同参数估计问题。如果把X,Y的样本观测值代到线性回归方程中,就得到iiiuXY21i=1,2,…,n,n为样本容量.从重复抽样的角度看,Xi,Yi也可以视为随机变量。2.高斯基本假设对于线性回归模型iiiuXY21i=1,2,…,n,n为样本容量.高斯基本假设如下:(1)ui为随机变量(本假设成立,因为我们研究就是不确定关系).(2)E(ui)=0,随机干扰项的期望值等于零(本假设成立,如果其均值不是零,可以把它并入到1中).(3)Var(ui)=2u,随机干扰项的方差等于常数(本假设有可能不成立,以后讨论不成立时如何处理).(4)E(uiuj)=0(ij)随机干扰项协方差等于零(本假设有可能不成立,以后讨论不成立时如何处理).(5)ui服从N(0,2u)分布;(6)E(Xiuj)=0,对Xi的性质有两种解释:a.Xi视为随机变量,但与uj无关,所以(6)成立.b.Xi视为确定型变量,所以(6)也成立.3.普通最小二乘法(OLS)设线性回归模型XY21ˆˆˆuXY21其中2,1ˆˆ为1,2的估计值,则Y的计算值Ŷ,可以用下式表达:所要求出待估参数,要使Y与其计算值Ŷ之间的“误差平方和”最小.即:使得2,1ˆˆ22122)ˆˆ()ˆ(iiiXYeYYQ最小.为此,分别求Q对的偏导,并令其为零:2,1ˆˆ0ˆ,0ˆ21QQ由上两式,就可求出待估参数的值.2,1ˆˆ4.所求参数的计算公式YYyXXxxyxiiiiiii,,ˆ22其中,XY21ˆˆ2ˆ的另一个表达式为:xxyxxxyxTT,ˆ25.几何解释残差向量e=Y–Ŷ=(Y-Y)-(Ŷ-Y)=y-ŷ向量y,ŷ,e三者之间关系如图所示,普通最小二乘法要使残差平方和e2i最小,也就是要使e的长度尽可能小,等价于在几何上ex.或者说,ŷ的长度应当是y在x上的投影长度.yxexy2ˆˆ二.多元线性回归本节要研究一个被解释变量(因变量),多个解释变量(自变量)的线性模型,即uXXYkk2211.基本假设(1)u为随机变量向量;(2)E(u)=0;(3)cov(u)=E(uuT)=2uIn(包含了两个其本假设:一是不存在序列相关,即ij时,cov(ui,uj)=E(uiuj)=0;二是具有同方差性(齐次方差性),即Var(ui)=2u).(4)u~N(0,2uIn)(5)E(XTu)=0,或者,X为确定矩阵nknkkXXXXXXX2222112111(6)秩(X)=k,(kn)2.普通最小二乘法估计式在模型中,代入样本观测值之后,可得nnkkknnuuXXXXYY1121221111用矩阵方式表达为Y=X+u其中,Y=(Y1,Y2,…,Yn)Tu=(u1,u2,…,un)T=(1,2,…,k)T若估计出,则有Tk)ˆ,,ˆ,ˆ(ˆ21ˆˆXY所以eˆYY于是有eˆeˆXYY两边左乘XT,得eˆTTTXXXYX由几何解释XTe,故有XTe=0,所以可以求出:YXXXTT1)(ˆ这就是普通最小二乘法估计系数公式.3.估计系数的性质ˆ高斯-马尔柯夫定理:在模型的基本假设下,所估计的参数值是最优的.ˆ即,满足最小方差性,线性的、无偏的,且有0)ˆcov(limn4.的方差及分布ˆ1212)()ˆvar()()ˆcov(jjTujTuXXXX表示矩阵的对角线元素,简记cjj.1)(jjTXX1)(XXT(注:为向量)ˆ所以,jjujjujccjˆˆ,)ˆvar(ˆ2即可以证明:(1)(2)分布。)(服从分布。),(服从1)ˆ(ˆ2222jjujjjjujjccN5.干扰项方差的无偏估计得到回归系数后,就可以得到Y的计算值如下:kkXXYˆˆˆˆ221从而有残差值eiiiiYYeˆ向量e由ei组成,niie122e称为残差平方和,记为Q.且knTueeˆ2为的无偏估计量。2uR2称为判定系数,它反映了回归效果的好坏.其定义可以从线性回归的几何解释中引出.多元回归的几何解释的图形与一元回归的几何解释图形完全相同,只是横坐标x不再表示一个变量,而是表示k-1个变量.6.判定系数R2判定系数R2的定义为:2222cosˆyyReyxxy2ˆˆ式中,,其经济解释为YYyYYyXXxiiiiiiˆˆ,,已解释变差占总变差的百分比.判定系数R2的另一种表达:7.回归效果的F检验检验回归效果的F统计量的定义式为:niiniiyeyeyeyyyR12122222222211ˆ)/(1/ˆ22knekyF)(未解释方差已解释方差服从F(k-1,n-k)分布.F越大越好.当计算出的统计值ff(k-1,n-k),就表示回归效果是好的,在水平下,已解释方差(Y的变化中已经解释的部分)明显大于未解释方差(Y的变化中尚未解释的部分).8.F与R2的关系F统计量与R2的统计量的关系,可以从下式的推演中看到:推演中用到勾股定理:。222222111//ˆRRkknkknyeyyF222ˆyye9.校正的判定系数(AdjustedR2)统计量R2中不含有自由度。所谓校正的判定系数,就是指“考虑了自由度的判定系数R2adj”。其定义如下:knnRnykneRadj1)1(1)1/()/(1222这样,R2adj剔除了自由度的影响。10.回归系数的T检验假设Ho:j=0;备择假设H1:j0(即Ho不成立).用统计量:服从t(n-k),可以完成上述假设检验.当时,H1成立,即j显著异于0.jjjtˆˆˆ(n5时,若取=0.05,则当t2时,有H1成立,即j显著异于0)针对回归系数的t统计量的显著性检验,决定了相应的变量能否作为解释变量进入回归方程.)(2kntt注意:1ˆ)(,ˆˆjjTjjjjuXXccj11.回归系数的置信区间得到区间为水平上的置信区间.95.0)}(ˆˆ)({025.0ˆ025.0kntkntp例:=0.05,则给定一置信水平,用统计量jjjtˆˆˆ))(ˆˆ,)(ˆˆ(2/ˆ2/ˆkntknt即95.0))(ˆˆ)(ˆˆ(025.0ˆ025.0ˆkntkntp12.偏相关系数的另一种几何解释定义:偏相关系数是在其他变量不变的情况下,任意两个变量之间的相关系数.例如:已知uXXYkk221偏相关系数kXXYXr,,,32表示排除X3,···,Xk影响后的Y和X2之间的相关关系,其计算过程如下:(1)求中心化数据y对中心化数据x3,···,xk的OLS估计值:ikkiixxy'3'3'ˆˆˆ要求出上式结果,需经两个步骤:a.用中心化数据y对中心化数据x3,···,xk回归,求出回归系数.ˆ,,ˆ''3kb.依托已经求出的回归系数和由样本得到的中心化数据,计算..ˆ,,ˆ''3k'ˆiy(2)令(从yi中剔除x3,···,xk的影响).'*ˆiiiyyy(3)求x2对x3,···,xk的最小二乘估计值:ikkiixxxˆˆˆ33'2要求出上式结果,同样需经两个步骤:先用x2对x3,···,xk回归,求出回归系数,然后求出.kˆ,,ˆ3'2ˆix(4)令(从中剔除x3,···,xk的影响).'22*2ˆiiixxx2ix(5)求得偏相关系数如下:iiiiiiiXXYXxyxyrk2*22**2*,,32偏相关系数的几何解释:在下图中,偏相关系数是图中角的余弦:cos,,32kXXYXr偏相关系数的几何解释'2ˆx'ˆyx2yx3,···,xky*x2*注意:图中,,已知从图中左边的虚线,平移到右边的虚线.'22*2ˆxxx13.复相关系数的另一种几何解释复相关系数R是图中y与其投影向量ŷ的夹角的余弦.或者说,判定系数是该余弦的平方.2222cosˆyyRx2复相关系数的另一种几何解释x3,···,xkŷey14.标准回归系数在上述回归方程中,自变量的单位对回归系数的数量级有很大影响,例如:元、百元、千元、万元等。为了从回归系数的大小中,简单比较相应的自变量对因变量的作用大小,就应当剔除自变量单位的影响。一般的处理方法是把所有的变量“标准化”。所谓标准化就是指对变量Y,X2,···,Xk进行如下处理:YjjjjSYYySXXx,式中,)(11,)(1122iiYijijjYYnSXXnS于是,原始方程:uXXYkk221就转化为标准方程:kkxxy22注:在SPSS中,所谓标准回归系数,就是指这一方程的回归系数.三、逐步回归1.回归系数的F检验检验回归系数j是否显著性异于0,除了T检验外,还有针对回归系数(而不是针对总体回归效果)的F检验.假设Ho:j=0;备择假设H1:j0(即Ho不成立).可以证明,服从2(1)分布,且与(也服从2(n-k)分布)相互独立.jjujc22ˆ2uQ若再记:,则有jjjjcV2ˆFj=(n-k)Vj/Q服从F(1,n-k)分布.把Fj的显著性概率p与置信度水平比较,就可以判断一个变量xj是否应当成为自变量:P0.05,接受Ho,j与0没有显著性差异,xj不应成自变量.P0.05,拒绝Ho,j与0有显著性差异,xj应成自变量.2.偏解释变差(偏回归平方和)在一个回归方程中,当把xj从自变量的队伍中删除以后,我们可以得到一组新的回归系数的估计值:**1*1*2*1ˆ,ˆ,ˆ,,ˆ,ˆkjj从而得到Y的新的计算值:kkXXY*2*2*1*ˆˆˆˆ注意:下标不包含j.如果用小写的y,x表示中心化的数据,就有kkxxy*2*2*1*ˆˆˆˆ这时||ŷ*||2是新的(在自变量中不含xj的)已解释变差(新的回归平方和).可以肯定地说,在自变量中删除一个变量之后,已解释变差只可能变小(在被删除的解释变量多少有一点解释作用的情况下,