-226-第十二章回归分析前面我们讲过曲线拟合问题。曲线拟合问题的特点是,根据得到的若干有关变量的一组数据,寻找因变量与(一个或几个)自变量之间的一个函数,使这个函数对那组数据拟合得昀好。通常,函数的形式可以由经验、先验知识或对数据的直观观察决定,要作的工作是由数据用昀小二乘法计算函数中的待定系数。从计算的角度看,问题似乎已经完全解决了,还有进一步研究的必要吗?从数理统计的观点看,这里涉及的都是随机变量,我们根据一个样本计算出的那些系数,只是它们的一个(点)估计,应该对它们作区间估计或假设检验,如果置信区间太大,甚至包含了零点,那么系数的估计值是没有多大意义的。另外也可以用方差分析方法对模型的误差进行分析,对拟合的优劣给出评价。简单地说,回归分析就是对拟合问题作的统计分析。具体地说,回归分析在一组数据的基础上研究这样几个问题:(i)建立因变量y与自变量mxxx,,,21L之间的回归模型(经验公式);(ii)对回归模型的可信度进行检验;(iii)判断每个自变量),,2,1(mixiL=对y的影响是否显著;(iv)诊断回归模型是否适合这组数据;(v)利用回归模型对y进行预报或控制。§1数据表的基础知识1.1样本空间在本章中,我们所涉及的均是样本点×变量类型的数据表。如果有m个变量mxxx,,,21L,对它们分别进行了n次采样(或观测),得到n个样本点),,,(21imiixxxL,ni,,2,1L=则所构成的数据表X可以写成一个mn×维的矩阵。⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡==×TnTmnijeexXM1)(式中mTimiiiRxxxe∈=),,,(21L,ni,,2,1L=,ie被称为第i个样本点。样本的均值为),,,(21mxxxxL=,∑==niijjxnx11,mj,,2,1L=样本协方差矩阵及样本相关系数矩阵分别为TknkkmmijxexensS)()(11)(1−−−==∑=×⎟⎟⎠⎞⎜⎜⎝⎛==×jjiiijmmijsssrR)(其中-227-∑=−−−=nkjkjikiijxxxxns1))((111.2数据的标准化处理(1)数据的中心化处理数据的中心化处理是指平移变换,即jijijxxx−=*,ni,,2,1L=;mj,,2,1L=该变换可以使样本的均值变为0,而这样的变换既不改变样本点间的相互位置,也不改变变量间的相关性。但变换后,却常常有许多技术上的便利。(2)数据的无量纲化处理在实际问题中,不同变量的测量单位往往是不一样的。为了消除变量的量纲效应,使每个变量都具有同等的表现力,数据分析中常用的消量纲的方法,是对不同的变量进行所谓的压缩处理,即使每个变量的方差均变成1,即jijijsxx/*=其中∑=−−=nijijjxxns12)(11。还可以有其它消量纲的方法,如}{max/*ijiijijxxx=,}{min/*ijiijijxxx=jijijxxx/*=,}){min}{max/(*ijiijiijijxxxx−=(3)标准化处理所谓对数据的标准化处理,是指对数据同时进行中心化-压缩处理,即jjijijsxxx−=*,ni,,2,1L=,mj,,2,1L=。§2一元线性回归2.1模型一元线性回归的模型为εββ++=xy10,(1)式中,10,ββ为回归系数,ε是随机误差项,总是假设),0(~2σεN,则随机变量),(~210σββxNy+。若对y和x分别进行了n次独立观测,得到以下n对观测值),(iixy,ni,,2,1L=(2)这n对观测值之间的关系符合模型iixyεββ++=10,ni,,2,1L=(3)这里,ix是自变量在第i次观测时的取值,它是一个非随机变量,并且没有测量误差。对应于ix,iy是一个随机变量,它的随机性是由iε造成的。),0(~2σεNi,对于不同的观测,当ji≠时,iε与jε是相互独立的。2.2昀小二乘估计方法-228-2.2.1昀小二乘法用昀小二乘法估计10,ββ的值,即取10,ββ的一组估计值10ˆ,ˆββ,使iy与xyi10ˆˆˆββ+=的误差平方和达到昀小。若记∑=−−=niiixyQ121010)(),(ββββ则∑=−−==niiixyQQ121010,10)ˆˆ(),(min)ˆ,ˆ(10ββββββββ显然0),(10≥ββQ,且关于10,ββ可微,则由多元函数存在极值的必要条件得0)(21100=−−−=∂∂∑=niiixyQβββ0)(21101=−−−=∂∂∑=niiiixyxQβββ整理后,得到下面的方程组⎪⎪⎩⎪⎪⎨⎧=+=+∑∑∑∑∑=====niiiniiniiniiniiyxxxyxn1121101110ββββ(4)此方程组称为正规方程组,求解可以得到⎪⎪⎪⎩⎪⎪⎪⎨⎧−=−−−=∑∑==xyxxyyxxniiniii101211ˆˆ)())((ˆβββ(5)称10ˆ,ˆββ为10,ββ的昀小二乘估计,其中,yx,分别是ix与iy的样本均值,即∑==niixnx11,∑==niiyny11关于1β的计算公式还有一个更直观的表示方法,即∑∑==−−−=niiniiixxyyxx1211)())((ˆβ-229-∑∑∑∑∑=====−−−−⋅−−=niiniiniiiniiniiyyxxyyxxxxyy121211212)()())(()()(xyxyrss=式中∑=−−=niixxxns122)(11,∑=−−=niiyyyns122)(11,xyr是x与y的样本相关系数。显然,当iiyx,都是标准化数据时,则有0=x,0=y,1=xs,1=ys。所以,有0ˆ0=β,xyr=1ˆβ回归方程为xryxy=ˆ由上可知,对标准化数据,1ˆβ可以表示y与x的相关程度。2.2.210ˆ,ˆββ的性质作为一个随机变量,1ˆβ有以下性质。1.1ˆβ是iy的线性组合,它可以写成∑==niiiyk11ˆβ(6)式中,ik是固定的常量,∑=−−=niiiixxxxk12)(。证明事实上∑∑∑∑∑=====−−−−=−−−=niininiiiiniiniiixxxxyyxxxxyyxx12111211)()()()())((ˆβ由于0)()(1=−=−∑=xnxnyxxynii所以ininiiiyxxxx∑∑==−−=1121)(ˆβ2.因为1ˆβ是随机变量),,2,1(niyiL=的线性组合,而iy是相互独立、且服从正态分布的,所以,1ˆβ的抽样分布也服从正态分布。3.点估计量1ˆβ是总体参数1β的无偏估计,有-230-∑∑===⎟⎠⎞⎜⎝⎛=niiiniiiyEkykEE111)()ˆ(β∑∑∑===+=+=niiiniiiniixkkxEk1110101)(ββββ由于0)(1121=−−=∑∑∑===niniiiniixxxxk1)())(()(1211121=−−−=−−=∑∑∑∑∑=====niiniiiininiiiiniixxxxxxxxxxxxk所以11)ˆ(ββ=E4.估计量1ˆβ的方差为∑=−=niixx1221)()ˆ(Varσβ(7)这是因为∑∑∑∑=======⎟⎠⎞⎜⎝⎛=niiniiniiiniiikkykyk1221221211)(VarVar)ˆ(Varσσβ由于∑∑∑∑∑∑======−=−⎥⎦⎤⎢⎣⎡−=−−=niiniiniininiiiniixxxxxxxxxxk1212212121212)(1)()(1))((因此,式(7)得证。5.对于总体模型中的参数1β,在它的所有线性无偏估计量中,昀小二乘估计量1ˆβ具有昀小的方差。记任意一个线性估计量∑==niiiyc11~β式中ic是任意常数,ic不全为零,ni,,2,1L=。要求1~β是1β的无偏估计量,即111)()~(ββ==∑=niiiyEcE另一方面,由于iixyE10)(ββ+=,所以又可以写成-231-∑∑∑===+=+=niiiniiniiixccxcE11101101)()~(βββββ为保证无偏性,ic要满足下列限制01=∑=niic,01=∑=niiixc定义iiidkc+=,其中ik是式(6)中的组合系数,id是任意常数,则⎟⎠⎞⎜⎝⎛++==∑∑∑∑====niiiniiniiniidkdkc11212212212)~(Varσσβ由于∑∑∑∑∑=====−−−=−=niniiniiiiniiiiniiikxxxxckckdk1121211)()(0)(1)(1)(1212121211=−−−=−−−=∑∑∑∑∑∑======niiniiniiniiniiniiixxxxkxxcxxc而)ˆ(Var)(1122122βσσ=−=∑∑==niiniixxk所以∑=+=niid12211)ˆ(Var)~(Varσββ∑=niid12的昀小值为零,所以,当∑==niid120时,1~β的方差昀小。但是,只有当0≡id时,即iikc≡时,才有∑==niid120。所以,昀小二乘估计量1ˆβ在所有无偏估计量中具有昀小的方差。同理,可以得出相应于点估计量0ˆβ的统计性质。对于一元线性正态误差回归模型来说,昀小二乘估计量0ˆβ是iy的线性组合,所以,它的抽样分布也是正态的。它是总体参数0β的无偏估计量,即00)ˆ(ββ=E同样可以证明])(1[)ˆ(12220∑=−+=niixxxnVarσβ(8)-232-且0ˆβ是0β的线性无偏的昀小方差估计量。2.2.3其它性质用昀小二乘法拟合的回归方程还有一些值得注意的性质:1.残差和为零。残差iiiyyeˆ−=,ni,,2,1L=由第一个正规方程,得0)ˆˆ(11101=−−=∑∑==niiniixyeββ(9)2.拟合值iyˆ的平均值等于观测值iy的平均值,即yynynniinii==∑∑==111ˆ1(10)按照第一正规方程,有0)ˆˆ(110=−−∑=niiixyββ所以∑∑∑====+=niiniiniiyxy11101ˆ)ˆˆ(ββ3.当第i次试验的残差以相应的自变量取值为权重时,其加权残差和为零,即01=∑=niiiex(11)这个结论由第二个正规方程0)ˆˆ(110=−−∑=niiiixyxββ即可得出。4.当第i次试验的残差以相应的因变量的拟合值为权重时,其加权残差和为零,即0ˆ1=∑=iniiey(12)这是因为0ˆˆ)ˆˆ(1110110=+=+∑∑∑===niiiniiniiiexeexββββ5.昀小二乘回归线总是通过观测数据的重心),(yx的。事实上,当自变量取值为x时,由式(5)xy10ˆˆββ−=所以yxxyxy=+−=+=1110ˆ)ˆ(ˆˆˆββββ2.3拟合效果分析当根据一组观测数据得到昀小二乘拟合方程后,必须考察一下,是否真的能由所得-233-的模型(iixy10ˆˆˆββ+=)来较好地拟合观测值iy?用iixy10ˆˆˆββ+=能否较好地反映(或者说解释)iy值的取值变化?回归方程的质量如何?误差多大?对这些,都必须予以正确的评估和分析。2.3.1残差的样本方差记残差iiiyyeˆ−=,ni,,2,1L=残差的样本均值为0)ˆ(11=−=∑=niiiyyne残差的样本方差为∑∑∑===−−=−=−−=niiiniiniiyyneneenMSE121212)ˆ(2121)(21由于有01=∑=niie和01=∑=niiiex的约束,所以,残差平方和有)2(−n个自由度。可以证明,在对∑=niie12除以其自由度)2(−n后得到的MSE,是总体回归模型中)(2iVarεσ=的无偏估计量。记∑=−==niieenMSES1221(13)一个好的拟合方程,其残差总和应越小越好。残差越小,拟合值与观测值越接近,各观测点在拟合直线周围聚集的紧密程度越高,也就是说,拟合方程xy10ˆˆˆββ+=解释y的能力越强。另外,当eS越小时,还说明残差值ie的变异程度越小。由于残差的样本均值为零,所以,其离散范围越小,拟合的模型就越为精确。2.3.2判定系数(拟合优度)对应于不同的ix值,观测值iy的取值是不同的。建立一元线性回归模型的目的,就是试图以x的线性函数(x10ˆˆββ+)来解释y的变异。