第五章回归分析§5.1一元线性回归在自然界的现象中,同一过程中的各种变量之间往往存在着一定的关系,这种关系大致可以分为两类:确定性关系例如电路中的电压V、电阻R和电流I三者之间服从欧姆定律V=IR只要知道其中两个变量的值,另一个变量的值就唯一确定了.相关关系例如人的年龄、身高、体重和血压之间也存在一定的关系,一般来说年龄大的、体重重的人血压也要相应的高一些,但这种关系并不是确定的,因为即使年龄和体重都相同的人,其血压也不一定相同.又如在土地和耕作条件相同的条件,每亩的施肥量、播种量与农作物的产量之间也存在一定的关系,一般来说施肥量、播种量适当时产量较高,同样这种关系也不是确定的,具有某种随机性,变量之间这种不确定性关系在社会现象和自然现象中普遍存在,其原因主要是由于一些随机因素的干扰和测量上的误差,我们称变量之间的这种不确定关系为相关关系.回归分析就是分析和处理这些具有相关关系的变量之间关系的一种有效方法.在研究具有相关关系的变量之间的关系时,往往要考虑一些变量的变化对另一些变量的影响,这其中的一些变量就相当于通常函数中的自变量,对它们能赋予一个需要的值(如施肥量、播种量)或能取到一个可观测但不能人为控制的值(如年龄、身高),这类变量称为自变量(预报变量),而因自变量变化而变化的这类变量称为因变量(响应变量).“回归”一词是英国统计学家高尔顿(P.Galton1882-1911)在1889年发表的关于遗传的论文中首先应用的.他在研究前辈与后代身高之间的关系时,发现儿子的身高介于父亲身高与种族(父辈)平均身高之间,有回归于种族平均身高的趋势.后来他的朋友,英国著名统计学家K.Pearson等人搜集了上千个家庭成员的身高数据,分析出儿子的身高y与父亲的身高x大致可归结为以下关系:y=0.516x+33.73(英寸)从而进一步证明了Galton的回归定律.这就是“回归”一词最早在遗传学上的含义.发展到今天,回归的现代意义要比原始的意义广泛的多.在回归分析中要研究的主要问题是:(1)确定因变量(响应变量)和自变量(预报变量)之间的定量关系表达式即建立回归模型.(2)对回归模型进行检验.(3)从众多的自变量中选择出对因变量影响显著的自变量.(4)利用所建立的回归模型进行预测和控制.§5.1一元线性回归我们先从最简单的情况开始讨论,只考虑一个因变量y和一个自变量x之间的关系.一.一元线性回归模型我们先看一个例子.例5.1.1为研究某种物质在水中的溶解度(y)和温度(x)的关系,独立作了11组试验,记录数据如下:表5.1.1x05101520253035404550y14.015.017.518.921.42326.128.529.231.533为了直观起见,可以x为横坐标,y为纵坐标,作上述数据的平面散点图(图5-1),每一数据对(xi,yi)为x-y坐标系中的一个点,(i=1,2,…,11).图5-1从图上可以看出①溶解度(y)基本随温度(x)升高而增加;②点分布在某一直线两侧,不全在直线上,从而可以认为y与x大致成直线关系,这些点与直线的偏离是由其他一些不确定的因素的影响所造成的.因此可以假设y与x满足以下关系:y=0+1x+ε(5.1.1)其中0+x1为y随x线性变化的部分,0和1是未知待估计的参数;ε是许多不可控或不了解的随机因素的总和,所以是不可观测的随机变量,但为了估计上的方便,通常假定Eε=0Dε=2<∞未知(5.1.2)y是可观测的随机变量.一般,称由(5.1.1)和(5.1.2)所确定的模型为一元线性回归模型.记为210,0DExy(5.1.3)未知参数0为常数项,1称为回归系数,自变量x称为回归变量.显然有Ey=0+1x(5.1.4)(5.1.4)称为回归函数.注意:这里我们说一个模型是线性的,是指它关于参数(0和1)是线性的,模型中自变量的最高次幂为该模型的阶,如y=0+1x+2x2+ε是一个二阶(x的)线性(对0,1,2)回归模型.若利用试验数据求出0和1的估计值0和1,于是有y=0+1x(5.1.5)y为由估计值0和1确定后对给定的x值相应y的回归值(预报值).(5.1.5)称为回归方程(预报方程).其对应的直线称为回归直线(预报直线).02040X15202530Y图5-2二.0和1的最小二乘估计及其性质设有n组独立的样本观测值(xi,yi)(i=1,2,…,n),由(5.1.3)有210,0iiiiiDExyi=1,2,…,n,n,,,21相互独立.(5.1.6)称为样本回归模型.1.0和1的最小二乘估计如何利用样本数据求出0和1的估计值0和1呢?一个最直观的想法就是在散点图上确定一条直线l:0+1x,使得所有的点总的看来最接近这条直线.这时将直线l的截距0的取值与斜率1的取值,作为0和1的估计值0和1是比较合适的.所谓所有的点总的看来最接近这条直线的含义即可以认为是使得Q(0,1)=nii12=niiiyEy12=n1102iiixy达到最小.求出使函数Q(0,1)达到最小的0,1的值,作为0和1的估计值0和1.即0和1应满足Q(0,1)=),(min1010QR则称0和1为0和1的最小二乘估计(L.S估计).由Q(0,1)是0,1的二元函数,要使Q达到最小值,必要条件是0,1满足0)(20)(210111010xixiiyiQxiyiQnni即niiiniiyxxxnynxnn1112010(5.1.9)其中x=niixn11,y=niiyn11,(5.1.9)称为正规方程组.由正规方程组解得xyllxxxy101/(5.1.10)其中lxxnixxi12)(,lxy)()(1yyxxinii,因为1022Q-022Q122Q=xn22-2n×2nixi12=--4nlxx<0及022Q=2n>0所以(5.1.9)的解0,1使Q取到最小值.于是0和1的最小二乘估计为xyllxxxy101/(5.1.11)由(5.1.11)式可得xy10,说明由最小二乘估计得到的回归直线过样本均值),(yx.下面我们利用(5.1.11)式来计算例5.1.1中的回归直线.由表5.1.1的数据算得111iix=275,x=25,1112ixi=9625,111iiy=258.1,y=23.4636,yxiii111=7552.5lxx1112)(ixxi=1112ixi-11x2=9625-6875=2750lxy)()(1yyxxinii=yxiii111-11xy=7552.5-6452.49=110046.13254.04636.234.02750/1100/101xyllxxxy回归方程为xy4.046.132.最小二乘估计的统计性质性质1.0和1分别是yyyn,,,21的线性组合.证:1=llxxxy=niiniixxyyxxi121)()()(=yxxxxininiii.)()(121=ybinii1(5.1.12)其中bi=niixxxxi12)(=lxxxxi0=y-x1=n1niiy1-xybinii1=)1(1bxniniyi=ycinii1(5.1.13)其中ci=)1(1bxnini性质2.E(0)=0,E(1)=1(5.1.14)D(0)=)1(22lxnxx,D(1)=lxx2,Cov(0,1)=-xlxx2证:由模型(5.1.3)知Eε=0Dε=2则有E(yi)=0+1xiD(yi)=2再由性质(1)有E1=E(ybinii1)=E(lyxxxxniii1)()=lxxxxxniii110))((=lxxxxnii10)(+lxxxxxniii11)(=lxxxxnii121)(=1(注意到:niiiniiixxxxxxx11))(()()E0=E(y-x1)=Ey-xE1=n1niix110)(-x1=0+x1-x1=0D(1)=Dlyxxxxniii1)(=2212)(lxxxxini=lxx2D(0)=D(y-x1)=Dy+x2D(1)-2xCov(y,1)=22211lxnxx=)1(22lxnxx由此性质可得:(1)Ey=Ey即预报值y的均值等于相应的观测值y的均值.(2)0与1的估计值波动的大小不仅与y的方差2有关,而且还与预报变量x取值的离散程度有关,x取值分散,则0与1作为0与1估计值较精确,反之,若x在x的一个较小范围内取值,则0与1作为0与1估计值精确度较差.因此若x是可控变量时,则在安排实验时xi(i=1,2,…,n)应取得尽可能的分散,并且n不能太小.3.2的无偏估计由于0与1作为0与1估计值的精确度与y的方差2有关,而2是未知的,所以下面给出2的无偏估计记ei=yi-yi=0-1xi称为残差,niei12为残差平方和或剩余平方和,记作Qe=niei12.取2=2nQe=212nenii,则2为2的无偏估计.因为在模型(5.1.3)下,niei12有性质E(Qe)=(n-2)2(5.1.15)证Qe=niei12=niyyii12)(=nixyii1102)(=nixxyyii112)](([=niyyi12)(-21)()(1yyxxinii+21nixxi12)(=niyyi12)(-21lxy+21lxx=niyyi12)(-21lxxE(Qe)=Eniyyi12)(-lxxE(21)=Eniynyi122)(-lxxE(21)=niynEyEi122)()(-lxxE(21)=niiyEyDi12)()()()(2yEyDn-lxx)()(121ED=nixi11022)(-)(1022xnn-lxx122lxx=(n-2)2+nixi1102)(-)(102xn-lxx12=(n-2)2+12nixnxi122)(-lxx12=(n-2)2E(Qe)=E(212nenii)=2因此2=2nQe=212nenii为2的无偏估计.三.回归方程的显著性检验1.方程的显著性检验若变量x,y之间存在线性关系y=0+1x+ε,则1≠0,因此检验变量x,y之间是否真正存在线性关系的问题可化为对假设H0:1=0;H1:1≠0作显著性检验,若拒绝H0,则认为变量x,y之间存在线性关系,所求出的回归方程有意义;若不拒绝H0,则认为变量x,y之间不存在线性关系,自然也就不能用一元线性回归模型来描述,所得回归方程也就无意义.为了进行检验,首先对模型(5.1.3)进一步假定ε~N(0,2),于是模型(5.1.6)改为),0(210Nxyiiii~i=1,2