第五章回归分析回归分析一元线性回归多元线性回归非线性回归25.0引言回归名称的由来回归分析是研究变量之间相互依赖关系的一种统计方法,是数理统计学中应用最广泛的分支之一.3回归分析的基本思想以及“回归”名称的由来最初是由英国生物学家兼统计学家高尔顿提出来的.他从一千多对父母身高与其子女身高的数据分析中得出:当父亲身高很高时,儿子的身高并不像期待的那样高,而要稍矮一些,有向同龄人平均身高靠拢的现象;而当父亲身高很矮时,儿子的身高要比预期的高,也有向同龄人平均身高靠拢的现象.4正是因为儿子的身高有回到同龄人平均身高的这种趋势,才使人类的身高在一定时间内相对稳定,没有出现父辈个子高其子女更高,父辈个子矮其子女更矮的两极分化现象,说明后代的平均身高向中心靠拢了,这种现象叫回归,这就是“回归”一词的最初含义.现在的意思是:凡是利用一个变量或一组变量的变异来估计或预测另一个变量的变异情况都称之为回归。在现实问题中处于同一个过程中的一些变量往往是相互依赖和相互制约的,它们之间的相互关系大致可分为两种:(1)确定性关系--函数关系(2)非确定性关系--相关关系:变量之间有一定的依赖关系,但这种关系并不完全确定。可控变量:可以在某范围内随意地取指定数值-自变量不可控变量:可以观测但不可控制(随机变量)--因变量6例2人的血压y与年龄x之间的关系,不可能由一个人的年龄完全确定他的血压.一般说人的年龄越大血压越高,但年龄相同者,血压未必相同.例1人的体重y与身高x之间的关系一般来说,身高高一些,体重也要重一些,但身高不能严格地确定体重,即同样身高的人,体重可能不同.7这几个例子中的两个变量之间都有一定的关系,且是一种非确定性的关系,称这类关系为相关关系.例3水稻亩产量y与其施肥量x1、播种量x2、种子x3有关系,但x1、x2、x3取相同的一组数值时,亩产量y可取不同数值.8上述例子中身高x,年龄x,施肥量x1、播种量x2、种子x3都是可以在一定范围内随意的取指定数值,是可控变量称之为自变量,而体重y,血压y,亩产量y都是不可控变量称为因变量.研究一个变量与一个(或几个)可控变量之间相关关系的统计分析方法称为回归分析.回归分析:研究一个随机变量与一个(或几个)可控变量之间相关关系地统计方法。只有一个自变量的回归分析叫做一元回归分析;多于一个自变量的回归分析叫做多元回归分析。回归分析主要内容:(1)提供建立有相关关系的变量之间的数学关系式(经验公式)的一般方法;(2)判别所建立的经验公式是否有效;(3)利用所得到的经验公式进行预测和控制.§5.1一元线性回归(一)一元线性回归模型),(~20NbxaY设与有相关关系,当自变量时,因变量并不取固定的值与其对应.如果要用函数关系近似与的相关关系,很自然想到,应该以作为与相对应的数值.xY0xxYxY0EYY0xx(5-1)其中为常数,则称与之间存在线性相关关系,称(5-1)为一元正态线性回归模型,简称一元线性模型,其回归函数记为2,,baYxbxaEYY~称为对的线性回归,称为回归常数,称为回归系数。Yxab由(5-1)得),(~2bxaNY,可知取不同数值时,便得到不同的正态变量。x),(,,2212221110NbxaYbxaYbxaYnnnn相互独立,均服从其中2,,ba为未知的常数。由n,,21独立知道nYYY,,21也相互独立,且),(~2iibxaNYni,,21。而样本(简称独立样本)的一个独立随机的容量为称为来自nYYYYn,,21),(,),,(),,nnyxyxyx2211(称为独立样本nYYY,,,21的一个(或一组)样本观测值,其中niyi,,,,21为x取固定值ixx时,对iY进行一次试验所得到的观测值。利用独立样本及其样本值可得2,,ba的估计量及估计值baˆ,ˆ和,ˆ2从而得到回归函数bxaY~的估计xbaYˆˆˆ称为对的经验回归方程或经验公式。注:确定变量间相关关系数学关系式的三种方法1.经验公式。2.假设检验。3.散点图法。Yx把样本值),(,),,(),,nnyxyxyx2211(作为平面直角坐标系的个点描出来,构成实验的散点图。n根据散点图,适当地选择一个函数),(ˆˆxy使得),,(),,(),,(nnyxyxyx2211),ˆ,(),ˆ,(),ˆ,(nnyxyxyx2211在一定意义下最好地吻合于观测结果常用的是最小二乘法,即niiiniiixyyy1212min)](ˆ[)ˆ(xyo.......二、未知参数的估计1.正规方程组、回归系数的点估计根据最小二乘法求线性回归函数bxay~的估计xbayˆˆˆ就是求使得niiibxaybaQ12)]([),(取得最小值的,ˆ,ˆba即niiibababxaybaQbaQ12)]([min),(min)ˆ,ˆ(,,根据微分学中的二元函数极值的充分条件,将),(baQ分别对ba,求一阶偏导数并令其为零niiiiniiixbxaybQbxayaQ110202)()(经过整理后得到线性方程组niniiiiyxbxaxnynbxnna112)(其中niiniiynyxnx1111正规方程组解此方程组即得使),(baQ取得最小值的baˆ,ˆ222)()()())(()(ˆˆˆxxyxxxxyyxxxxyxnyxbxbyaiiiiiiiii分别称为ba,的最小二乘估计值.于是,得到Y对x的经验回归方程)(ˆˆˆˆxxbyxbay注:用最小二乘法得到的经验回归直线通过已知n个数据点),(iiyxni,,,21的几何重心),(yx把估计值中的yyi,分别用YYi,来代替,就得到了参数ba,的估计量.为了方便,我们引进几个常用的记号iiiYYiiiiiixYiiiixxYYYYYlYxxYxnYxYYxxlxxxxnxxxl)()()())(()()(2222则xxxYllbxbYaˆˆˆ)(ˆˆˆˆxxbYxbaY参数估计量回归方程定理1:在一元线性回归模型中,Y和bˆ相互独立.证明:xxiiilYxxYnbY)(,cov)ˆ,cov(1ninjjxxjiYlxxYn111,covniixxiDYnlxx1)(012niixxxxnl)(即Y与bˆ不相关.但Y与bˆ都是独立正态变量nYYY,,,21的线性组合,因此,Y与bˆ的联合分布为正态分布.对于正态随机向量来说不相关和相互独立是等价的.证毕定理2:在一元线性回归模型中,的最小二乘估计量的数学期望和方差为ba,baˆ,ˆ21xxlbDbbEˆˆ221xxlxnaDaaEˆˆ证明:xxiilYxxEbE)(ˆxxiilEYxx)(lxxbxaxxii))((xxiixxilxxxblxxa)()(bxxiilYxxDbD)(ˆ22xxiilDYxx)(22xxxxllxxl2)ˆ(ˆxbYEaEbExYEˆbExEYniˆ1bxbxani)(1a)ˆ(ˆxbYDaDbDxYDˆ2222xxlxn221xxlxn证毕.由定理2可看出,当时,取最小值;与成反比.所以,为了提高和的估计精度,最好选择使,并且应比较分散.0xaDˆn2bDˆxxlaˆbˆix0xix注:的最小二乘估计量与极大似然估计量相等.ba,24实际上:在,β0和β1的最大似然估计为最小二乘估计01ˆˆ,201(,)iiyNx12,,,nyyy的似然函数为22010121222012111,,exp()2212exp()2niiinniiiLyxyx2.参数的点估计2当的极大似然估计量已得到后,的估计量可由似然方程baˆ,ˆba,2niiixbaynL124220212)ˆˆ(ln可得的极大似然估计量为2niiiLxbaYn1221)ˆˆ(ˆ记niniiiiieYYxbaYS1122)ˆ()ˆˆ(即2ˆ1LeSn是的极大似然估计量.2定理3:在一元线性模型中2)2(nESe证明:niiiexxbYYS12)(ˆniiniiiniixxbYYxxbYY1221122)(ˆ))((ˆ)(xxxxniilblbbYY2122ˆˆˆ)(xxniilbYY212ˆ)(而niiniiniiYnEEYYnYEYYE12212212)(212)()(YEYDnEYDYniii221221)()(xbannbxanii22122)()(xbanbxanniiniixbabxan1221)()(xxlbn221)(又)ˆ(ˆ22bEllbExxxx2)ˆ(ˆbEbDlxx221bllxxxx22blxx于是有)ˆ()(xxielbEYYEES2222)(n证毕.由定理3可得eSn212*ˆ是的无偏估计.23.估计量和的分布baˆ,ˆ2*ˆ定理4:在一元线性模型中(1)),(~ˆxxlbNb2(2)))(,(~ˆ221xxlxnaNa(3)))(,(~ˆˆˆ221xxlxxnbxaNxbaY(4))(~ˆ)(*222222nSne(5)2*ˆ,ˆ,bY相互独立.4.未知参数和的区间估计ba,2定理5.在一元线性模型中)(~ˆˆ*212ntlxnaaxx)(~ˆˆ*2ntlbbxx证明:由定理4,得),(~ˆ1012Nlxnaaxx),(~ˆ10Nlbbxx由定理4的(5)可知,22**ˆˆ,ˆˆ与与ba分别相互独立,再由t分布的定义,即得)(~ˆˆ)(ˆ)(ˆ**212212222ntlxnaannlxnaaxxxx)(~ˆ)(*222222nnSe)(~ˆˆ*2ntlbbxx证毕由定理5及t分布的分位数,得121212)(ˆ|ˆ|*ntlxnaaPxx即得的置信区间为a1xxlxnnta222112*ˆ)(ˆ类似,的置信区间为b1xxlntb*ˆ)(ˆ221由),(~ˆ)(*22222nn易得的置信区间为21)(ˆ)(,)(ˆ)(**22222222212nnnn三、线性回归效果的显著性检验我们在求Y对x的线性回归之前,必须判断Y与x的关系是否满足一元线性回归模型。理论上讲,这要求检验(1)对x取任一固定值时,Y都服从正态分布,而且方差相同;(2)x在某一范围取值时,EY是x的线性函数;(3)在x取各个不同值时,相应的Y是相互独立的。但要检验这三条不仅需要大量的试验,还要进行大量的计算,实际上很难办到。系,转化为检验之间不存在线性相关关与认为时,就特别当变化的趋势越不明显。随越小,明显;当的变化而变化