第9讲回归分析1.回归分析的基本理论.2.用数学软件求解回归分析问题.一元线性回归多元线性回归回归分析数学模型及定义*模型参数估计*检验、预测与控制可线性化的一元非线性回归(曲线回归)数学模型及定义*模型参数估计逐步回归分析*多元线性回归中的检验与预测一、数学模型例1测16名成年女子的身高与腿长所得数据如下:身高(cm)143145146147149150153154155156157158159160162164腿长(cm)8885889192939395969897969899100102以身高x为横坐标,以腿长y为纵坐标将这些数据点(xi,yi)在平面直角坐标系上标出.1401451501551601658486889092949698100102散点图xy10解答一般地,称由xy10确定的模型为一元线性回归模型,记为210,0DExy固定的未知参数0、1称为回归系数,自变量x也称为回归变量.一元线性回归分析的主要任务是:1.用试验值(样本值)对0、1和作点估计;2.对回归系数0、1作假设检验;3.在x=0x处对y作预测,对y作区间估计.xY10,称为y对x的回归直线方程.二、模型参数估计1.回归系数的最小二乘估计有n组独立观测值(x1,y1),(x2,y2),…,(xn,yn)设01212,1,2,...,0,,...,iiiinyxinED且相互独立记niiiniixyQQ12101210),(最小二乘法就是选择0和1的估计0ˆ,1ˆ使得),(min)ˆ,ˆ(10,1010QQ22110ˆˆˆxxyxxyxy解得(经验)回归方程为:)(ˆˆˆˆ110xxyxy或niiniiixxyyxx1211ˆ其中niiniiynyxnx111,1,niiiniiyxnxyxnx11221,1.2.2的无偏估计记niniiiiieyyxyQQ11221010)ˆ(ˆˆ)ˆ,ˆ(称Qe为残差平方和或剩余平方和.2的无偏估计为)2(ˆ2nQee称2ˆe为剩余方差(残差的方差),2ˆe分别与0ˆ、1ˆ独立.eˆ称为剩余标准差.三、检验、预测与控制1.回归方程的显著性检验对回归方程xY10的显著性检验,归结为对假设0:;0:1110HH进行检验.假设0:10H被拒绝,则回归显著,认为y与x存在线性关系,所求的线性回归方程有意义;否则回归不显著,y与x的关系不能用一元线性回归模型来描述,所得的回归方程也无意义.(Ⅰ)F检验法当0H成立时,)2/(nQUFe~F(1,n-2)其中niiyyU12ˆ(回归平方和)故F)2,1(1nF,拒绝0H,否则就接受0H.(Ⅱ)t检验法niiniixxxnxxxL12212)(其中当0H成立时,exxLTˆˆ1~t(n-2)故)2(21ntT,拒绝0H,否则就接受0H.(Ⅲ)r检验法当|r|r1时,拒绝H0;否则就接受H0.记niniiiniiiyyxxyyxxr11221)()())((其中111121,2rnFn2.回归系数的置信区间0和1置信水平为1-α的置信区间分别为xxexxeLxnntLxnnt221022101ˆ)2(ˆ,1ˆ)2(ˆ和xxexxeLntLnt/ˆ)2(ˆ,/ˆ)2(ˆ2112112的置信水平为1-的置信区间为)2(,)2(22221nQnQee3.预测与控制(1)预测用y0的回归值0100ˆˆˆxy作为y0的预测值.0y的置信水平为1的预测区间为)(ˆ),(ˆ0000xyxy其中xxeLxxnntx2021011)2(ˆ)(特别,当n很大且x0在x附近取值时,y的置信水平为1的预测区间近似为2121ˆˆ,ˆˆuyuyee(2)控制要求:xy10的值以1的概率落在指定区间yy,只要控制x满足以下两个不等式yxyyxy)(ˆ,)(ˆ要求)(2xyy.若yxyyxy)(ˆ,)(ˆ分别有解x和x,即yxyyxy)(ˆ,)(ˆ.则xx,就是所求的x的控制区间.四、可线性化的一元非线性回归(曲线回归)例2出钢时所用的盛钢水的钢包,由于钢水对耐火材料的侵蚀,容积不断增大.我们希望知道使用次数与增大的容积之间的关系.对一钢包作试验,测得的数据列于下表:使用次数增大容积使用次数增大容积234567896.428.209.589.509.7010.009.939.991011121314151610.4910.5910.6010.8010.6010.9010.76解答24681012141666.577.588.599.51010.511散点图此即非线性回归或曲线回归问题(需要配曲线)配曲线的一般方法是:先对两个变量x和y作n次试验观察得niyxii,...,2,1),,(画出散点图,根据散点图确定须配曲线的类型.然后由n对试验数据确定每一类曲线的未知参数a和b.采用的方法是通过变量代换把非线性回归化成线性回归,即采用非线性回归线性化的方法.通常选择的六类曲线如下:(1)双曲线xbay1(2)幂函数曲线y=abx,其中x0,a0(3)指数曲线y=aebx其中参数a0.(4)倒指数曲线y=a/ebx其中a0,(5)对数曲线y=a+blogx,x0(6)S型曲线1exyab解例2.由散点图我们选配到指数曲线y=a/ebx根据线性化方法,算得4587.2ˆ,1107.1ˆAb由此ˆˆe11.6789Aa最后得1.110711.6789exy一、数学模型及定义一般称2()0,COV(,)nYXEI为高斯-马尔可夫线性模型(k元线性回归模型),并简记为),,(2nIXY12nyyYy,1112121222121...1...1...kknnnkxxxxxxXxxx,01k,12nkkxxy...110称为回归平面方程.线性模型),,(2nIXY考虑的主要问题是:(1)用试验值(样本值)对未知参数和2作点估计和假设检验,从而建立y与kxxx,...,,21之间的数量关系;(2)在,,...,,0022011kkxxxxxx处对y的值作预测与控制,即对y作区间估计.二、模型参数估计1.对i和2作估计用最小二乘法求k,...,0的估计量:作离差平方和niikkiixxyQ12110...选择k,...,0使Q达到最小.得到的iˆ代入回归平面方程得:kkxxyˆ...ˆˆ110称为经验回归平面方程.iˆ称为经验回归系数.注意:ˆ服从p+1维正态分布,且为的无偏估计,协方差阵为C2.C=L-1=(cij),L=XTX解得估计值YXXXTT1ˆ2.多项式回归设变量x、Y的回归模型为ppxxxY...2210其中p是已知的,),,2,1(pii是未知参数,服从正态分布),0(2N.令iixx,i=1,2,…,k多项式回归模型变为多元线性回归模型.kkxxxY...2210称为回归多项式.上面的回归模型称为多项式回归.三、多元线性回归中的检验与预测1.线性模型和回归系数的检验假设001:0kH(Ⅰ)F检验法(Ⅱ)r检验法定义eyyQUULUR为y与x1,x2,...,xk的多元相关系数或复相关系数.由于2211RRkknF,故用F和用R检验是等效的.当H0成立时,)1,(~)1/(/knkFknQkUFe如果FF1-α(k,n-k-1),则拒绝H0,认为y与x1,…,xk之间显著地有线性关系;否则就接受H0,认为y与x1,…,xk之间线性关系不显著.其中niiyyU12ˆ(回归平方和)niiieyyQ12)ˆ((残差平方和)2.预测(1)点预测求出回归方程011ˆˆˆˆkkyxx,对于给定自变量的值*1,,kxx,用***011ˆˆˆˆkkyxx来预测**011kkyxx.称*ˆy为*y的点预测.(2)区间预测y的1的预测(置信)区间为)ˆ,ˆ(21yy,其中)1(1ˆˆˆ)1(1ˆˆˆ2/10022/1001kntxxcyykntxxcyykikjjiijekikjjiijeC=L-1=(cij),L=XTX1ˆknQee四、逐步回归分析(4)“有进有出”的逐步回归分析.(1)从所有可能的因子(变量)组合的回归方程中选择最优者;(2)从包含全部变量的回归方程中逐次剔除不显著因子;(3)从一个变量开始,把变量逐个引入方程;选择“最优”的回归方程有以下几种方法:“最优”的回归方程就是包含所有对Y有影响的变量,而不包含对Y影响不显著的变量回归方程.以第四种方法,即逐步回归分析法在筛选变量方面较为理想.•这个过程反复进行,直至既无不显著的变量从回归方程中剔除,又无显著变量可引入回归方程时为止.逐步回归分析法的思想:•从一个自变量开始,视自变量Y对作用的显著程度,从大到小地依次逐个引入回归方程.•当引入的自变量由于后面变量的引入而变得不显著时,要将其剔除掉.•引入一个自变量或从回归方程中剔除一个自变量,为逐步回归的一步.•对于每一步都要进行Y值检验,以确保每次引入新的显著性变量前回归方程中只包含对Y作用显著的变量.统计工具箱中的回归分析命令1.多元线性回归2.多项式回归3.非线性回归4.逐步回归多元线性回归b=regress(Y,X)111212122212111...ppnnnpxxxxxxXxxx12nYYYY01ˆˆˆpb1.确定回归系数的点估计值:ppxxy...110对一元线性回归,取p=1即可3.画出残差及其置信区间:rcoplot(r,rint)2.求回归系数的点估计和区间估计、并检验回归模型:[b,bint,r,rint,stats]=regress(Y,X,alpha)回归系数的区间估计残差用于检验回归模型的统计量,有三个数值:相关系数r2、F值、与F对应的概率p置信区间显著性水平(缺省时为0.05)相关系数r2越接近1,说明回归方程越显著;FF1-α(k,n-k-1)时拒绝H0,F越大,说明回归方程越显著;与F对应的概率p时拒绝H0,回归模型成立.例1解:1.输入数据:x=[143145146147149150153154155156157158159160162164]';X=[ones(16,1)x];Y=[8885889192939395969897969899100102]';2.回归分析及检验:[b,bint,r,rint,stats]=regress(Y,X)b,bint,stats得结果:b=bint=-16.0730-33.70711.56120.71940.60470.8340stats=0.9282180.