第4章回归分析4.1一元线性回归分析4.2多元线性回归分析变量之间的关系确定性关系相关关系2πrS确定性关系身高和体重相关关系相关关系的特征是:变量之间的关系很难用一种精确的方法表示出来.回归分析的基本思想变量之间的关系1.函数关系:变量之间依一定的函数形成的一一对应关系,若两个变量分别记做Y与X,则当Y与X之间存在函数关系时,X值一旦被指定,Y值就是唯一确定的。如圆的面积与其半径之间的关系.统计相关关系函数关系确定性关系——2.统计相关关系:变量之间存在某种关系,但变量Y并不是由变量X唯一确定的,它们之间没有严格的一一对应关系。两个变量间的这种关系就是统计关系,亦称相关关系。例如:小麦的产量Y与施肥量x1,品种x2等存在关系,但给定x1,x2的数值后Y的值还是无法确定的.两个变量之间若存在线性关系称为线性相关,存在非线性关系称为曲线相关,通常通过适当的变量变换,曲线相关可转换为线性相关。一般说来,在给定X=x条件下Y的条件概率分布,则Y与X的关系就清楚了.但在实际中要求解往往是非常困难的.xXyYp)(xuy事实上,对Y而言,在实际中只需知道它的某个数字特征:条件数学期望就可以了.把称为Y关于X的回归方程.)(xuxXYExX回归分析的作用:在于通过对变量X的观测值就可预测Y的取值,并且当时,为Y在方差误差意义下的最佳预测值.)(xu确定性关系和相关关系的联系:由于存在测量误差等原因,确定性关系在实际问题中往往通过相关关系表示出来;另一方面,当对事物内部规律了解得更加深刻时,相关关系也有可能转化为确定性关系.回归分析——处理变量之间的相关关系的一种数学方法,它是最常用的数理统计方法.线性回归分析非线性回归分析回归分析一元线性回归分析多元线性回归分析.)()(间存在着相关关系之自变量和普通变量因变量设随机变量xYxY1x2x1C2C)(2x.,)(的分布函数的所对应时确定的值取表示当YxxxyF.)(YEY的数学期望考察)()(xYExY的回归函数关于xY问题的分析4.1一元线性回归分析问题的一般提法.,,,,,,,,,,212121观察结果的独立处对分别是在设的一组不完全相同的值对YxxxYYYxxxxnnn.),(,),,(),,(2211是一个样本称nnYxYxYx).,(,),,(),,(2211nnyxyxyx对应的样本值记为.)(xxY的回归函数关于利用样本来估计求解步骤1.推测回归函数的形式方法一根据专业知识或者经验公式确定;方法二作散点图观察.温度x(oC)得率Y(%)10011012013014015016017018019045515461667074788589用MATLAB画出散点图例1为研究某一化学反应过程中,温度对产品得率Y(%)的影响,测得数据如下.)(oCx.)(,的形式具有线性函数观察散点图bxaxx=100:10:190;y=[45,51,54,61,66,70,74,78,85,89];plot(x,y,'.r')bxax)(一元线性回归问题.,,),,(22的未知参数都是不依赖于~的每一个值有假设对于xbabxaNYx2.建立回归模型那么记),(bxaY.,,).,0(,22的未知参数是不依赖于~xbaNbxaY一元线性回归模型的线性函数x随机误差3.未知参数a,b的估计-----最小二乘法).,0(,2NbxaY~),(,,),(,),(2211nnYxYxYx对于样本.),,0(,2相互独立各~iiiiiNbxaY.,,2,1,),(2nibxaNYii~于是度函数为的独立性可得到联合密根据nYYY,,,21221)(21expπ21iinibxayL.)(21exp)π21(122niiinbxay.,ba知参数用最大似然估计估计未函数为样本的似然对于任意一组观察值,,,,21nyyyniiinbxayL122)(21exp)π21(取最大值等价于LniiibxaybaQ12)(),(.取最小值niiiiniiixbxaybQbxayaQ110)(20)(2意义:实际测得的点与直线上的理论点之间的误差的平方和最小.niiiniiniiniiniiyxbxaxybxna112111)()()(正规方程组,01211niiniiniixxxn,)())((ˆ121niiniiixxyyxxb,ˆˆxbya.1,111niiniiynyxnx其中bxax)(xbaxˆˆ)(ˆ的经验回归函数关于xYxbayˆˆˆ的经验回归方程关于xY回归方程回归直线,ˆˆxbya由于),(ˆˆxxbyy).,(yx几何中心回归直线通过散点图的,)(niixxxxl12记,)(niiyyyyl12,))((niiixyyyxxl1,ˆxxxyllb.ˆ)1(1ˆ11bxnynaniinii参数估计量的性质的最佳无偏估计量是),()ˆ,ˆ(.baba1),(~ˆ),(~ˆ.xxxxlbNblxnaNa22212例2例1中的随机变量Y符合一元线性回归模型所述的条件,求Y关于x的线性回归方程.温度x(oC)得率Y(%)10011012013014015016017018019045515461667074788589在MATLAB中求解x=100:10:190;y=[45,51,54,61,66,70,74,78,85,89];polytool(x,y,1,0.05)源程序程序运行结果回归图形参数传送置信区间帮助7394248300.ˆ,.ˆab的估计未知参数2.4).,0(,2NbxaY~.)]([)()(})]({[2222EDEbxaYE.)(,2小似导致的均方误差就越的近作为用回归函数越小Ybxax,ˆˆˆˆixxixbayyiiiyyˆ处的残差ixniiiniiiExbayyyS12122)ˆˆ()ˆ(残差平方和--反应的是在试验中由随机因素的影响而引起的误差.xyyylblˆ的相应的统计量为残差平方和2ES.ˆxYYYElblS2)(2222nSE~ .)(,)(222222nSEnSEEExYYYElblnnSˆˆ:212222的无偏估计量为niiyyTyylS122)(离差平方和--反应整批数据的波动程度.niiRyyS122)ˆ(回归平方和--反应回归直线引起的偏差.222RETSSS平方和分解式)(~2222nSE并且例3求例2中方差的无偏估计.,.)(2236710122iiEresidualsS.9030.082236.7ˆ25.线性相关性的显著性检验).,0(,2NbxaY~.0:,0::10bHbH检验假设为不真时有线性关系为真时无线性关系00,HHkSSHH,xY,,SS,SS:ERERER22002222的拒绝域为于是拒绝有显著的线性关系之间与因此可认为性关系引起的则反应误差主要是由线过大若相比较随机影响与线性影响将思路)()(),()(:2121220nFnSSFHER的拒绝域为1).F检验法),(~)(21222nFnSSFER),()()(2111nF:kkFpkFp得临界值为的相关系数与为xylllyyxxyyxxryyxxxyniiniiniii12121)()())((10r.;;称其不相关无线性关系与时当特别的线性关系越差与则越接近于越小当的线性关系越好与则小接近于越大当,x,Yr,xY,,rxY,,r001线性关系不显著与认为否则线性关系显著与则若通过查相关系数表得一定时和当xY,xYnrrnrn)(),(,222).相关系数检验法例4检验例2中的回归效果是否显著,取显著性水平为0.05.,.ˆ,,.ˆ903008250483002xxlb..)()(..306028297502050tnt查表得,25.4682509030.04830.0t).(.89750tt.,0:0认为回归效果显著拒绝bH3).t检验法)(~)ˆ(222ntnSlbbTExx)(:/2210ntTH拒绝域6.预测与控制时0xx000xbaxyˆˆ)(ˆˆ的无偏估计是0y),()(ˆ1012000Nlxxnyyxx~)(ˆ)(2222222nSnE~控制——怎样控制x的值才能使Y的值在要求的范围内预测——在自变量时,估计Y的观测值所在范围0xx(1).回归函数函数值的估计)(000xXYEy的置信区间为的置信水平为10y)(ˆˆˆˆ,)(ˆ)(ˆ2220001210nSxbayxsntyE其中xxlxxnxsntxsbxaYT20010100112)()()()(ˆ)(ˆ其中~预测.00的观察结果处对是在设YxxY).,0(,20000NbxaY~00xbayˆˆˆ的点估计仍为0Y)(ˆ)(ˆ022102xsnty的预测区间的置信水平为同理可得10Y(2).Y的观察值的估计0Y),(~ˆ2200110xxlxnNyY但是xxlxxnxs200211)()(其中预测例5(续例2);95.0125,95.0)125(125)((1)0的预测区间的置信水平为新观察值的处求在的置信区间的置信水平为处的值在求回归函数YYxxx.95.0(2)00的预测区间为的置信水平的新观察值处求在YYxx解(1)已知.,.ˆ,,.ˆ,.ˆ14590300825073942483002xlabxx..)()(..3060282975020501tnt查表得计算,64.57ˆˆ1250xYY,.)(ˆ)(840122021xxlxxnnt..)(ˆ)(3421122021xxlxxnnt的置信区间为为的置信水平处的值在回归函数95.0)125(125)(xx预测区间为的的置信水平为的新观察值处在95.012500YYx).84.064.57().34.264.57((2)在MATLAB中求解的取值x测区间的观察值的点预测和预Y输出参数回归直线21LL和曲线的区间到的控制范围是于是)()(20100xxx控制:怎样控制自变量x的值才能使Y的值以1-的置信度落所在要求的区间[a,b]内,即:,)(,)()(为此问题可简化来求解时比较接近较大时当算法于是采用近似往往无法求解较复杂由于1110202002xsx,xn:。,lxxnxsxxˆ)(ˆˆ)(ˆ222100210ntyYnty控制的置信区间的置信度为由10Y)(ˆ)(ˆ022102xsnty的范围001xbYap)(满足的不等式解出其中0000022100xxbaybYaxstyYˆˆˆ,)(ˆˆ/)ˆˆ(ˆ)ˆˆ(ˆˆˆˆˆ)()(ˆˆˆatybxatybxytyytyxbay2122021110221012101100令例6对某产品的表面进行腐蚀刻线试验,