1第五章回归分析和曲线拟合回归分析方法2§5-1一元线性回归一、什么叫回归分析(一)两种不同类型的变量关系、函数与相关简单的说,回归分析就是一种处理变量与变量之间关系的数学方法。例:自由落体运动中,物体下落的举例S与所需时间t之间,有如下关系21(0)2SgttT3变量S的值随t而定,这就是说,如果t去了固定值,那么S的值就完全确定了这种关系就是所谓的函数关系或确定性关系回归分析方法是处理变量之间相关关系的有理工具,它不仅提供建立变量间关系的数学表达式——经验公式,而且利用概率统计知识进行了分析讨论,从而判断经验公式的正确性4二、回归分析所能解决的问题回归分析主要解决以下几方面的问题:(1)确定几个特定变量之间是否存在相关关系,如果存在的话,找出她们之间合适的数学表达式(2)根据一个或几个变量的值,预报或控制另一个变量的取值,并且要知道这种预报或控制的精确度(3)进行因素分析,确定因素的主次以及因素之间的相互关系等等5一元线性回归分析,只要解决:(1)求变量x与y之间的回归直线方程(2)判断变量x和y之间是否确为线性关系(3)根据一个变量的值,预测或控制另一变量的取值6二、一元线性回归方程的确定iy(1,2,...,)xyxyiN数学上判定直线合理的原则:如果直线与全部观测数据的离差平方和,比任何其它直线与全部观测数据的离差平方和更小,该直线就是代表与之间关系较为合理的一条直线,这条直线就是和之间的回归直线。7*****,)(1,2,...,)xy()iiiiiiiiiiiiyabxxyiNxyabxyabxyxyyyyabxy设是平面上的一条任意直线,(是变量,的一组观测数据。那么,对于每一个,在直线上确可以确定一个的值,与处实际观测值的差:就刻画了与直线偏离度8xy1x(,)iixy^(,)iixy^yabx9**2211(1,2,...,)(1,2,...,)()()(1,2,...,),abQiiNNiiiiiiiyiNyiNQyyyabxQyiNQxy全部观测值与直线上对于的的离差平方和则为:反映了全部观测值对直线的偏离程度,显然,离差平方和越小,愈能较好地表示之间的关系。用最小二乘法原理,通过选择合适的系数,,使最小1011__1111_22211__2()0(61)2()0(62)1()()(63)1()()(64)NiiiNiiiiNNNNiiiiiiiiiiNNiiiiiQyabxaQyabxxbxxyyxyxyNxxxxNaybxNi=1联合求解得:b=11__11^11,(65)ab(66)bNNiiiixxyyNNyabx此处求得,后,回归方程为:便可以确定,称为回归系数12三、回归方程检验方法(一)方差分析法回顾方差分析的基本特点:把所给数据的总波动分解为两部分,一部分反映水平变化引起的波动,另一部分反映由于存在试验误差而引起的波动。然后把各因素水平变化引起的波动与试验误差引起的波动大小进行比较,而达到检验因素显著性的目的.13^__^^22_^^22(,)(1,2,...,)xyxy()[()()]()()iiiiiiyyiiiiiiixyiNxyxyabxyLyyyyyyyyyy_NNi=1i=1Ni=1i=1设为变量,间的一组观测数据,为观测点,为处的观测之,为这组观测数据求得的变量,间的回归方程,在回归问题中,观测数据总的波动情况,用各观测值与总平均y之间的平方和即总变动平方和表示_^^2()()iiiyyyyNNi=114^2_^2()()(68)xyy(69)iiiQyyQUyyUQUNi=1Ni=1yy第一项是观测值与回归直线的离差平方和,反映了误差的大小第二项反映了总变动中,由于与的线性关系而引起变化的一部分,称为回归平方和第三项为零L15UQUQNN2UQfffffffyyyy总总总每一个变动平方和(即L、、)都有一个“自由度”和它们对应,L自由度称为总自由度,记做。=观测值个数-1=-1=1=-三者之间仍然有:16aaF(2)2a0.050.01F(1,2)FFFFUNQNuQa可用检验考察回归直线的显著性:U/f(1)计算F=Q/f()对于选定的显著性水平=(或),从分布上找出临界值F(3)比较与的大小。若,则回归方程有意义,反之则说明方程意义不大17(二)相关系数检验法__^22_22_^^2__222__22()[()()]()[()()]()()1(611)()()iiiyyiiiiiiiiUyyUabxabxbxxLyyyyyyxxbyyyyNNi=1i=1Ni=1Ni=1NNi=1i=1NNi=1i=1由代入整理后可得18_^2222__22_2_2()()1(612)()()()()iiiiiiixxyyrbyyyyxxrbyyNNi=1i=1NNi=1i=1Ni=1Ni=1令19_2^_21yx(),1,()iiiiyyyyrbxxNi=1Ni=1下面存在三种情形:()与有严格函数关系时xy1rxy1r20_^2yx,0,0yyrb()与无任何依赖关系时xy0rxy0r213yxr()与存在相关关系时0||1xy10rxy01r22___21___22211yxr()()()()()()NiiiiNNiiiiixyxxyyxxyyxxrbyyxxyylllNi=1Ni=1检验与是否相关的步骤:(1)按下式计算:=23,,,,2fn23||||xy||xyafafafafrrrrrrr()给定显著行水平,按自由度=-,由相关系数临界表中查处临界值。()比较与的大小。若,认为与之间存在线性相关关系;若,认为与之间不存在线性相关关系。24n-2123456789100.050.010.9970.9500.8780.8110.7540.7070.6660.6320.6020.5761.0000.9900.9590.9170.8740.8340.7980.7650.7350.708n-2111213141516171819200.050.010.5530.5320.5140.4790.4820.4680.4560.4440.4330.4130.6840.6610.6410.6230.6060.5900.5750.5610.5490.537n-2212223242526272829300.050.010.4130.4040.3960.3880.3810.3740.3670.3640.3550.3490.5260.5150.5050.4960.4870.4780.4700.4630.4560.449相关系数临界值表25四、预报与控制当我们求得变量x、y之间的回归直线方程后,往往通过回归方程回答这样两方面的问题:(1)对任何一个给定的观测点x0,推断y0大致落的范围(2)若要求观测值y在一定的范围y1yy2内取值,应将变量控制在什么地方前者就是所谓的预报问题,后者称为控制问题。26^000^0^002yxyyyyyQSN(一)预报问题一般来说,对于固定处的观测值,其取值是以为中心而对称分布的。愈靠近的地方,出现的机会愈大,离愈元的地方,出现的机会少,而且的取值范围与量有下述关系:27^00^00^0000^^000^^000322222yyyyyyyyyyySyySyySxxxyySySySyySSS落在范围内的可能性为99.7%落在范围内的可能性为95%落在范围内的可能性为68%利用此关系,对于指定的,我们有95%的把握说,在处的实际观测值介于与之间即:这样,预报问题就得到了解决量称为剩余标准差。用来衡量预报的精确度28010211112222212120122323yyyyyyyaSbxyaSbxyaSbxyaSbxyxxxxxyyy(二)控制问题控制问题只不过是预报的反问题。若要求观测值在范围内取值,则可从(或)及(或)中分别解出、,只要将的取值控制在与之间,我们就能以95%(或99.7%)的把握保证,在与范围内取值。29122(617)2(618)yyyabxSyabxS进行预报和控制,通常也采用图解法。其作法是:在散点图上作两条平行与回归直线的直线xy2yyabxS^yabx1x2x1y2y2yyabxS0bxy2yyabxS2yyabxS^yabx1x2x1y2y0b301295xyyxx可以预测在附近的一系列观测值中,%将落在这两条直线所夹成的带行趋于中,若要求在与范围内取值,则只需要图中虚线所示的对于关系,可在轴上找到值的控制范围。31五、应用举例例6-1在某产品表明腐蚀刻线,下表是试验活得的腐蚀时间(x)与腐蚀深度(y)间的一组数据。试研究两变量(x,y)之间的关系。腐蚀时间x(秒)腐蚀深度y(μ)551020304050606590120468131617192525294632ii作散点图,即(x,y)图40302010yx102030405060708090100110120xy可见与之间无确定的函数关系,而表现为相关关系33_222111_222111__1111__211()()1()()1()()()()(619)(620)(621)NNNxxiiiiiiNNNyyiiiiiiNNNNxyiiiiiiiiiixyxxxyxyxxxxyyLxxxxNLyyyyNLxxyyxyxyNLaybxbLlLrULll()求回归直线记34序号1234567891011xy2x2yxy551020304050606590120495468131617192525294620825251004009001600250036004225810014400358751636641692562893616256258412116539820308026048068095015001625261055201375535222211111__249520811111483451375549520811111149600358754951111NNNNNiiiiiiiiiiiiiiixyxxxyxyxyxyxyxyLL具体计算格式如下:列表计算、、以及,,,,36__,0.05,9,483450.3281496002084950.3234.3711114.37.32320.521||xyxxxyxxyyffLbLaybxyxlrllrrrr回归方程为:()显著性检验相关系数=0.98回归方程有意义370^0^0^032452.2490.754.37.3234.370.32.7528.6()228.622.2424.12()228.622.2433.08()yyysNQxyxysys()预报与控制首先计算现在可以来回答两个问题1)预测当腐蚀时间秒时的腐蚀深度由回归方程3801212950.7524.1233.082)102021022031.334.5yyxyxsxsxx故有%的把握回答:秒的腐蚀深度范围为:若要求克现深度在~之间,应将腐蚀时间控制在什么范围:解方程4.37+0.3234.37+0.323得秒秒故知应将腐蚀时间控制在32~34秒内39§5