一、最小二乘法的定义第3章函数逼近与曲线拟合§4曲线拟合的最小二乘法二、多项式拟合三、非多项式拟合四、举例一、最小二乘法的定义1.“曲线拟合”问题已知:一组实验数据(xi,yi)(i=0,1,…,m),且观测数据有误差求:自变量x与因变量y之间的函数关系y=F(x),不要求y=F(x)经过所有点,而只要求在给定点上误差),...,1,0()(miyxFiii按某种标准最小。(1)使残差的最大绝对值为最小min)(maxmaxiiiiixFye(2)使残差的绝对值之和为最小miniie(3)使残差的平方和为最小min2iie最小二乘法度量标准不同,将导致不同的拟合结果,常用的准则有如下三种:下面按y=F(x)是否为多项式讨论二、y=F(x)是多项式——多项式拟合一组数据(xi,yi)(i=0,1,…,m)已知:求:在次数不超过n的多项式中找一个函数,使误差平方和最小,即)(xFymiiinxFmiiiyxFyxF02)(02])([min])([次多项式是这里)(...)(10mnxaxaaxFnn例1.已知三个点(0,0),(1,1),(2,1),求它的一次多项式拟合曲线.解:令xaaxF10)(),()12()1()())((1021021020302aaaaaaayxFiii0),(0),(110010aaaaaa由得211610101003530233aaaaaaxxF2161)(当点增加,多项式次数也增加后会怎样???OK!法方程三、y=F(x)不是多项式——非多项式拟合y=F(x)可能如下2种形式:其中是一组已知的函数)(,),(),(10xxxn,)()()()()(...)()()()2(33410101010aaaanaaxaxxxFxxxxFn或关于参数的线性形式关于参数的非线性形式)()(...)()()()1(1100mnxaxaxaxFnn其中不是多项式的一组基)(,),(),(10xxxn例2.已知三个点(0,1),(1,2),(2,1.05),(3,0.01),求形如y=asinx+b的拟合曲线.解:2222402)01.03sin()05.12sin()21sin()1())((),(babababyxFbaiii0),(0),(bbaaba由得baba的线性方程组关于,OK!解:2222402)01.03sin()05.12sin()21sin()10())((),(bbbiiiaaayxFba0),(0),(bbaaba由得baba非线性方程组的关于,不OK!例3.已知三个点(0,1),(1,2),(2,1.05),(3,0.01),求形如的拟合曲线.xaybsin1.最小二乘法何时可求解?2.无法求解的怎么办?最小二乘法可求解如下问题!!!一组数据(xi,yi)(i=0,1,…,m),已知:求:在函数类中找一个函数,使误差平方和最小,即)}(),...,(),({10xxxspann)(xSymiiixSmiiiyxSyxS02)(02])([min])([这里)()(...)()()(1100mnxaxaxaxSnn最小二乘法可求解如下问题!!!一组数据(xi,yi),且每个点对应权因子wi0,(i=1,2,…,m).已知:求:在函数类中找一个函数,使误差平方和最小,即)}(),...,(),({10xxxspann)(xSymiiiixSmiiiiyxSwyxSw02)(02])([min])([这里)(...)()()(1100xaxaxaxSnn注:权函数在实际问题中有重要作用!还1.最小二乘法何时可求解?2.无法求解的怎么办?好戏在后面!四、举例例4.已知一组实验数据如下,求它的拟合曲线.xi12345fi44.5688.5ωi21311解根据所给数据,在坐标纸上标出,从图中看到各点在一条直线附近,故可选择线性函数作拟合曲线,即令xaaxS101)(得法方程为5.1457422472281010aaaa解得13.1,77.210aa于是所求拟合曲线为xxS13.177.2)(1例5.在某化学反应里,根据实验所得生成物的浓度与时间关系如下表,求浓度y与时间t的拟合曲线y=F(t).t12345678Y4.006.408.008.809.229.509.709.86t910111213141516y10.0010.2010.3210.4210.5010.5510.5810.60解根据所给数据,在坐标纸上标出,得下图ty从图中可以看出开始时浓度增加较快,后来逐渐减弱,到一定时间就基本稳定在一个数值上,即当t→∞时,y趋于某个常数,故有一水平渐近线。另外t=0时,反应未开始,浓度为0。概括起来为趋于一个定值时,时,当的增函数是ytytty)3(;00)2(;)1(根据这些条件,可设想两种形式的函数关系:y=F(t)是双曲线型y=F(t)是指数形式)(,1battytbay即tbaey/b0y=F(t)是双曲线型)(,1battytbay即为了确定a、b,令txyy1,1于是可用x的线性函数拟合数据。可由原始数据计算出来。)16,...,1(),(iyxii),(iiyxbxaxS)(1),(iiytxxx)(,1)(10这里可求得代入法方程得1,0,),,(),,(kjyjjk331052886.058435.138073.3108372.138073.316baba解得6822.161,6621.80ba从而得到)(6822.1616621.80)1(tFtty于是由计算出,拟合数据的曲线仍设为),(iiyt)ˆ,(iiyx)ˆ,(iiyxy=F(t)是指数形式)0(/baeytb为了确定a与b,对上式两边取对数得tbaylnln令txaAyy1,ln,lnˆbxAxS)(1得法方程82229.1658435.138073.326394.7538073.316bAbA解得0567.1,48072.4bA从而得到)(103253.11)2(0567.13tFeyt3103253.11Aea请回答:怎样比较这两个数学模型的好坏呢?答:只要分别计算这两个数学模型的误差,从中挑选误差较小的模型即可。本例经过计算可得3)2(3)1(10277.0||max,10568.0||maxiiii而均方误差为312)2(312)1(1034.0)(,1019.1)(miimii由此可知第二个模型较好。结论:选择拟合曲线的数学模型,并不一定开始就能选好,往往需要通过分析若干模型后,经过实际计算才能选到较好的模型,如本例的指数模型就比双曲线模型好得多。例6.用最小二乘法解超定方程组解欲求(x,y)使得其尽可能使四个等式成立,即使72623531142yxyxyxyx2222)72()62()353()1142(),(yxyxyxyxyxQ达到最小则(x,y)应满足0),(0),(yyxQxyxQ即48463176yxyx解得2408.10403.3yx所以用最小二乘法解得的超定线性方程组的解为2408.10403.3yx第三章补充逼近问题的发展对基于经验数据估计函数依赖关系的方法的研究(从实例学习的研究)已经有很长的历史了。这些研究是由两个伟大的数学家开始的:他们是高斯(Gauss,1777-1855)和拉普拉斯(Laplace,1749-1827),他们提出了从天文学和物理学中的观测结果估计依赖关系的两种不同方法。逼近问题的发展高斯提出了最小二乘法,而拉普拉斯提出了最小模方法。从那时起就有了下面的问题:那种方法更好呢?在19世纪和20世纪初,人们更趋向于最小二乘法。在1953年,L.LeCam定义了ML方法一致收敛的一些充分条件后,人们发现:如果离散数据点的噪声是服从高斯(正态)规律的,则最小二乘法给出最好的结果;若噪声是服从拉普拉斯规律的,则最小模法给出最好的结果。但遗憾的是,在实际中噪声的形式往往是未知的。在上个世纪60年代,Tukey说明了在现实情况中,噪声的形式与高斯或拉普拉斯规律都相去甚远。回到起点!作业:习题16,17,18(数据有删减)