最小二乘法的原理及其应用一、研究背景在科学研究中,为了揭示某些相关量之间的关系,找出其规律,往往需要做数据拟合,其常用方法一般有传统的插值法、最佳一致逼近多项式、最佳平方逼近、最小二乘拟合、三角函数逼近、帕德(Pade)逼近等,以及现代的神经网络逼近、模糊逼近、支持向量机函数逼近、小波理论等。其中,最小二乘法是一种最基本、最重要的计算技巧与方法。它在建模中有着广泛的应用,用这一理论解决讨论问题简明、清晰,特别在大量数据分析的研究中具有十分重要的作用和地位。随着最小二乘理论不断的完善,其基本理论与应用已经成为一个不容忽视的研究课题。本文着重讨论最小二乘法在化学生产以及系统识别中的应用。二、最小二乘法的原理人们对由某一变量t或多个变量t1…..tn构成的相关变量y感兴趣。如弹簧的形变与所用的力相关,一个企业的盈利与其营业额,投资收益和原始资本有关。为了得到这些变量同y之间的关系,便用不相关变量去构建y,使用如下函数模型,q个相关变量或p个附加的相关变量去拟和。通常人们将一个可能的、对不相关变量t的构成都无困难的函数类型充作函数模型(如抛物线函数或指数函数)。参数x是为了使所选择的函数模型同观测值y相匹配。(如在测量弹簧形变时,必须将所用的力与弹簧的膨胀系数联系起来)。其目标是合适地选择参数,使函数模型最好的拟合观测值。一般情况下,观测值远多于所选择的参数。其次的问题是怎样判断不同拟合的质量。高斯和勒让德的方法是,假设测量误差的平均值为0。令每一个测量误差对应一个变量并与其它测量误差不相关(随机无关)。人们假设,在测量误差中绝对不含系统误差,它们应该是纯偶然误差,围绕真值波动。除此之外,测量误差符合正态分布,这保证了偏差值在最后的结果y上忽略不计。确定拟合的标准应该被重视,并小心选择,较大误差的测量值应被赋予较小的权。并建立如下规则:被选择的参数,应该使算出的函数曲线与观测值之差的平方和最小。用函数表示为:用欧几里得度量表达为:最小化问题的精度,依赖于所选择的函数模型。三、最小二乘法的应用(1)最小二乘法在化学生产中的应用:蔗糖的水解反应的实验该实验的目的是测定蔗糖转化的反应级数、速率常数。实验中测出一组旋光度)(aat和时间t,判断反应级数和计算出速率常数。若taat~)ln(呈线性关系,为一级反应,若taat~)(呈线性关系,为二级反应,若taat~)(2呈线性关系,为三级反应。该实验应是一级反应,但由于用目测法手工作图,由于误差的原因,有时会得出一级或二级均可以的奇怪结论,所以在以往的实验中把该反应级数作为已知条件,只要求学生求出速率常数。而用线性最小二乘法拟合曲线,在计算机上处理,即可得出满意的结论。原理是,先用线性最小二乘法对)(aat曲线进行高次拟合,从)(aat曲线上读取等间隔时间t时的ta,作数据匀整,改进数据的离散性,然后进行直线拟合,拟合偏差最小者为该反应的反应级数。表1为某学生的实验数据,输入计算机后,进行高次拟合,并进行数据修匀,得到表2数据。本次拟合次数为7,拟合偏差为0.026,表示拟合较好。表1蔗糖水解反应实验数据温度:20℃气压:101325PaHCl浓度:3M00.5ta时间t/min71217273747627792旋光度αt6.376.426.474.712.821.500.00-1.02-2.10表2蔗糖水解反应实验拟合修匀后的数据时间t/min10203040506070旋光度αt6.51255.1254.11782.41811.0690-0.1684-0.5024最后将匀整后的数据作直线拟合,一级拟合偏差平方和最小为0.064,证明蔗糖水解反应确为一级反应。(2)最小二乘法在系统识别中的应用1、原理分析系统辨识是通过建立动态系统模型,在模型输入输出数据的基础上,运用辨识方法对模型参数进行辨识,从而得到一个与所观测的系统在实际特性上等价的系统。应用最小二乘法对系统模型参数进行辨识的方法有离线辨识和在线辨识两种。离线辨识是在采集到系统模型所需全部输入输出数据后,用最小二乘法对数据进行集中处理,从而获得模型参数的估计值;而在线辨识是一种在系统运行过程中进行的递推辨识方法,所应用的数据是实时采集的系统输入输出数据,应用递推算法对参数估计值进行不断修正,以取得更为准确的参数估计值。由于在线辨识方法具有实时采集系统输入输出数据,实时辨识模型参数,且占据计算机存储量小的优点,因此与离线辨识相比,在线辨识方法得到了更为广泛的应用。在线辨识的参数估计的最小二乘递推算法如下:^θ(k+1)=^θ(k)+K(k+1)[y(k+1)-xT(k+1)^θ(k)]K(k+1)=P(k)x(k+1)[1+xT(k+1)P(k)x(k+1)]-1P(k+1)=P(k)-K(k+1)xT(k+1)P(k)递推初值:^θ(0)=任意值;P(0)=α2I,α取计算机容许的最大值。式中x与y分别为系统的输入输出,θ为参数估计值,K为增益矩阵,P(m)=(xTmxm)1其最优性准则函数为:J=)(12iemi其中m为数据采集的次数,e为残差向量。由于上述递推算法无法反映参数随时间变化的特点,新数据被大量的老数据所淹没,对于慢时变参数的辨识来说,这必然得不到跟踪参数变化的实时估计,因此又进一步有了改进的最小二乘递推算法,即带遗忘因子的渐消记忆的递推算法,该算法贬低老数据的作用,强调新数据的作用,选取遗忘因子λ,得到渐消记忆的最小二乘递推算法如下:^θ(k+1)=^θ(k)+K(k+1)[y(k+1)-xT(k+1)^θ(k)]K(k+1)=P(k)x(k+1)[λ+xT(k+1)P(k)x(k+1)]-1P(k+1)=1λ[P(k)-K(k+1)xT(k+1)P(k)]递推初值:^θ(0)=任意值;P(0)=α2I,α取计算机容许的最大值。其最优性准则函数为:J=)(21iemiim其中加权系数0λ≤1。λ通常在0.9与0.99之间取值。2、实例分析以某微循环流体系统模型的参数辨识为例。我们已经得到该系统模型的差分方程形式,取特定点的压力波作为模型的输入,以另一点的压力波作为模型的输出.由于我们采集的数据是实时的,因此用在线辨识方法。由于建立的微循环流体系统模型是一个单输入、单输出的模型,为使参数估计的结果很好地跟踪参数真值的变化,我们采用渐消记忆的最小二乘法对系统模型参数进行辨识,即强调新数据的作用,贬低老数据的作用。图1是一组通过试验测量所得到的微循环流体系统输入、输出波形以及模型辨识参数的迭代变化波形.其中,图(a)、(b)为实测波形。图1微循环流体模型输入输出波形图图2中(a)图所示为实测的输入波形,(b)图为实测的输出波形,(图2实测波形与拟和波形的比较四、结语上述实例可以说明,借助计算机科学技术,用线性最小二乘法可以方便地解决动力学参数问题。这种方法避免了复杂的数学处理,有效地降低了计算误差,结果更为精确。线性最小二乘法不仅在处理动力学问题等物理化学实验,也在分析化学实验以及化学学科的其他方面都有着非常重要的应用。并且最小二乘法在系统识别中也具有很大的应用。总之,借助计算机软件,线性最小二乘法在化学中有着广泛的重要的应用。有统计史家这样评价,“最小二乘法之于统计学,犹如微积分之于数学”。在任何工程项目中,系统的线性模型永远是一个无法回避的问题,而正是最小二乘法误差分析的研究促进了线性理论模型的发展。