常用实验数据处理方法简介中国人民大学环境学院张晓军一、数据处理方法综述•实验数据处理的本质:给定一组相互独立的自变量x1,x2,x3….(xi均为n维向量)和因变量y(n维向量),找出一个“最佳”的映射,来刻画自变量和因变量之间的关系。•关于“最佳”的两种理解:逼近和插值。一、数据处理方法综述•实验数据处理方法的分类:•按照自变量的个数,可分为一元和多元两大类;•按照映射(函数)形式,可分为线性和非线性两大类。•于是一共有2*2=4大类。二、线性方法•考虑到线性方法已经规定了函数形式为线性,故在线性方法中,“最佳”的判据只能是逼近。•按照自变量个数,分为一元线性回归和多元线性回归。二、线性方法•多元线性回归模型:‥(1)1122m=()()()umQuQuQu()‥(2)令1122m=()()()mQuQuQuy其中为随机误差,,均为实际问题的解释变量,是已知函数。2(0,)N()iQu假设作了n次试验得到n组观测值为:1121nnuyuyuy二、线性方法代入(2)中可得(3)(其中为第i次试验时随机误差)1122m2=()()()1,2,(0,)imiiyQuQuQuiniidNi该模型关于回归系数是线性的,u为一般向量,若用矩阵形式,(3)变为:12,,m二、线性方法112111222212()()()()()()()()()mmnnmnQuQuQuQuQuQuQuQuQu12nyyYy1122nnyyy即YX二、线性方法其中X是模型设计矩阵,Y与是随机向量且,(I为n阶单位阵)2(,)nYNXI2(0,)nNI是不可观测的随机误差向量,是回归系数构成的向量,是未知、待定的常数向量。二、线性方法选取的一个估计值使随机误差的平方和达到最小1ˆ2minminTYXmin()()TyXyXˆˆˆ()()()defTYXYXQˆˆˆˆTTTTTTYYYXXYXXˆˆˆ2TTTTYYyXXX二、线性方法•由上式对求导(向量函数的求导),可得:由上式ˆˆ02()()0yXXXXXˆˆ2()0XYXXXX(正规方程组)ˆTTXXXY记系数矩阵,常数矩阵TXXATXYB如果存在,称其为相关矩阵1A二、线性方法1.可以证明:对任意给定的X,Y,正规方程组总有解,虽然当X不满秩时,其解不唯一,但对任意一组解都能是残差平方和最小,即ˆ()min()QQˆ2.当X满秩时,即则正规方程组的解为,即为回归系数的估计值()()TrXrXXmˆ()TTTXXXY3.性质12()ˆ(,)TXXN二、线性方法•显著性检验与拟合性检验。•主要是检验模型是否一定与解释变量有密切的关系。•在模型的检验显著的情况下,需要进一步地做拟合性检验,目的是检验是否一定为(2)所给的形式,即是否还存在其他的影响因素没有考虑到。三、非线性方法•理论上来说,对于需要处理的数据,如果已知所需拟合的函数的形式,那么通常都可以通过变量替换化成线性方式求解。•那么,为什么要提出非线性方法呢?三、非线性方法•对于非线性方法,与线性方法类似,同样可以按照自变量的个数分为一元非线性回归(曲线拟合)和多元非线性回归(曲面拟合)。(一)曲线拟合•对于曲线拟合,其“最佳”的理解可以有插值和逼近两种方式。•若按照插值来理解,那么就是《数值计算》中的插值法。•若按照逼近来理解,那么就是《非线性规划》中的一种特殊的无约束最优化问题——非线性最小二乘法。插值法•Lagrange插值(含线性插值、抛物插值、n次Lagrange插值公式);•牛顿(Newton)插值及余项、差商的定义与性质;•埃尔米特(Hermite)插值公式及余项;•等距节点的多项式插值、分段低次多项式插值、三次样条插值。插值法•插值唯一性定理•证明:利用范德蒙行列式定理:(唯一性)满足的n阶插值多项式是唯一存在的。niyxPii,...,0,)(插值法•一、解方程组法:•二、基函数法:一种既能避免解方程组,又能适合于计算机求解的方法,下面将具体介绍。拉格朗日插值公式•拉格朗日(Lagrange)插值公式的基本思想是,把pn(x)的构造问题转化为n+1个插值基函数li(x)(i=0,1,…,n)的构造。•线性插值函数•抛物插值函数•N一次Lagrange插值多项式•由直线两点式可知,通过A,B的直线方程为•它也可变形为•显然有一次Lagrange插值多项式•记•可以看出:•称为节点,的线性插值基函数。1001()xxlxxx0110()xxlxxx011010110()xxxxLxyyxxxx一次Lagrange插值多项式•线性插值基函数的特点:•节点值;•均为一次函数。•注意她们的特点对下面的推广很重要。二次Lagrange插值多项式•由基函数方法得:•其中:2001122()()()()Lxylxylxylx1200102()()()()()xxxxlxxxxx0211012()()()()()xxxxlxxxxx0122021()()()()()xxxxlxxxxxN次Lagrange插值多项式•我们看到,两个插值点可求出一次插值多项式,而三个插值点可求出二次插值多项式。从而,当插值点增加到n+1个时,我们可以利用Lagrange插值方法写出n次插值多项式。N次Lagrange插值多项式•构造各个插值节点上的基函数•满足如下条件:()(0,1,,)ilxin100001000001ix0x1x2xnx0()lx1()lxn()lxN次Lagrange插值多项式•因此令:•又由,得:0111()()()()()()kkknlxxxxxxxxxxxnkjjjxx0)(()1kklx)())(())((11110nkkkkkkkxxxxxxxxxxN次Lagrange插值多项式•从而得n阶拉格朗日(Lagrange)插值公式:)())(())(()())(())(()(11101110nkkkkkkknkkkxxxxxxxxxxxxxxxxxxxxxlnkjjjkjxxxx0knknkjjjkjknkknyxxxxyxlxP000)()(Newton插值•Lagrange插值虽然易算,但若要增加一个节点时,全部基函数都需要重新计算。•Newton插值的承袭性•增加一个节点后:)())(())(()()(10102010nnnxxxxxxcxxxxcxxccxN10102010111011()()()()()()()()()()()nnnnnnNxccxxcxxxxcxxxxxxcxxxxxxxxHermite插值•在实际问题中,对所构造的插值多项式,不仅要求函数值重合,而且要求若干阶导数也重合。•把此类插值多项式称为埃米尔特(Hermite)插值多项式或称带导数的插值多项式,记为H(x)。分段插值•高次插值的龙格现象•分段插值。所谓分段插值,就是将被插值函数逐段多项式化。-5-4-3-2-1012345-0.500.511.52xy=1/(1+x2)y=p4(x)y=p10(x)非线性最小二乘法•从本质上看,非线性最小二乘法就是一种特殊的无约束最优化问题,因此,所有《非线性规划》中关于无约束最优化问题的算法,理论上都可以直接应用到非线性最小二乘法问题中。•最速下降法,牛顿法,修正牛顿法,共轭梯度法,变度量法,Powell方法等一系列算法都可以用来解非线性最小二乘问题。非线性最小二乘法•但是,由于非线性最小二乘问题的特殊性,可以有一些更加行之有效的方法来解。•包括Gauss—Newton法,Levenberg—Marquartdt法等。•仅介绍Gauss—Newton法。Gauss—Newton法•Newton法:牛顿法基本思想:利用目标函数f(x)的二次泰勒展开式,并将其最小化。0()12,,TTfxxCxpxx考虑二次凸函数函数已知初始点能否通过迭代,直接得到最小点?10001010:.,(),.xxzzCfxCCxp答案可以取其中为最小点11010()()TfxCxpCxCCxpp因为:=0.Gauss—Newton法(),knkfxxEx当目标函数为一般的二次可微的函数时,其中若是最优解得一个近似点,那么取泰勒展开式的前三项,得221()()()()()2TkkkTkfxsfxfxssfxsos(二次近似).如果二阶海赛阵正定,那么存在最小点(方法同上)2211()()02[()]()kTkkkfxssfxssfxfx即极小化,导数等于时极小,即Gauss—Newton法12111,0,:1;2().33[()]();,:1,2nkkkkTkkkxEkfxzfxfxxxzkk步骤:、取初始点允许误差、检验是否满足收敛性判别准则:是,终止,否,转。、令4、令转。说明:实际应用中,迭代方向通过解方程2()().kkkfxzfx得到Gauss—Newton法•Gauss—Newton法•由于非线性最小二乘问题的特殊性,f(x)的梯度与黑塞矩阵有更为简洁的表达形式:•如下:•即为Gauss-Newton法。Gauss—Newton法•Gauss—Newton法的收敛性:•距离初值偏差大时,收敛效果并不好。•d是下降方向,但仍不能保证f(x)依次减小。•可以参考修正Newton法,加入一维搜索策略。(二)曲面拟合•对于“最佳”的理解:逼近•与多元线性回归在原理和形式上较为相似。根据拟合的曲面在取样处的值与实际值之差的平方和达到最小求得。•基于最小二乘原理。(二)曲面拟合•详见《基于最小二乘的曲面拟合算法研究》。•参考多元线性回归部分的内容,则比较容易理解。