数据处理方法

dimlily
0 ℃
2020-09-21

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

常用实验数据处理方法简介中国人民大学环境学院张晓军一、数据处理方法综述•实验数据处理的本质：给定一组相互独立的自变量x1,x2,x3….(xi均为n维向量)和因变量y（n维向量），找出一个“最佳”的映射，来刻画自变量和因变量之间的关系。•关于“最佳”的两种理解：逼近和插值。一、数据处理方法综述•实验数据处理方法的分类：•按照自变量的个数，可分为一元和多元两大类；•按照映射（函数）形式，可分为线性和非线性两大类。•于是一共有2*2=4大类。二、线性方法•考虑到线性方法已经规定了函数形式为线性，故在线性方法中，“最佳”的判据只能是逼近。•按照自变量个数，分为一元线性回归和多元线性回归。二、线性方法•多元线性回归模型：‥（1）1122m=()()()umQuQuQu（）‥（2）令1122m=()()()mQuQuQuy其中为随机误差，，均为实际问题的解释变量，是已知函数。2(0,)N()iQu假设作了n次试验得到n组观测值为：1121nnuyuyuy二、线性方法代入（2）中可得（3）（其中为第i次试验时随机误差）1122m2=()()()1,2,(0,)imiiyQuQuQuiniidNi该模型关于回归系数是线性的，u为一般向量，若用矩阵形式，（3）变为：12,,m二、线性方法112111222212()()()()()()()()()mmnnmnQuQuQuQuQuQuQuQuQu12nyyYy1122nnyyy即YX二、线性方法其中X是模型设计矩阵，Y与是随机向量且，（I为n阶单位阵）2(,)nYNXI2(0,)nNI是不可观测的随机误差向量，是回归系数构成的向量，是未知、待定的常数向量。二、线性方法选取的一个估计值使随机误差的平方和达到最小1ˆ2minminTYXmin()()TyXyXˆˆˆ()()()defTYXYXQˆˆˆˆTTTTTTYYYXXYXXˆˆˆ2TTTTYYyXXX二、线性方法•由上式对求导（向量函数的求导），可得：由上式ˆˆ02()()0yXXXXXˆˆ2()0XYXXXX（正规方程组）ˆTTXXXY记系数矩阵，常数矩阵TXXATXYB如果存在，称其为相关矩阵1A二、线性方法1.可以证明：对任意给定的X,Y，正规方程组总有解，虽然当X不满秩时，其解不唯一，但对任意一组解都能是残差平方和最小，即ˆ()min()QQˆ2.当X满秩时，即则正规方程组的解为，即为回归系数的估计值()()TrXrXXmˆ()TTTXXXY3.性质12()ˆ(,)TXXN二、线性方法•显著性检验与拟合性检验。•主要是检验模型是否一定与解释变量有密切的关系。•在模型的检验显著的情况下，需要进一步地做拟合性检验，目的是检验是否一定为（2）所给的形式，即是否还存在其他的影响因素没有考虑到。三、非线性方法•理论上来说，对于需要处理的数据，如果已知所需拟合的函数的形式，那么通常都可以通过变量替换化成线性方式求解。•那么，为什么要提出非线性方法呢？三、非线性方法•对于非线性方法，与线性方法类似，同样可以按照自变量的个数分为一元非线性回归（曲线拟合）和多元非线性回归（曲面拟合）。（一）曲线拟合•对于曲线拟合，其“最佳”的理解可以有插值和逼近两种方式。•若按照插值来理解，那么就是《数值计算》中的插值法。•若按照逼近来理解，那么就是《非线性规划》中的一种特殊的无约束最优化问题——非线性最小二乘法。插值法•Lagrange插值(含线性插值、抛物插值、n次Lagrange插值公式)；•牛顿（Newton）插值及余项、差商的定义与性质;•埃尔米特(Hermite)插值公式及余项；•等距节点的多项式插值、分段低次多项式插值、三次样条插值。插值法•插值唯一性定理•证明：利用范德蒙行列式定理：(唯一性)满足的n阶插值多项式是唯一存在的。niyxPii,...,0,)(插值法•一、解方程组法：•二、基函数法：一种既能避免解方程组，又能适合于计算机求解的方法，下面将具体介绍。拉格朗日插值公式•拉格朗日（Lagrange）插值公式的基本思想是，把pn(x)的构造问题转化为n+1个插值基函数li(x)(i=0,1,…,n)的构造。•线性插值函数•抛物插值函数•N一次Lagrange插值多项式•由直线两点式可知，通过A，B的直线方程为•它也可变形为•显然有一次Lagrange插值多项式•记•可以看出：•称为节点,的线性插值基函数。1001()xxlxxx0110()xxlxxx011010110()xxxxLxyyxxxx一次Lagrange插值多项式•线性插值基函数的特点：•节点值；•均为一次函数。•注意她们的特点对下面的推广很重要。二次Lagrange插值多项式•由基函数方法得：•其中：2001122()()()()Lxylxylxylx1200102()()()()()xxxxlxxxxx0211012()()()()()xxxxlxxxxx0122021()()()()()xxxxlxxxxxN次Lagrange插值多项式•我们看到，两个插值点可求出一次插值多项式，而三个插值点可求出二次插值多项式。从而，当插值点增加到n+1个时，我们可以利用Lagrange插值方法写出n次插值多项式。N次Lagrange插值多项式•构造各个插值节点上的基函数•满足如下条件：()(0,1,,)ilxin100001000001ix0x1x2xnx0()lx1()lxn()lxN次Lagrange插值多项式•因此令：•又由，得：0111()()()()()()kkknlxxxxxxxxxxxnkjjjxx0)(()1kklx)())(())((11110nkkkkkkkxxxxxxxxxxN次Lagrange插值多项式•从而得n阶拉格朗日（Lagrange）插值公式：)())(())(()())(())(()(11101110nkkkkkkknkkkxxxxxxxxxxxxxxxxxxxxxlnkjjjkjxxxx0knknkjjjkjknkknyxxxxyxlxP000)()(Newton插值•Lagrange插值虽然易算，但若要增加一个节点时，全部基函数都需要重新计算。•Newton插值的承袭性•增加一个节点后：)())(())(()()(10102010nnnxxxxxxcxxxxcxxccxN10102010111011()()()()()()()()()()()nnnnnnNxccxxcxxxxcxxxxxxcxxxxxxxxHermite插值•在实际问题中，对所构造的插值多项式，不仅要求函数值重合，而且要求若干阶导数也重合。•把此类插值多项式称为埃米尔特（Hermite）插值多项式或称带导数的插值多项式，记为H(x)。分段插值•高次插值的龙格现象•分段插值。所谓分段插值，就是将被插值函数逐段多项式化。-5-4-3-2-1012345-0.500.511.52xy=1/(1+x2)y=p4(x)y=p10(x)非线性最小二乘法•从本质上看，非线性最小二乘法就是一种特殊的无约束最优化问题，因此，所有《非线性规划》中关于无约束最优化问题的算法，理论上都可以直接应用到非线性最小二乘法问题中。•最速下降法，牛顿法，修正牛顿法，共轭梯度法，变度量法，Powell方法等一系列算法都可以用来解非线性最小二乘问题。非线性最小二乘法•但是，由于非线性最小二乘问题的特殊性，可以有一些更加行之有效的方法来解。•包括Gauss—Newton法，Levenberg—Marquartdt法等。•仅介绍Gauss—Newton法。Gauss—Newton法•Newton法：牛顿法基本思想：利用目标函数f(x)的二次泰勒展开式，并将其最小化。0()12,,TTfxxCxpxx考虑二次凸函数函数已知初始点能否通过迭代,直接得到最小点?10001010:.,(),.xxzzCfxCCxp答案可以取其中为最小点11010()()TfxCxpCxCCxpp因为:=0.Gauss—Newton法(),knkfxxEx当目标函数为一般的二次可微的函数时，其中若是最优解得一个近似点,那么取泰勒展开式的前三项,得221()()()()()2TkkkTkfxsfxfxssfxsos(二次近似).如果二阶海赛阵正定,那么存在最小点(方法同上)2211()()02[()]()kTkkkfxssfxssfxfx即极小化，导数等于时极小，即Gauss—Newton法12111,0,:1;2().33[()]();,:1,2nkkkkTkkkxEkfxzfxfxxxzkk步骤：、取初始点允许误差、检验是否满足收敛性判别准则：是，终止，否，转。、令4、令转。说明:实际应用中,迭代方向通过解方程2()().kkkfxzfx得到Gauss—Newton法•Gauss—Newton法•由于非线性最小二乘问题的特殊性，f(x)的梯度与黑塞矩阵有更为简洁的表达形式：•如下：•即为Gauss-Newton法。Gauss—Newton法•Gauss—Newton法的收敛性：•距离初值偏差大时，收敛效果并不好。•d是下降方向，但仍不能保证f（x）依次减小。•可以参考修正Newton法，加入一维搜索策略。（二）曲面拟合•对于“最佳”的理解：逼近•与多元线性回归在原理和形式上较为相似。根据拟合的曲面在取样处的值与实际值之差的平方和达到最小求得。•基于最小二乘原理。（二）曲面拟合•详见《基于最小二乘的曲面拟合算法研究》。•参考多元线性回归部分的内容，则比较容易理解。