最小二乘法原理1.介绍部分最小二乘法是获得物理参数唯一值的标准方法,具体是通过这些参数或者在已知数学模型中与这些参数相关的参数的多余观测值来求得。最小二乘法最早是由高斯提出,用来估计行星运行轨道的。1.1数理统计和最小二乘法物理量总是不能被精确测定。总是存在一个限定的测量精度,超过这个精度,相关的数学模型和测量仪器的分辨率这两者之一或者全部将会无能为力。超出这个精度,多余观测值之间会产生差异。我们常常希望获得超过该限定精度的测量值,在不知道真值的情况下我们只能估计真值。一方面我们想要估计出唯一的值,另一方面,我们想要知道这个估计有多好。最小二乘法就是这样一个估计,它基于最小化差值的平方和。最小二乘法相比其他传统的方法有三个优点。其一,它既可以应用在线性数学模型上也可以应用在非线性数学模型上;其二,它和统计量算术平均值有关;其三,最小二乘法在很多领域是通用的。物理量的值的唯一统计估计称为点估计。无论频率函数是否知道,我们都可以作物理量的点估计并且可以衡量它与真值趋近程度。另外两种估计,区间估计以及假设检验,它们只能在相应的频率函数已经确定的情况下进行。1.2线性代数和最小二乘法(nontrivial=nonzero,非平凡解就是指非零解)现有线性方程组AX=L(1-1)X是未知数向量,L是常数向量,A是系数矩阵,[A:L]是增广矩阵。该方程组有唯一非零解仅当L≠0(非齐次方程组),(1-2a)r(A)=X的维数,(1-2b)r([A:L])=r(A)。(1-2c)当没有多余等式时,准则(1-2b)意味着A是方阵且非奇异,它的逆矩阵是存在的,这样方程组的解就表达成X=A1-L(1-3)当存在多余等式时,A将不是方阵,但是ATA是方阵且非奇异,这样方程组的解就表达成X=(ATA)1-ATL。(1-4)L的元素对应于物理量观测值,基于上述数学讨论,如果没有多余观测量(即没有多余的等式),则未知量将只有唯一的非零解。如果存在多余观测量,它们之间将互相不一致,因为观测存在误差。这样(1-2c)准则就无法满足,也就不存在唯一解。我们只能对结果做一个唯一的估计。从而引入了最小二乘准则。因为观测误差的存在,使得方程组(1-1)左右矛盾,为此引入一个向量来抵消这个矛盾,从而使方程组成立。于是有AX-L=V(1-5)V称为残差向量。引入^X作为X的最优估值,这样最小二乘准则表达为)()(^^^^LXALXAVVTTmin(1-6)估值^X称为最小二乘估值。由式(1-4)可得LAAAXTT1^)(,(1-7)观测误差或残差的最优估值由下式得出LXAV^^。(1-8)这些估值称为简单最小二乘估值,或者称为等权最小二乘估值。组成L的物理量观测值不总是等精度的(比如采用了不同的观测仪器或者不同的观测条件),因此我们给每个观测量分配一个已知的权重,由这些元素构成的矩阵称为权阵P。这样,先前的最小二乘准则调整为^^VPVTmin。(1-9)未知量估值调整为PLAPAAXTT1^)((1-10)如果P作为观测值的估量协方差阵的逆阵,那么最小二乘估计就是最小方差估计;如果观测误差是正态分布,那么最小二乘方差估计就是最大似然估计。考虑更一般的情形,此时观测量未知参数的非线性方程相关VLXF)((1-11)或者,观测量与未知参数的方程非线性相关0),(VLXF(1-12)1.3数字计算机和最小二乘法从实际出发,矩阵求逆以及矩阵乘法都要求海量的计算步骤。在大型快速计算机发明以前,除非绝对必要,一般是不会去做这样的尝试。然而测量网坐标的最小二乘估计就是这样的必要情况。以前的大地测量学家在简化步骤创新方法上做出很多努力,计算机发明之后这项工作显得没原来那么重要了。然而计算机也不能同时计算多达数千个方程,因此,如今大地测量学家把精力放在改进算法上,以便将一个大问题拆分成许多小问题,再逐一解决。1.4高斯和最小二乘法以下是对高斯一段引文的翻译“如果用于轨道计算的天文观测值和其他量是完全正确的,则轨道要素也是严格准确的,而无论是从三个或者四个观测值上推导出来(到目前为止轨道运动确实按照开普勒定律在进行),因此,如果使用其他观测值,则轨道要素可能被确定但不准确。但是,因为我们的所有测量值和观测值都只是真值的近似,那么依赖于它们的所有计算也一定是正确的,关于具体现象的所有计算的最高目标一定是近似与真值的,只要接近到可实用的程度。但这只能通过将多于确定未知量所必要的观测量进行适当组合来完成。这个问题只有当轨道的大概知识已经获得的情况下才能处理,这个大概的知识之后将得到改正以便以尽可能最精确的方式满足所有的观测值。”从这段写于150年前的话可以总结出以下观点a、数学模型可能不完整,b、物理测量值存在矛盾,c、从矛盾的物理测量值出发进行计算就是为了估计出真值,d、多余测量值将会减小测量值矛盾的影响,e、在最终估值前需要使用大概的初值,f、通过一种方法最小化测量值之间的矛盾值,从而改正初值(高斯所指的最小二乘法)。2.统计学定义和概念2.1统计学术语统计学,统计量,变量,连续变量,离散变量,常量。一般的测量结果都是连续变量,计算结果是离散变量。随机变量,包含一个值域(跟普通变量相同)和一个概率函数。总体(population),个体(individual),样本,随机样本(通常样本指的都是随机样本)。样本空间,样本点和事件在使用中分别代替总体,个体和随机样本。分组(class),分组界限,组距,组频率,相对频率。*没有哪一个关于概率的定义是被所有统计学家所接受的。经典的定义是,等可能取自总体的一个个体落入组A的概率)Pr(A等于所有落入A的个体占总体的分数。这是一个间接定义,因为等可能实际上就是等概率,因此是用概率自己定义了自己。有两种办法来解决这个问题,但都不是完全令人满意的。第一种,定义概率)Pr(A为从总体中选择一个个体,在n次(当n趋于无穷)选择中,个体落入组A的相对频率。第二种,接受“概率”是一个不可定义的概念,仍然称适用于概率的规定为公理。2.2频率函数(概率密度函数)累积频率函数(分布函数,累积分布函数,累积概率函数),频率分布(p26)。频率分布的两个重要特点:集中趋向,离中趋势(离散度)。频率分布两个次重要特点:偏斜度,峰度。集中趋向的度量方法包括:算术平均值,中位数,众数(mode),几何平均数以及调和平均数。离散度的度量方法包括:标准差,平均偏差以及极差(range)。期望值及其相关性质。n阶原点矩,以及n阶平均值矩(我们习惯称为n阶中心矩)的期望,其中二阶中心矩称为方差。随机变量X矩量母函数(momentgeneratingfunction)定义dxxeeEtMtxtx)(][)(,(2-10a)一个分布的任何矩都可以直接从矩量母函数中推导出来,例如,一阶原点矩)0()(]['0MdttdMxEt,(2-10b)又如,方差(二阶中心矩)22'''222)]0([)0(][MMxE,(2-10c)2.3多元随机变量频率函数(联合密度函数)引入随机变量向量nxxxX21多元随机变量频率函数定义)()(00210dXXXXPdxdxdxXrn,(2-11)其中002010nxxxX,ndxdxdxdX21各个不等式同时成立。多元变量累积频率函数(联合累积分布函数)定义nxxdxdxdxXXn210010)()(。(2-12))(0XXPr引入随机变量的统计独立。多元随机变量函数的期望,以及多元随机变量分布的均值都与一元情况类似。引入协方差阵X(也称方差-协方差阵),包括方差2i及协方差ij的定义和计算方法。引入相关系数jiijij,若ix与jx统计独立,则它们的相关系数ij为0,因此协方差和相关系数是用来衡量两个随机变量是统计独立还是相关的。2.4协方差律假定随机变量Y与随机变量X线性相关,即CXY则有XYCUU,YXTCC。上式即称为协方差律,或者协方差传播律。如果Y与X非线性相关,即)(XFY将其运用泰勒级数展开,使原函数线性化,依然可以得到上述结论,只是此时的系数C应该变成0XXFC。2.5点估计引入统计量(期望,方差)。引入总体统计量(用希腊字母表示),样本统计量(用拉丁字母表示)。统计估计是统计学方法的一个分支,通过从总体中所取样本的认识来推及总体的性质。引入估计量(即点估计量),用样本统计量(即估计量)的值去推导总体统计量的值。最常用的估计量是样本均值iixnx1和样本方差22)(11iixxns。样本统计量本身也是随机变量,存在一个对应的分布(称样本分布),因此从同一个总体中取出的不同样本的统计量的值通常是不等的。样本均值的期望等于总体均值,样本均值的方差等于n2。样本方差的期望等于2,即等于总体的方差。引入无偏估计量,表示该估计量的样本分布的均值等于它所估计的总体统计量,因此样本均值和样本方差都是无偏估计量。引入最小方差估计量和最大似然估计量。2.6区间估计和假设检验区间估计,若)(21eePr称区间21,ee为的%100置信区间,表示有%100的时候可以认为落在21,ee内是正确的。假设检验,即先对总体做出某种假设,然后通过样本值来检验,以决定接受或者拒绝该假设。引入显著性水平,即犯第一类错误(假设正确但是被拒绝)的概率。引入检验功效)-1(,其中是指犯第二类错误(假设错误但是被接受)的概率。//小结三种统计估计,点估计不需要假定总体分布,区间估计和假设检验则需要假定或者确定总体分布。3.统计分布函数引入一元随机变量,多元随机变量。特殊的分布:正态分布(normal),卡方分布(chi-square),t分布,F分布。3.1正态分布3.1.1正态分布函数累积分布函数,概率分布函数(略)。3.1.2矩量母函数]2exp[)(22tbattM(推导过程关键令btbaxy)由前章知aM)0('22'''2)]0([)0(bMM(文章缺失了P30-31))1,0(n分布的图像的一些特征:1)关于纵轴0x对称,2)在0x处取得最大值21,3)x轴是水平渐近线,4)拐点在x处。3.1.5关于正态分布的计算引入正态分布计算表使用)1,0(n分布的表解来查找结果的基本公式)()Pr(ucNcx)()()Pr(1221ucNucNcxc3.1.6多元随机变量正态分布m维多元随机变量正态概率密度函数]2)()(exp[)(1XTUXUXCX其中X是随机变量向量,U是相应的均值向量,X是协方差阵。常数2/2/11)2(])[det(mXC3.2卡方分布3.2.1分布函数引入伽马函数dyeyy01)(其中0。当1时,1)1(,当1时,!1-)1()1()()(。上式令/xy,且0,则有dxxx1)exp()()(10从而dxxx)exp()(1110上式满足累积分布函数的要求,对应的概率密度函数(p.d.f)为)0();exp()(1)(1xxxx0其它上式即为关于参数和的伽马分布的概率密度函数。当2,且2,其中是正整数,此时该伽马分布就称为卡方分布,它的概率密度函数为)0();2exp(2)2(1)()12(2xxxx0其它其中的称为自由度。上述的服从卡方分布的连续随机变量缩写为)(2。3.2.2矩量母函数公式(推导过程略)2)21(1)(ttM则有)0('M2)]0([)0(2'''2MM3.2.3卡方分布的图像性质:a)0x时,值为0,b)最大值在区间x0内,c)x轴正方向是一条渐