稳健估计

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

稳健估计一、概述测量数据处理是对一组含有误差的观测值,依一定的数学模型,包括函数模型和随机模型,按某种估计准则,求出未知参数的最优估值,并评定其精度。当观测值中仅包含偶然误差时,按最小二乘准则估计平差模型的参数,将具有最优的统计性质,亦即所估参数为最优线性无偏估计。统计学家根据大量观测数据分析指出,在生产实践和科学实验所采集的数据中,粗差出现的概率约为(Huber《RobustStatistics》)。粗差被定义为比最大偶然误差还要大的误差,如果平差模型中包含了这种粗差,即使为数不多,仍将严重歪曲参数的最小二乘估计,影响成果的质量,造成极为不良的后果。随着全球定位系统(GPS)、地理信息系统(GIS)、遥感(RS)等先进测量技术的发展,测量数据采集的现代化和自动化,在某种意义上而言,粗差也不可避免地被包含在平差模型之中。因此,如何处理同时存在偶然误差和粗差的观测数据,以达到减弱或消除其对成果的影响,是近二十年来现代测量平差所注意研究的理论课题。现代测量平差理论中,考虑粗差产生的原因和影响,在数据处理时可将粗差归为函数模型,或归为随机模型。将粗差归为函数模型,粗差即表现为观测量误差绝对值较大且偏离群体;将粗差归为随机模型,粗差即表现为先验随机模型和实际随机模型的差异过大。将粗差归为函数模型,可解释为均值漂移模型,其处理的思想是在正式进行最小二乘平差之前探测和定位粗差,然后剔除含粗差的观测值,得到一组比较净化的观测值,以便符合最小二乘平差观测值只具有偶然误差的条件;而将粗差归为随机模型,可解释为方差膨胀模型,其处理的思想是根据逐次迭代平差的结果来不断地改变观测值的权或方差,最终使粗差观测值的权趋于零或方差趋于无穷大,这种方法可以保证所估计的参数少受模型误差,特别是粗差的影响。前已指出,在测量数据服从正态分布情况下,最小二乘估计具有最优统计性质。但最小二乘法对含粗差的观测量相当敏感,个别粗差就会对参数的估值产生较大的影响。下面是一个简单的例子:设某量的真值为10,对其进行了8次观测得:采用最小二乘估计,即取其平均值得。由上例可以看出,由于受粗差观测值的干扰,使最小二乘估计结果失实,与真值偏差较大。稳健估计(RobustEstimation),测量中也称为抗差估计,正是针对最小二乘法抗粗差的干扰差这一缺陷提出的,其目的在于构造某种估计方法,使其对于粗差具有较强的抵抗能力。自1953年G.E.P.BOX首先提出稳健性(Robustness)的概念,Tukey、Huber、Hampel、Rousseeuw等人对参数的稳健估计进行了卓有成效的研究,经过众多数理统计学家几十年的开拓和耕耘,至今稳健估计已发展成为一门受到多学科关注的分支学科。本章结合测量数据和平差模型的特点,阐述稳健估计的原理以及实用的平差方法。二、稳健估计原理稳健估计讨论问题的方式是:对于实际问题有一个假定模型,同时又认为这个模型并不准确,而只是实际问题理论模型的一个近似。它要求解决这类问题的估计方法应达到以下目标:1.假定的观测分布模型下,估值应是最优的或接近最优的。2.当假设的分布模型与实际的理论分布模型有较小差异时,估值受到粗差的影响较小。3.当假设的分布模型与实际的理论分布模型有较大偏离时,估值不至于受到破坏性影响。稳健估计的基本思想是:在粗差不可避免的情况下,选择适当的估计方法,使参数的估值尽可能避免粗差的影响,得到正常模式下的最佳估值。稳健估计的原则是要充分利用观测数据(或样本)中的有效信息,限制利用可用信息,排除有害信息。由于事先不大准确知道观测数据中有效信息和有害信息所占比例以及它们具体包含在哪些观测中,从抗差的主要目标着眼是要冒损失一些效率的风险,去获得较可靠的、具有实际意义的、较有效的估值。一、极大似然估计准则设独立观测样本,为待估参数,的分布密度为,其极大似然估计准则为(5.2.1)或(5.2.2)二、正态分布密度下的极大似然估计准则设独立观测样本,其密度函数为参数的极大似然估计准则由(5.2.1)式得或(5.2.3)亦即正态分布密度下的极大似然估计准则就是最小二乘估计准则。三、稳健估计的极大似然估计准则稳健估计基本可以分为三大类型,即估计:又称为极大似然估计,基于1964年Huber所提出的估计理论,丹麦的Krarup和Kubik等人于1980年将稳健估计理论引入测量界。估计:又称为排序线性组合估计,在测绘界也有一定范围应用。估计:又称秩估计,目前在测绘界应用还很少。由于估计是测量平差中最主要的抗差准则,下面着重对估计加以讨论。设观测样本,为待估参数,观测值的分布密度为,按(5.2.2)极大似然估计准则为(5.2.4)若以代替,则极大似然估计准则可改写为(5.2.5)对上式求导,得(5.2.6)其中。由此可见,有一个(或)函数,就定义了一个估计,所以估计是指由(5.2.4)或(5.2.5)定义的一大类估计。常用的函数是对称、连续、严凸或者在正半轴上非降的函数,而且函数常取成满足上述条件的函数之导函数。采用估计的关键是确定(或)函数。作为一种稳健估计方法,函数的选取必须满足上述的稳健估计基本思想和参数稳健估计的三个目标。如果将函数选为从而此为最小二乘准则,它不具有抗差性,就不能认为它是一种稳健的估计方法。三、基于选权迭代法的稳健估计方法估计的估计方法有许多种,在测量平差中应用最广泛、计算简单、算法类似于最小二乘平差、易于程序实现的是选权迭代法。设独立观测值为,未知参数向量为,误差方程及权阵为(5.3.1)式中为系数向量。考虑误差方程,估计的函数可表述为(5.3.2)一、等权独立观测的选权迭代法设(5.3.1)式中的权阵,即,按估计极大似然估计准则并取函数为(5.3.2)式,则为(5.3.3)上式对求导,同时记,可得对上次进行转置,得或(5.3.4)再令,并将(5.3.4)写成矩阵形式,得(5.3.5)式中(5.3.6)称为稳健权矩阵,其元素称为稳健权因子,简称权因子,是相应残差的函数。将误差方程(5.3.1)代入所得估计的法方程式为(5.3.7)当选定函数后,稳健权阵可以确定,但是的函数,故稳健估计需要对权进行迭代求解。二、不等权独立观测的选权迭代法误差方程及权阵为(5.3.1)式,Huber于1964提出的估计准则(5.3.3)没有考虑测量中不等精度观测情况,但这种情况在测量平差中是普遍情形,为此,周江文教授于1989年提出了不等权独立观测情况下的估计准则[2]为(5.3.8)与第一节推导类似,将上式对求导,同时记,可得(5.3.9)令,,则有或(5.3.10)将代入,可得估计的法方程为(5.3.11)式中为等价权阵,为等价权元素,是观测权与权因子之积,其定义由周江文给出。当时,则,准则(5.3.8)就是(5.3.3)式,可见后者是前者的特殊情况。上式与最小二乘估计中的法方程形式完全一致,仅用权函数矩阵代替观测权阵。由于权函数矩阵是残差的函数,计算前未知,只能通过给其赋予一定的初值,采用迭代方法估计参数。由此得参数的稳健估计估值为:(5.3.12)用选权迭代法进行稳健估计,测绘界也称为抗差最小二乘法。三、稳健估计算法其计算过程为:(1)列立误差方程,令各权因子初值均为1,即令,,则,为观测权阵;(2)解算法方程(5.3.11),得出参数和残差的第一次估值:(3)由按确定各观测值新的权因子,按构造新的等价权,再解算法方程(5.3.11),得出参数和残差的第二次估值;(4)由构造新的等价权,再解算法方程,类似迭代计算,直至前后两次解的差值符合限差要求为止;(5)最后结果为由于,而,,故随着函数的选取不同,构成了权函数的多种不同形式,但权函数总是一个在平差过程中随改正数变化的量,其中与的大小成反比,愈大,、就愈小,因此经过多次迭代,从而使含有粗差的观测值的权函数为零(或接近为零),使其在平差中不起作用,而相应的观测值残差在很大程度上反映了其粗差值。这样一种通过在平差过程中变权实现参数估计的稳健性的方法,称之为选权迭代法。四、几种常用的函数函数的选取是稳健估计方法的核心问题,为此近20多年来,统计数学界、测量界作了大量研究,提出了许多种不同的函数。本节阐述在测量平差中常用的用于独立观测值的几种函数。1.残差绝对和函数(一次范数)设函数为则估计准则为(5.3.13)误差方程及权阵为(5.3.1)式。相应的权因子和等价权元素为考虑因下面仅列出几种常用的基于等价权的独立观测稳健估计函数、函数及权因子:(1)Tukey的双二次函数式中,,为回归因子。(2)Huber函数式中;在区间取(标准差),在区间取一般取,,为常数,。(3)Hampel三段截尾函数式中,,、、为调制系数。(4)Andrews正弦函数式中,,为常数。(5)IGG方案IGG方案是基于测量误差的有界性提出来的,它对测量抗差估计比较有效。其等价权因子取为:式中,,(淘汰点)。(6)丹麦法式中为常数。四、相关观测的稳健估计方法现代测量手段趋向于向数据采集的自动化和快速化发展,其观测量及观测量的误差都具有一定的特殊性和复杂性。首先,大规模集成化的数据采集手段可同时获取大批量的多类观测数据,对这些数据需进行综合的数据处理和分析,这样的观测量之间大多存在着比较强的相关性,并且观测量中还同时包含了粗差、系统误差及偶然误差,其中粗差和系统误差成为影响最终平差精度的主要因素。在平差处理中,如何发现和区分相关粗差观测量,并消除其影响,是提高大规模整体平差成果精度的一个关键问题。统计学界对相关随机变量的抗差估计几乎没有什么讨论。在测绘界,针对测绘工作的实际情况,我国学者杨元喜、刘经南等提出了一些实用的方法和模型。估计是稳健估计的基本估计类型之一,且在测绘界广泛应用,从估计着手,许多学者推导了许多的相关等价权函数,其中应用最为广泛的是IGGIII方案,IGGIII方案的相关等价权函数为:(5.4.1)式中,。常用的相关等价权函数都是基于反映了观测量间的相关性这一前提,而且在构造相关等价权函数时没有顾及观测量间相关性的不变性,因此现有的相关等价权函数一般会存在下面的几点问题:(1)满足稳健估计规则的相关等价权通常都是非对称的,这种非对称性会给平差计算带来困难而且与实际情况不符。(2)并不能直观地反映观测量之间的相关性,反映观测量之间相关性的是相关系数,而由方差-协方差阵确定。(3)若不考虑相关系数,则对的调整反过来会直接改变观测量的相关性,而观测值的相关性仅取决于观测量本身的几何物理结构,不能随意更改。实际上,如果将粗差归为随机模型,它表现为粗差观测量的先验方差与其实际方差之间有较大的差异,则可以解释为方差膨胀模型(见图5.4.1所示),此时可以通过扩大异常观测的方差来控制粗差的影响。基于这种考虑,刘经南、姚宜斌等(2000)提出基于等价方差-协方差的稳健最小二乘估计方法,具体是根据逐次迭代平差的结果来不断的扩大观测值的方差-协方差,使粗差观测量的先验方差与其实际方差相匹配,以减少粗差的影响。对于估计而言,所构造的函数应满足:(5.4.2)顾及先验方差-协方差,函数应满足:(5.4.3)对于多维估计,其极值函数可表述为:(5.4.4)注意这里用的是方差的逆矩阵,主要是考虑到后面利用最小二乘求解的方便。对(5.4.4)求导,并令为零,同时记,则有(5.4.5)注意上式中省略了对的求导,主要是考虑到对与对求导形式完全相同,且,,故(5.4.10)式中可省去。(5.4.5)式的矩阵表达式为(5.4.6)现直接定义函数,令,,则(5.4.5)式可化为:(5.4.7)为计算的方便,上式两端乘以,则有:(5.4.8)上式具有最小二乘法的一般形式,可用最小二乘法求解。所定义的标准化残差为,并将作为粗差观测量方差-协方差的调整因子。这样若观测值含有粗差,其调整后的方差-协方差为:(5.4.9)式中为调整后的方差-协方差,为先验的方差-协方差,为粗差观测量方差-协方差的调整因子。因此相应的等价方差-协方差函数模型为:(5.4.10)式中的取值一般在之间,而。等价方差-协方差函数模型的特点:(1)该模型是将粗差归为随机模型的方差

1 / 22
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功