2020/1/4第三章参数估计理论与应用第三章参数估计理论与应用3.1参数估计的评价准则3.2基于统计分布的参数估计方法3.3基于模型的参数最小二乘估计本章小结2020/1/4第三章参数估计理论与应用在许多情况下,观测数据所服从的概率模型已知的,而模型的未知部分是以未知参数形式出现的。参数估计的基础是优化理论,即被估计的参数应该在某种准则下是最优的,以及任何获得最优的估计。非参数估计方法不假定观测数据服从某种特定的概率模型。例如,频域上的谱估计与谱线拟合就是典型的非参数估计方法。观测到的状态状态控制x(t)y(t)u(t)v(t)w(t)观量噪声设备噪声设备(模型结构已知、参数未知)测量装置图3-1系统辨识中的参数估计问题2020/1/4第三章参数估计理论与应用3.1参数估计的评价准则参数估计是通过样本去估计总体的某些数字特征或统计量。任何一个统计量都可作为参数的估计量,但其效果的优劣有所差别。3.1.1无偏性、有效性与相容性(1)无偏性设样本的总体分布密度函数为p(x;θ),θ是未知参数。从总体中抽取容量为N的样本x={x1,…,xN},用样本的估计量来估计θ,如果希望多次估计中,平均的估计值没有偏差,即则称是θ的无偏估计量。xxxd);()(ˆ]ˆE[pˆˆ2020/1/4第三章参数估计理论与应用例3-1样本均值是总体数学期望的无偏估计。设x1,…,xN是随机过程{xk}的N个独立观测样本,如果参数θ是总体的数学期望E[x],即用样本的均值作为θ的估计量,对该估计量取期望值,有一个无偏估计量在多次估计中将不会产生系统偏差,但并不意味着有偏估计就不好。如果一个有偏估计是渐进无偏的,即xxNNkk11ˆ]E[]E[1]1E[]ˆE[11xxNxNNkNkkk]ˆE[limNN2020/1/4第三章参数估计理论与应用那么它仍然有可能是一个好的估计。考虑实随机过程{xk}的相关函数的两种估计量:假定数据{xk}是独立观测的,容易验证式中,Rx(τ)=E[xk+τxk]是随机数据{xk}的相关函数。以上二式表明,估计量1(τ)是无偏的,而2(τ)则是有偏的。但是,2(τ)是渐进无偏的,即RˆRˆRˆNkkkNkkkxxNRxxNR12111)(ˆ,1)(ˆ)()1(]E[1]1E[)](ˆE[)(]E[1]1E[)](ˆE[112111xNkkkNkkkxNkkkNkkkRNxxNxxNRRxxNxxNR2020/1/4第三章参数估计理论与应用渐进无偏估计量2(τ)是半正定的,而无偏估计量1(τ)却不一定是半正定的,故2(τ)的使用场合较多。(2)有效性如果1和2是两个根据N个独立观测样本得到的无偏估计量,无疑地,对θ的平均偏差较小是选择的标准之一。例如,如果则1的值比2的值更密集地聚集在真值θ的附近。通常将方差(或协方差阵)在所有的无偏估计量中达到最小的称为有效估计量。例3-2设x1,…,xN是N个独立观测样本,若被估计参数RˆˆˆˆˆˆRˆRˆ)()](ˆE[lim2xNRR)ˆ()ˆ(22122020/1/4第三章参数估计理论与应用θ=E[x],则对任何满足都是θ的无偏估计量。利用不等式可得在估计总体的数学期望时,简单的算术平均比加权平均好。(3)一致性估计量的精度是与样本的容量N有关系的。一般说来,总是认为N越大估计的效果应该越好。如果记依赖样本容量N的估计为N,当满足)1('ˆ11NiiNiiicxc,NiiNiicNc1221)()'ˆ()()()()()(212221222NiiNiicxcNxNxxˆ2020/1/4第三章参数估计理论与应用则称N是θ的一致性估计量,或相容估计。例3-3设总体x具有均匀分布,分布密度为其中,θ1和θ2是未知参数。总体样本的均值和二阶矩分别为(严格按定义计算)解得0,0}|ˆ{|limNNP其它,0,/1)(2112xxp22221212213]E[,2]E[xmx32)(32,22/122221mmˆ2020/1/4第三章参数估计理论与应用按矩的估计方法,用独立样本的均值和独立样本的二阶矩,分别作为总体均值和二阶矩的估计量,就有下面说明1和2分别是θ1和θ2的相容估计。设y1,…,yN是具有同分布的独立观测样本,根据大数定律,有令y=x2,就有NNNiixxxxNˆ3ˆ21ˆˆ32)1(32ˆ212/121220,0}|][1{|lim1NiiNyEyNP0,0}|ˆ{|lim}|])[E](E[1{|lim2212222NNNiiNPxxxxNPˆˆ2020/1/4第三章参数估计理论与应用于是3.1.2Fisher信息和Cramer-Rao不等式通常希望获得有效的参数估计量。但是,由于不存在导致最小方差无偏估计量的最佳算法,所以通常采用参数无偏估计的Cramer-Rao下限(或CR下界),作为评价参数估计性能的测度。为了简洁叙述这一的评价测度,先定义一个重要的概念。Fisher信息Fisher信息用J(θ)表示,定义为(3.1.1)0,0}|ˆ{|lim32}|ˆ{|lim0}|ˆ{|lim3}|ˆ{|lim2211NNNNNNPPPP)]|(lnE[}]|(lnE{[)(222xpxpJ2020/1/4第三章参数估计理论与应用当考虑N个观测样本X={x1,…,xN},此时,联合条件分布密度函数可表示为将式(3.1.1)中的p(x|θ)改为p(X|θ)就可给出N个样本变量X的Fisher信息的表达式。定理(Cramer-Rao不等式)设观测样本X={x1,…,xN},若参数估计是真实参数θ的无偏估计,并且条件分布密度函数的p(X|θ)对参数θ的一、二阶偏导数存在,则有(3.1.2)参数的方差所能达到的下限(称为CR下限),即上式等号成立的充要条件是)|,,()|(1Nxxppx]/)|(XlnE[1)(1])ˆE[()ˆvar(222pJˆˆ2020/1/4第三章参数估计理论与应用其中,函数K(θ)0,并与样本向量X无关。当为有偏估计量时,Cramer-Rao不等式为(3.1.3)式中η(θ)为估计偏差,即η(θ)=E[]-θ,并假定b(θ)是可微分的。对于多个参数的情况,记θ={θ1,…,θp},则用矩阵J(θ)表示Fisher信息,其元素Jij(θ)定义为(3.1.4)ˆˆ)ˆ)(()|(lnKpx]/)|(lnE[)d/)(d1()ˆvar(222xp)]|(lnE[)(2θXθpJjiij2020/1/4第三章参数估计理论与应用且Cramer-Rao不等式变为矩阵不等式:(3.1.5)上式表示无偏估计量的协方差矩阵cov()与逆Fisher信息阵之差是一半正定矩阵。Fisher信息是描述从观测数据中得到的θ的“信息”测度,它给出利用观测数据估计参数θ的方差下界。但是,满足这一下界的估计量有的时候可能不存在。3.2基于统计分布的参数估计方法参数估计量的优劣取决于所采用的评价准则(或代价函数)和估计算法。现在介绍已知总体统计分布的两种最有效的参数估计方法:Bayes估计和最大似然估计。θˆ)(])ˆˆE[()ˆcov(12θJθθθT2020/1/4第三章参数估计理论与应用3.2.1Bayes估计在参数估计中,估计误差θ-通常不为零。因此,除了采用前面介绍的无偏、有效和相容估计作为评价准则外,还可以利用估计误差的变化范围作为参数估计的测度,这种测度叫做代价函数,用符号C(,θ)表示。常用的代价函数有绝对型、二次型和均匀型三种。ˆˆ),ˆ(C),ˆ(C),ˆ(CˆˆˆOOO∆/2∆/2绝对型二次型均匀型2020/1/4第三章参数估计理论与应用本节仅介绍最常用的二次型代价函数,即当总体的分布密度函数p(X|θ)已知时,利用X={x1,…,xN}进行参数估计,通常是采用代价函数的期望值作为评价参数估计量效果的测度,并称之为风险函数。使风险函数最小的参数估计叫做Bayes估计;基于二次型风险函数最小的估计称为最小均方误差(minimummeansquareerror,MMSE)估计。二次型风险函数定义为(3.2.1)根据条件概率公式,有22|ˆ||),ˆ(|ˆ|),ˆ(|θθθθMMSEMMSECC或)],ˆ(E[),ˆ(RCddd);()ˆ(])ˆE[(122MMSENxxpRx2020/1/4第三章参数估计理论与应用其中,p(θ|x1,…,xN)是给定N个观测样本X={x1,…,xN}条件下θ的后验分布密度函数。于是,式(3.2.1)可以写成(3.2.2)为使风险函数RMMSE最小,对上式取的偏导,并令其结果为零,便得到由于p(x1,…,xN)是非负的,因此,∂RMMSE/∂=0,等价于上式中[·]=0。故有)()|,,()()|();(1pxxppppNXXXXXXd)(])|()ˆ([2MMSEpdpR0d)(]d)|(2d)|(ˆ2[d)(])|()ˆ(2[ˆXXXXXXXMMSEppppdpRˆˆ2020/1/4第三章参数估计理论与应用(3.2.3)注意,在式(3.2.3)中,利用了以下事实:由此可得出重要的结论:未知参数θ的MMSE估计是给定样本X条件下θ的条件均值。例3-4某一随机参量x服从高斯N(mx,Cx)分布,用仪器可测量其线性组合y,即(1)式中,y-N维,k-N×M维,x-M维,e-N维。],|E[d)|(1MMSENxxpX1d)|(Xpexky2020/1/4第三章参数估计理论与应用其中,测量误差e服从高斯N(0,Ce)分布;k为给定的常数阵。假设(ⅰ)e与x独立;(ⅱ)e与x相关,互协方差函数为Cxe。试分别求出两种情况下的MMSE估计xˆ(y)和估计误差x(y)的协方差Rx(y)。解如果将x看作未知参数,那么,根据上面讨论,x的MMSE估计是给定观测样本{y1,…,yN}时x的条件均值。因此,可利用公式(1.4.16)和(1.4.17)[pp.29](2)(3)来求解。)(1|yyxyxyxmymmCCyxyxyxyxCCCCC1|2020/1/4第三章参数估计理论与应用对式(1)两边取均值,得到(4)将式(1)和(3)代入有关定义式,得(5)(6)(7)T1],[Mxxxxxmmkm,exxxxyxxykemxkmxymxCCmCTTT}])()[E{(]))(E[(xexxyyxkCCCCTTTexexexxxyyykkkkemxkemxkmymyE)(}])(][)(E{[]))([(TTTCCCCC2020/1/4第三章参数估计理论与应用(i)当e与x互相独立,Cxe=0。将式(4)~(7)代入式(2)和(3),得到xˆ(y)的估计及协方差Rx(y)(ii)当e与x相关,只需注意Cxe≠0即可。这个问题留给读者解决。请构造一组数据,在Matlab平台上仿真这两种的估计结果。3.2.2最大似然估计最大似然估计(