参数估计与置信区间

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

6/28/2008BESIII暑期讲习班1参数估计与拟合陈少敏清华大学工程物理系6/28/2008BESIII暑期讲习班224/01/20202主要内容参数估计最大似然法最小二乘法矩方法MINUIT的使用6/28/2008BESIII暑期讲习班3粒子物理实验研究的目的粒子物理实验的一个重要目的是确定粒子的属性质量、寿命(宽度)、分支比、自旋、宇称…高斯布莱-魏格纳指数(时间)布莱-魏格纳(宽度)角动量守恒J=L+S球谐函数或d函数(角分布)克莱布施–戈丹系数衰变或散射振幅6/28/2008BESIII暑期讲习班4参数估计理论数据数据理论(;)Tx()Dx()Dx(;)Tx概率微积分给定含有参数的理论预言分布,对数据能下何种结论?需要一个步骤来从数据D中估计参数最常用的步骤是“拟合”。统计分析6/28/2008BESIII暑期讲习班5什么是估计量?一个估计量对应于这样一个步骤,它能从实际数据测量值中对一个参数或一个分布的属性给出定量的结果21ˆ()1ˆˆ()()iiiixxNVxxN平均值估计量:方差估计量:===ˆ)ˆ(obspdf记号:所研究数据的函数用来估计某些属性的统计估计量的观测值通常的估计值记为统计估计量估为计6/28/2008BESIII暑期讲习班6如何评判一个参数估计量的好坏?1.符合程度(一致性)2.偏置大小(无偏性)3.方差大小(有效性)ˆ,ˆ(||)0,0nnLimLimP对任何都成立。ˆ[]0bE'ˆ[]ˆ'1ˆ[]ˆnnVLimV对任何估计量,都有,则渐进效佳估计量。6/28/2008BESIII暑期讲习班7参数估计与概率大小的关系1pdf(;)(,...,)nfxxxx考虑有服从分布的数据样本。1(,...,,)m估计或者更为一般地,估计目标:(;)fx如果为真,则有1([,])(,)niiiiiiiPxxdxxfxdx对所有在观察到的如果假设(包括的取值)为真可以预料会使观测结果具有高的概率。如果假设的取值远离真值会使观测结果具有低的概率。6/28/2008BESIII暑期讲习班8似然函数在经典统计理论里,L()并不是的概率密度函数。根据参数好坏与概率大小的关系,可以认为真实的应使得下式定义的似然函数1()(,)niiLfxˆ不是一个随机变量,但却是。有大的数值。()(;),)(LfxLx样本注意:虽然但是只是的函数。这是因为在实验完成以后,就可以被当做常数的缘故。()(|)(|)LLxxpx在贝叶斯统计理论里,把看作给定情况下,的概率密度函数,然后利用贝叶斯定理得到验后概率密度函数。6/28/2008BESIII暑期讲习班9最大似然估计量取最大值ˆ()定义最大似然估计量使最大的值,解方程L1ˆˆ...,,mm通常可以找到对于个参数的解。()01,...,iLim有时候L()可以有好几个极大值注意,1)方法利用了所有信息,与如何划分数据分布区间无关;2)定义的最大似然估计量并不保证它们总是最优的。需要对诸如无偏性,有效性等问题进行研究大样本情况下,最大似然法大都能给出了期待的好结果。小样本的情况,虽然不总是最优,但也能给出最好的实用解。6/28/2008BESIII暑期讲习班10最大似然估计量的唯一性考虑的最大似然估计值是下列方程的解log()0L选用等价参数h()log()0Lh因为log()log()LLhh,0h因此,只要就有ˆˆlog()log()0()LLhˆˆ()hh因此,h的最大似然估计值与参数选取无关,具有唯一性。6/28/2008BESIII暑期讲习班11指数概率密度函数的参数估计考虑指数概率密度函数/1(;)tfte设有数据样本t1,…,tn。为方便起见采用对数形式(对同样的参数值,该定义不改变最大值的位置)。111log()log(;)lognniiiitLftlog0L令,并求解,11ˆniitn是平均寿命的最大似然估计6/28/2008BESIII暑期讲习班12指数型最大似然估计是无偏的11joint1111///1/ˆˆ[(,...,)]...()(;)...1....11...1111..njittnnnininttiijijiniEtttftdtdttdtdtntedteeedtnnˆ因此,是的一个无偏估计量。ˆ[]E一种较简单的方法是计算6/28/2008BESIII暑期讲习班13估计量的方差:数值方法指数分布平均值的估计量为:11222//112//112ˆˆˆ[][]([])111.........111.........nnnttininttiniVEEteedtdtnteedtdtnn11ˆniitnˆ(;,)gn对应的概率密度函数分布的宽度可以估计ˆtn的方差比的方差小倍。6/28/2008BESIII暑期讲习班14估计量的方差:蒙特卡罗方法ˆ(;,)gn可采用蒙特卡罗方法得到Nexp=1000蒙特卡罗模拟可给出标准偏差exp1/22ˆ1exp1ˆˆˆ()1NiiNˆ(;,)gn近似服从高斯分布。根据中心极限定理,可以断定在大样本极限下它确实是高注意:斯分布。ˆˆ(;,)gn通常情况下,的具体形式并不知道。对于此类情况,ˆpdfˆ,理论预言的,数据分析得到。在蒙特卡罗中,把其作为的真值。产生与数据样本一样大小的样本,并重复多次。计算每次实验的并填入直方图。6/28/2008BESIII暑期讲习班15估计量的方差:RCF边界法任何估计量(不仅仅是最大似然法)的方差下界为也称为Rao-Cramér-Frechet不等式。通常假设上述结论为真,利用RCF边界估计222logˆ[]1bLVE(b为偏置)ˆ[]V最大似然估计量对大的样本统计量n几乎总是有效的。ˆ如果等式满足,就可以说是有效的。6/28/2008BESIII暑期讲习班16指数型函数估计量的RCF边界22221ˆlog21211niiLnntn已知估计是无偏的b=0,所以由RCF边界可得22211ˆ[]ˆ2[]ˆ211VnEnnE=真的方差ˆn最大似然法的估计量对任何样本统计量大小都是有效的。对指数型函数求二阶导数6/28/2008BESIII暑期讲习班17RCF边界与HESSE矩阵对于只有一个参数的情况,可以得到求logL的最大值可通过数值计算来完成,二阶导数的矩阵(Hessian矩阵)是通过有限差值来估计。2log多参数情况下,的期待值是参数真值的函数ijL21ˆlog()ijijLV22ˆ2ˆlog1/L调用CERN的MINUIT软件包中的HESSE程序6/28/2008BESIII暑期讲习班18例子:估计实验所需的统计量质子与反质子弹性散射实验,观测量为散射角x=cos,服从f(x;)=0.5×(1+x),其中是反映反质子极化的参数。目前测量值为0.10±0.02,要想在统计上将相对误差减少到5%,总共需要多少个事例?由信息不等式,任何估计量的方差下界为222logˆ1bLVE对于本问题,b=0,111,12nnniiiiLfxx6/28/2008BESIII暑期讲习班19例子:实验所需的统计量(续)222222111log1loglog1211nnniiiiiiiixxLnxxx22211221112313log11221111412ln1221ln221LxnxEnxdxdxxxnxxxn由信息不等式,31ˆ1log221nV25ˆ=0.10ˆ0.005=2.510V带入不等式可以求得n1.2105。6/28/2008BESIII暑期讲习班20估计量的方差:图解法也就是222ˆlog1logˆˆˆlog()log()()()...2!LLLLmaxˆlog()logLL令,并且上式第二项为零,因此有2max2ˆˆ()log()log2LLˆmax1ˆˆlog()log2LLˆˆˆlog为了得到,可以让偏离,使得值减掉一个1/数值。2Lˆlog()L考虑单参数情况下,将在附近展开,6/28/2008BESIII暑期讲习班21推广的最大似然法21如果考虑了样本大小n也是泊松分布的随机变量,平均值为,那么1,,...,nnxx实验结果定义:1(;(,!))ninienLfx()假设理论给出,去掉与无关的项,有11log()log()()log(;)()log(()(;))niniiLnfxfx1()(,)niiLfx6/28/2008BESIII暑期讲习班22BES上的质量测量22()++过程的反应截面已知;与的束流强度已知。因此在给定能量和时间段内,反应过程:已知:实预期的事例数为。通验原理:过改变质心能量,观测反应事例数来确定产生的,从而达到测量的目的能量阈质量。轻子eeeeeWWdWnet,第个能量点的实验结果:iiinW1!(,)(;)iiinijinjienfWmLm能量点i(;)探测效率对同一能量点为常Data-Driven寻找方式给出数。jfWm111ˆ(,)=2(,)ˆ...iiiiinWWmWmn阈值PRL69,3021(1992)6/28/2008BESIII暑期讲习班23推广的最大似然法:独立23,,假设是在函数上相互独立的,11(,)(;)!1(;0!ˆ)ˆ0nniinniiiiLefxnLnefnLnx与普通最大似然法确定的要求一样(;)fx适用于对处理是已知分量叠加的情况。可以将其分解成单独求与估计值的问题。例如:是信号与本底分量的叠加。6/28/2008BESIII暑期讲习班24推广的最大似然法:独立(续)24,1(;)()miiifxfx根据概率的定义可知并非所有的i独立,因此有11()1()mmmimifxfx在推广的最大似然法中11log(,)log()nmjjiijLfx在总事例数n中,第i部分事例数为i=i111log()log()mnmjjjijijLfx如果联合概率密度函数可以表示为11mii6/28/2008BESIII暑期讲习班25可能出现的负值问题25假设有两类事例:信号(s)与本底(b)()()()sbsbsbsbfxfxfxsb()

1 / 75
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功