CERN-ROOT-粒子物理与核物理实验中的数据分析-第二讲

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

11/04/20201粒子物理与核物理实验中的数据分析杨振伟清华大学第二讲:基本概念(续)艾滋病检验结果再认识11/04/20202()0.001()()0.032()PAIDSPAIDS验前概率验后概率对于个人而言,0.032是主观概率。如果没有其它额外的信息时,应把0.001当作相对频率解释。但是往往在病毒检验前,该相对频率被当作一种信念来处理个人是否患病。如果还有其它额外的信息,应该给出不同的先验概率。这种贝叶斯统计的特点必定是主观的。例如,受检者有过吸毒历史。一旦验前概率改变,贝叶斯定理就会告诉患病的可能性。对阳性结果的诠释就会改变。问题:能否构造含自变量的概率?11/04/20203随机变量与概率密度函数假设实验结果为x(记作样本空间中元素)的概率为([,])()Pxxxdxfxdx观测到在范围内那么概率密度函数p.d.f.定义为f(x),它对全部样本空间S满足()1Sfxdx定义累积分布函数为()()xFxfxdx对于离散型随机变量1(),1,()()iniiiiixxfPxfFxPx)(xf)(xFxx分位数、中值与模11/04/20204分位点x定义为随机变量x的值,它使得()Fx这里01。因此可以容易求出分位点1()xF随机变量x的中值定义为11/2(1/2)xF随机变量x被观测到大于或小于中值的概率是相等的。模定义为使概率密度函数值达到极大的随机变量值。11/04/20205直方图与概率密度函数概率密度函数p.d.f.就是拥有无穷大样本,区间宽度为零,而且归一化到单位面积的直方图。()()()()NxfxnxNxnx每个区间的事例数频数填入直方图的总事例数区间的宽度)(xN)(xN)(xN)(xfxxxx直方图在统计分析中非常重要,应准确理解它的含义。11/04/20206多变量情形如果观测量大于一个,例如x与y()(,)(,)p.d.f.(,)1PABfxydxdyfxyfxydxdy联合的11/04/20207边缘分布将联合概率密度函数p.d.f.分别投影到x与y轴y)(yfyx)(xfxyx()(,)y()(,)(),()p.d.f.xyxyxfxfxydyfyfxydxfxfy投影到轴:投影到边缘的轴:定义:若x,y相互独立,则可构造2-维p.d.f11/04/20208条件概率密度函数利用条件概率的定义,可得到dxxfdxdyyxfAPBAPABPx)(),()()()|(定义条件概率的密度函数p.d.f.为)(),()|(,)(),()|(yfyxfyxgxfyxfxyhyx则贝叶斯定理可写为)()()|()|(yfxfxyhyxgyx)()(),(yfxfyxfyxh(y|x)yyxdxdx11/04/20209名词总汇随机事例概率条件概率相对频率与主观概率贝叶斯定理随机变量概率密度函数条件密度函数直方图11/04/202010问题()(|)()PABPABPB条件概率如果A与B相互独立,则从文恩图上得到0AB因此()(|()0)()0???()PABPABPBPAAPB11/04/202011解答:概率都是条件概率由柯尓莫哥洛夫公理,我们定义了概率P(A)。但在实际应用中,我们总是对A相对于许多样本空间的概率感兴趣,而不仅仅只是一个空间。因此,通常以记号(|)PAS来表示所进行的研究是在特定的样本空间S中,也就是A相对于S的条件概率。因此,所有概率在实际应用中都是条件概率。只有当S的选择是明白无误时,才能简单记为(|)PAS()PA11/04/202012解答:互斥与相互独立互斥的定义为ABAB也就是两个事例的定义没有交集。所给出的推论为0()()()ABPABPAPB相互独立的定义为()()()PABPAPBAB如果则与相互独立。因此,根据定义两个相互独立的事例不意味着是互斥的。前面的问题属于把两者定义混淆了。11/04/202013证明举例:事例与逆事例如果A是在S中的任意一个事例,则()1()PAPA证明:由于A与根据定义是互斥的,并且从文恩图得到AAAS因此可以写出()()()()1PAPAPAAPS()1()PAPA11/04/202014举例:检查给定概率的合理性如果一个实验有三种可能并且互斥的结果A,B和C,检查下列各种情况给出的概率值是否是合理的:1)()1/3,()1/3,()1/32)()0.64,()0.38,()0.023)()0.35,()0.52,()0.264)()0.57,()0.24,()0.19PAPBPCPAPBPCPAPBPCPAPBPC结论:只有1)与4)是合理的。评论:作为一个合格的实验研究人员,一定要具备判断结果是否合理的能力!11/04/202015举例:检查经验概率密度函数221)()1,2,3,422)()0,1,2,3,425xfxxxhxx对于对于实验上经常经验性地从直方图中给出概率密度函数(例如通过拟合直方图分布等等),但是需要确定得到的函数是否满足概率密度函数的定义,例如试判断哪一个可以用作概率密度函数?答案:1)有负概率值;2)累积函数值大于1。因此,两者在给定的随机变量范围内都不能用作概率密度函数。11/04/202016数据分析中的问题粒子与核物理实验中对动量的测量通常是分别测量xypzp在已知两分量测量值的概率密度函数情况下,总动量为如何导出总动量的测量值的概率密度函数?22xyzppp(,)xyzfpp()gp是研究随机变量函数的p.d.f问题。11/04/202017一维随机变量的函数随机变量的函数自身也是一个随机变量。假设x服从p.d.f.f(x),对于函数a(x),其p.d.f.g(a)为何?()()()()()()[,]()()()()(())dSxadaxadxxadadaxagadafxdxdSaaadaxgadafxdxfxdxdxgafxada在内的空间范围cos:与例如11/04/202018函数的逆不唯一情况假如a(x)的逆不唯一,则函数的p.d.f.应将dS中对应于da的所有dx的区间包括进来2:,,2()(),,22()()()22dSdaaxxadxagadafxdxdadadSaaaaaafafagaaa例如11/04/202019多维随机变量的函数考虑随机矢量与函数,对应的p.d.f.),...,(1nxxx)(xa11()(,...,)...()()nndSgadafxxdxdxdSaxaaxadax在与定义的曲面空间范围如果两个独立变量x与y,分别按g(x)与h(y)分布,那么函数z=xy应具有何种形式?(,)()()fxygxhy()/||/||()(,)()()()()dSdSzdzxzxfzdzfxydxdygxhydxdygxdxhydy多维随机变量的函数(续一)11/04/202020()()()()()||||zdxzdyfzgxhghyxxyyfgh记作g与h的Mellin卷积如果函数为z=x+y,则应具有何种形式?()()()()()fzgxhzxdxgzyhydyfgh记作g与h的傅立叶卷积注意:通常将两者皆称为g与h的卷积,已相同记号表示。11/04/202021多维随机变量的函数(续二)考虑具有联合的p.d.f.的随机矢量,构造个线性独立的函数:,而且其逆函数存在。那么的联合p.d.f.为1(,...,)nxxxn1()((),...,())naxaxax1(),...,()nxaxaa()()gaJfx这里是雅可比行列式J1111222212nnnnxxxaaaxxxaaaJxa任意一个函数均可通过对函数积分掉其它不用的变量而得到。是数据处理中误差传递的基础。()iiga()ga11/04/202022期待值考虑具有p.d.f.的随机变量,定义期待(平均)值为)(xfxdxxfxxE)(][注意:它不是的函数,而是的一个参数。x)(xf通常记为:][xE对离散型变量,有niiixPxxE1)(][对具有p.d.f.的函数,有)(xy)(ygdxxfxydyyygyE)()()(][方差定义为222][]])[[(][xExExExV通常记为:2][xV标准偏差:211/04/202023协方差与相关系数定义协方差(也可用矩阵表示)为],cov[yxxyVyxyxxyEyxEyx][)])([(],cov[相关系数定义为11,],cov[xyyxxyyx如果x,y独立,即)()(),(yfxfyxfyx则0],cov[yx11/04/202024举例:样本平均值假设实验上研究一核素衰变寿命,在探测效率为100%的情况下,每次探测到的寿命为ti,一共测量了n次,求平均寿命(也就是寿命的期待值)。根据离散型期待值的定义1[]()niiiEttPt问题的关键是ti的概率密度函数是什么?根据概率的相对频率定义,在n次测量中出现ti频率为一次1()iPtn因此,期待值(或平均寿命)为1111[]nniiiiEtttnn思考:如果频率为mi次,结果会不同吗?11/04/202025误差传递),...,(1nxxx假设服从某一联合p.d.f.,我们也许并不全部知道该函数形式,但假设我们有协方差)(xf],cov[jiijxxV和平均值][xE现考虑一函数,方差是什么?)(xy22])[(][][yEyEyV将在附近按泰勒展开到第一级)(xy)()()(1iixniixxyyxy然后,计算与…][yE][2yE11/04/202026误差传递(续一)由于0][iixE所以利用泰勒展开式可求)()]([yxyEijxnjijinjjjxjniiixiiixniiVxyxyyxxyxxyExExyyyxyE1,211122)()()(][)(2)()]([11/04/202027误差传递(续二)两项合起来给出的方差)(xy2,1[]nyijijijxyyVyVxx如果之间是无关的,则,那么上式变为ixijiijV22221[]nyiiixyVyx类似地,对于组函数m))(),...,(()(1xyxyxym11/04/202028误差传递(续三)ijxnjijliklkklVxyxyyyU1,],cov[或者记为矩阵形式xjiijTxyAAVAU,)(xy注意:上式只对为线性时是精确的,近似程度在函数非线性区变化比要大时遭到很大的破坏。另外,上式并不需要知道的p.d.f.具体形式,例如,它可以不是高斯的。iix11/04/202029误差传递的一些特殊情况],cov[2212221221xxxxyy2121222221212221],cov[2xxxxxxyxxyy注意在相关的情况下,最终的误差会有很大的改变,例如当1,10,212121xxy0,0211][,0][:14.1,211][,0][:022212221

1 / 40
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功