粒子物理与核物理实验中的数据分析陈少敏清华大学第二讲:常用概率密度函数本讲要点常用的概率密度函数分布的数学形式相应的平均值与方差相关的应用范围二项式分布N次独立测量,每次只有成功(概率为p)或失败(概率为1-p)两种可能。得到r次成功的概率为rNrpprNrNrP−−−=)1()!(!!)(∑===NprrPrE)(][:μ平均值)1(][][])[(][:2222pNprErErErV−=−=−==μσ方差适用于仪器探测效率的计算适用于仪器探测效率的计算可以证明其满足归一化条件1])1[()1()!(!!=+−=−−∑−NrrNrpppprNrN二项式分布的特点在给定N的情况下,p值越大,概率分布越趋于对称。在给定N的情况下,p值越大,概率分布越趋于对称。举例:探测效率多层阻性板室(MRPC)对带电粒子的探测效率闪烁体1MRPC宇宙线闪烁体2闪烁体1与2同时击中给出穿过MRPC的粒子数NMRPC记录的击中数目N’MRPC探测效率测量值及其误差NpppNNp)1('−=Δ=从二项式到多项式分布类似于二项式分布,但允许结果的可能性m大于两种,概率为1)...,,(121==∑=miimpppppG尝试N次,结果为可能性1:n1可能性2:n2…),...,,(21mnnnn=G得到(n1,n2,…,nm)概率为321...!!...!!)(2121nmnnmpppnnnNnf=GiiNpnE=][:平均值)1(][:iiipNpnV−=方差)(:jipNpVjiij≠−=协方差适用于直方图频数误差估计。适用于直方图频数误差估计。泊松分布泊松分布是二项式分布在N→∞,p→0和Np=常数λ的极限形式。!)(rrerPλλ−=∑===λμ)(][:rrPrE平均值2222:[][()][][]VrErErErσμλ==−=−=方差适用于稀有衰变过程与各种上,下限估计。适用于稀有衰变过程与各种上,下限估计。著名的统计误差估计式nn±举例:光电倍增管暗电流影响在有11146根PMT的探测器中,已知每根PMT暗电流产生的误击中为3.5kHz。求探测器在任意总长度为500μs时间段观察到每隔10nsPMT误击中数目分别为5和6的总次数)次(2.0!64.01056)次(3!54.010554.0644.054≅×××⇒=≅×××⇒=−−ee在10ns间隔观测到PMT误击中的平均数目为8101114635000.4−××=500μs平均数日本超级神冈中微子探测器二项式分布与泊松分布假设一学生站在路边想搭便车。过路的汽车平均频率为每分钟一辆,服从泊松分布。而每辆车让搭便车的概率为1%,计算该学生在过了60辆车以后还未能搭上车的可能性N=60,p=0.01,r=05472.0)01.01(01.0)!060(!0!60:0600=−−−根据二项式分布5488.0!0)01.060(:001.060=××−e根据泊松分布泊松分布是二项式分布的近似。泊松分布是二项式分布的近似。特点:N大p小泊松分布是二项式分布的近似例如:对于以平均值为2的泊松分布而言,相当于二项式分布中的Np=2。当N值增大时,为了保持Np不变,p值相应减小。可以从右图看出,当N大于50时,两种分布的区别几乎可以忽略。rsuccesses(orfailures)ProbabilityN=10N=20N=50N=100泊松分布举例:角分布中的前后不对称e+e-e+e-θ-101计数++eeθcos前向后向B:后向计数;F:前向计数;N=B+F−+−++→→+eeJee例如ψ/:若上述过程平均事例数为ν,则观测到N个事例的概率服从泊松分布!NePNPνν−=在这N个事例中,如果单个事例为前向的概率为f,则观测到F个前向事例的概率满足二项式分布BFBffFBNP)1(!!!−=观测到上述过程N个事例且有F个为前向事例的概率为!)]1([!)()1(BfeFfePPPBfFfBP−×==−−−νννν是前向与后向两个独立泊松分布的产物!是前向与后向两个独立泊松分布的产物!直方图中的误差处理观测量频数在前述角分布前后不对称的析,如果将角分布的前后向再分几个部分,所得到的结论具有普遍性。即所观测分布的直方图可看成与1.一个事例总数满足泊松分布和在每个区间得到n1,n2,n3…事例数为多项式分布有关;2.或者是直方图中每个区间互相独立的泊松分布有关。总数N各区间频数n1,n2,n3…NnnnnnnNNNN=+++=+Δ+Δ+Δ==Δ=Δ......)()()()(或3212322212每个格子的误差为in高斯或正态分布高斯函数具有连续性与对称性,概率密度为⎟⎟⎠⎞⎜⎜⎝⎛−−=222)(exp21),;(σμπσσμxxP∫==μdxxxPxE)(][:平均值2222][][])[(][:σμ=−=−=xExExExV方差在所有统计问题扮演中心角色,应用于所有科学研究领域所涉及的分布。测量误差,特别是仪器误差通常用高斯函数来描述其概率分布。即使在应用中可能有不恰当的地方,仍然可提供与实际情况相近的很好近似。在所有统计问题扮演中心角色,应用于所有科学研究领域所涉及的分布。测量误差,特别是仪器误差通常用高斯函数来描述其概率分布。即使在应用中可能有不恰当的地方,仍然可提供与实际情况相近的很好近似。记为N(μ,σ)从飞镖游戏到高斯分布*)exp()(或)exp()exp(),(有解)()(')()('则0因此)()(),()(222ArCrgAyAxCyxfAyykykxxhxhyyfxxfgykxhyxfrg=====∂∂∂∂+∂∂∂∂=∂∂==θθθ飞镖击中点可看做x-y坐标的函数f(x,y)或极坐标函数g(r,θ)。假设f可分解为相互独立的x与y的函数,g与θ无关,并有θθsin;cosryrx==因h与k相互独立假设飞镖游戏者水平不错,大多数飞镖掷在靶心附近,则A为负值。中心极限定理∑∑∑∑∑∑===∞→=====⇒=⎯⎯→⎯⎟⎠⎞⎜⎝⎛−niiniiniiniininiiiiiiyVyExyxxxn1211n12112i][,][,N(0,1),,σμσμσμ如果因此的正态分布趋于那么变量分布和有限的方差平均值为都服从如果每个个独立的随机变量对于与高斯函数有关的积分形式*dyeyIynn∫+∞∞−−=2实际应用中,我们常感兴趣积分当n为偶数时απαπα====∫∫∞+∞−−+∞∞−−dyeIdyeIyy22)(00上式通过对α求任意次偏微分,可得到相应的积分值,例如απααα21)()(222−=−=−−∞+∞−∫Idyeyy当n为奇数时,In=0,定义∫+∞−=02dyeyJynn有ααα21)(21010122====∫∫∞+−+∞−dyyeJdyyeJyy对求偏微分nJ高斯分布与泊松分布λ=2λ=5λ=10rsuccesses(orfailures)Probability泊松分布高斯分布(μ=λ,σ=√λ)¾泊松分布只有非负整数定义。¾高斯分布是连续且可延伸到正负无穷。¾当泊松分布的平均值越大,与高斯分布的区别就越小。¾实际应用时,当计数或事例数大于5时,可认为误差满足高斯分布。描述高斯分布的特征量FWHM半峰全宽(FWHM)σσ35.22ln22=只需要知道标准偏差σ即可平均值μ变化方向5.0)6745.0(6827.0)(=±=±σμσμ在在xPxP实验结果的正确理解μμ–σμ+σ概率68.3%假设一物理量的真值为X,实验对其进行测量,得到的结果发表为μ±σ该结果应该理解为:物理量的真值落在μ±σ范围内的概率为68.3%,或者说真值落在范围外的概率为31.7%该结果应该理解为:物理量的真值落在μ±σ范围内的概率为68.3%,或者说真值落在范围外的概率为31.7%除非误差远小于我们对平均值测量精度的期待值,否则,在不知道真值的情况下,发表没有误差的实验结果将没有意义。除非误差远小于我们对平均值测量精度的期待值,否则,在不知道真值的情况下,发表没有误差的实验结果将没有意义。但在现实生活中,有时候…报道:经国务院批准,今天上午,国家测绘局受权公布了珠穆朗玛峰高程新数据:珠穆朗玛峰峰顶岩石面海拔高程为8844.43米。从即日起,我国在行政管理、新闻传播、对外交流、公开出版的地图、教材及社会公众活动中使用新数据,1975年公布的珠峰高程数据8848.13米停止使用。国家测绘局同时公布了2005年珠穆朗玛峰高程测量有关参数:珠穆朗玛峰峰顶岩石面高程测量精度±0.21米;峰顶冰雪深度3.50米。国家测绘局局长陈邦柱说,自今年3月起,我国测绘科技工作者继1975年之后第二次对珠穆朗玛峰展开了大规模的测量行动。5月22日11时08分,登山测量队登上珠穆朗玛峰顶峰,竖立了测量觇标,成功获取了珠峰峰顶的测量数据。经过近两个月严密计算、论证和评审,我国测绘科技人员最终确定了珠峰的精确高程。中国科学院院士陈俊勇等专家表示,这次珠峰测高实现了多方面突破和创新:一、第一次大规模地采用GPS卫星大地测量技术,获得了高精度的基础数据;二、在峰顶交会测量中进行了激光测距,大大提高了精度;三、对峰顶冰雪进行了较长时间的雷达探测,首次获得了比较准确的冰雪层的厚度数据;四、进行了大规模的重力测量,测量点超过600个,重力场计算过程中还使用了大量国际上最新的卫星、地形和地理资料;五、在珠峰大本营施放了探空气球,对珠峰高程数据进行了较为科学的气象修正。(记者赵亚辉)多维高斯分布对于随机变量 其多维高斯函数概率密度为),,(1nxxxG=⎥⎦⎤⎢⎣⎡−−−=−)()(21exp||)2(1),;(12/12/μμπμGGGGGGxVxVVxfTn相应的平均值与协方差为ijjiiiVxxxE==],cov[,][μ对于二维情形,其概率密度函数可表示为⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧⎥⎥⎦⎤⎢⎢⎣⎡⎟⎟⎠⎞⎜⎜⎝⎛−⎟⎟⎠⎞⎜⎜⎝⎛−−⎟⎟⎠⎞⎜⎜⎝⎛−+⎟⎟⎠⎞⎜⎜⎝⎛−−−×−=2221112222211122212121212)1(21exp121),,,,;,(σμσμρσμσμρρσπσρσσμμxxxxxxf)/(],cov[2121σσρxx=举例:两测量量的关联研究在中微子振荡实验中,由于无法单独测定不同代中微子的质量与相应的混合角,实验结果必须给出二维高斯分布的等高线,以判断物理量变化的可能范围。⎟⎟⎠⎞⎜⎜⎝⎛Δ−=−=距离中微子中微子产生中微子丢失中微子产生距离LEmNNNLP4sin2sin1)(222θ二项式,泊松与高斯分布的联系二项式分布泊松分布高斯分布rNrpprNrNrP−−−=)1()!(!!)(!)(rrerPλλ−=⎟⎟⎠⎞⎜⎜⎝⎛−−=222)(exp21),;(σμπσσμxxPλμ==∞→NpN,∞→N∞→μ均匀分布在区间(a,b)上均匀分布的连续随机变量,其概率密度函数为x⎪⎩⎪⎨⎧−=01)(abxP当bxa其它2][:baxE+==μ平均值12)()(][:22abxxV−==σ方差均匀分布是用蒙特卡罗模拟随机现象的基础。均匀分布是用蒙特卡罗模拟随机现象的基础。指数分布假设事例数服从泊松分布,!)(rrerPλλ−=由于泊松分布的平均值为,在时间间隔[0,t]内事例的平均数为,则该间隔内事例数也服从泊松分布λtλktkektkPλλ−=!)()(tekPλ−==)0(即以零时刻为前一事例的时刻时,在t时刻无事例的概率。而两个事例的间隔定义为t时,t也服从指数分布tetPkPλλ−===)()1(常用于描述粒子寿命。常用于描述粒子寿命。举例:不稳定粒子的寿命ξξξ/1);(xexf−=对于不稳定粒子,如果其固有衰变时间为X,平均寿命为ξ,则X的概率密度函数服从指数分布。χ2-分布如果 是相互独立的高斯随机变量,按下列方式求和nxx,...,1212/)(iniiixzσμ∑=−=服从自由度为n的χ2的p.d.f为)0(,)2/(2);(2/2/12/≥Γ=−−zenznzfznnΓ函数的定义为∫∞−−≡Γ01)(dxexrxrnzE==μ][:平均值nz