Poisson分布的统计分析2Poisson分布的概念描述所观察到的某事件发生次数x的概率对于观察单位充分小的情况下某事件发生是非常罕见的罕见事件:,n很大,而不大,xn0每个格子的大小恰好能容纳一个细菌1L水细分格子数n有限格子中有细菌x0xnx3什么是Poisson分布Poisson分布主要用于描述在单位时间(空间)中某种事件发生数的概率分布放射性物质在单位时间内的放射次数在单位容积充分摇匀的水中的细菌数野外单位空间中的某种昆虫数显然,Poisson分布也是一种离散型随机变量的分布4什么是Poisson分布可以认为满足以下三个条件的随机变量服从Poisson分布:平稳性:X的取值与观察单位的位置无关,只与观察单位的大小有关独立性:在某个观察单位上X的取值与前面各观察单位上X的取值独立(无关)普通性:在充分小的观察单位上X的取值最多为1实际上可以看作是在二项分布要求上更进了一步5什么是Poisson分布Poisson分布的概率分布规律X取值范围为非负整数,即0,1,…;其相应取值概率为式中e:自然对数的底,e≈2.7182;是大于0的常数。X服从以为参数(X的总体均数)的Poisson分布可记为X~P()ekkXPk!6Poisson分布的特性Poisson分布的均数与方差由Poisson分布计算概率公式可见Poisson分布只有一个参数。这个参数就是Poisson分布的总体均数。不同的总体均数对应于不同的Poisson分布总体方差也等于此参数这是Poisson分布的特性7Poisson分布的特性Poisson分布的可加性如果X1,X2,…,Xk相互独立,且它们分别服从Poisson分布,则T=X1+X2+…+Xk也服从Poisson分布,其参数为原各参数之和1+2+…+k正态分布与Poisson分布的关系只取决于均数,均数很小时分布很偏,当均数增加时,逐渐趋于对称当均数越来越大时,Poisson分布逐渐逼近于均数为,方差为的正态分布。据此性质,均数较大的Poisson分布可按正态分布近似计算8=3=5=10=209Poisson分布的特性Poisson分布与二项分布的关系设X~B(n,),则当n→∞且n保持不变时,可以证明X的极限分布是以n为参数的Poisson分布由以上性质可得,当n很大,很小时,二项分布近似Poisson分布。当n很大时,二项分布概率的计算量相当大。因此可以利用二项分布的Poisson近似这一性质,当n很大且很小时,可以用Poisson分布概率计算替代二项分布的概率计算Poisson分布总体均数的估计11小样本时总体均数的估计当待估总体均数与样本均数的观察单位相同时,总体均数的点估计就是样本计数,也就是说此时的样本计数就是样本均数。按照分布规律,直接通过计算不同发生数的概率即可得到区间估计例7.1对某一水体进行卫生学评价,随机取得100ml水样,培养得大肠菌落30个,试估计该水体中平均每100毫升所含大肠菌数的95%可信区间。由于希望求得的是100毫升水样的菌落数可信区间,因此可以将这些水样看作是一个观察单位来进行分析。Cii命令12大样本时总体均数的估计在大样本时可以直接利用正态近似原理得到区间估计当待估总体均数与样本均数的观察单位不同时,要根据样本观察单位进行估计,然后把估计结果进行单位转换,使估计结果中的观察单位与总体观察单位相同(用正态近似方法可以直接变换观察单位)。13大样本时总体均数的估计例7.2测得某放射性同位素半小时内发出的脉冲数为490个,试估计该放射性同位素平均每30分钟脉冲数的95%可信区间。已知n=490,由于此样本计数大于50,故可考虑利用近似正态分布的原理估计其总体均数。这里,待估总体均数的单位是30分钟,样本均数也是观察了1次30分钟得到的,所以应当以30分钟作为一个观察单位可直接按照近似原理计算,或者用cii命令计算由于观察单位数等于1,因此公式中标准误的大小就等于标准差14大样本时总体均数的估计例7.3为了解某地新生儿出生缺陷的发生水平,该地某年内共监测新生儿192000人,其中出生缺陷的发生数为1977人,监测出生缺陷发生率为102.97/万,试估计该地新生儿出生缺陷发生率的95%可信区间。新生儿出生缺陷的发生率常以万分率来表示,如果以1万人为单位,该地监测的新生儿出生数192000人可看作是19.2个观察单位(即n=19.2),其样本均数为102.97,正态近似时的标准差也应当按此计算注意此时标准误的大小不等于标准差计算结果与不同的观察单位大小无关Poisson分布样本均数与总体均数的比较16小样本计算例7.4一般孕产妇的死亡率是56/10万,某地研究者为了解当地孕产妇的死亡率是否低于一般,对该地7500名孕产妇进行监测,其中3名死亡,死亡率为40/10万,试作统计推断。可利用Poisson分布的概率函数直接计算假设检验所需的的概率P值,和检验水准比较之后下结论。17分析步骤H0:当地孕产妇的总体平均死亡数与一般孕产妇的死亡数相等H1:当地孕产妇的总体平均死亡数低于一般孕产妇的死亡数单侧18分析步骤根据Poisson分布概率函数00()!XPXeX,计算!32.4!22.4!12.43210332.422.42.42.4eeeePPPPxP=0.014996+0.062981+0.132261+0.185165=0.395403故按0.05水准,不拒绝0H,尚不能认为该地孕产妇的死亡率低于一般。19正态近似法例7.5利用例7.3的结果,若全国新生儿出生缺陷发生率为89.62/万,研究该地新生儿出生缺陷发生率是否高于全国的水平,试作统计推断。可利用正态近似的原理作以下计算进行u检验20分析步骤H0:当地新生儿出生缺陷平均发生数与全国的平均发生数相等H1:当地新生儿出生缺陷平均发生数高于全国的平均发生数单侧21分析步骤已知1977X,192000n,00.008962故001920000.0098621720.7n,其值远远大于20。可代入公式(7.3):19771720.76.1791720.7u查附表1,标准正态分布界值表,单侧界值U0.05=1.64,得0.0005P,按0.05水准,拒绝0H,接受1H,可认为该地新生儿出生缺陷发生率高于全国。Poisson分布两样本均数的比较23方法原理当两个样本计数均较大时,可根据Poisson分布近似正态分布的性质作u检验。当两样本计数中有一个较小或两个均较小时,可先作变量转换,然后再作适当的检验。本节仅介绍两个样本计数均较大时的u检验。根据两个样本观察单位是否相同,所采用的计算公式又分为两种。24方法原理两样本观察单位相等近似u检验的公式为:显然,是由两样本的u检验公式直接化简而来两样本观察单位不等近似u检验的公式原形不变,但简化后的公式不同2121XXXXu22112122212121////nXnXXXnsnsXXu25等样本分析实例例7.6为研究两水源被污染的情况是否相同,在每个水源各随机抽取10份水样,每份1ml,作细菌培养。甲水源水样共得细菌菌落580个,乙水源水样共得菌落432个,试作统计推断。都是按照10ml进行的计数,因此可以将其看成是一个观察单位如果按1ml来计算,检验结果不变26不等样本分析实例例7.7为研究某省不同性别意外伤害死亡情况有无差异,已知2000年该省疾病监测数据中,男性292512人,女性283474人,因意外伤害死亡的人数分别为180人、60人,试作统计推断由于观察人数不同,因此需要考虑化成相同的观察单位大小,此处可根据喜好自行设定,例如按照每10万人口作为一个观察单位27不等样本分析实例假设检验H0:男女的平均意外伤害死亡人数相同H1:男女的平均意外伤害死亡人数不同=0.05调整相同观察单位P0.001,拒绝H0,可以认为男性平均意外伤害死亡高于女性,差异有统计学意义。11806.15429.2512x2602.11728.3474x1211226.1542.1177.56/'/'6.154/29.25122.117/28.3474xxuxnxn28Stata计算一、Possion分布的总体均数95%可信区间cii观察单位数观察到的发生数,poisson二、单样本Poisson分布确切概率法假设检验poistest样本均数已知总体均数