2第四章常用概率分布流行病学与卫生统计学教研室姚雪梅42020/1/212第四章常用概率分布正态分布二项分布Poisson分布4第一节正态分布2020/1/213正态分布的概念和特征标准正态分布正态分布的应用42020/1/214一、正态分布概念和特征(一)正态分布的概念(二)正态分布的特征42020/1/215120名正常成年男性血清铁含量(umol/L)的频数分布n=1000,i=1cmn趋近无穷大时42020/1/216(一)正态分布的概念身高的频数分布图频数曲线频率曲线n概率分布n较大42020/1/217若指标或变量X的频数或频率分布曲线对应于数学上的正态分布曲线,则称该指标服从正态分布。(一)正态分布的概念42020/1/218(二)正态分布的特征正态分布曲线正态分布的两个参数正态分布曲线下横轴上面积有一定规律42020/1/2191.正态分布曲线正态曲线(normalcurve):高峰位于中央,两侧逐渐下降并完全对称,曲线两端永远不与横轴相交的钟型曲线。该曲线的函数表达式f(X)称为正态分布密度函数:22()21()2XfXe42020/1/21102.正态分布的两个参数均数μ位置参数标准差σ形状(变异度)参数有了μ和σ就可把正态分布曲线确定下来。X变量值服从正态分布常表示为:X~N(μ,σ2)42020/1/2111正态分布的两个参数对曲线的影响μ=-2μ=0μ=2σ=1时,μ变化时曲线变化的情况42020/1/2112正态分布的两个参数对曲线的影响σ=1.5σ=1μ=0σ=2μ=0时,σ变化时曲线变化的情况42020/1/21133.正态分布曲线下横轴上面积有一定规律正态分布横轴上曲线下面积等于1正态分布曲线下面积的分布规律42020/1/211442020/1/2115二、标准正态分布(standardnormaldistribution)标准正态分布与标准化变换标准正态分布的特征标准正态分布曲线下的面积表42020/1/21161.标准正态分布与标准正态变换X~N(μ,σ2)XZμσ标准正态变换(或Z变换)Z~N(0,1)标准正态分布或Z分布42020/1/21172.标准正态分布的特征标准正态分布特征同正态分布,它是正态分布的特例。每一条正态分布曲线经Z变换都可转换为标准正态分布。正态分布取值与标准正态分布取值具有一一对应的关系;曲线下的面积也具有一一对应的关系。例如:X~N(μ,σ2),X1→Z1,X2→Z2,正态分布曲线下区间(X1,X2)面积等于标准正态分布曲线下区间(Z1,Z2)的面积。42020/1/21183.标准正态分布曲线下的面积表附表1:标准正态曲线下的面积表Φ(Z)列出了标准正态曲线下-∞到Z(Z≤0)的左侧累计面积。横标目是Z值的整数和个位小数,纵标目是Z值的十位上的小数,表格内的数据表示的是(-∞,Z)的面积。因为Z分布是对称的,所以只列出了一半的面积。42020/1/2119附表1(标准正态曲线下的面积表)应用当Z~N(0,1)时:•可得Φ(Z):-∞到Z(Z≤0)的面积。•可得Φ(-Z)=1-Φ(Z)(Z≤0)•对于任意两值(Z1,Z2)范围内的面积P(Z1ZZ2)=Φ(Z2)-Φ(Z1)当X~N(μ,σ2)时•对于服从正态分布任意两值(X1,X2)范围内的面积P(X1XX2)=P(Z1ZZ2)42020/1/2120例题Φ(-1.23)=0.1093Φ(1.23)=1-0.1093=0.8907Φ(-2.09)=?Φ(2.58)=?P(-1.96Z1.96)=?P(-2.58Z2.58)=?若X~N(2,22)时,P(1X4)=?42020/1/2121例某地1986年120名8岁男孩身高均123.02cm,标准差为4.79cm,试估计(1)该地8岁男孩身高在130cm以上者占该地8岁男孩总数的百分比;(2)身高在120cm~128cm者占该地8岁男孩总数的百分比;(3)该地80%的男孩身高集中在哪个范围?42020/1/2122三、正态分布的应用确定医学参考值范围42020/1/2123确定医学参考值范围(medicalreferenceranges)医学参考值范围概念确定医学参考值范围的原则确定医学参考值范围的方法42020/1/21241.医学参考值范围概念参考值范围:医学上绝大多数正常人某项指标值的变动范围(常可用于临床诊断,例如白细胞计数、血压参考值)正常人:是指排除了影响所研究指标的疾病和有关影响因素的同质人群。绝大多数一般指的为90%、95%或99%。42020/1/21252.确定医学参考值范围的原则样本量(例数)应大于100.统一测定方法以控制系统误差。判断是否需要分组(如性别、年龄)确定。根据专业知识决定单侧还是双侧。42020/1/2126单侧下限-过低异常单侧上限-过高异常双侧-过高、过低均异常单侧下限异常正常单侧上限异常正常异常正常双侧下限双侧上限异常例如:肺活量例如:血铅含量例如:白细胞计数42020/1/2127正态分布法百分位数法3.确定医学参考值范围的方法42020/1/2128(1)正态分布法适用条件:变量值服从正态分布或近似正态分布参考值范围%双侧单侧下限上限9095991.64XS1.96XS2.58XS1.28XS1.28XS1.64XS2.33XS1.64XS2.33XS42020/1/2129(2)百分位数法适用条件:变量值服从偏态分布或分布不明的参考值范围%双侧单侧下限上限90P5~P95P10P9095P2.5~P97.5P5P9599P0.5~P99.5P1P9942020/1/2130制定参考值范围的步骤根据排除、纳入标准抽样,采集所需数据根据专业知识决定单、双侧确定置信度(一般为95%)按资料分布类型选取适当的方法计算该指标的医学参考值范围42020/1/2131某地调查正常成年男子144人的红细胞数(近似正态分布),得均数=55.38×1012L,标准差S=0.44×1012L。试估计该地成年男子红细胞数的95%的参考值范围。x例题42020/1/2132分析:资料近似服从正态分布,选用正态分布法;红细胞数过多过少均为异常,需确定双测参考值范围。正态分布法双侧95%参考值范围的公式为:代入数据得,该地成年男子红细胞数的95%的参考值范围为(54.52,56.42)×1012L1.96XS42020/1/2133发汞(Zg/g)男性女性合计频数累计频数累计频率%1~81220208.33~3135668636.05~28326014661.07~23254819481.29~1171821288.711~1241622895.413~33623497.915~10123598.317~10123698.719~21213239100.0合计120119239--在某市测得239名正常人的发汞值,试估计其95%的参考值范围4第二节二项分布(binomialdistribution)二分类资料,观察对象的结局只有相互对立的两种结果。例如:生存、死亡阳性、阴性发病、不发病治愈、未愈4二项分布的定义从阳性率为π的总体中随机抽取含量为n的样本,恰有X例阳性的概率为:X=0,1,2,…,n则称X服从参数为n和的二项分布,记为:X~B(n,)。其中参数n由实验者确定,而常常是未知的。XXnXnCXP)1()(4如已知n=3,=0.8,则恰有1例阳性的概率P(1)为:096.08.0)8.01()!13(!1!3)1()1(113111nnCP4二项分布二项分布的特征1、二项分布的图形特征接近0.5时,图形是对称的;图4-1离0.5愈远,对称性愈差,但随着n的增大,分布趋于对称。图4-2当n→∞时,只要不太靠近0或1,当nP和n(1-P)都大于5时,二项分布近似于正态分布。二项分布图形取决于与n,高峰=n处4二项分布图4-1π=0.5时,不同n值对应的二项分布n=3,π=0.500.10.20.30.4012345678910111213xP(x)n=10,π=0.500.10.20.30.4012345678910111213xP(x)4二项分布图4-2π=0.3时,不同n值对应的二项分布n=3,π=0.300.10.20.30.40.50123456789101112131415xP(x)n=6,π=0.300.10.20.30.40.50123456789101112131415xP(x)n=10,π=0.300.10.20.30.40.50123456789101112131415xP(x)n=20,π=0.300.10.20.30.40.50123456789101112131415xP(x)4二项分布2、二项分布的均数和标准差总体均数:方差:标准差:n)1(2n)1(n4二项分布如果将出现阳性结果的频率记为总体均数:标准差:nXppnp)1(4二项分布二项分布的应用(一)概率估计例4-5如果某地钩虫感染率为13%,随机观察当地150人,其中有10人感染钩虫的概率有多大?从n=150,π=0.13的二项分布,由公式(4-1)和(4-2)4二项分布可以得出150人中有10人感染钩虫的概率为0055.087.013.0)!10150(!10!150)10(14010XP4二项分布单侧累积概率计算二项分布出现阳性的次数至多为k次的概率为出现阳性的次数至少为k次的概率为kXkXXnXXnXnXPkXP00)1()!(!!)()(nkXnkXXnXXnXnXPkXP)1()!(!!)()(4二项分布例4-6例4-5中某地钩虫感染率为13%,随机抽查当地150人,其中至多有2名感染钩虫的概率有多大?至少有2名感染钩虫的概率有多大?至少有20名感染钩虫的概率有多大?4二项分布根据公式(4-10)至多有2名感染钩虫的概率为至少有2名感染钩虫的概率为2020)1()!(!!)()2(XXXnXXnXnXPXP78101011.21080.11047.871030.215021502150)13.01(13.0)!150(!!150)()2(XXXXXXXPXP)]1()0([1XPXP]1080.11047.8[181014二项分布至少有20名感染钩虫的概率为1502015020150)13.01(13.0)!150(!!150)()20(XXXXXXXPXP190190150)13.01(13.0)!150(!!1501)(1XXXXXXXP4879.04二项分布的应用条件各观察单位只能有互相对立的一种结果,属于二分类资料已知发生某一结果(如阴性)的概率不变,其对立结果(如阳性)的概率则为1-n次试验在相同条件下进行,且各观察单位的结果互相独立4第三节Poisson分布单位时间、单位空间内某事件的发生数单位人群(较大)中某稀有事件的发生数放射性物质每分钟放射的脉冲数每ml水中大肠菌群数、每升空气中粉尘数、每1万个细胞中有多少个发生突变某地每天的交通事故数、某工矿企业每天的工伤人数足球比赛每场的进球数生物:每平方公里有多少植物4Poisson分布Poisson分布可以看作是发生的概率(或未发生的概率1-)很小,而观察例数n很大时的二项分布。除二项分布的三个基本条以外,Poisson分布还要求或(1-)接近于0或1(例如0.001或0.999)。4Poisson分布Poisson分布的特征Poisson分布的概率函数为式中,为Poisson分布的总体均数,X为观察单位内