常用概率分布郜艳晖广东药学院卫生统计学教研室卫生统计学变量类型定量变量定性变量统计分析统计描述统计推断样本信息总体特征总体样本统计量参数抽样统计描述统计推断样本信息总体特征总体均数总体率样本均数样本率Xp分布规律常用概率分布二项分布(BinomialDistribution)Poisson分布(PoissonDistribution)正态分布(NormalDistribution)二项分布(BinomialDistribution)总体二项分布概率0.8×0.8×0.80.8×0.8×0.20.2×0.2×0.80.2×0.8×0.20.8×0.2×0.20.2×0.2×0.20.2×0.8×0.80.8×0.2×0.8200.X01238001.3n概率0.8×0.8×0.80.8×0.8×0.20.2×0.2×0.80.2×0.8×0.20.8×0.2×0.20.2×0.2×0.20.2×0.8×0.80.8×0.2×0.8概率P(X)300320120).(.C211320120).(.C122320120).(.C033320120).(.CX0123有X个黑球(阳性)的概率P(X)=?XnXXnCXP)1()(3n概率P(X)512.0)2.01(2.03003C384.0)2.01(2.02113C096.0)2.01(2.01223C008.0)2.01(2.00333CX01231)8020(00800960384051203......XnXXnCXP)1()(0123二项分布的定义总体阳性率样本含量在总体率为的总体中随机抽样,抽取样本含量为n的样本,有X例为阳性的概率:称X服从二项分布,记为:XnXXnCXP)1()(X~B(n,)n)!(!!XnXnCXn121)n)(n(n!n二项分布的应用条件观察结果是二分类变量,如阳性与阴性、治愈与未愈、生存与死亡等;每个观察对象发生阳性结果的概率为,发生阴性结果的概率为1-;各个观察对象的结果是相互独立的。二项分布的图形(见pdf.sas)n=3,π=0.300.10.20.30.40.50123456789101112131415xP(x)n=6,π=0.300.10.20.30.40.50123456789101112131415xP(x)n=10,π=0.300.10.20.30.40.50123456789101112131415xP(x)n=20,π=0.300.10.20.30.40.50123456789101112131415xP(x)图4-2π=0.3时,不同n值对应的二项分布二项分布的图形图4-1π=0.5时,不同n值对应的二项分布二项分布的图形特征离散型分布二项分布图的形态取决于n与,高峰在=n处当接近0.5时,图形对称;离0.5愈远,对称性愈差,但随着n的增大,分布趋于对称。当n→∞时,只要不太靠近0或1,二项分布近似于正态分布。n=10,π=0.300.10.20.30.40.50123456789101112131415xP(x)二项分布的均数和标准差如果每次试验出现阳性结果的概率均为π,进行n次独立重复试验,出现X次阳性结果,则X的总体均数:总体方差:总体标准差:211XXXnnnn=10,π=0.300.10.20.30.40.50123456789101112131415xP(x)二项分布的均数和标准差如果出现阳性结果的频率为,则p的总体均数:总体方差:总体标准差:nXppnp)1(np)1(2实例:已知钩虫感染率为6.7%,如果随机抽查某地150人,记样本钩虫感染率为,求的标准差(抽样误差)。ppp%0.2150)067.01(067.0)1(npn=10,π=0.300.10.20.30.40.50123456789101112131415xP(x)二项分布概率估计例4-5:如果某地钩虫感染率为13%,随机观察当地150人,其中有10人感染钩虫的概率有多大?感染钩虫的人数X~B(150,13%)150人中有10人感染钩虫的概率为0055.087.013.0)!10150(!10!150)10(14010PXnXXnCXP)1()(n=10,π=0.300.10.20.30.40.50123456789101112131415xP(x)二项分布累计概率计算二项分布出现阳性的次数至多为k次的概率为:出现阳性的次数至少为k次的概率为:)(...)1()0()()(0kpppXPkXPkXnkXkXpXPkXP)1(1)()()(...)1()(npkpkp或n=10,π=0.300.10.20.30.40.50123456789101112131415xP(x)例4-6:某地钩虫感染率为13%,随机抽查当地150人,其中至多有2名感染钩虫的概率有多大?20)2()1()0()()2(XpppXPXP78101011.21090.11047.871031.2n=10,π=0.300.10.20.30.40.50123456789101112131415xP(x)例4-6:某地钩虫感染率为13%,随机抽查当地150人,其中至少有2名感染钩虫的概率有多大?])1()0([1)()2(1502XppXPXP]1090.11047.8[18101Poisson分布(PoissonDistribution)Siméon-DenisPoisson21June1781(Pitviers)-25Apr1840(Paris)总体0.00010.9999很小,n很大,X为单位(面积、容积、时间等)内某稀有事件发生数。10万(单位人口)人中某恶性肿瘤的发生数;1ml(单位体积)水中大肠杆菌数;1h(单位时间)内放射物质的放射次数;显微镜中1个视野(单位面积)内血细胞的计数;1cm3(单位体积)空气中粉尘的计数;……Poisson分布的定义可以证明:很小,n很大时,单位(面积、容积、时间等)内某稀有事件发生数X的概率称X服从Poisson分布,记作X~Poisson()X=0,1,2,……。!)(XeXPXnXnXXnCXP)1()(Poisson分布的应用条件观察结果是二分类变量,如阳性与阴性、治愈与未愈、生存与死亡等;每个观察对象发生阳性结果的概率为,发生阴性结果的概率为1-;各个观察对象的结果是相互独立的;接近0或1。某地20年间共出生肢短畸形儿10名,现随机抽取1年,这1年中出生肢短畸形儿的人数为X,则X分别为0,1,2,……的概率为?表4-2某地每年出生肢短畸形儿概率分布X012345P(X)0.6070.3030.0760.0130.0020.000!)(XeXPX表4-2某地每年出生肢短畸形儿概率分布X012345P(X)0.6070.3030.0760.0130.0020.000012345XP(X)!)(XeXPXPoisson分布的图形(见pdf.sas)λ=100.10.20.30.40246810121416182022xP(x)λ=300.10.20.30.40246810121416182022xP(x)λ=600.10.20.30.40246810121416182022xP(x)λ=1000.10.20.30.40246810121416182022xP(x)Poisson分布的图形特征离散型分布Poisson分布的图形与有关。愈小,分布愈偏,随着增大,分布趋于对称。λ=300.10.20.30.40246810121416182022xP(x)Poisson分布的均数和标准差很小,n很大时,单位(面积、容积、时间等)内某稀有事件发生数X的总体均数:总体方差:总体标准差:2XnXXλ=300.10.20.30.40246810121416182022xP(x)Poisson分布的特性Poisson分布的总体均数等于方差,均为Poisson分布具有可加性。)(P~X),(P~X),(P~X332211若)(P~XXX321321则λ=300.10.20.30.40246810121416182022xP(x)Poisson分布概率估计例4-7:如果某地新生儿先天性心脏病的发病概率为8‰,那么该地120名新生儿中有4人患先天性心脏病的概率有多大?方法1:二项分布方法2:Poisson分布014.0!496.0!)4(496.0eXeXPX96.0008.0120nλ=300.10.20.30.40246810121416182022xP(x)Poisson分布累计概率如果稀有事件发生次数的总体均数为λ,那么该稀有事件发生次数X至多为k次的概率为:至少为k次的概率为:kXkXXXeXPkXP00!)()(10)(1)(kXXPkXP)(...)1()(npkpkp或例4-8:如果某地新生儿先天性心脏病的发病概率为8‰,那么该地120名新生儿中至多有4人患先天性心脏病的概率有多大?997.0!496.0!396.0!296.0!196.0!096.0)4()3()2()1()0()()4(496.0396.0296.0196.0096.040eeeeepppppXPXPX96.0008.0120n例4-8:如果某地新生儿先天性心脏病的发病概率为8‰,那么该地120名新生儿中至少有5人患先天性心脏病的概率有多大?003.0997.01)4(1)5(XPXP96.0008.0120nλ=300.10.20.30.40246810121416182022xP(x)SAS概率函数二项分布PDF(“Binomial”,X,Prob,N)Poisson分布PDF(“Poisson”,X,Lamda)!)(XeXPXXnXXnCXP)1()(λ=300.10.20.30.40246810121416182022xP(x)SAS累计概率函数二项分布Poisson分布)X,n,ob(PrPROBBNML)X(P)kX(PkX0)X,Lamda(POISSON)X(P)kX(PkX0正态分布(NormalDistribution)CarlFriederichGauss30Apr1777-23Feb1855正态分布(normaldistribution)连续型分布自然界最常见的一种分布。测量的误差人体的尺寸许多生化指标1.27701.26501.25301.24101.2290Frequency403020100频率密度图4-4体模“骨密度”测量值的分布接近正态分布示意图正态分布图示x0.1.2.3.4f(x)中间高两边渐低不与横轴相交左右对称略呈钟型正态分布定义X的概率密度函数f(X)为称X服从正态分布,记作X~N(,2)222)(21)(XeXf正态分布曲线特征连续型分布在x=μ处最高,左右对称,处有拐点,为钟型曲线曲线下面积为1决定曲线的位置,决定曲线的性状),(N~X2222)(21)(XeXf方差相等、均数不等的正态分布曲线312213均数相等、方差不等的正态分布曲线213312正态分布曲线下面积规律曲线下总面积为1对称区域面积相等S