常用概率分布第一节二项分布一、二项分布的概念与特征(一)摸球模型与二项分布一个袋子里有5个乒乓球,其中2个黄球,3个白球,我们进行摸球游戏,每一次摸到黄球的概率是0.4,摸到白球的概率是0.6,这个实验有三个特点:一是各次摸球是彼此独立的;二是每次摸球只有二种可能的结果,或黄球或白球;三是每次摸到黄球(或摸到白球)的概率是固定的。具备这三点,n次中有X次摸到黄球(或白球)的概率分布就是二项分布。例题例5-1:用针灸治疗头痛,假定结果不是有效就是无效,每一例有效的概率为π。某医生用此方法治疗头痛患者5例,3例有效的概率是多少?因为每例有效的概率相同,且各例的治疗结果彼此独立,5例患者中可以是其中的任意3例有效。35335)1()(CBP概念:医学研究中很多现象观察结果是以两分类变量来表示的,如阳性与阴性、治愈与未愈、生存与死亡等等。如果每个观察对象阳性结果的发生概率均为,阴性结果的发生概率均为(1-);而且各个观察对象的结果是相互独立的,那么,重复观察n个人,发生阳性结果的人次数X的概率分布为二项分布,记作B(X;n,π)。二项分布应用的先决条件:(1)一个实验有两种对立的可能结果,如“阳性”与“阴性”;(2)n次独立的实验;(3)产生一种结果(如阳性)的概率不变;(4)求在n次实验中有X阳性的概率.(二)二项分布的概率函数XnXXnCXP)1()()!(!!XnXnCXn二项分布的概率函数P(X)可用公式(5-1)来计算。例题432.0)6.01(6.0)23(223C例5-2:临床上用针灸治疗某型头痛,有效的概率为60%,现以该法治疗3例,其中两例有效的概率是多大?表5-1治疗3例可能的有效例数及其概率有效人数(x)x(1-)n-x出现该结果概率P(X)010.60=10.4×0.4×0.40.064130.60.4×0.40.288230.6×0.60.40.432310.6×0.6×0.60.400.216XC3由表4-1可知,各种可能结果出现的概率合计为1,即P(X)=1(X=0,1,…,n)。因此,如果欲求1例以上有效的概率可以是:P(x≥1)=P(1)+P(2)+P(3)=0.288+0.432+0.216=0.936也可以是P(x≥1)=1-P(0)=1-0.064=0.936(三)二项分布的特征1、二项分布的图形特征接近0.5时,图形是对称的,如图4-1。离0.5愈远,对称性愈差,但随着n的增大,分布趋于对称,如图4-2。当n→∞时,只要不太靠近0或1,当nP和n(1-P)都大于5时,二项分布近似于正态分布。二项分布图形取决于与n,高峰=n处。图5-1π=0.5时,不同n值对应的二项分布n=3,π=0.500.10.20.30.4012345678910111213xP(x)n=10,π=0.500.10.20.30.4012345678910111213xP(x)图5-2π=0.3时,不同n值对应的二项分布n=3,π=0.300.10.20.30.40.50123456789101112131415xP(x)n=6,π=0.300.10.20.30.40.50123456789101112131415xP(x)n=10,π=0.300.10.20.30.40.50123456789101112131415xP(x)n=20,π=0.300.10.20.30.40.50123456789101112131415xP(x)2、二项分布的均数和标准差n)1(2n)1(n总体均数:方差:标准差:如果将出现阳性结果的频率记为:P的总体均数:P的总体标准差:nXppnp)1(例题nppnppSp)1(1)1(%0.2020.0150)067.01(067.0pS例5-4研究者随机抽查某地150人,其中有10人感染了钩虫,钩虫感染率为6.7%,求此率的抽样误差。二、二项分布的应用(一)概率估计例5-5如果某地钩虫感染率为13%,随机观察当地150人,其中有10人感染钩虫的概率有多大?从n=150,π=0.13的二项分布,由公式(5-1)和(5-2)可以得出150人中有10人感染钩虫的概率为:0055.087.013.0)!10150(!10!150)10(14010XP(二)单侧累积概率计算二项分布出现阳性的次数至多为k次的概率为:出现阳性的次数至少为k次的概率为:kXkXXnXXnXnXPkXP00)1()!(!!)()(nkXnkXXnXXnXnXPkXP)1()!(!!)()(例题例5-6例4-5中某地钩虫感染率为13%,随机抽查当地150人,其中至多有2名感染钩虫的概率有多大?至少有2名感染钩虫的概率有多大?至少有20名感染钩虫的概率有多大?•根据公式(5-10)至多有2名感染钩虫的概率为:•至少有2名感染钩虫的概率为:2020150)13.01(13.0)!150(!!150)()2(XXXXXXXPXP78101011.21080.11047.871030.215021502150)13.01(13.0)!150(!!150)()2(XXXXXXXPXP)]1()0([1XPXP]1080.11047.8[18101•至少有20名感染钩虫的概率为:1502015020150)13.01(13.0)!150(!!150)()20(XXXXXXXPXP190190150)13.01(13.0)!150(!!1501)(1XXXXXXXP4879.0第二节Poisson分布一、Poisson分布的概念Poisson分布也是一种离散型分布,用以描述罕见事件发生次数的概率分布。常用于研究单位时间内(或单位空间内)某事件发生不同次数的分布。医学上人群中出生缺陷、多胞胎、染色体异常等事件等都是罕见的,可能发生这些事件的观察例数n常常很大,但实际上发生类似事件的数目却很小很小。Poisson分布可以看作是发生的概率(或未发生的概率1-)很小,而观察例数n很大时的二项分布。除二项分布的三个基本条以外,Poisson分布还要求或(1-)接近于0或1(例如0.001或0.999)。二、Poisson分布的特征Poisson分布的概率函数为:式中为Poisson分布的总体均数,X为观察单位内某稀有事件的发生次数;e为自然对数的底,为常数,约等于2.71828。!)(XeXPXn由图5-3可以看到Poisson分布当总体均数λ值小于5时为偏峰,λ愈小分布愈偏,随着λ增大,分布趋向对称。Poisson分布有以下特性:(1)Poisson分布的总体均数与总体方差相等,均为λ。(2)Poisson分布的观察结果有可加性。当λ增大时,Poisson分布逐渐逼近正态分布。一般来说λ≥20时,Poisson分布的资料可按正态分布处理。当n很大,p很小,np=λ为一常数时,二项分布近似Poisson分布,p越小,近似程度越好。Poisson分布图λ=600.10.20.30.40246810121416182022xP(x)λ=100.10.20.30.40246810121416182022xP(x)λ=300.10.20.30.40246810121416182022xP(x)λ=1000.10.20.30.40246810121416182022xP(x)图5-3λ取不同值时的Poisson分布图(一)概率估计例5-7实验显示某100cm2的培养皿平均菌落数为6个,试估计该培养皿菌落数等于3个的概率。该培养皿菌落数等于3个的概率:089.0!36)3(36eXP=三、Poisson分布的应用251.0!25.1)2(25.1eXP例5-8如果某地居民脑血管疾病的患病率为150/10万,那么调查该地1000名居民中有2人患脑血管疾病的概率有多大?λ=n=1000×0.0015=1.5即调查该地1000名居民中有2人患脑血管疾病的概率为25.1%。例5-9实验显示某100cm2的培养皿平均菌落数为6个,试估计该培养皿菌落数等于3个的概率。该培养皿菌落数小于3个的概率:089.0!36)3(36eXP=(二)单侧累计概率计算如果稀有事件发生次数的总体均数为λ,那么该稀有事件发生次数至多为k次的概率发生次数至少为k次的概率:kXkXXXeXPkXP00!)()()1(1)(kXPkXP例5-9实验显示某100cm2的培养皿平均菌落数为6个,试估计该培养皿菌落数小于3个的概率,大于1个的概率。该培养皿菌落数小于3个的概率:菌落数大于1个的概率为:062.0!26!16!06!6)()3(26160620206eeeXeXPXPXXX983.0!16!061)1()0(1)1(1606eeXPXPXP例题例5-10例5-8中,至多有2人患脑血管疾病的概率有多大?至少有3人患脑血管疾病的概率有多大?至多有2人患脑血管疾病的概率:至少有3人患脑血管疾病的概率:809.0!25.1!15.1!05.1!5.1)()2(25.115.105.120205.1eeeXeXPXPXXX191.0809.01)2(1)3(XPXP第三节正态分布一、正态分布的概念正态曲线(normalcurve)是一条高峰位于中央,两侧逐渐下降并完全对称,曲线两端永远不与横轴相交的“钟型”曲线,该曲线表现为中间高,两边低,左右对称。因为频率的总和等于1,故横轴上曲线下的面积等于1。正态分布是一种重要的连续型分布。医学研究中许多正常人生理、生化指标变量的分布呈正态或近似正态分布。正态分布是数理统计中发展得最为完善的一种分布,很多统计推断都是在正态分布条件下进行的。许多非正态分布的资料,当观察例数足够多时,也可以用正态分布作为它的极限分布形式。有时也将一些非正态分布资料转化为正态分布来处理。表5-4骨密度测量值的频数分布组段频数1.228~21.234~21.240~71.246~171.252~251.258~371.264~251.270~161.276~41.282~1.2881正态分布1.27701.26501.25301.24101.2290Frequency403020100图5-4体模“骨密度”测量值的分布接近正态分布示意图(频率密度=频率/组距)正态分布正态概率密度曲线的位置与形状具有如下特点:(1)关于x=μ对称。(2)在x=μ处取得该概率密度函数的最大值,在处有拐点,表现为钟形曲线。(3)曲线下面积为1。(4)μ决定曲线在横轴上的位置,μ增大,曲线沿横轴向右移;反之,μ减小,曲线沿横轴向左移。(5)σ决定曲线的形状,当μ恒定时,σ越大,数据越分散,曲线越“矮胖”;σ越小,数据越集中,曲线越“瘦高”。见图4-5。x正态分布u1u2u3-6-5-4-3-2-10123456不同均数正态分布-3-2-10123不同标准差正态分布•对任意一个服从正态分布的随机变量,可作如下的标准化变换,也称Z变换:•Z服从总体均数为0、总体标准差为1的正态分布。我们称此正态分布为标准正态分布(standardnormaldistribution),用N(0,1)表示。XZ),(2N正态分布•统计学家编制了标准正态分布曲线下面积分布表(附表1),因为正态分布两边对称,所以只给出Z取负值的情况。表内所列数据表示Z取不同值时标准正态分布的分布函数值,此值大小相当于Z值左侧标准正态曲线下面积,记作Φ(z)。正态分布例5-9已知X服从均数为μ、标准差为σ的正态分布,试估计:X取值在区间上的概率;