第二章概率与分布(345)(骆福添)·联系:对象在离散点或区间上分布分布特征数样本数据频数分布表频数分布图描述指标(sx,)(p)随机变量概率分布表概率分布图总体参数(,)()2.3二项分布一、概率函数(概率分布表)·名词解释:观察结果二项、概率等于二项展开式·有放回地独立重复摸球5次后黑球出现总次数X的概率函数。fx表2.1例2.3中离散型随机变量X的概率函数(n=5)X的可能取值黑球数012345概率P(x)0.00030.00640.05120.20480.40960.3277·这个概率函数值恰好对应于下列二项展开式的各个项:(0.2+0.8)5=05(0.2)5+15(0.8)(0.2)4+25(0.8)2(0.2)3+35(0.8)3(0.2)2+45(0.8)4(0.2)+55(0.8)5·一般地,阳性概率为,n次独立、重复试验后该事件出现阳性数为x次的概率为xPxnxxn)1(,x=0,1,,n(2.13)其中)!(!!xnxnxn,0!=1,k!=k(k-1)…(2)(1),k≠0(2.13)式称为二项分布的概率函数,称相应的随机变量X服从二项分布(binomialdistribution),记为XΒ(,n)·至多出现x次数的概率为P=P(0)+P(1)+…+P(x),简记为xkkPxXP0)((2.14)这就是二项分布变量X的分布函数。例2.3现有5只动物注射了半数致死量的毒物,试分别计算死亡动物数X=0,1,2,3,4,5的概率。(提示:=0.5)解P(0)=05(0.5)5(0.5)0=0.03125P(1)=15(0.5)4(0.5)1=0.15625P(2)=25(0.5)3(0.5)2=0.31250P(3)=35(0.5)2(0.5)3=0.31250P(4)=45(0.5)1(0.5)4=0.15625P(5)=55(0.5)0(0.5)5=0.03125二、分布图形的特征(概率分布图)图2.1·0.5时,在横轴的正方向拖一长尾呈正偏峰(a)·0.5时,在横轴的负方向拖一长尾呈负偏峰(b)·=0.5时,呈对称(c)·n相当大,n和n(1-)都大于5,=?,图形也接近对称(d)Pois三、总体均数与总体标准差(平均水平与变异程度—分布参数)·推导过程:(下述黑体字公式,可忽略)XE=)1(·0·1=(2.15)xVar=)1()1()0)(1(22(2.16)nXEXEXEXXXEXEnn......2121(2.17)nXXXVarXVar...211...21nXVarXVarXVarn(2.18)nXP(2.19)nXEnXEPE(2.20)PVar=nXVar/2nXVar=21nn=n1(2.21)·样本频率nXP的总体均数、总体方差和总体标准差x=n,p=12nx,np12(2.22))1(nx,np)1(四、实例讨论(略)第四节Poisson分布一、概率函数·Poisson分布是(1)罕见的独立事件阳性数目的随机分布(2)也可视为n很大,很小时二项分布B(,n)的极限情形01234500.10.20.30.40.5(a)0.50(正偏峰)0124500.10.20.30.40.5(b)0.50(负偏峰)图2.1若干二项分布的概率函数直条图13012345678910111200.10.20.30.4(d)0.50,n相当大(对称、正态)01234500.10.20.30.40.5(c)=0.50(对称)·以放射性脉冲计数为例,Poisson分布的前提条件:(1)(n足够大),区间足够小,以致每个区间阳性数2(平稳性)(2)每个区间阳性概率都是n(重复、小概率)(3)不同区间是否发生是统计独立的(独立性)数学上可以证明,当n→∞时Pn(x)的极限为!xexPx(2.23)·应用:许多发病率很低的疾病(如肿瘤,不具传染性、无永久免疫、无遗传性),发病人数X近似地服从Poisson分布,其中n二、分布图形的特征例2.4据报导,新生儿染色体异常率为1%,试用两种方法计算100名新生儿发生x=0,1,2例染色体异常的概率。解利用二项分布和Poisson分布计算的结果如表2.2所示表2.2用二项分布和POISSON分布计算染色体异常概率的比较XP(x)Β(1%,100)Π(1)00100(0.99)100(0.01)0=0.3660e-1(1)0/0!=0.367911100(0.99)100-1(0.01)1=0.3697e-1(1)1/1!=0.367922100(0.99)100-2(0.01)2=0.1849e-1(1)2/2!=0.1839·Poisson分布图形:呈正偏峰不可能出现负偏峰的图形f2_3a三、总体均数和总体方差二项分布),(nB的总体均数和总体方差为nx和12nxPoisson分布的总体均数和总体方差为x和2x即总体均数等于总体方差。这是Poisson分布独有的性质,可通过考察样本均数是否接近样本方差,来判断是否为Poisson分布四、可加性设X1~Π(λ1),X2~Π(λ2),且互相独立,则X1+X2~Π(λ1+λ2)例如,假定每10分钟内记录到的放射性脉冲数服从Π(λ),独立、重复2次,测定值为X1和X2,则它们之和服从Π(2λ)。·但须注意,设X~Π(λ),则2X并不服从Π(2λ),X/2也不服从Π(λ/2)。例如,10分钟内测定的放射性脉冲数乘2后并不等于20分钟内的测定资料,不能用Π(2λ)来描述;10分钟的测定值除以2后也不等于5分钟内的测定值,也不能用Π(λ/2)来描述。第五节正态分布一、概率密度函数实践中许多连续型随机变量的频率密度直方图形状是中间高、两边低、左右对称的,为便于研究相应的总体规律,人们用概率密度函数xf21exp222)(x(2.24)f2_3来描述这类随机变量,并称这样的变量服从正态分布(normaldistribution)或高斯分布(Gaussiandistribution)。正态分布有两个参数μ和σ。μ是总体均数;σ是总体标准差(永远大于零)。这两个参数可完全决定一个正态分布,故常简记为N(μ,σ2)。当μ=0,σ=1时,概率密度函数和分布函数分别为密度函数21z2exp2z分布函数dxxzz2exp212(2.25)这样的正态分布称为标准正态分布,简记为N(0,1)。正态概率密度曲线图性质:(1)关于x对称;(2)在x处曲线最高;(3)在x处各有一个拐点;(4)曲线下面积为1;(5)若固定,随值不同,曲线位置不同,故称为位置参数;(6)若固定,大时,曲线矮而胖;小时,曲线瘦而高,故称为形状参数。t2_3正态曲线要点:外观(对称吊钟)、参数(位置形状)、面积(1.645,1.96,2.58)t2_3二、正态概率密度曲线下的面积·标准化变换:-2-++2-2-1012xz(a)(b)图2.3正态概率密度图(a)一般形状(b)与和关系12211XZ(2.26)变换后的Z称为标准化正态离差或称Z值(Z-value)正态变量的Z值服从标准正态分布N(0,1)·标准正态分布尾部面积:f2_3表2.3标准正态分布几个重要的临界值双侧临界值Z单侧尾部面积双侧尾部面积1.6450.050.101.9600.0250.052.5760.0050.01三、参考范围的确定方法:·95%参考值范围(95%CI)(错误概率=0.05,把握度=0.95)(x―1.96s,x+1.96s)或sx96.1·99%参考值范围(95%CI)(错误概率=0.01,把握度=0.99)(x―2.58s,x+2.58s)或sx58.2四、二项分布和Poisson分布的正态近似1.连续性校正离散型变量只能在0,1,2,…等正整数取值,为了借用连续型变量的分布函数来计算概率,首先要把概率函数“连续化”,把概率函数图中的“直条”改造成“直方”表2.4二项分布概率的连续性校正和正态近似(1)(2)(3)(4)二项分布概率连续性校正后概率函数图上长方形所在的区间近似正态分布概率密度图上曲线下图形所在区间概率近似公式:在相应的区间上,近似正态分布概率密度曲线下图形的面积P(X=k)(k-0.5,k+0.5)(k-0.5,k+0.5))1(5.0nnk)1(5.0nnkP(X≤k)(0,k+0.5)(-∞,k+0.5))1(5.0nnkP(X≥k)(k-0.5,n)(k-0.5,+∞))1(5.01nnkP(1k≤X≤k2)(k1-0.5,k2+0.5)(k1-0.5,k2+0.5))1(5.02nnk)1(5.02nnk(a)概率函数直条图(b)连续性校正直方图(c)正态近似图图2.4二项分布连续性校正和正态近似示意图2.正态近似理论上可以证明(1)二项分布X~B(,n)X~N(n,n(1-))并且P=X/n~N(,(1-)/n)(2)Poisson分布则X~N(λ,λ)例2.5假定人群中某病患病概率为0.005,现对该人群中的10000人体检,试求检出人数不少于55人的概率。解可认为检出人数服从二项分布二项分布资料用Poisson分布近似与正态近似比较直接计算正态近似相对误差二项分布0.25720.26161.7%Poisson分布0.25770.26241.8%相对误差0.2%0.3%计算过程:P(x≥55)=54010000)005.0()995.0(100001kkkk=0.2572或据Poisson分布,令参数λ=10000×0.005=50,P(x≥55)=54050!501kkke=0.2577计算繁杂。现采用正态近似,n=50,n(1-)=50×0.995=49.75利用二项分布正态近似公式P(x≥55)=1Φ75.49505.055=1Φ638.0=7383.01=0.2616利用Poisson分布的正态近似公式P(x≥55)≈1Φ50505.055=1Φ636.0=7376.01=0.2624两者与0.2572的相对误差均小于2%。★结语:对象在离散点或区间上分布分布特征数样本数据频数分布表频数分布图描述指标(sx,)(p)随机变量(误差)概率分布表概率分布图总体参数(,)()近似