第三章几种常见的概率分布律回顾一下,在上一章里讲了变量及其概率分布的一般概念。•离散变量用概率函数来研究,概率函数定义了这个变量取每个值的概率;•连续变量用密度函数(一条曲线)来研究,通过这条曲线我们可以求得变量在某个特定区间取值的概率。在这一章里,我们将介绍一些在实际研究中应用最广的变量类型及其概率分布。离散变量连续变量二项分布泊松分布超几何分布负二项分布指数分布正态分布标准正态分布第一节二项分布(BinomialDistribution)1.贝努利试验和在什么情形下应用二项分布•贝努利试验(Bernoullitrial):试验只有两种可能的结果,并且发生每种结果的概率是一定的。例如:抛一枚硬币,看得到正面还是反面;掷一次骰子,看得到6还是没有得到6;随机抽查一名婴儿的性别,看是男是女在贝努利试验里,两种结果可分别称为“成功”和“失败”,或者“事件A发生”和“事件A没有发生”。•什么情形时应用二项分布:实验中进行了n次独立的贝努利试验,统计在这n次试验中总共获得了多少次“成功”。“成功”的次数,记为变量X;X称为二项分布变量,X的概率分布称为二项分布。(1)连续抛硬币100次,统计总共出现正面的次数。次数X服从二项分布。X的可能取值为0,1,2,…,n。所以X是个离散型变量。二项分布变量的一些例子:(2)调查250名新生婴儿的性别,记男婴的总数为X,则X服从二项分布。(3)调查n枚种蛋的出雏数,出雏数X服从二项分布。(4)n头病畜治疗后的治愈数X,X服从二项分布。(5)n尾鱼苗的成活数X,X服从二项分布。2.二项分布的常用记号;:贝努利试验的次数n成功”的次数;的取值,即总共获得“二项分布变量X:x“成功”的概率;一次贝努利试验中获得:“失败”的概率;显然是一次试验中获得-:1次“成功”的概率。总共获得xxP:)(3.二项分布的概率函数P(x)•怎样得到P(x)?种:次成功的方式有次贝努利试验里,获得在2424C以n=4,x=2为例,欲求P(x=2)=?。ffssfsfsfssfsffssfsfssff612121234!2!2!4,)!(!!2424=依据计算公式位置的组合方式。是从四个位置选取两个:注意CxnxnCCxn每种方式发生的概率为:22)1()(1)(1f)P(f)P(s)P(s)P(P(ssff)乘法法则其它5种方式发生的概率也是如此。24224)1()2(24CPxn次成功的概率为次试验中取得因此,在xnxxnCxPxn)1()(**次成功的概率是共获得此贝努利试验中,在由此类推到一般情形,的讨论:关于xnxxnCxP)1()(”这个名称。项,所以有“二项分布的第展开是二项式)从形式上来说,(1)]1([)1(1xCnxnxxn011100)1()1()1()1()]1([nnnxnxxnnnnnnCCCCnxnxnnxnxxnCxP0011)]1([)1()(2)(例一,纯种白猪与纯种黑猪杂交,根据孟德尔遗传理论,子二代中白猪与黑猪的比率为3:1。求窝产仔10头,有7头白猪的概率。。,=视白猪为成功,有个二项分布的问题,解:根据题意,这是一775.043,10xn7107710)75.01(75.0)7()7(CPxP2503.025.075.0!3!7!1037所以,窝产仔10头,有7头白猪的概率是0.2503。例二,有一批玉米种子,出苗率为0.67。现任取6粒种子种1穴中,问这穴至少有1粒种子出苗的概率是多少?服从二项分布。则设出苗的种子数为。=视出苗为成功,有个二项分布的问题。解:根据题意,这是一xxn,67.0,6)6()2()1()1()1(xPxPxPxPP=粒出苗至少有9987.00905.00799.00157.033.067.033.067.033.067.0066642265116CCC这说明每穴种6粒种子,几乎肯定出苗。9987.00013.0133.067.01)0(1)(1)1(6006CxPPP=没有出苗-=粒出苗至少有另外一种方法:4二项分布的概率分布表和概率分布图除以P(x)表示,二项分布也可通过表或图来直观显示。xP(x)00.06210.25020.37530.25040.062例如,抛硬币4次,获得的正面数记为X,则X服从二项分布。X的概率分布表为062.05.05.0)0(,5.0,44004CPn二项分布00.050.10.150.20.250.30.350.401234获得正面的次数x概率时,分布偏斜:时,分布对称;5.05.0X的概率分布图为注意:时,负偏时,正偏5.05.05二项分布变量的平均数和标准差•平均数nxxxPXE0)()(定义证明:nxxnxxxnxn0)1()!(!!nxxnxxxnxn1)1()!(!!nXE)(10111)1()!1(!!nttntxttntn101)1()!1(!)!1(nttnttntnn1)]1([nnnxxnxxnxn1)1()!()!1(!n•方差和标准差222)]([)()(XEXEXVar证明:nxxnxxxnxn02)1()!(!!)1()(2nXVar)1(nnxxxPXE022)()(定义nxxnxxxxxnxn02])[()1()!(!!nxxnxnxxnxxxnxnxxxnxn002)1()!(!!)][()1()!(!!nnnnnnxnxnnxnxnnnxxnxnxxxnxnnxxnxxnxnxnxxnxnxxnx222211222122)1()1()!()!1()!1()1()!()!2()!2()1()1()!(!!)][()1()!(!!)1()()(222222nnnnnnnXVar例三,某树种幼苗成材率为70%,现种植2000株,问成材幼苗数的平均值和标准差是多少?服从二项分布。则株幼苗的成材数为解:设XX,2000。根据题意,70.0,2000n140070.02000n平均数49.203.07.02000)1(n标准差第二节泊松分布(PoissonDistribution)1.在什么情形下应用泊松分布泊松分布是一种用来描述一定的空间或时间里稀有事件发生次数的概率分布。服从泊松分布的变量的一些例子:•一定畜群中某中患病率很低的非传染性疾病患病数或死亡数。•畜群中遗传的畸形怪胎数•单位空间内某些野生动物或昆虫数•每升饮水中的大肠杆菌数2.泊松分布的概率函数与特征数泊松分布变量X只取零和正整数:0,1,2…,其概率函数为exxPx!)(是自然对数底数。其中7182.2,0e页。证明见情形下的情形来近似。在这种布可以用二项分布在怎么得到的呢?泊松分注意:40,!)1(,0,)(exCnnxPxxnxxn•泊松分布的平均数)(XE=xxexxPXExxx00!)()(证明:111)!1()!1(xxxxxexe01!ttxtteee泰勒级数•泊松分布的方差和标准差)(2XVar=222)]([)()(XEXEXVar证明:22)]([)()]1([)]([])1([XEXEXXEXEXXXExxxxP2)1()(02)1(!xxxxxe2222)!2(xxxe22ee例一,显微镜下观察一种悬浮液中的某种颗粒,据前人报告,平均每张样片可以观察到3个微粒,问在一次观察中看到3个微粒的概率是多大?少于3个微粒的概率是多少?若观察100张片子,大约有多少张片子看到的微粒数少于3个?。松分布,且有事件数,所以它服从泊里的稀有,可以看成是一定空间微粒数解:一张片子里看到的3X2240.0!33!)3(33exeXPx4232.0!23!13!03)2()1()0()3(323130eeeXPXPXPXP)(32.424232.0100)3(100张大约有XP第三节正态分布(NormalDistribution)正态分布是一种最重要的连续型变量的概率分布。•在生物科学研究里,有许多变量是服从或近似服从正态分布的,如水稻产量、小麦株高、玉米百粒重等;•许多统计分析方法是以正态分布为基础的。•不少随机变量的概率分布在样本容量增大时趋于正态分布。因此,在统计学里,正态分布无论在理论研究上还是在实际应用中均占有重要的地位。1正态分布的定义与主要特征•定义:若变量X的概率分布的密度函数为222)(21)(xexf。服从正态分布,记为为方差,则称变量为平均数,其中,),(~22NXXf(x)的曲线为•X的分布函数dxedxxfxXPxFxxx222)(21)()()(没有更简化的形式•正态分布的主要特征:(1)曲线是单峰、对称的“悬钟”形曲线,对称轴是x=μ(2)曲线是非负函数,以x轴为渐近线,分布从-∞到∞(3)曲线在x=μ±σ处各有一个拐点,即在[μ-σ,μ+σ]范围内是上凸,其余是下凸。(4)曲线有两个参数:μ和σ。μ代表平均数,σ代表标准差,μ和σ一起决定曲线的位置和形状。μ越大,则曲线沿x轴越向右移动;反之向左。σ是变异度参数,σ愈大则曲线愈“胖”;反之则愈瘦。(5)曲线下和x轴所夹的总面积为1σ=0.5σ=1σ=22标准正态分布•定义:μ=0,σ=1时的正态分布称为标准正态分布。标准正态分布变量记为U,写作U~N(0,1)。2221)(ueu密度函数:dxeuUPuxu2/221)()(分布函数:的曲线:密度函数)(u普通正态分布与标准正态分布XZΦ(Z)φ(Z)ZZ221(),2zzezxexfx,21)(222)(标准正态分布曲线标准正态分布的累积分布曲线累积分布函数标准正态分布有以下特性:•1、在u=0时φ(u)达到最大值。•2、当u不论向哪个方向远离0时,φ(u)的值都减小。•3、曲线两侧对称。•4、曲线在u=-1和u=1处有两个拐点。•5、曲线与横轴所夹面积等于1。•6、累积分布曲线围绕点(0,0.5)对称。•标准正态分布概率密度曲线在-1~+1的区间内占总面积的68.27%,在-1.96~+1.96的区间内占总面积的95%;在-2.58~+2.58的区间内占总面积的99%。dzebZaPzba22121)(2121()()2zzZPZzedz标准正态分布的累积概率函数曲线下面积分布规律0-11-1.961.96-2.582.5868.27%95.00%99.00%μμ-σμ+σμ-1.96σμ+1.96σμ-2.58σμ+2.58σ68.27%95.00%99.00%标准正态分布正态分布面积或概率-1~1μ±σ68.27%-1.96~1.96μ±1.96σ95.00%-2.58~2.58μ±2.58σ99.00%标准正态分布的三个常用概率99.74%65.26%95.46%3标准正态分布