第四章常用概率分布本章在讨论“事件”与“概率”的基础上,主要介绍生物学研究中三种常用的概率分布,即正态分布、二项分布和泊松分布,然后简述样本平均数的抽样分布与t分布。样本的结果(统计量)总体的特征(参数)概率论第一节事件与概率第二节概率分布第三节正态分布第四节二项分布和泊松分布第五节样本平均数的抽样分布第六节t分布第一节事件与概率一、事件(一)必然现象与随机现象1、必然现象(必然事件U和不可能事件V)2、随机现象事实证明,当在相同条件下进行大量观察时,随机现象大都呈现某种规律。概率论与数理统计就是研究随机现象统计规律性的一门数学学科。(二)随机试验(randomtrial)与事件(randomevent)对自然现象的一次观察或进行的一次科学试验统称为一个试验。如果这个试验具有下述三个特性就称其为随机试验,简称试验。可以在相同条件下重复进行;每次试验的可能结果不止一个,并且事先不能明确试验的所有可能结果;试验前不能确定哪一个结果会出现。随机试验的每一个可能结果称为随机事件,简称事件,通常用字母A、B、C……等表示。二、概率的统计定义及运算法则(一)概率的统计定义设在同一条件下进行了n次试验,事件A发生了a次。当随着n的增大,如果事件A发生的的频率a/n稳定地接近某一数值p,则称p为随机事件A发生的概率,记为P(A)=p。当n充分大时,P(A)=a/n概率的三个基本性质0)(1)(1)(0VPUPAP三、小概率事件实际不可能性原理小概率事件小概率事件虽然不是不可能事件,但通常认为在一次试验中实际上是不可能发生的,称之为“小概率事件实际不可能性原理”。这是统计假设检验的基础。在研究中,通常用0.05和0.01作为标准。01.005.001.005.0PPP小概率事件第二节概率分布(probabilitydistribution)(试验结果的)概率分布—试验的全部可能结果—各种结果发生的概率一、随机变量(randomvariable)(一)定义将试验或抽样观察每一种可能结果用一个数来表示,把这些数作为变量x的取值范围,则变量x就称为随机变量。(二)分类—离散型随机变量(discreterandomvariable)如果表示试验结果的随机变量x,其可能取值为有限个或至多可列个,则称x为离散型随机变量。—连续型随机变量(continuousrandomvariable)如果表示试验结果的随机变量x,其可能取值为某范围内的任何数值,表现为不可列性和连续变异,则称x为连续型随机变量。二、离散型随机变量的概率分布(一)研究离散型随机变量的概率分布要解决的两个问题:—知道离散型随机变量x的一切可能取值xi;—每种可能取值的概率pi(二)离散型随机变量的概率分布表示—p(x=xi)=pi(i=1,2,…n)—用分布列表示1,0iipp变量xx1x2…xn…概率Pp1p2…pn…三、连续型随机变量的概率分布连续型随机变量的概率分布不能用分布列来表示,因为其可能取的值是不可数的。因此只能用随机变量x在某个区间内取值的概率P(a≤xb)来表示。连续型随机变量的概率由概率分布密度函数确定xdxfbxaPba)()(连续型随机变量概率分布的性质0)(xfccdxxfcxp0)()(1)()(dxxfxpc为任意实数第三节正态分布(normaldistribution)正态分布是一种很重要的特殊的连续型随机变量的概率分布。生物现象中有许多变量是服从或接近正态分布的;许多统计分析方法都是以正态分布为基础的;此外,还有不少随机变量在一定条件下以正态分布为其极限分布。因此,正态分布无论对理论研究还是实际应用,在统计学中均占有重要的地位。一、正态分布的方程和图象(一)定义若连续性随机变量x的概率分布密度函数为:则称随机变量x服从正态分布,记为其中,—圆周率;e—自然对数底数;—总体标准差;变异度参数—总体平均数;位置参数222)(21)(xexf),(~2Nx正态分布密度函数曲线-3-2-++2+3x二、正态分布曲线的性质正态分布密度曲线是以为对称轴的单峰、对称的悬钟形;f(x)在处达到极大值,极大值为正态分布曲线以参数和不同而表现为一系列曲线(正态分布由参数和决定)。xx21)(f标准差相同(=1),平均数不同的三条正态分布曲线平均数相同(=0),标准差不同的三条正态分布曲线二、正态分布曲线的性质—位置参数,决定曲线在x轴的位置(左右);—变异度参数,决定曲线的形状(瘦胖)。曲线在处各有一个拐点;f(x)是非负数,以x轴为渐进线;曲线与x轴之间的总面积等于1。曲线的任何两个x值间的面积或概率,完全由参数和决定。1x三、正态分布的概率计算(一)标准正态分布由于正态分布是依赖于参数和的一簇分布,造成研究具体正态总体时的不便。因此将一般的正态分布转换为的正态分布,则称的正态分布为标准正态分布。标准正态分布的概率密度函数如下:1,021,02==σμ2221)(ueu标准化的方法•对于任何一个服从正态分布的随机变量x,都可以通过标准化变换:•即减平均数后再除以标准差,将其变换为服从标准正态分布的随机变量u。),(2N/)(xu(二)正态分布的概率计算将区间的上下限标准化,服从正态分布的随机变量x落在〔x1,x2〕内的概率,等于服从标准正态分布的随机变量u落在的概率。然后查标准正态分布的概率表[例]若x服从的正态分布,试求。令u=(x-30)/10,则u服从标准正态分布,故]/,/[21xx2210,30==σμ()4026xP≤)4.0-≤(-)1()1≤4.0-()1030-401030-≤1030-26()40≤26(uPuPuPxPxP===4967.0)6554.0-1(-8413.0))4.0(-1(-)1(===uPuP两尾概率一尾概率)(iuuP)()(iiuuPuuP或应熟记的几种标准正态分布概率99.0)58.258.2(95.0)96.196.1(9973.0)33(9545.0)22(6826.0)11(uPuPuPuPuP01.0)58.2(05.0)96.1(0027.0)3(0455.0)2(3174.0)1(uPuPuPuPuP1)1()1()1()11(uPuPuPuP第四节二项分布和泊松分布一、二项分布(一)二项总体与二项分布个体某一性状只发生或出现两种对立结果的总体,称为二项总体。事件A发生,记为A,x=1,p事件A不发生,记为,x=0,qp+q=1A二项分布在n次试验中,事件A可能发生0,1,2,…n次,共n+1种可能结果;这n+1种可能结果都有各自的概率,这些概率的分布恰为二项式(q+p)n展开后的第k+1项,因此也将此分布称作二项分布,又称Bernoulli分布。(二)二项分布的概率计算——可以直接利用二项概率公式进行。把事件A发生的次数x代入公式即可求得对应的概率。nxqpCxPxnxxn,,2,1,0,)(),(~pnBx(三)二项分布的平均数与标准差统计学证明,服从二项分布B(n,p)的随机变量之平均数μ、标准差σ与参数n、p有如下关系:当试验结果以事件A发生次数k表示时当试验结果以事件A发生的频率k/n表示时也称频率的标准误。npqnpnpqppp/)(p二、泊松分布(Possiondistribution)泊松分布是一种可以用来描述和分析随机地发生在单位空间或时间里的稀有事件的分布。所谓稀有事件即为小概率事件。要观察到这类事件,样本含量n必须很大。此外,由于泊松分布是描述小概率事件的,因而二项分布中当p很小n很大时,可用泊松分布逼近。(一)泊松分布1、定义若随机变量x(x=k)只取零和正整数值,且其概率分布为其中x=0,1,…;e=2.7182…是自然对数的底数。随机变量x服从泊松分布,记为2、特征泊松分布有一个重要的特征。这就是它的平均数和方差相等,都等于常数m。mxexmxP!)()(~mPx(一)泊松分布利用这一特征,可以初步判断一个随机变量是否服从泊松分布。(二)泊松分布的概率计算m是泊松分布所依赖的唯一参数。泊松分布的概率计算,只要参数m确定了,把x=0,1,2,…代入公式即可求得各项的概率。泊松分布的用途:(1)描述间断性资料中稀有事件的概率分布;(2)二项分布的近似描述。m2一种死亡率不太高的疾病每1000病人(或其他数目)内死亡人数的分布;某种由突变而引起的遗传性疾病的分布;牧草种子中的杂草种子数;容器内的细菌数;玉米螟卵块在玉米田中的空间分布等等,大都服从泊松分布。三种重要的概率分布之间的关系前面讨论的三个重要的概率分布中,前一个概率分布属连续型的,后两个属离散型的。三者间的关系综述如下:对于二项分布,在n→∞,p→0,且np=m(较小常数)情况下,二项分布趋于泊松分布。在这种场合,泊松分布中的参数m用二项分布的np代之;在n→∞,p→0.5时,二项分布趋于正态分布。在这种场合,正态分布中的μ、σ2用二项分布的np、npq代之。在实际计算中,当p<0.1且n很大时,二项分布可由泊松分布近似,当p>0.1且n很大时,二项分布可由正态分布近似。二项分布泊松分布正态分布p>0.1n∞p0.1n∞第五节抽样分布研究总体与从中抽取的样本之间的关系是统计学的中心内容。对这种关系的研究可从两方面着手:一是从总体到样本,这就是研究抽样分布的问题;二是从样本到总体,这就是统计推断问题。统计推断是以总体分布和样本抽样分布的理论关系为基础的。为了能正确地利用样本去推断总体,并能正确地理解统计推断的结论,须对样本的抽样分布有所了解。总体与样本间的关系从总体到样本从样本到总体统计推断(目的)抽样分布(基础)x样本平均数和样本方差S2是描述样本特征的两个最重要的统计量;总体平均数μ和总体方差σ2是描述总体特征的两个最重要的参数因此,研究总体和样本的关系,实际就是研究:xS2σ2■就总体而言,μ和σ2都是常量■从总体中随机地抽取若干个体所组成的样本,即使每次抽取的样本容量都相等,每一个样本所得到的样本平均数也不可能都相等,同时也不可能就等于总体平均数μ样本统计量将随样本的不同而有所不同,因而样本统计量也是随机变量,也有其概率分布样本统计量的概率分布称为抽样分布(samplingdistribution)样本统计量与总体参数之间的差异称为抽样误差(samplingerror)一、抽样分布试验返置抽样——由总体中每次抽出一个个体后,这个个体返置回原总体;不返置抽样——指每次抽出的个体不返置回原总体。对于有限总体,要保证随机抽样,就应该采取返置抽样,否则各个体被抽到的机会就不均等。从有限总体作返置抽样,所有可能的样本数为Nn(其中n为样本含量)从总体容量为N的总体中进行抽样,如果每个样本的样本容量均为n,将所有这样的样本都抽出来,并计算出每一个样本的平均数,由这些样本平均数组成的新总体,就称为样本平均数抽样总体。原来的那个总体,称为原总体由样本平均数组成的分布称为样本平均数的抽样分布如果原总体的平均数为μ,标准差为σ,那么样本平均数抽样总体:平均数为:标准差为:xx称为样本平均数抽样总体的标准误差,简称为标准误(standarderror)二、单个样本平均数的抽样分布标准误表示平均数抽样误差的大小,反映样本平均数与新总体平均数之间的离散程度。■标准差表示的是原总体中原始数据与原总体平均数的关系■标准误表示的是从原总体中抽取的样本平均数与样本平均数抽样总体平均数的关系研究总体与样本的关系就转化成了讨论原总体与样本平均数抽样总体的关系:xnx抽样分布试验的结论——中心极限定理若随机