第四章理论分布和抽样分布第一节事件、概率和随机变量第二节二项式分布第三节正态分布第四节抽样分布第一节事件、概率和随机变量一、事件和事件发生的概率二、事件间的关系三、计算事件概率的法则四、随机变量一、事件和事件发生的概率事件----在自然界中一种事物,常存在几种可能出现的情况,每一种可能出现的情况称为事件。随机事件(randomevent)----某特定事件只是可能发生的几种事件中的一种,这种事件称为随机事件。概率(probability)----每一个事件出现的可能性称为该事件的概率。必然事件-----对于一类事件来说,在同一组条件的实现之下必然要发生的,称为必然事件;其概率为1。不可能事件-----对于一类事件来说,在同一组条件的实现之下必然不发生的,称为不可能事件,其概率为0。事件发生的可能性(概率)是在大量的实验中观察得到的,例如棉田发生盲蝽象为害的情况,并不是所有的棉株都受害,随着观察的次数增多,我们对棉株受害可能性程度大小的把握越准确、越稳定。这里将一个调查结果列于表4.1。表4.1在相同条件下盲蝽象在某棉田危害程度的调查结果调查株数(n)52550100200500100015002000受害株数(a)212153372177351525704棉株受害频率(a/n)0.400.480.300.330.360.3540.3510.3500.352由表4.1可以看到:调查5株时,有2株受害,受害株的频率为40%,调查25株时受害频率为48%,调查100株时受害频率为33%。可以看出三次调查结果有差异,说明受害频率有波动、不稳定。而当进一步扩大调查的单株数时,发现频率比较稳定了,调查500株到2000株的结果是受害棉株稳定在35%左右。现以n代表调查株数,以a代表受害株数,那么可以计算出受害频率p=a/n。从棉株受害情况调查结果看,频率在n取不同的值时,尽管调查田块是相同的,频率p却不同,只有在n很大时频率才比较稳定一致。因而,调查株数n较多时的稳定频率才能较好地代表棉株受害的可能性。统计学上用n较大时稳定的p近似代表概率。通过大量实验而估计的概率称为实验概率或统计概率,以表示。此处P代表概率,P(A)代表事件A的概率,P(A)变化的范围为0~1,即0≤P(A)≤1。小概率原理----若事件A发生的概率较小,如小于0.05或0.01,则认为事件A在一次试验中不太可能发生,这称为小概率事件实际不可能性原理,简称小概率原理。这里的0.05或0.01称为小概率标准,农业试验研究中通常使用这两个小概率标准。二、事件间的关系(一)和事件(二)积事件(三)互斥事件(四)对立事件(五)完全事件系(六)事件的独立性(一)和事件事件A和B至少有一个发生而构成的新事件称为事件A和B的和事件,记为A+B,读作“或A发生,或B发生”。例如,有一批种子,包含有能发芽的和不能发芽的。若A为“取到能发芽种子”,B为“取到不能发芽种子”,则A+B为“或者取到能发芽种子或者取到不能发芽种子”。事件间的和事件可以推广到多个事件:事件A1、A2、…、An至少有一发生而构成的新事件称为事件A1、A2、…、An的和事件,记为A1+A2+…+An=nii1A(二)积事件事件A和B同时发生所构成的新事件称为事件A和B的积事件,记作AB,读作“A和B同时发生或相继发生”。事件间的积事件也可以推广到多个事件:事件A1、A2、…、An同时发生所构成的新事件称为这n个事件的积事件,记作A1A2…An=nii1A(三)互斥事件事件A和B不可能同时发生,即AB为不可能事件,记作A·B=V,称事件A和B互斥或互不相容。例如,有一袋种子,按种皮分黄色和白色。若记A为“取到黄色”,B为“取到白色”,显然A和B不可能同时发生,即一粒种子不可能既为黄色又为白色,说明事件A和B互斥。这一定义也可以推广到n个事件。事件A1、A2、…、An不可能同时发生所构成的新事件称为这n个事件互斥或互不相容,记作A1·A2…·An=V。(四)对立事件事件A和B不可能同时发生,但必发生其一,即A+B为必然事件(记为A+B=U),AB为不可能事件(记为A·B=V),则称事件B为事件A的对立事件,并记B为。例如,上面例子中A为“取到黄色”,B为“取到白色”,A与B不可能同时发生,但是,任意抽取一粒种子,其皮色不是黄色就是白色,即A和B必发生其一,因此,A和B互为对立事件。A积事件AB和事件A+BABAB互斥事件对立事件AB(五)完全事件系若事件A1、A2、…、An两两互斥,且每次试验结果必发生其一,则称A1、A2、…、An为完全事件系。例如,仅有三类花色:黄色、白色和红色,则取一朵花,“取到黄色”、“取到白色”和“取到红色”就构成完全事件系。(六)事件的独立性若事件A发生与否不影响事件B发生的可能性,则称事件A和事件B相互独立。例如,事件A为“花的颜色为黄色”,事件B为“产量高”,显然如果花的颜色与产量无关,则事件A与事件B相互独立。三、计算事件概率的法则(一)互斥事件的加法(二)独立事件的乘法(三)对立事件的概率(四)完全事件系的概率(五)非独立事件的乘法(一)互斥事件的加法假定两互斥事件A和B的概率分别为P(A)和P(B)。则事件A与B的和事件的概率等于事件A的概率与事件B的概率之和,即P(A+B)=P(A)+P(B)。加法定理对于多个两两互斥的事件也成立:假定A1、A2、…、Ann个事件彼此间均是两两互斥的事件,其概率依次为P(A1),P(A2),…,P(An),则A1,A2到An和事件的概率P(A1+A2+…+An)等于P(A1),P(A2),…,P(An)之和,即P(A1+A2+…+An)=P(A1)+P(A2)+…+P(An)。例如,一捆花中红、黄、白花的概率分别为0.2、0.3、0.5,那么我们随机抽取一朵非白色花的概率为0.5(=0.2+0.3),这只是由加法定理得到的两个事件概率之和。(二)独立事件的乘法假定P(A)和P(B)是两个独立事件A与B各自出现的概率,则事件A与B同时出现的概率等于两独立事件出现概率P(A)与P(B)的乘积,即P(AB)=P(A)P(B)乘法定理对于n个相互独立的事件也成立。假定P(A1),P(A2),…,P(An)是n个相互独立事件各自出现的概率,则该n个事件同时出现的概率P(A1A2…An)等于各自出现概率之乘积,即P(A1A2…An)=P(A1)P(A2)…P(An)。现有4粒种子,其中3粒为黄色、1粒为白色,采用复置抽样。试求下列两事件的概率:(A)第一次抽到黄色、第二次抽到白色;(B)两次都抽到黄色。由于采用复置抽样(即每一次抽出观察结果后又放回再进行下一次抽样),所以第一次和第二次的抽样结果间是相互独立的。采用概率的古典定义,可以求出抽到黄色种子的概率为0.75,抽到白色种子的概率为0.25。因此,有P(A)=P(第一次抽到黄色种子)P(第二次抽到白色种子)=0.25×0.75=0.1875,P(B)=P(第一次黄色种子)P(第二次黄色种子)=0.75×0.75=0.5625。(三)对立事件的概率若事件A的概率为P(A),那么其对立事件的概率为:)(1)(AAPP(四)完全事件系的概率完全事件系的概率为1。例如“从10个数字中随机抽得任何一个数字都可以”这样一个事件是完全事件系,其概率为1。(五)非独立事件的乘法如果事件A和B是非独立的,那么事件A与B同时发生的概率为事件A的概率P(A)乘以事件A发生的情况下事件B发生的概率P(B|A),即:P(AB)=P(A)P(B|A)四、随机变量随机变量是指随机变数所取的某一个实数值。例1:抛硬币试验,硬币落地后只有两种可能结果:币值面向上和国徽面向上,用数“1”表示“币值面向上”,用数“0”表示“国徽面向上”。把0,1作为变量y的取值。在讨论试验结果时,就可以简单地把抛硬币试验用取值为0,1的变量来表示。P(y=1)=0.5,P(y=0)=0.5例2:用“1”表示“能发芽种子”,其概率为p;用“0”表示“不能发芽种子”,其概率为q。显然p+q=1,则P(y=1)=p,P(y=0)=q=1-p。例3:用变量y表示水稻产量,若y大于500kg的概率为0.25,大于300kg且等于小于500kg的概率为0.65,等于小于300kg的概率为0.1。则用变量y的取值范围来表示的试验结果为P(y≤300)=0.10,P(300<y≤500)=0.65,P(y>500)=0.25。离散型随机变量----当试验只有几个确定的结果,并可一一列出,变量y的取值可用实数表示,且y取某一值时,其概率是确定的,这种类型的变量称为离散型随机变量。将这种变量的所有可能取值及其对应概率一一列出所形成的分布称为离散型随机变量的概率分布:概率)(iyyP变量yiy1y2y3…ynP1P2P3…Pn也可用函数f(y)表述,称为概率函数。)(iyyP前面例1、例2中的y就是离散型随机变量,将其可能取值与对应概率一一列出,即为:变量y01概率0.50.5)(iyyP变量y01概率qp)(iyyP连续型随机变量(continuousrandomvariate)----对于随机变量,若存在非负可积函数f(y)(-∞<y<+∞),对任意a和b(a<b)都有P(a≤y<b)=,则称y为连续型随机变量(continuousrandomvariate),f(y)称为y的概率密度函数(probabilitydensityfunction)或分布密度(distributiondensity)。badyyf)(上述例3中的y就是一个连续型随机变量。第二节二项式分布一、二项总体及二项式分布二、二项式分布的概率计算方法三、二项式分布的形状和参数四、多项式分布一、二项总体及二项式分布所谓二项总体(binarypopulation),就是非此即彼的两项构成的总体.例如:小麦种子发芽和不发芽,大豆子叶色为黄色和青色,调查棉田盲蝽象为害分为受害株和不受害株等等。通常将二项总体中的“此”事件以变量“1”表示,具概率p;将“彼”事件以变量“0”表示,具概率q。因而二项总体又称为0、1总体,其概率则显然有:p+q=1或q=1-p如果从二项总体进行n次重复抽样,设出现“此”的次数为y,那么y的取值可能为0、1、2、…、n,共有n+1种可能取值,这n+1种取值各有其概率,因而由变量y及其概率就构成了一个分布,这个分布叫做二项式概率分布,简称二项式分布或二项分布(binomialdistribution)。二项总体的抽样试验具有重复性和独立性.重复性是指每次试验条件不变,即在每次试验中“此”事件出现的概率皆为p.独立性是指任何一次试验中“此”事件的出现与其余各次试验中出现何种结果无关.二、二项式分布的概率计算方法例:在由具有一对基因差异的亲本杂交形成的F2代群体中,出现黄色子叶的概率为0.75,出现青色子叶的概率为0.25,这是二项总体的概率分布。如果从这种总体抽取3(n)粒,那么得到1(y)粒是黄子叶的概率是多少呢?抽取三粒种子(以Y代黄子叶,以G代青子叶),即n=3,有两粒黄子叶种子,即y=2,这时有3种不同组合:GGY,GYG,YGG。出现第一粒,第二粒和第三粒种子是互不影响的,因此这三个事件是独立事件,由乘法法则可得:649)41)(43)(43()(GGYP649)43)(41)(43()(GYGP649)43)(43)(41()(YGGP由于这三个事件都是相互互斥的,所以出现两粒黄子叶种子(y=2)的概率为这三种概率之和:上述结果也可以表示为:1223)41()43()2(CyP649)643()643()643()2(yP即复合事件的概率必等于该事件出现的组合数目乘以单个事件的概率;而这一复合事件的可能组合数目则相当于从n(3)个物体中任取其y(2)个物体的组合数。数学上的组合公式为:)!(!!ynynCyn二项式中包含两项,这两项的概率为p、q,并且p+q=1,可推知变量y的概率函数为:ynyynqpCyP