试验设计与统计分析第四章理论分布和抽样分布本课程使用盖钧镒主编的《试验统计方法》一书作为课本。第二章试验设计与实施第三章次数分布和平均数、变异数第五章统计假设测验第八章参数估计方法第六章方差分析第七章卡方测验第九章直线回归和相关第一章科学实验及其误差控制第十章多元回归和相关第十四章不完全区组设计和统计分析第十二章单因素试验的统计分析第十三章多因素试验结果的统计分析第十五章抽样调查第十一章曲线回归第四章概率的理论分布与抽样分布第二节二项分布第一节事件与概率第三节正态分布第四节抽样分布不可能事件自然界中每一件事物的每一种可能出现的情况。第一节事件与概率随机事件事件随机事件常用大写英文字母表示,例如A、B、C…等等。概率每一个事件出现的可能性(probability)。必然事件在特定情况下必定发生的事件;在特定情况下不可能发生的事件;在特定情况下可能发生也可能不发生的事件;某事件出现的概率用P()表示;例如P(A)、P(B)等。概率的有效范围为0~1,即0≤P(A)≤1。必然事件记为,其概率为1,即P()=1。不可能事件记为,其概率为0,即P()=0。随机事件的概率在0~1之间,即0<P(A)<1。第一节事件与概率事件间的关系事件A和B至少有一件发生的事件,记为A+B或AUB。和(并)事件事件A和B同时发生的事件,记为A∩B或A·B。积(交)事件可以引伸到n个事件中至少有一件发生的事件,记为。niin121AA...AA可以引伸到n个事件同时发生的事件,记为。niin121AA...AA第一节事件与概率事件间的关系事件A和B至少有一件发生的事件,记为A+B。和事件事件A和B同时发生的事件,记为AB。积事件互斥事件两件不可能同时发生的事件,例如AB=。对立事件两件不可能同时发生,两者中必定有一件发生的事件,例如AB=同时A+B=。事件系n个事件两两互斥,但其必定有一件发生,例如AiAj=同时A1+A2+…+An=。事件的独立性若事件A发生与否不影响事件B发生的概率则称事件A与事件B相互独立。完全事件系完全互斥事件系几个相互有联系的事件放在一起。各事件的和事件为必然事件的事件系,记为A1+A2+…+An=。第一节事件与概率计算事件概率的法则假定两互斥事件A和B的概率分别为P(A)和P(B),则事件A与B的和事件的概率等于事件A的概率与事件B的概率之和。互斥事件的加法定律可以引伸到:n个两两互斥的事件的概率等于这n个事件的概率之和。即:如果AB=,则P(A+B)=P(A)+P(B)。即:如果AiAj=,则P(Ai)=[P(Ai)]。第一节事件与概率计算事件概率的法则互斥事件的加法定律假定P(A)和P(B)是两独立事件A和B各自出现的概率,则事件A与B同时出现的概率等于事件A的概率与事件B的概率之乘积。独立事件的乘法定律可以引伸到:n个相互独立的事件同时发生概率等于这n个事件各自发生的概率之乘积。即:P(Ai)=[P(Ai)]。即:P(AB)=P(A)P(B)。对立事件的概率若事件A的概率为,则其对立事件的概率为。AP(A)-1)AP(P(A)第一节事件与概率计算事件概率的法则互斥事件的加法独立事件的乘法完全互斥事件系的概率之和为1。即,如果AiAj=同时A1+A2+…+An=,则P(Ai)=1。假定事件A与B是非独立的,那么,事件A和B同时出现的概率等于事件A的概率乘以在事件A发生的情况下事件B发生的概率。非独立事件的乘法即:P(AB)=P(A)P(B|A)。其中,P(B|A)是在事件A发生的情况下事件B发生的概率,称为条件概率。是指随机变数的某一个实数值。第一节事件与概率随机事件为了将随机事件的结果数量化,使用随机变量。在特定情况下可能发生也可能不发生的事件;如果能将随机事件的结果用数字来表示,就有可能对随机事件的发生规律进行有效的研究。随机变量可以将随机事件的每一种结果用一个随机变量来表示。所有可能的结果就构成了随机变数。因此,随机变数是随机变量的一组数据。如果随机事件只有可数的若干个结果,则相应的随机变量就是离散型随机变量。如果随机事件在某一范围内有无数个连续的可能结果,则相应的随机变量就是连续型随机变量。第一节事件与概率对于离散型随机变量可以计算出这类随机事件出现某一种结果的概率。考察事件“从这堆种子中随机抽取一粒所属的品种”例如一堆种子,共2500粒。其中:A品种的有250粒,B品种有1000粒,C品种有750粒,D品种有500粒。只有4种结果。它们出现的概率分别为:结果概率A250/2500=0.1B1000/2500=0.4C750/2500=0.3D500/2500=0.2结果y概率A1250/2500=0.1B21000/2500=0.4C3750/2500=0.3D4500/2500=0.2可以用一个离散型随机变量Y来表示。于是得到一个概率分布表。如果概率P(y)与变量y之间有函数关系f(y),就可以得到一个概率分布函数。第二节介绍最常用的一种离散型随机变量的概率分布“二项分布”第二节二项分布考察一种常见的随机事件,用一个随机变量来表示它的结果,并看看这种随机变量的概率分布。可以用一个随机变量(例如y)来表示它,当出现某种情况时,记y=0,出现另一种情况时,记y=1。试验或调查中常见到一种只有两种结果的对立随机事件。如调查一个人的性别、一株作物是否有病、投硬币是否正面……等等。调查所有的(N个)研究对象,得N个y值,构成一个总体。这种由N个0或1即对立事件构成的总体称为二项总体(binomialpopulation)。下面用一个简单的例子说明二项总体的概率分布。即考察这样一个问题:若某事件A出现的概率为p,其对立事件出现的概率为q=1-p,做n次重复独立试验。该事件出现y次的可能性(概率)有多大?第二节二项分布大豆的子叶有黄色的、绿色的两种,这种颜色是由两对隐性重叠基因控制的。当用具有一对基因差异的大豆黄子叶品种与青子叶品种杂交后,所得的后代(F1代)是黄子叶的。再将F1代进行自交,得到的F2代的子叶颜色将有3/4为黄色,1/4为青色。如果在F2代总体中,随机抽取n粒大豆,其中有y粒为黄色子叶的概率有多少呢?现考虑一个有两粒豆的豆荚(即n=2)的情况:y=0,即两粒都是青的:161)41)(41(y=1,1粒青,1粒黄的:y=2,两粒都是黄的:163)41)(43(163)43)(41(169)43)(43(归纳一下。问题是:若某事件出现的概率为p,其对立事件出现的概率为q=1-p,做n次重复独立试验,该事件出现y次的可能性(概率)有多大?现在是:n=2,p=3/4,q=1/4,y可以为0,1,2。P(y=0)=(1)(1/4)(1/4)=(1)(3/4)0(1/4)2=(1)p0q2-0P(y=1)=(2)(3/4)(1/4)=(2)(3/4)1(1/4)1=(2)p1q2-1P(y=2)=(1)(3/4)(3/4)=(1)(3/4)2(1/4)0=(1)p2q2-2其中系数为在n个中取y个进行组合的数目。组合的计算公式是:)1)(2)(3)...(1()1)...(1()!(!!CyyynnnynynynynyynynyynqpyC)41()43(C)(P所以,概率分布函数为:ynyynynyynqpyC)41()43(C)(P所以,概率分布函数为:y=0,即两粒都是青的:161)41)(41(y=1,1粒青,1粒黄的:y=2,两粒都是黄的:163)41)(43(163)43)(41(169)43)(43(第二节二项分布现考虑一个有两粒豆的豆荚(即n=2)的情况:y=0641)41)(41)(41)(1(y=1y=2649)41)(41)(43)(3(6427)41)(43)(43)(3(6427)43)(43)(43)(1(三3y=3归纳一下。问题是:若某事件出现的概率为p,其对立事件出现的概率为q=1-p,求做n次重复独立试验,该事件出现y次的可能性(概率)有多大?现在是:n=2,p=3/4,q=1/4,y可以为0,1,2。P(y=0)=(1)(1/4)(1/4)=(1)(3/4)0(1/4)2=(1)p0q2-0P(y=1)=(2)(3/4)(1/4)=(2)(3/4)1(1/4)1=(2)p1q2-1P(y=2)=(1)(3/4)(3/4)=(1)(3/4)2(1/4)0=(1)p2q2-2其中系数为在n个中取y个进行组合的数目。n=3,p=3/4,q=1/4,y可以为0,1,2,3。P(y=0)=(1)(1/4)(1/4)(1/4)=(1)p0q3-0P(y=1)=(3)(3/4)(1/4)(1/4)=(3)p1q3-1P(y=2)=(3)(3/4)(3/4)(1/4)=(3)p2q3-2P(y=3)=(1)(3/4)(3/4)(3/4)=(1)p3q3-3ynyynynyynqpyC)41()43(C)(P所以,概率分布函数为:n=2时P(y=0)=(1)p0q2-0P(y=1)=(2)p1q2-1P(y=2)=(1)p2q2-2第二节二项分布n=3时P(y=0)=(1)p0q3-0P(y=1)=(3)p1q3-1P(y=2)=(3)p2q3-2P(y=3)=(1)p3q3-3n=4时P(y=0)=(1)p0q4-0P(y=1)=(4)p1q4-1P(y=2)=(6)p2q4-2P(y=3)=(4)p3q4-3P(y=4)=(1)p4q4-4ynyynqpyC)(P此类随机变量的概率分布函数为:其系数来自于杨辉三角形。111121133114641151010511615201561ynyynqpyC)(P第y项的概率正好等于牛顿二项式的第y项。其中y=0,1,…,n。npq)(如果随机变量y的概率分布函数为则称随机变量y服从具有参数n,p的二项分布,或称贝努里分布。记为ynyynqpyC)(P),(~pnyB所有重复独立试验所取得的数据都可以认为是服从贝努里分布的。这样的数据常称为二项分布资料。第二节二项分布例4.1(p.54)已知某棉田中,每株受盲蝽象危害的概率为p=0.35,今随机抽取5株,问其中有0,1,2,3,4,5株受害的概率为多少?≤0,1,2,3,4,5株受害的概率呢?n=5,p=0.35,q=0.65,记受害株数为y,用二项分布函数可以求得受害株数y的概率分布和累计概率如下:yP(y)F(y)00.11600.116010.31240.428420.33640.764830.18110.945940.04880.994750.00531.0000500565.035.0C411565.035.0C322565.035.0C233565.035.0C144565.035.0C055565.035.0C00.10.20.30.401234500.20.40.60.81012345第二节二项分布另例:一批产品中混有15%次品。问从中随机抽取5个,其中有0,1,2,3,4,5个为次品的概率是多少?≤0,1,2,3,4,5个次品的概率呢?n=5,p=0.15,q=0.85,记次品个数为y,用二项分布函数可以求得次品个数y的概率分布和累计概率如下:yP(y)F(y)00.44370.443710.39150.835220.13820.973430.02440.997840.00220.999950.00011.0000500585.015.0C411585.015.0C322585.015.0C233585.015.0C144585.015.0C055585.015.0C00.10.20.30.40.501234500.20.40.60.81012345第二节二项分布比较这两个例子的概率分布表和概率分布图,会发现二项分布的形状是由n和p两个参数决定的。当p=q=0.5时,