第七章假设检验:二项分布与正态分布有了概率和概率分布的知识,接下来我们要逐步掌握统计检验的一般步骤。既然按照数学规则得到的概率都不能用经验方法准确求得,于是,理论概率和经验得到的频率之间肯定存在某种差别,这就引出了实践检验理论的问题。随机变量的取值状态不同,其概率分布的形式也就不同。本章我们不仅要引出二项分布和正态分布这两个著名的概率分布,并且要将它们与抽样调查联系起来,以领会统计检验,并逐步拓宽其应用面。第一节二项分布[来源:]二项分布是从著名的贝努里试验中推导而来。所谓贝努里试验,是指只有两种可能结果的随机试验。在实际问题中,有许多随机现象只包含两个结果,如男与女,是与非,生与死,同意与不同意,赞成与反对等等。通常,我们把其中比较关注那个结果称为“成功”,另一个结果则称为“失败”。每当情况如同贝努里试验,是在相同的条件下重复n次,考虑的是“成功”的概率,且各次试验相互独立,就可利用与二项分布有关的统计检验。虽然许多分布较之二项分布更实用,但二项分布简单明了,况且其他概率分布的使用和计算逻辑与之相同。所以要理解统计检验以及它所涉及的许多新概念,人们几乎都乐意从二项分布的讨论入手。1.二项分布的数学形式我们仍从掷硬币的试验人手。假定二项试验由重复抛掷n次硬币组成,已知硬币面朝上(成功)的概率是p,面朝下(失败)的概率是q(显然有q=1―p)。这样,对试验结果而言,成功的次数(即硬币面朝上的次数)X是一个离散型随机变量,它的可能取值是0,1,2,3,…,n。而对X的一个具体取值x而言,根据乘法规则,我们立刻可以就试验结果计算出一种特定排列(先x次面朝上,而后n―x次面朝下)实现的概率,即ppp…pqqq…q=pxqn-x(7.1)由于正确解决概率问题,光考虑乘法规则是不够的,还要考虑加法规则,于是我们根据(6.27)式,又可以得到就x次成功和(n―x)次失败这个宏观结果而言所包含的所有排列的方式数,用符号xnC表示xnC=)!(!xnxn!(7.2)这样,我们就得到了二项试验中随机变量X的概率分布,即P(X=x)=xnCpxqn-x(7.3)譬如,二项试验是将一枚硬币重复做8次抛掷,假设这枚硬币是无偏的,即p=q=0.5,那么根据(7.3)式,恰好得到5次面朝上的概率是P(5)=58Cp5q8-5=!!!358521)(321)(=0.219同理,我们也可以求出这个二项试验中硬币刚好为0,1,2,…,8次面朝上的各种宏观结果的概率,全部写出来就是表7.1。注意:当x为0时,0!=1。此外xnC=xnnC,掌握这种对称性,将有助于简化运算。表7.1硬币面朝上数x[来源:]概率P(X=x)0123456781/256=.0048/256=.03128/256=.10956/256=.21970/256=.27456/256=.21928/256=.1098/256=.0311/256=.004合计1.000表7.1清楚地显示,做8次抛掷一枚硬币的重复试验,我们将得到9个可能结果中的一个。与经验认识不同的是,通过运用概率论,实现的每个可能结果都与一定的概率相联系。据此,我们可以对各种结果实现的可能性作出估计。其中,试验结果为4次成功(即4次面朝上)的可能性最大,而试验结果为全部面朝上(即8次面朝上)或全部面朝下(即0次面朝上)的可能性最小,每做256次同样的重复试验才可望看到一次。在这个简单例子中,每回试验硬币仅被重复抛掷了8次,也仅能有为数不多的可想象到的结果。当然,还可以设想做硬币重复抛掷更多次的试验.比如硬币被重复抛掷100次,那么可能实现的结果就会有101种。同样运用概率论的知识,我们可以把这些可能结果编组,并把概率和整个一组结果相联系。每当我们把概率与重复试验的每一种可能结果或几组结果联系起来时,就会得到如表7.1所示的概率分布,我们称之为二项分布。2.二项分布的讨论(1)二项分布为离散型随机变量的分布。每当试验做的是在相同的条件下n次重复的贝努里试验时,随机变量X共有n+1个取值。二项分布可以用分布律(表7.2)和折线图(图7.1)来表示。表7.2X012…n合计P0nCp0qn1nCp1qn-12nCp2qn-2…nnCpnq0P=1(2)二项分布的图形当p=0.5时是对称的,当p≠0.5时是非对称的,而当n愈大时非对称性愈不明显(参见图7.1)。(3)二项分布的数学期望E(X)=μ=np,变异数D(X)=σ2=npq。(4)二项分布受成功事件概率p和试验次数n两个参数变化的影响,只要确定了p和n,成功次数x的概率分布也随之确定。因而,二项分布还可简写作B(x;n,p)。(5)二项分布的概率值除了根据公式直接进行计算外,还可查表求得。二项分布表的编制方法有两种:一种依据概率分布律P(x)编制(见附表2);另一种依据分布函数F(x)编制(见附表3)。F(x)=P(X≥x)=nxpnxB),;((7.4)[例7.1.1]某特定社区人口的10%是少数民族,现随机抽取6人,问其中恰好2人是少数民族的概率是多少?[解]解法一:根据(7.3)式直接计算P(X=2)=26Cp2q4=!!!4262101)(4109)(=0.0984=9.84%解法二:根据附表2中纵列n=6和横行p=0.1所对应x值,可直接查得B(x;6,0.1)的概率值B(2;6,0.1)=0.0984解法三:根据附表3求得B(2;6,0.1)=F(2)-F(3)=0.1143―0.0159=0.0984[例7.1.2]求B(x;8,0.7)的中位数。[解]根据附表3中纵列n=8和横行p=0.7所对应的x值,可查出大于等于x的概率值。由于附表列示的是二项分布的累计概率,因此求中位数很方便。Md=5.5+2553.05518.05.05518.0=5.6747第二节统计检验的基本步骤二项分布是用数学或演绎推理的方法求得的一种理论分布。认识到概率分布是先验的理论分布这一点很重要,因为我们不禁要问,既然试验或抽样调查的结果仅与随机变量可能取值中的一个相联系,那么实际试验或样本调查对结果的概率分布及前提假设有没有一个检验的问题?具体来讲,对于一枚硬币被重复抛掷8次的二项试验,经验告诉我们,一共有9种可能的结果,而且实现这些结果的机会是大不相同的。研究者实际上从来不用经验的方法求得概率分布,因为通常我们只对一项试验进行一次或几次,抽取样本也是一个或至多不过几个。既然二项分布是按照数学规则得到的,那么对这9种结果的可能性我们应该作出何种评价呢?如果实际抽样得到的结果偏巧就是先验概率预示的最不可能出现的结果,那么我们是认定纯属巧合,还是开始对用数学或演绎推理方法求得的概率以及理想试验的种种前提假设产生怀疑?更准确地说,在一枚硬币被重复抛掷8次的这个二项试验中,究竟出现什么结果时,我们应该对二项分布及其前提假设产生怀疑呢?是不是只要不是得到4次成功4次失败这个最大可能性结果就开始怀疑,还是仅当出现8次成功或一次也不成功这两个极端情况时才产生怀疑呢?这就是统计检验的核心问题。概率分布不是一种研究者从资料中看到的分布,我们讨论它,不是出于对数学的爱好,而是因为统计推论的有关工作需要它。现在,我们要进入系统讨论统计假设检验的实际步骤的阶段。所有的统计检验都包含某些特定的步骤,这里先列示如下:(1)建立假设;(2)求抽样分布;(3)选择显著性水平和否定域(4)计算检验统计量;(5)判定。应当注意,在统计检验中,概率分布都是与样本的可能结果相联系的,所以已超越了纯数学范畴。本书至此,开始将概率分布化为抽样分布来具体讨论。所谓抽样分布,就是把具体概率数值赋予样本每个或每组结果的概率分布。1.建立假设统计检验是将抽样结果和抽样分布相对照而作出判断的工作。取得抽样结果,依据描述性统计的方法就足够了。抽样分布则不然,它无法从资料中得到,非利用概率论不可。而不对待概括的总体和使用的抽样程序做某种必要的假设,这项工作将无法进行。比如通过掷硬币的实验得到二项分布,必须假设:①样本是随机的,各次抛掷相互独立;②硬币是无偏的(或称是诚实的),即p=q=0.5。概括地说,必须首先就研究总体和抽样方案都做出假设,再加上概率论,我们就可以对各种可能结果做具体的概率陈述了。2.求抽样分布在做了必要的假设之后,我们就能用数学推理过程来求抽样分布了。比如在这一章开头,在硬币抛掷n次的理想实验中,我们计算了成功次数为x的宏观结果所具有的概率,得到二项分布。如果前提假设变动了,还可以求出其他形式的概率分布,如正态分布、泊松分布、卡方分布等等,它们都有特定的方程式。由于数学上已经取得的成果,实际上统计工作者要做的这项工作往往并不是真的去求抽样分布的数学形式,而是根据具体需要,确定特定问题的统计检验应该采用哪种分布的数学用表。3.选择显著性水平和否定域有了与问题相关的抽样分布,我们便可以把所有可能的结果分成两类:一类是不大可能的结果,比如硬币被抛掷8次,结果8次都面朝上。另一类则相反,我们预料这些结果很可能发生。既然如此,如果我们在一次实际抽样中得到的结果恰好属于第一类,我们就有理由对概率分布的前提假设产生怀疑。在统计检验中,这些不大可能的结果称为否定域。如果这类结果真的发生了,我们将否定假设;反之就不否定假设。概率分布的具体形式是由假设决定的,假设肯定不止一个。从统计检验的角度来看,所有假设在逻辑推理中都有相同的地位。如果作为检验用的样本结果真的落在否定域内,那么可以讲,至少假设中的一个(也可能是全部)是错的。就像在掷硬币的试验中,如果实际结果落在否定域中,那么我们可以说前提假设有问题。不过,究竟是硬币不诚实还是抽样在程序上违反了随机原则,我们却无从得知。所以要使检验具有意义,必须把怀疑集中在其中一个假设上。在统计检验中,通常把被检验的那个假设称为零假设(或称原假设,用符号H0表示),并用它和其他备择假设(用符号H1表示)相对比。至于我们究竟情愿认为假设中哪一个可能是错误的,因而应该作为被检验的对象,除了检验本身所提供的知识外,还必须从以往的经验或其他方面了解更多的东西。在掷硬币的试验中,如果可以确定抽样程序遵循了随机原则,那么我们就可以认为硬币有偏,并把硬币无偏定为零假设。一旦实际结果是落在否定域,我们就说p=0.5的假设错了。反之,实际结果落在否定域之外,就不允许我们否定零假设。值得注意的是,假设只能被检验,从来不能加以证明。统计检验可以帮助我们否定一个假设,却不能帮助我们肯定一个假设。比如硬币抛掷试验的结果没有落在否定域中,我们不能据此就判定p=0.5的假设是对的。因为假若硬币真正面朝上的概率是0.49而不是0.50,则正确的抽样分布和我们所计算的几乎完全相同。如果我们因为不能否定零假设就冒然地肯定它,就很可能因为用语太绝对而犯错误。所以在统计检验中,一个零假设如果我们不能否定它,也不能将它作为完全正确的假设而无保留地予以接受,而宁愿采用“不能否定它”的陈述。为了使检验更严格、更科学,还需要更多的东西。首先,我们必须确定甘冒犯第一类和第二类错误的风险的程度;其次,要确定否定域是否要包含抽样分布的两端。第一类错误是,零假设H0实际上是正确的,却被否定了。第二类错误则是,H0实际上是错的,却没有被否定。例如,若抛硬币试验的否定域由0次或8次面朝上两种情况组成,每当实际试验出现这两个结果之一时,假设就被否定了。与此同时,我们就有了犯第一类错误的危险。因为,既使p=0.5的假设是正确的,正如表7.1表明的那样,这样的实验每做256次,毕竟还有出现全部面朝上和全部面朝下各一次的机会。假如抽样我们得到的偏巧就是这样一种极端结果,并据此否定了p=0.5,那么我们就犯了第一类错误。相反,假如检验中我们得到的结果是3次面朝上5次面朝下,由于这个结果不在否定域内,我们不否定p=0.5,则有了犯第二类错误的危险。因为如果p=0.49,而不是0.5,我们也很可能得到相同的结果。换句话说,由于p=0.5的假设实际上是错误的,却没有被否定,我们犯了第二类错