心理实验设计的思想基础统计假设检验一、统计假设检验基本概念1.小概率事件原理与显著性水平在上一章介绍概率基础知识时我们曾经说过,随机事件发生的概率在0~1之间,概率取0值的事件称为不可能事件,概率取1值的事件称为必然事件,而绝大部分随机事件的概率取值都在0与1之间。在教育统计中常常把概率取值小于0.05的随机事件称为小概率事件。但小概率事件毕竟不是不可能事件,小概率事件还是会发生的。小概率事件原理就是认为小概率事件在一次抽样中不可能发生的原理。在实际工作中,人们常常按照小概率事件原理对随机现象作决策判断,这是一种科学的思维方式。在统计假设检验中,公认的小概率事件的概率值被称为统计假设检验的显著性水平,记为α,α值必须在每一次统计检验之前就取定。在教育统计学中,α值常取0.05和0.01两个水平,偶尔也有取0.001的。在假设检验中,α的取值越小,称此假设检验的显著性水平越高。2.虚无假设与备择假设许多科学研究都是从建立假说开始的。天文学史上的日心说、宇宙发生史上的大爆炸说、地球形成史上的冷凝说、大陆形成史上的板块漂移说等,都是一些假说。假说是人们依据已获得的部分信息对客观世界的某种性状作出的推断性描述。假说既可能属真,也可以有误。假说在被提出之后,人们又进一步搜集信息,对假说的正确性进行验证。经过验证,或推翻假说或支持假说,真理就在这一过程中不断地被揭示、被发展,谬误也在这一过程中不断地被推翻、被纠正。统计假设检验的过程类似于这一证实或推翻假说、从而获取真理的过程。作统计假设检验一定要先做好提出假设的工作。统计假设检验中使用的假设有两种,一种称为虚无假设,一种称为备择假设。虚无假设又称为原假设、零假设,以符号表示。虚无假设在假设检验中将被视作为已知条件而应用,因此虚无假设应是一个相对比较明确的地陈述命题,一定要含有“等于什么”的成分,比如说等等。备择假设又称解消假设,研究假设等,以符号H1表示。备择假设作为虚无假设的对立假设而存在,因此它也是一个陈述命题,比如说等等,备择假设是对虚无假设的否定。统计检验的假设都是成对作出的。统计假设建立之后,就在虚无假设为真的前提下,采集样本数据进行统计分析计算与检验,以图推翻或证实假设。所谓形式上同时出现是指作假设时一定要将两个假设同时列出,常见的如下几种:由于虚无假设要作为检验的已知条件,而备择假设仅是备以待择,是虚无假设被拒绝后供人们采择的假设,故虚无假设一定在前,备择假设一定在后。所谓从逻辑上看两者是非此即彼的,意思是说这一假设中一定有一个而且也仅有一个是正确的;两个假设不可能同时成立,但也不可能同时不成立;两个假设中若有一个被证实是错误的话,那么另一个假设就自然是正确的。3.检验统计量统计假设检验过程需要计算某些事件发生的概率。这里的“某些事件发生的概率”实际上就是指“在一定的抽样条件下,某些事先设计好的统计量其取值的概率”。这些统计量是根据检验目的而设计的公式,专门用于统计假设检验的,因此称为检验统计量。由于这些检验统计量是根据检验目的设计的,因而在这些检验统计量的计算中肯定要应用到与所检验参数相应的样本统计量。比如要检验两总体平均数是否有显著差异,那么检验统计量的计算中肯定要应用两样本平均数;如果要检验两总体方差是否有显著差异,检验统计量计算就一定要用到两样本方差;如果要检验两总体比例系数是否有显著差异,那么检验统计量肯定要用到两个样本的比例系数观测值。检验统计量是一个随机变量,它的概率分布是明确的。在本学习材料的后续的内容中,假设检验都是借助正态分布或t分布来作出统计决策的。二、统计假设检验思想方法与步骤1.思想方法概括起来说,统计假设检验就是一种带有概率值保证的反证法。反证法是大家熟悉的一种逻辑推理证明方法。有些命题从正面进行推论难以证明,但证明它的否命题却往往事半功倍,这就是反证法的思想方法。这样做的理由是从逻辑上说,否命题不成立,则其原命题就自然成立。反证法在数学证明中应用比较多。比如说,原来的目的是要证明线段α大于线段b,但证明者不直接证明αb,而是找出它的否命题α≤b,假设其成立,然后进行推论,推论至最后得出一个荒谬的结果,或者得到一个与已知条件不符的结果,假设整个推论的各个步骤都是严密正确的,那么谬误的产生就只有源自于作为推论条件的假设,从而证明了假设是错误的。所以反证法的逻辑就是:证明了作为否命题的假设的错误,那么原命题就自然正确了。统计假设检验从逻辑过程看也是一种反证法。统计检验人员常常希望证明备择假设是正确的,但他却不直接证明备择假设的正确性,而是从与备择假设对立的虚无假设出发,以虚无假设为条件,采集样本数据,确定抽样分布,计算检验统计量,考察检验计量取值的概率,如果最终发现这是一个小概率事件,那就要根据小概率事件原理推翻原虚无假设。当然,研究者必须保证在整个过程中除所作虚无假设之外的一切工作都是严密、科学的。虚无假设与备择假设是一对互否命题,也就是我们前面所说的他们是非此即彼的,推翻了虚无假设,备择假设就自然成立了。这就是统计假设检验应用反证法的“反证”过程。所谓带有概率值保证是指上述的用反证的方法作的统计假设检验,最终推翻虚无假设也即由于所求检验统计量的取值为一小概率事件,而根据小概率事件原理推翻虚无假设。我们知道,根据小概率事件原理作决策判断是一种科学的正确的决策思想方法,但并不保证每次的决策都是正确。换句话说,这一推翻虚无假设的决策也是可能犯错误的,只是犯错误的概率比较小而决策正确的概率比较大,而且这个决策正确的概率是由我们控制,是可以计算的。这就是统计假设检验“带有概率值保证”的含义。2.检验步骤我们可以将统计假设检验的步骤归纳如下:(1)根据题目的设问提出检验假设。(2)选定显著性水平α。(3)写出检验统计量计算公式并按已知数据条件计算检验统计量值。(4)根据显著性水平α在Z分布或t分布中确定临界值和危机域,危机域通常在概率分布的两个尾部,是小概率事件所在地。(5)将求得的检验统计量值与临界值作比较,根据其是否进入危机域而作出是否拒绝虚无假设的统计结论。3.统计决策的两类错误由于统计假设检验是根据样本统计量来推断总体性质的,最终作决策时只能是根据概率值大小来判断,因此无论作什么决策都有犯某种错误的风险。统计工作者在作假设检验时不仅不能奢望不犯错误,而且应该了解自己作决策时可能犯的错误是什么性质,所犯错误的概率有多大,有没有降低犯错误概率的办法。用统计假设检验作决策时可能犯的错误有两种类型:一种是虚无假设属真而被拒绝的错误,这种错误统计上称为I型错误,又称为“拒真”错误;另一种是虚无假设实伪而未被拒绝的错误,统计上称为Ⅱ型错误,又称为“纳伪”错误。两种错误的产生和性质可参见表10-4。从表10-4中可以看到,如果我们拒绝虚无假设,我们可能会犯拒真错误;如果我们不拒绝虚无假设,我们可能会犯纳伪错误。因此,无论怎么决策,统计假设检验都是有可能犯错误的。虽然无论作什么决策都可能犯错误,但是犯错误的可能性大小却是不一样的。10-4统计决策的两类错误拒绝不拒绝属真Ⅰ型错误正确实伪正确Ⅱ型错误统计假设检验中冒犯Ⅰ型错误的概率大小就等于显著性水平α值的大小。由于犯Ⅰ型错误的概率恰好就是显著性水平α的值,故也有人将Ⅰ型错误称为α型错误。有人将Ⅱ型错误称为β型错误,β同时也是犯Ⅱ型错误的概率值符号。由于影响Ⅱ型错误概率大小的因素中有一些是未确定因素,因此在实际检验中Ⅱ型错误的概率是无法精确计算。但是我们可以分析影响Ⅱ型错误概率大小的因素。控制犯Ⅱ型错误的因素有三个,一个是α,另一个是样本容量,第三是样本统计量,但是通过控制α来降低犯Ⅱ型错误的概率却要增大α值而导致犯Ⅰ型错误概率上升,因此,这不是一种理想的办法。理想的办法就是适当加大样本容量,正确选择检验统计量。两种假设检验思想的比较张高魁姚晨徐勇勇中国卫生统计1999年第2期第16卷论著【提要】目的探讨经典统计学派与贝叶斯学派假设检验思想的异同。方法总结和概括两种思想,并结合一个实例对两种思想进行比较。结果两种思想统一于贝叶斯定理,并在特定场合下相互等价;贝叶斯方法在先验信息的利用、风险的回答、损失的考虑以及多重假设问题的处理等方面较经典方法具有明显的优势。结论贝叶斯学派的理论应用受到重视。假设检验问题是统计学的传统问题,对于该问题,经典统计学派与贝叶斯学派有不同的处理思想。目前,经典统计方法占据着统计学的主导地位,但是,贝叶斯方法正在国外迅速发展并得到日益广泛的应用,我们有必要给以足够的重视。本文结合一个例子,对两大学派的假设检验思想进行初步比较,以揭示两种思想的区别与联系,并着重探讨贝叶斯方法的优势。两种假设检验思想一、经典统计学派的假设检验思想经典统计学派运用反证的思想进行推断,即:在认定一次实验中小概率事件不会出现的前提下,若观察到的事件是H0为真时不合理的小概率事件,则拒绝H0。上述思想可以用如下决策函数表示:其中x代表样本信息。Φ(x)取值为0时即为通常的“拒绝H0”。二、贝叶斯学派的假设检验思想贝叶斯学派直接讨论H0和H1的后验概率,依据后验概率的大小进行推断。其基本的解决方案是:在先验分布π下,有决策函数Φ(x)取值为0时即“拒绝H0”。很明显,它选择了后验概率较大的假设。三、两种思想的联系与分歧在经典统计学中,参数被看作未知常数,不存在参数空间,因而不存在H0和H1的概率,给出的是P(x|H0真),其中x代表样本信息。在贝叶斯方法中,参数被看成随机变量,在参数空间内直接讨论样本x下H0和H1的后验概率,给出的是P(H0真|x)和P(H0不真|x)。事实上,两个学派的方法在一定程度上统一于贝叶斯公式。由贝叶斯公式容易得到:因此,当P(H0)=P(H1),即H0与H1居于平等地位时,经典学派与贝叶斯学派的结果是一致的。然而,H0与H1地位往往不一致,H0常居于将被否定的位置,因而上述一致性并不总能成立。贝叶斯学派对此进行了深入的探讨,他们的结果很有意义。对于正态分布前提下的单侧检验:X~N(θ,1),H0:θ≤0H1:θ>0,经典方法得到的P值与贝叶斯方法在无信息先验分布下的后验概率相等,此结论可以推广到正态分布前提下其他类似的单侧检验。对于形如H0:θ=0,H1:θ>0,(或H1:θ<0)的单侧检验,情况则不同,与下述的双侧检验有类似结果。对于形如H0∶θ=0,H1:θ≠0的双侧检验,经典方法得到的P值与贝叶斯方法的后验概率大不相同。在Berger和Sellke1987年对正态分布前提下二者的比较研究中,当经典方法得到的P在0.01~0.1之间时,贝叶斯方法得到H0为真的后验概率大于P,因而此时拒绝H0所承担的实际风险大于P,而这个区间对于经典方法下结论是非常重要的。Hwang和Pematle1994年提出,对这类双侧检验,类似结果始终存在,因而P值应该由其他判断标准来替代。但他们还没有找到这种标准。两种思想的应用下面我们通过一个例子对两种假设检验思想进行一些比较。例:以随机变量θ代表某人群中个体的智商真值,θi为第i个个体的智商真值,随机变量Xi代表第i个个体的智商测验得分,若该人群的期望智商为μ,则第i个个体在一次智商测验中的得分可以表示为:xij=θi+eij=μ+ei+eij,其中ei为第i个个体的自然变异,eij为第i个个体第j次测量的测量误差。根据以往积累的资料,已知在某年龄儿童的智商真值θ~N(μ,τ2),其中μ=100,τ=15,个体智商测验得分Xi~N(θi,σ2),其中σ=10。现在一名该年龄儿童智商测验得分为115,问:(1)该儿童智商真值是否高于同龄儿童的平均水平(即θi>100)?(2)若取θi在(a,b)为正常,问该儿童智商是否属于正常?一、用经典统计方法解答对第一问,设H0:θi≤100H1:θi>100,按照经典统计学方法,若H0成立,则有:因此,α水平下的拒绝域为{x:x>100+σ·u1-α}已知σi=10,若取α=0.05,有u0.95=1.645,100+10×1.645=116.45。现有x=115,因此,在0.05水平尚不能认为该儿童智商