上海财经大学经济信息管理系IS/SHUFEPage1of8第二十七课符号检验和Wilcoxon符号秩检验在统计推断和假设检验中,传统的检验统计量都叫做参数检验,因为它们都依赖于确定的概率分布,这个分布带有一组自由的参数。参数检验被认为是依赖于分布假定的。通常情况下,我们对数据进行分析时,总是假定误差项服从正态分布,这是人们易于接受的事实,因为正态分布的原始出发点就是来自于误差分布,至于当样本相当大时,数据的正态近似,这是由于大样本理论所保证的。但有些资料不一定满足上述要求,或不能测量具体数值,其观察结果往往只有程度上的区别,如颜色的深浅、反应的强弱等,此时就不适用参数检验的方法,而只能用非参数统计方法(non-parametricstatisticalanalysis)来处理。这种方法对数据来自的总体不作任何假设或仅作极少的假设,因此在实用中颇有价值,适用面很广。一、单样本的符号检验符号检验(signtest)是一种最简单的非参数检验方法。它是根据正、负号的个数来假设检验。首先需要将原始观察值按设定的规则,转换成正、负号,然后计数正、负号的个数作出检验。该检验可用于样本中位数和总体中位数的比较,数据的升降趋势的检验,特别适用于总体分布不服从正态分布或分布不明的配对资料,有时当配对比较的结果只能定性的表示,如试验前后比较结果为颜色从深变浅、程度从强变弱,成绩从一般变优秀,即不能获得具体数字,也可用符号检验,例如用正号表示颜色从深变浅,用负号表示颜色从浅变深。用于配对资料时,符号检验的计算步骤为:首先定义成对数据指定正号或负号的规则,然后计数正号的个数S及负号的个数S,由于在具体比较配对资料时,可能存在配对资料的前后没有变化,或等于假设中的中位数,此时仅需要将这些观察值从资料中剔除,当然样本大小n也随之减少,故修正样本大小SSn。当样本n较小时,应使用二项分布确切概率计算法,当样本n较大时,常利用二项分布的正态近似。1.小样本时的二项分布概率计算当20n时,S或S的检验p值由精确计算尺度二项分布的卷积获得。在比较配对资料试验前后有否变化,或增加或减小的假设检验时,如果我们定义试验后比试验前增加为正号,反之为负号,那么对于原假设:试验前后无变化来说,正号的个数S和负号的个数S可能性应当相等,即正号出现的概率p=0.5,于是S与S均服从二项分布)5.0,(nB,对于太大的S相应太小的S,或者太大的S相应太小的S,都将拒绝接受原假设;对于原假设:试验后比试验前有增加来说,正号的个数S大于负号的个数S的可能性应该大,即正号出现的概率5.0p,对于太小的S相应太大的S,将拒绝接受原假设;对于原假设:试验后比试验前减小来说,正号的个数S小于等于负号的个数S的可能性应该大,即正号出现上海财经大学经济信息管理系IS/SHUFEPage2of8的概率5.0p,对于太大的S相应太小的S,将拒绝接受原假设。例27.1有一种提高学生某种素质的训练,有人说它是无效的,有人说它是有效的,那么真实情况究竟应该是怎样的呢?随机地选取15名学生作为试验样本,在训练开始前做了一次测验,每个学生的素质按优、良、中、及、差打分,经过三个月训练后,再做一次测试对每个学生打分。数据见表27.1所示。我们将素质提高用正号表示,反之用负号表示,没有变化用0表示。显著性水平取0.1。表27.1训练前后的素质比较学生编号训练之前训练之后差异符号1中优+2及良+3良中-4差中+5良良06中优+7差及+8良优+9中差-10差中+11中优+12及良+13中及-14中优+15差中+从表27.1中15名学生训练前后的差异分析可得出:有14名学生有差异,其中S=11,S=3。1名学生无差异(学生编号为5),应该从分析中去掉,所以n=15-1=14。假设检验为:5.0:0pH即训练之后学生素质没有提高。5.0:1pH即训练之后学生素质有提高。由于试验的结果只有两种可能,正号或负号,对每一个学生试验出现正号的假定概率为p=0.5,负号为1—p=0.5,这样整个试验的概率是相同的,并且每一个试验是相互独立的。因此在n=14次独立的试验中,正号出现的次数服从二项分布)5.0,14(B,见表27.2所示。表27.2二项分布的概率和累计概率n=14,p=0.5正号出现的次数正号出现的概率累计概率00.00010.000110.00090.000920.00560.006530.02220.0287上海财经大学经济信息管理系IS/SHUFEPage3of840.06110.089850.12220.212060.18330.395370.20950.604780.18330.788090.12220.9102100.06110.9713110.02220.9935120.00560.9991130.00090.9999140.00011.0000从表27.2的累计概率列中我们看到,正号出现的次数大于10的概率为1-0.9713=0.0287,或者换一种方法计算为=0.0001+0.0009+0.0056+0.0222=0.0287,二者的微小差异是因为小数点后舍入问题造成的。而试验的结果:正号出现的次数为11,大于10,出现的概率不会超过0.0287,我们开始设定的显著性水平为0.1,由于0.02870.1,所以我们拒绝原假设,接受备选假设。如果我们的原假设为p=0.5,既训练前后学生素质相等,那么就是双侧检验,应该加上正号出现的次数小于4的概率0.0287,即2×0.0287=0.05740.1,同样是拒绝原假设,接受区间为4次到10次,而拒绝区间为小于等于3次(小于4次)或大于等于11次(大于10次)。2.大样本时的正态近似概率计算当20n时,样本可以认为是大样本。我们可以利用二项分布的正态近似,即对于),(~pnBS,二项分布的期望均值为np,方差为)1(pnp,当n比较大时,且np和)1(pn大于5,可以近似地认为)1,0(~)1(NpnpnpSz(27.1)公式中的S表示正号或者负号的个数,符号检验时,p=0.5代入(27.1)式中,得到大样本时的正态近似统计量)1,0(~5.05.0NnnSz(27.2)当S2/n时,应该修正S为S-0.5;当S2/n时,应该修正S为S+0.5。S值加或减的0.5是连续性修正因子,目的是为了能将连续分布应用到近似的离散型分布。二、配对资料的Wilcoxon符号秩检验当两组配对资料近似服从正态分布,它们差值的检验可以使用配对t检验法。如果配对资料的正态分布的假设不能成立,就可以使用FrankWilcoxon(1945)符号秩检验,它是一种非参数检验方法,对配对资料的差值采用符号秩方法来检验。它的基本要求是差值数据设置为最小的序列等级和两组配对资料是相关的(配成对)。在两组配对资料的差异有具体数值的情况下,符号检验只利用大于0和小于0的信息,即正号和负号的信息,而对差异大小所上海财经大学经济信息管理系IS/SHUFEPage4of8包含的信息却未加利用,但Wilcoxon符号秩检验方法既考虑了正、负号,又利用了差值大小,故效率较符号检验法高。例27.2某制造商想要比较两种不同的生产方法所花费的生产时间是否有差异。随机地选取了11个工人,每一个工人都分别使用两种不同的生产方法来完成一项相同的任务,每一个工人开始选用的生产方法是随机的,即可以先使用生产方法1再使用生产方法2,也可以先用生产方法2再使用生产方法1。这样,在样本中的每一个工人都提供了一个配对观察。数据见表27.3所示。任务完成时间的正差值表示生产方法1需要更多的时间,负差值表示生产方法2需要更多的时间。表27.3两种不同生产方法完成任务的时间(分钟)工人编号n生产方法M差值D绝对差值秩次R符号秩次RM1M2D=M1-M2|D|-+110.29.50.70.78829.69.8-0.20.22239.28.80.40.43.53.5410.610.10.50.55.55.559.910.3-0.40.43.53.5610.29.30.90.91010710.610.50.10.111810.010.000———911.210.60.60.6771010.710.20.50.55.55.51110.69.80.80.899符号秩次总和T=5.5,T=49.55.549.5为了比较两种方法的任务完成时间是否有显著差异,假设检验为::0H任务完成时间的两个总体是相同的。:1H任务完成时间的两个总体是不相同的。使用Wilcoxon符号秩检验方法的主要步骤见表27.3中每列的计算方法和过程,先求出每对数据的差值D,按差值绝对值|D|由小到大排列并给秩R,从秩1开始到秩10,注意工人编号为8的配对数据,由于差值为0,在排秩中丢弃,样本数目修正为n=11-1=10。在给秩值时,遇到相等|D|,也称为结值(tied),使用平均秩,如工人编号3和5具有相同的绝对差值0.4,所以平分秩3和秩4,各为秩3.5。一旦绝对差值的秩值R给出后,然后将R分成正和负差值的两个部分秩值R和R,最后求符号秩和RT,RT,如T=2+3.5=5.5。对于样本数目有n个,T与T的最小可能值为0,而最大可能值为(1+2+…+n)=n(n+1)/2。显然,应当有T+T=n(n+1)/2,如本例5.5+49.5=55=10(10+1)/2。那么符号秩的平均值为n(n+1)/4。构造Wilcoxon符号秩统计量为上海财经大学经济信息管理系IS/SHUFEPage5of84)1(nnTS(27.3)显然如果原假设为真,T与T应该有相同的值,等于n(n+1)/4,因此太大的S值或太小的S值都是我们拒绝的依据。在实际工作中便于计算常取W=min(T,T),W服从所谓的Wilcoxon符号秩分布,对于本例n=10,S49.5-10(10+1)/4=22,W=min(49.5,5.5)=5.5,查表可得在显著水平0.05,n=10的双侧检验的临界值为8,即W值的拒绝区域为0到8,接受区域为8到27.5。由于5.58,我们拒绝原假设。对于n20,当原假设为真时,统计量T=T-T接近于0,统计量T的方差为6)12)(1()0(212nnnRniiT(27.4)建立检验统计量)1,0(~6)12)(1(0NnnnTz(27.5)近似于标准正态分布。因为T+T=n(n+1)/2,所以T=T-T=2T-n(n+1)/2,我们可以将(27.5)式中的T改写为T的形式)1,0(~24)12)(1(4)1(NnnnnnTz(27.5)我们以本例的数据来计算一下,6/211110/)5.55.49(z=2.24,p=2×0.01246=0.0249。标准正态分布使用显著水平0.05时,拒绝区域为z-1.96和z1.96,因为2.241.96,所以拒绝原假设。三、实例分析例27.1的SAS程序如下:datastudy.training;inputbeforeafter;d=after-before;cards;35244313上海财经大学经济信息管理系IS/SHUFEPage6of84435124531133524323513;procunivariatedata=study.training;vard;run;程序说明:建立输入数据集training,首先要对定性资料进行量化。本例把学生成绩按5分计量,设定优=5分,良=4分,中=3分,及格=2分,差=1分。把提高学生某种素质的训练前成绩和训练后成绩分别存放在变量before和after中,变量d等于配对的训练后成绩减去训练前成绩。注意只能调用univariate过程,而不能调用means过程来进行符号检验。分析变量为单样本数据集training中的d变量。输出的主要结果见表27.4所示。表27.4用uni