§3.2符号检验符号检验(SINGTEST)是利用正号和负号的数目对某种假设做出判定的非参数方法。单一总体下的中位数检验两总体分布的一致性检验两总体中位数的一致性检验例1联合国人员在世界上66个大城市的生活花费指数(以纽约市1996年12月为100)按自小至大的次序排列如下(这里北京的指数为99):66757880818182838383838485858686868687878888888888898989899090919191919293939696969799100101102103103104104104105106109109110110110111113115116117118155192这个总体的中间水平是多少?北京市在该水平之上还是之下?(北京为99)1.单一总体下的中位数检验这个例子经过简单计算,得到样本均值为96.45,而样本中位数为91;它们都可作为总体的中心的估计,除此之外,众数是88.在本例中,总体分布是未知的,从该数据的直方图中很难说这是什么分布。VAR00001190.0180.0170.0160.0150.0140.0130.0120.0110.0100.090.080.070.03020100Std.Dev=18.09Mean=96.5N=66.00则S+和S—可以用来作检验的统计量.左侧检验,当原假设为真的时,S+应该比较大。当S+过小时,则拒绝原假设右侧检验,当原假设为真的时,S+应该比较小。当S+过大时,则拒绝原假设。双边检验,当原假设为真的时,S+和S-均不应该过大或过小,当S+或S-过大或过小时,则拒绝原假设。一般取S+和S—中较小的一个做检验统计量;如用K表示,则K=min(S+,S—)。01:99;:99HMHM01:99;:99HMHM01:=99;:99HMHM假定用总体中位数Me来表示中间位置,则样本中大于Me的概率应该与小于Me的概率相等。若大于中位数的记为+,小于中位数的记为-令S+=得正符号的数目;S—=得负符号的数目则S+或S—均服从二项分布B(66,0.5),检验步骤:1、提出假设:2、作差数3、求。,记作;,记作0010::eeHMMHMM,0iidxM,SS0idS0idS4、作出决策,①查表判断根据一定的显著性水平α和n,查《符号检验表》求得临界界域,此表是利用二项分布计算出来的。如果S+和S-落在相应的界域以外(含落在界域点上)表明S+和S-的差异很显著。拒绝原假设;否则接受原假设。②计算P值作出判断,拒绝原假设;否则不能拒绝原假设(双边假设检验)若为单边假设检验,则拒绝原假设;则不能拒绝原假设000111()()(1)222kkkiiniinnniiiPKkPKiCC()min(,),min(,),KSSkss2P本例题采用左侧检验:01:99;:99HMHM经过比较大于99的数据个数为S+=23。P因为有一点为99,舍去这一点,于是n从66减少到65。而s+=23在零假设下,P(S+23)=0.0124。则拒绝原假设,即北京的生活指数(99)不可能小于世界大城市的中间水准.检验统计量(s+=23)S+(s+=23)P-值P(S+23)=0.01242P(S+23)=0.0248检验的结果拒绝零假设拒绝零假设结论中位数小于99中位数不等于9901:99;:99HMHM99:;99:10MHMHP165例4.3.6当n较大时,二项分布逼近正态分布,近似服从标准正态分布,我们可以用Z检验量进行检验。不过,由于正态分布是连续分布,所以在对离散的二项分布的近似中,要用连续性修正量:当时取加号,反之取减号。0.524nKZn2nK(,)24nnN()/42nnZK2.两总体分布的一致性检验原假设:两配对样本来自的两总体的分布无显著差异。(成对数据可以采用t检验的方法,但需要有正态性的或者大样本的假设条件,否则可采用符号检验)首先,分别用第二组样本的各个观察值减去第一组对应样本的观察值。差值为正则记为正号,差值为负则记为负号。然后,将正号的个数与负号的个数进行比较。如果正号个数和负号个数大致相当,则可以认为这两个组配对样本的数据分布差距较小;相反,如果正号个数和负号个数相差较多,则可以认为两个配对样本的数据分布差距较大。取统计量nns,min对于给定了显著性水平0,有ssP,从而得到了s的拒绝域s,,根据样本观察值计算可得统计量s的估计量sˆ,若有sˆ,则拒绝H0;否则,不拒绝H0。P167例4.3.73.两总体中位数的一致性检验设有两个总体X与Y,其中中位数分别为MXe与MYe作假设MMHYXee:0;MMHYXee:1步骤:1.从两个总体X与Y中分别抽取容量为n1与n2的简单随机样本XXXn,...,,21与YYYn,...,,21,将两个样本按大小混合顺序排列得ZZZnn2121;2.计算序列nnZjj21,,2,1;的中位数,设为MZe;3.作差nMXjZej1,,2,1及nMYkZek2,,2,1,分别将0MXZej与0MXZej作为样本XXXn1,...,,21的两种状态,并将样本中处于这两种状态的个数记为a与b。同样将0MYZek与0MYZek作为样本YYYn2,...,,21的两种状态,并将样本处于这两种的个数记为c与d4.当H0为真时,两样本中超过或低于中位数的个数应接近或相等,两样本与中位数之差中为正数与负数的个数亦应接近或相等,可采用卡方检验作出统计推断。P168例4.3.8§3.3秩和检验是对符号检验法的一种改进方法。符号检验只考虑了符号而忽略了样本绝对值的大小,因此没有充分利用数据所提供的单位信息,损失了部分统计信息。Wilcoxon符号秩和检验对此有所改进,不仅考虑正负符号,还考虑差别大小,因而比符号检验法更有效,使检验的结果更加精确。秩(rank)秩就是数据按照升序排列之后,每个观测值的位置下面一行Ri就是上面一行数据Xi的秩。数据中有相同的数值,称为结。结中数字的秩为它们按升幂排列后位置的平均值Xi159183178513719Ri75918426310Xi159173178513719Ri758.518.54263105.8298定义4.3.1设有两总体X与Y,分别从X与Y中独立抽取容量分别为n1和n2的简单随机样本XXXn1,...,,21与YYYn2,...,,21,取XXXn121为XXXn1,...,,21的顺序统计量,YYYn221为YYYn2,...,,21的顺序统计量,现将上述两样本混合在一起并按其数值从大到小顺序排列,设得到混合后的样本从小到大顺序为ZZZnn2121。若有ZXjk,则称Xk的秩为j,记作jXrk;同样若有ZYlk,则称Yk的秩为l,记作lYrk,并称nXkkxrT11与nYkkyrT21分别为顺序统计量XXXn1,...,,21与YYYn2,...,,21的秩和秩和有如下性质:(1)121321212121nnnnnnTTyx(2)1222121111nnnTnnx,1222112222nnnTnny一、威尔柯克逊(Wilcoxon)秩和检验法1.单个样本中位数和已知的一个总体中位数比较2.配对样本差值的中位数与0的比较。3.两个独立样本比较的Wilcoxon秩和检验1.单样本的Wilcoxon符号秩检验0100:::MMHMMH0100:::MMHMMH0100:::MMHMMH单样本的Wilcoxon符号秩检验是检验关于中位数对称的总体的中位数是否等于某个特定值,检验的假设。基本思想:为了对假设作出判定,需要从总体中随机抽取一个样本得到n个观察值。这n个数据记作x1,x2,…,xn,它们分别与M0的差值记为Di,Di=Xi-M0(i=l,2,…,n)。如果原假设为真(双侧检验),那么观察值围绕M0对称分布。对于Di来说,正的差值和负的差值应近似地相等。取绝对值|Di|,对|Di|按大小顺序排序。再按本身符号的正、负分别加总它们的秩次,得到正等级的总和W+与负等级的总和W-。当原假设为真时,正等级的总和与负等级的总和应该近似相等。如果正等级的总和远远大于负等级的总和,表明大部分大的等级是正的差值,这时,数据支持备择假设MM0,即实际的中位数比M0大。如果负等级的总和远远大于正等级的总和,表明大部分大的等级是负的差值,这时,数据支持备择假设MM0,即实际的中位数比M0小。因为正等级和负等级的总和是个恒定的值,即l+2+…+n=n(n+1)/2,因此对于双侧备择M≠M0来说,两个中无论哪一个太大,都可以被支持。检验的步骤(1)计算︱Xi-M0︳,它们代表这些样本点到M0的距离;(2)把上面的n个绝对值排序,并找出它们的秩;如果有相同的样本点,每个点取平均秩(如1,4,4,5的秩为1,2.5,2.5,4);(3)计算正等级的总和W+与负等级的总和W-(4)选择检验统计量。对双边检验,在零假设下,W+与W-应大小差不多.因而,当其中之一非常小时,应怀疑零假设;在此,取检验统计量W=min(W+,W-)。(5)根据得到的W值,查Wilcoxon符号秩检验的分布表做出判断。(或者根据P值的结果,若P值小于或等于给定的显著性水平0.05,则拒绝零假设)Wilcoxon符号秩检验假设分布是对称的,如果对称性不成立,则还是符号检验好。特别,当样本容量n很大时,有于是可采用统计量:(1)()()4nnEWEW()()(1)(21)/24DWDWnnnmin(,)TWW)1,0(~24/)12)(1(4/)1(5.0NnnnnnTZ利用标准正态分布做检验。做为比较,现在利用正态近似对世界大城市再做Wilcoxon符号秩检验。).(57252zp).(57252zp检验统计量Z=-2.5725Z=-2.5725P-值=0.0052=0.01检验的结果拒绝零假设拒绝零假设结论中位数小于99中位数不等于9999:;99:10MHMH99:;99:10MHMH注意:该例利用Wilcoxon符号秩检验所得得结论与符号检验结论一样,但P值是符号检验的一半,这是因为Wilcoxon符号秩检验利用了数据差值的大小信息。打结的情况.在许多情况下,数据中有相同的数字,称为结(tie).结中数字的秩为它们按升幂排列后位置的平均值.这样的秩称为中间秩。如果结多了,零分布的大样本公式就不准了。因此,在公式中往往要作修正。31(1)/4~(0,1)(1)(21)/24[]/48giiiTnnZNnnn其中用τi表示第i个结的相同观测值的个数。用g表示结的个数。例如:观测值2247778999910秩1.51.5355579.59.59.59.512结统计量τi2—3—4—2.配对样本差值的中位数与0的比较比较的目的是推断配对样本差值的总体中位数是否为0,也可以说是推断配对的两个相关样本所来自的两个总体中位数是否相等。(配对实验的差值若不满足正态性的条件,则不能用t检验)例对12份血清分别用原方法(检测时间20分钟)和新方法(检测时间10分钟)测谷-丙转氨酶,结果见表8-1的(2)、(3)栏。问两法所得结果有无差别?表12份血清用原法和新法测血清谷-丙转氨酶的比较编号原法新法差值正秩负秩160761682142152105319524348114808221.55242240-21.56220220071902051578253813691982434591038446411236190