第八章非参数检验前面所述的计量资料的t检验和F检验,都是基于总体分布为正态分布、总体方差相等的前提下对总体均数进行的检验。这类检验方法总体分布为已知的函数形式,是对其总体参数作假设检验称为参数检验(parametrictest)。若总体分布未知或已知总体分布与检验所要求的条件不符,数据转换也不使其满足参数检验的条件,这时需要采用一种不依赖于总体分布的具体形式,与总体参数无关的检验方法-----非参数检验(nonparametrictest)。概述本章介绍常用的秩转换(ranktransformation)的非参数检验,也称秩和检验(ranksumtest),该类方法在非参数检验中占有重要地位。秩转换的非参数检验是首先将定量数据从小到大,或等级从弱到强转换成秩后,再求秩和,计算检验统计量—秩统计量,做出统计推断。配对设计计量资料两处理效应的比较,一般采用配对t检验,如果差数严重偏离正态分布,可采用Wilcoxon秩检验,亦称符号秩和检验(signedranktest)。一般认为,在数据满足配对t检验要求时,Wilcoxon秩检验的功效是检验效能的95%左右。目的是推断配对样本差值的总体中位数是否和0有差别,即推断配对的两个相关样本所来自的两个总体中位数是否有差别。方法步骤见例8-1。配对设计和单样本资料的符号秩和检验例8-1某研究者欲研究保健食品对小鼠抗疲劳作用,将同种属的小鼠按性别和年龄相同、体重相近配成对子,共10对,并将每对中的两只小鼠随机分到保健食品两个不同的剂量组,过一定时期将小鼠杀死,测得其肝糖原含量(mg/100g),结果见表8-1,问不同剂量组的小鼠肝糖原含量有无差别?表8-1不同剂量组小鼠肝糖原含量(mg/100g)小鼠对号中剂量组高剂量组差值d秩次(1)(2)(3)(4)=(3)-(2)(5)1620.16958.47338.31102866.50838.42-28.08-53641.22788.90147.6884812.91815.202.291.55738.96783.1744.2166899.38910.9211.543.57760.78758.49-2.29-1.58694.95870.80175.8599749.92862.26112.34710793.94805.4811.543.55.48T5.6T0H:差值的总体中位数0dM1H:0dM0.051.建立检验假设,确定检验水平2.求检验统计量T值①省略所有差值为0的对子数,令余下的有效对子数为n,见表10-1第(4)栏,本例n=10;检验步骤若多个差值为0,可通过提高测量工具的精度来解决。②按差值的绝对值从小到大编秩,然后分别冠以正负号。遇差值绝对值相等则取平均秩,称为相同秩(ties)(样本较小时,如果相同秩较多,检验结果会存在偏性,因此应提高测量精度,尽量避免出现较多的相同秩),表10-1第(4)栏差值的绝对值为2.29有2个,其秩依次应为1,2,皆取平均秩为1.5,见表10-1第(5).③任取正秩和或负秩和为T,本例取T=6.5。3.确定P值,作出推断结论(1)查表法(时),查T界值表(附表9),判断原则:内大外小。505n(2)正态近似法(n50时)超出附表9范围,可用正态近似法作u检验。TTTZ4/)1(nnT24/)12)(1(nnnT当n不很大时,统计量Z需要作如下的连续性校正:24/)12)(1(5.04/)1(5.0nnnnnTTZTT若多次出现相持现象(如超过25%),用(10-3)式求得的Z值偏小,应按公式(10-4)计算校正的统计量值Zc。48)(24)12)(1(5.04/)1(3jjcttnnnnnTZ(8-4)式中tj为第j(j=1,2…)次相持所含相同秩次的个数。如例10-1,第1次相持,有两个差值的绝对值均为2.29,则t1=2;第2次相持,有两个差值均为11.54,则t2=2。于是,)(3jjtt)()(232131tttt=(23-2)+(23-2)=12。二、一组样本资料的符号秩和检验若单组随机样本来自正态总体,比较其总体均数与某常数是否不同,可用检验;若样本来自非正态总体或总体分布无法确定,也可用Wilcoxon符号秩和检验,检验总体中位数是否等于某已知数值。例8-2已知某地正常人尿氟含量的中位数为2.15mmol/L。今在该地某厂随机抽取12名工人,测得尿氟含量(mmol/L),结果见表8-2。问该厂工人的尿氟含量是否高于当地正常人?表8-212名工人尿氟含量(mmol/L)测定结果尿氟含量X差值d秩次2.1502.10-0.05-2.52.200.052.52.12-0.03-12.420.2742.520.3752.620.4762.720.5772.990.8483.191.0493.371.22104.572.4211T+=62.5T-=3.5由表8-2第2栏可计算观察值与已知中位数0M2.15mmol/L的差值d,其均数为5975.0d,标准差为7141.0dS对这些差值进行正态性检验,8380.0W,03.0P,因此,不满足t检验关于样本来自正态分布的条件,该资料宜用Wilcoxon符号秩和检验。1、求差值0Mxdi检验假设0H:差值的总体中位数等于零,即0)(dMd1H:差值的总体中位数不等于零,即0)(#dMd05.03.编秩对差值的绝对值编秩,方法同上。4.求正、负秩和并确定检验统计量本例,T+=62.5,T-=3.5T+与T-之和为66表明秩和的计算无误;取T=min(T+,T-)=3.5。2、5.确定P值并做出推断结论本例,n=11,T=3.5,查配对设计用T界值表,得P0.005,按α=0.05检验水准,拒绝,接受。可认为该厂工人尿氟含量高于当地正常人。完全随机化设计两独立样本的秩和检验一、两组连续变量资料的秩和检验例8-3在河流监测断面优化研究中,研究者从某河流甲乙两个断面分别随机抽取10和15个样品,测得其亚硝酸盐氮(mg/L)的含量如表10-3,试比较甲乙两个河流断面亚硝酸盐氮的含量有无差别?.表8-3某河流甲乙断面亚硝酸盐氮含量(mg/L)监测结果河流甲断面河流乙断面亚硝酸盐氮含量秩次亚硝酸盐氮含量秩次亚硝酸盐氮含量秩次0.0141.00.0182.50.03617.00.0182.50.0194.00.03718.00.0248.50.0205.00.05521.00.02510.50.0226.00.06422.50.02712.00.0237.00.06724.00.03415.00.0248.50.03819.00.02510.50.04320.00.02813.00.06422.50.03014.00.10025.00.03516.0n1=10T1=136.0n2=15T2=189.0本例两样本资料经方差齐性检验,推断得两总体方差不等0H:甲乙两河流断面亚硝酸盐氮含量的总体分布相同1H:甲乙两河流断面亚硝酸盐氮含量的总体分布不同0.05检验步骤求检验统计量T值:①把两样本数据混合从小到大编秩,遇数据相等者取平均秩;②以样本例数小者为1n,其秩和(1T)为T,若两样本例数相等,可任取一样本的秩和(1T或2T)为T,本例T=136.0。确定P值,作出推断结论:(1)查表法查T界值表(成组设计用),先从左侧找到n1(n1和n2中的较小者),本例为10;再从表上方找两组例数的差(n2-n1),本例,n2-n1=5;在两者交叉处即为T的临界值。将检验统计量T值与T临界值相比,若T值在界值范围内,其P值大于相应的概率;若T值等于界值或在界值范围外,其P值等于或小于相应的概率。本例,概率为双侧0.05对应的T界值为94~166;T=136.0并未超出该范围,故P0.05;按α=0.05检验水准,不拒绝H0。不能认为某河流甲乙断面亚硝酸盐氮含量的总体分布的位置不同。若110n或2110nn,超出附表10的范围,可用正态近似法作u检验,令12nnN,按下式计算u值。12)1(5.02)1(212121nnnnnnTZ若Z超过标准正态分布的临界值,则拒绝。0H上式用于无相持或相持不多的情形;若相持较多(比如超过25%),应按下式进行校正。cZZc(8-6)其中,)/()(133NNttcjj,jt为第j次相持时相同秩次的个数,21nnN。二、两组有序变量资料的秩和检验例8-4某研究者欲评价新药按摩乐口服液治疗高甘油三脂血症的疗效,将高甘油三脂血症患者189例随机分为两组,分别用按摩乐口服液和山楂精降脂片治疗,数据见表10-4,问两种药物治疗高甘油三脂血症的疗效有无不同?表8-4两种药物治疗高甘油三脂血症的疗效人数秩和疗效按摩乐口服液山楂精降脂片合计秩次范围平均秩次按摩乐口服液山楂精降脂片(1)(2)(3)(4)(5)(6)(7)=(2)(6)(8)=(3)(6)无效1770871-87447483080有效25133888-125106.52662.51384.5显效273764126-189157.54252.55827.5合计691201897663102920H:两种药物疗效的总体分布相同1H:两种药物疗效的总体分布相同0.05①先确定各等级的合计人数、秩范围和平均秩,见表10-4的(4)栏、(5)栏和(6)栏,再计算两样本各等级的秩和,见(7)栏和(8)栏;②本例T=7663;③计算Z值0587.312/)1189(691205.02/)1189(697663Z8555.0189189)6464()3838()8787(1)/()(1333333NNttcjj3069.38555.00587.3cZZc3069.3cZ,查标准正态分布表,得001.0P。按05.0检验水准,拒绝0H,接受1H,可以认为,两种药物对高甘油三脂血症的疗效分布不同。完全随机化设计多组独立样本的秩和检验一、多组连续变量资料的秩和检验例8-5某研究者欲研究A、B两个菌种对小鼠巨噬细胞吞噬功能的激活作用,将60只小鼠随机分为三组,其中一组为生理盐水对照组,用常规巨噬细胞吞噬功能的监测方法,获得三组的吞噬指数,试比较三组吞噬指数有无差别?表8-5不同菌种对小鼠巨噬细胞的吞噬指数对照组(1)A菌组(2)B菌组(3)吞噬指数秩次吞噬指数秩次吞噬指数秩次1.301.01.8014.51.504.01.402.01.8014.51.8014.51.504.02.2020.51.8014.51.504.02.2020.52.0017.01.606.52.2020.52.3026.51.606.52.2020.52.3026.51.7010.02.3026.52.4033.51.7010.02.3026.52.4033.51.7010.02.3026.52.4033.51.7010.02.6642.52.4033.51.7010.02.6642.52.5037.52.1018.02.6844.52.5037.52.3026.52.6844.52.6040.02.3026.52.7047.02.6040.02.3026.52.8049.52.6040.02.4033.52.8049.52.7047.02.4033.53.0051.02.7047.0经检验,本例的对照组和A菌组均来自非正态总体,因此,不能用方差分析方法进行检验。现采用Kruskal-Wallis秩和检验。1.检验假设H0:三个总体的分布位置相同1H:三个总体的分布位置不同或不全相同=0.052.编秩将各组数据混合,由小到大排序并编秩,如遇有相等数值则取平均秩次,如吞噬指数为1.5的有三个,它们的秩次为3、4和5,取平均秩次为(3+4+5)/3=4。3.求秩和分别将各组秩次相加,分别求得1R、2R和3