1秩转换的非参数检验华中科技大学公共卫生学院流行病与卫生统计学系蒋红卫Email:JHWCCC@21CN.COMRank-BasedNonparametricTest第8章2配对样本资料的Wilcoxon符号秩检验两个独立样本比较的Wilcoxon秩和检验完全随机设计多个样本比较的Kruskal-WallisH检验随机区组设计多个样本的FriedmanM检验讲课内容3问题一甲组(n1=29)乙组(n2=29)001.66.1000.21.3002.26.2000.21.7002.69.7000.22.800.33.313.8000.37.400.44.325000.413.000.45.1000.400.65.4000.9015.5000.9M1=0.6M2=0X1=?X2=1.06例:两种食物对大鼠心肌坏死面积(格子数)S1=?S2=2.724问题二甲医院(n1=26)乙医院(n2=26)-+++++10401601280-++++++10401601280-+++1080320-+++1080320-+++2080640++++2080640++++2080640+++++40160640M1=?M2=?X1=?X2=?例:两医院26例RA患者血清lgG抗体测定结果S1=?S2=?5基本概念参数检验(parametrictest):如果总体分布为已知的数学形式,对其总体参数作假设检验。如:t检验和F检验。非参数检验(nonparametrictest):对总体分布不作严格假定,又称任意分布检验(distribution-freetest),它直接对总体分布作假设检验。如:χ2检验6秩转换的非参数检验:推断一个总体表达分布位置的中位数M(非参数)和已知M0、两个或多个总体的分布是否有差别。基本方法:先将数值变量从小到大,或等级从弱到强转换成秩后,再计算检验统计量。主要特点:假设检验的结果对总体分布的形状差别不敏感,只对总体分布的位置差别敏感。7应用范围计量资料:不满足正态和方差齐性条件的小样本资料;分布不明的小样本资料;一端或二端是不确定数值(如<0.5、>5.0等)的资料(必选);等级资料:若选行×列表资料的χ2检验,只能推断构成比差别,而选秩转换的非参数检验,可推断等级强度差别。8注意事项独立正态方差齐性数值确切t检验F检验T,F统计量调整变量变换秩转换的非参数检验满足不满足9第一节配对样本资料的Wilcoxon符号秩检验10由F.Wilcoxon于上世纪三十年代提出的,既考虑差值正负号,又考虑差值大小。基本过程:取差值编秩区分正负号秩H0成立时T+=T-11应用范围计量资料:两组配对计量数据,变量差值(d)不为正态分布;单个样本中位数和总体中位数比较。等级资料:配对设计等级资料单个样本平均等级和总体平均等级比较。12配对样本差值的中位数和0比较目的:推断配对样本差值的总体中位数是否和0有差别配对的两个相关样本所来自的两个总体中位数是否有差别以上两个检验假设是等价的。13例1对12份血清分别用原方法(检测时间20分钟)和新方法(检测时间10分钟)测谷-丙转氨酶,结果见表8-1的(2)、(3)栏。问两法所得结果有无差别?14表112份血清用两法测转氨酶结果比较编号原法新法差值(d)16080202142152103195243484808225242240-2622022007190205158253813921224331103844611236200-3612951005用配对t检验的条件:差值(d)为计量数据,并且服从正态.15NormalP-PPlotof差值ObservedCumProb1.00.75.50.250.00ExpectedCumProb1.00.75.50.250.00正态性检验:概率图(probality-probalityplot,P-Pplot)数据点不为直线,并未分布在线上,提示本资料不为正态.161.建立检验假设,确定检验水平H0:差值的总体中位数Md=0H1:Md≠0α=0.052.求检验统计量T值编秩过程:删除d=0对子取绝对值排序编秩相同秩(结,tie)编平均秩求秩和T+,T-任取T+或T-17表112份血清用两法测转氨酶结果比较编号原法新法差值(d)正秩T+负秩T-160802082142152105319524348114808221.55242240-21.56220220071902051578253813692122433191038446411236200-3610129510053合计54.511.5183.确定P值,作出推断结论当n≤50时,查T界值表(附表9),判断原则:内大外小。T-=11.5,T+=54.5本例n=11,T=11.5,查附表9得双侧0.05P0.10,按α=0.05水准不拒绝H0,尚不能认为两法测谷-丙转氨酶结果有差别。T界值5101333535661P值0.010.050.100.100.050.0119若当n>50,可用正态近似法作u检验。式中tj(j=1,2,…)为第j个相同秩的个数。需要注意的是,配对等级资料采用符号秩检验最好选用大样本。48)(24)12)(1(4/)1(3jjttnnnnnTu20单个样本中位数和总体中位数比较目的:推断样本所来自的总体中位数M和某个已知的总体中位数M0是否有差别样本各变量值和M0的差值,推断差值的总体中位数和0是否有差别以上两个检验假设是等价的。21例2对已知某地正常人尿氟含量的中位数为45.30μmol/L。今在该地某厂随机抽取12名工人,测得尿氟含量见表第(1)栏。问该厂工人的尿氟含量是否高于当地正常人的尿氟含量?本例样本资料经正态性检验,推断得总体不服从正态分布(P<0.05),现用Wilcoxon符号秩检验。22尿氟含量(1)-45.30正秩负秩(1)(2)(3)(4)44.21-1.091.545.30046.391.091.549.474.17351.055.75453.167.86553.267.96654.379.07757.1611.86867.3722.07971.0525.751087.3742.0711合计─64.51.5表212名工人的尿氟含量与45.30比较231.建立检验假设,确定检验水平H0:尿氟含量总体中位数Md=45.30H1:Md≠45.30α=0.052.求检验统计量T值取T=1.5。3.确定P值,作出推断结论有效差值个数n=11,T=11.5,查附表9,得单侧P0.005,按α=0.05水准拒绝H0,接受H1,可认为该厂工人的尿氟含量高于当地正常人的尿氟含量。24抽样n=4,差值(d)秩可能为0,1,2,3,4秩和(T)秩的组成f概率(p=f/16)0010.06251110.06252210.0625331+220.125441+320.12551+42+320.12561+2+32+420.12571+2+43+420.12581+3+410.062592+3+410.0625101+2+3+410.0625符号秩和检验的基本原理25中位数两侧概率均为0.5,故理论秩和应为T=[N(N+1)/2]/2如H0成立,则理论上差值(d)的正、负秩和应相等,或样本的T+与T-均接近理论上秩和(T)。如果样本秩和与理论秩和相差太大,超出了事先规定的检验水准界值,则认为H0成立可能性小,拒绝H0。26第二节两个独立样本比较的Wilcoxon秩和检验27首先由Wilcoxon提出的,后来由Mann-Whitney将其扩展至两样本容量不等的情形,故又称为Mann-Whitney-Wilcoxon秩和检验。该方法是一种检验功效极强的非参数检验方法。其基本过程:混合样本编秩计算秩和H0成立时T1=T228例3对10例肺癌病人和12例矽肺0期工人用X光片测量肺门横径右侧距RD值(cm),结果见表8-5。问肺癌病人的RD值是否高于矽肺0期工人的RD值?本例两样本资料经方差齐性检验,推断得两总体方差不等(P0.01),现用Wilcoxon秩和检验。1.原始数据的两样本比较29H0:肺癌病人和矽肺0期工人的RD值总体分布位置相同H1:肺癌病人和矽肺0期工人的RD值总体分布位置不相同α=0.05编秩过程:混合样本混合排序编秩相同秩(结,tie)编平均秩求各组的秩和T1,T2任取样本量较小组的T30肺癌病人矽肺0期工人RD值秩RD值秩2.7813.232.53.232.53.5044.2074.0454.87144.1565.12174.2886.21184.3497.18194.47108.05204.64118.56214.75129.60224.82134.95155.1016n1=10T1=141.5n2=12T2=111.5表5肺癌病人和矽肺0期工人的RD值比较31本例n1=10,T=141.5,查附表10确定T概率界值:假设成立T1理论秩和=115767984891151411461511540.050.0250.010.005本例p<0.05。在α=0.05水准,p<0.05,拒绝H0,两组变量值分布差别有统计意义,肺癌组平均秩次(141.5/10=14.15)高于矽肺0期组平均秩次(111.5/12=9.29)。32若n110或n2-n110,可用正态近似法作u检验,令N=n1+n2,按下式计算值。。式中tj(j=1,2,…)为第j个相同秩的个数。))(1(12)1(14/)1(33211NNttNnnNnTujj33例439名吸烟工人和40名不吸烟工人的碳氧血红蛋白HbCO(%)含量见表8-6。问吸烟工人的HbCO(%)含量是否高于不吸烟工人的HbCO(%)含量?本例两样本资料为等级资料,现用Wilcoxon秩和检验。2.频数表资料和等级资料的两样本比较34表吸烟工人和不吸烟工人的HbCO(%)含量比较含量吸烟工人不吸烟工人合计秩范围平均秩秩和吸烟工人不吸烟工人(1)(2)(3)(4)(5)(6)(7)=(2)(6)(8)=(3)(6)很低1231~3224低823314~3419152437中16112735~6148768528偏高1041462~7568.5685274高40476~7977.53100合计39(n1)40(n2)79──1917(T1)1243(T2)1n2n1T2T35H0:两组观察值的总体分布位置相同H1:两组观察值的总体分布位置不同α=0.05方法同前:本例n1=39,n2=40,n1+n2=79,T=1917(例数较小组)查u界值表得单侧P0.005,按α=0.05水准拒绝H0,接受H1,可认为吸烟工人的HbCO含量高于不吸烟工人的HbCO含量。36H0:两总体分布相同。Wilcoxon秩和检验的基本原理编秩编秩样本观察值既不会集中于高秩,也不会集中于低秩。37H0:两总体分布位置相同。只需要保证经编秩后,总体分布能够转换成相同的均匀分布。编秩转换只对分布的位置敏感,而对分布的形态不甚敏感。从而,可以将H0(两总体分布相同)这一较严格的前提,转换为H0(两总体分布位置相同)这一较宽松的前提。38第三节完全随机设计多个样本比较的Kruskal-WallisH检验39Kruskal和Wallis在1952年设计的一种类似Wilcoxon秩和检验的方法,以进行多个独立样本比较的非参数检验,简称K-W检验或H检验。其基本原理与Wilcoxon秩和检验相同。该方法与总体具体属于什么分布无关,将多组样本混合起来按大小编秩,计算两组的平均秩和,比较各组分布的中心位置是否不同。40一、多个独立样本比较的Kruskal-WallisH检验41多个独立样本资料的比较1.编秩方法同两组资料(不配对)相同,即,混合编秩;2.计算检验公式为H3.确定P值,包括查表法(总例数N≤15时)和大样本法(N>15时,