卫生统计学贺佳第二军医大学陶育纯吉林大学第十章基于秩的非参数检验目录第一节:配对样本的比较第二节:两组独立样本的比较第三节:多组独立样本的比较01020203重点难点※符号秩和检验、两独立样本秩和检验和Kruskal-Wallis检验的基本思想※符号秩和检验、两独立样本秩和检验和Kruskal-Wallis检验的编秩规则※符号秩和检验、两独立样本秩和检验和Kruskal-Wallis检验中检验统计量的计算方法第一节配对样本的比较(一)单样本数据的符号秩和检验第一节配对样本的比较例1动物实验发现DON可导致家兔膝关节软骨和滑膜损伤,为研究大骨节病是否与粮食中DON含量有关,采集大骨节病高发地区面粉20份,测量面粉中DON含量,结果(g/g)如下:0,0,0,0,0,12.4,34.1,69.0,98.4,129.5,156.1,163.5,170.9,177.6,172.4,180.3,189.2,192.2,196.8,205.3,中位数为142.8g/g。根据前期研究发现,非大骨节病区面粉中DON含量平均水平(中位数)为18.9g/g。是否可以认为大骨节病区与非大骨节病区面粉中DON含量不同?正态分布拟合优度检验得2=369.011,P<0.001,可认为该数据不服从正态分布。基本思想1.假设样本所对应的总体中位数与给定的总体中位数相同,H0:M1=M0。2.计算样本中所有数值与给定中位数的差值,根据所有差值绝对值进行编秩,得到正差值的秩和R+和负差值的秩和R-。3.若H0成立,理论上,R+与R-的总体均数应相等,等于:,总体标准差也应相等,等于:。4.若R+与R-相差悬殊,均远离M0,则有理由拒绝H0。具体通过R+或R-的抽样分布计算P值获得推断结论。(一)单样本数据的符号秩和检验第一节配对样本的比较(+1)4Rnn(1)(21)24Rnnn检验步骤(1)建立检验假设,确定检验水准H0:样本所对应总体的中位数等于已知总体中位数,M1=M0H1:样本所对应总体的中位数不等于已知总体中位数,M1≠M0=0.05(2)求差值、编秩、求秩和(3)计算检验统计量由表可知本例的检验统计量为R+=184或R-=26。(一)单样本数据的符号秩和检验第一节配对样本的比较检验步骤(4)确定P值,作出推断样本量较大(n50)则检验统计量近似服从正态分布,标准化变换获得Z值:P=0.004,拒绝H0,接受H1,样本与总体中位数的差异有统计学意义,可认为大骨节病病区面粉中DON含量高于非大骨节病地区。(一)单样本数据的符号秩和检验第一节配对样本的比较0.5(1)/40.5(1)(21)/24RRWWnnZnnn(一)单样本数据的符号秩和检验第一节配对样本的比较例1数据的编秩结果序号原始值与中位数的差值正差值的秩负差值的秩10.00-18.9-520.00-18.9-5……………612.4-6.5-1734.115.22-……………19196.8177.919-20205.3186.420-秩和--R+=184R-=26(二)配对样本数据的符号秩和检验第一节配对样本的比较例2采集10名正常成年男性志愿者的血清,分别用放射免疫法和酶联免疫法测量甲胎蛋白的含量(g/L),结果见表。两种方法测量结果有无差异?两种方法测量正常成年男性血清中甲胎蛋白含量(g/L)的结果患者序号放射免疫法酶联免疫法1151621412385417195201661013722981515937101346正态分布拟合优度检验得2=14.000,P=0.003,可认为该数据不服从正态分布。基本思想配对数据符号秩和检验的基本思想与单样本符号秩和检验是一致的。不同之处在于,配对数据中每个配对数值的差值可以看作是一个单独的样本,给定的总体中位数为0,即推断差值的单样本是否来自给定中位数为0的总体。其余部分则与单样本符号秩和检验并无差别。(二)配对样本数据的符号秩和检验第一节配对样本的比较检验步骤(1)建立检验假设,确定检验水准H0:差值的总体中位数等于0,Md=0H1:差值的总体中位数不等于0,Md≠0=0.05(2)求差值、编秩、求秩和首先计算每对数据的差值,并对差值进行编秩。分别计算正、负差值的秩和,得出R+与R-,如表所示。(二)配对样本数据的符号秩和检验第一节配对样本的比较检验步骤(3)计算检验统计量本例的检验统计量为R+=21.5或R-=23.5。(4)确定P值,作出推断本例P=0.880。在=0.05水准下不拒绝H0,差值的总体中位数与0的差异无统计学意义,尚不能认为放射免疫法与酶联免疫法测量正常成年男性血清甲胎蛋白的结果有差异。(二)配对样本数据的符号秩和检验第一节配对样本的比较(二)配对样本数据的符号秩和检验第一节配对样本的比较患者序号放射免疫法酶联免疫法差值正差值的秩负差值的秩11516-1-12141222.5-38534.5-41719-2-2.55201646.5-61013-3-4.57229138-815150--937-4-6.5101346-33-9秩和---R+=21.5R-=23.5两种方法测量正常成年男性血清中甲胎蛋白含量(g/L)的结果第二节两组独立样本的比较(一)两组定量数据的比较第二节两组独立样本的比较例3在某小学随机采集12岁男童和女童各10名的头发样品,检测发样中钙(Ca)含量(μg/g),数据见下表。男童与女童头发中Ca含量有无差异?12岁男、女童发样中Ca含量(μg/g)比较男童女童184384238333640674233413674431623676597771197635818186076434844534正态分布拟合优度检验,男童组2=2891.297,P<0.001,女童组2=9290.446,P<0.001。可以认为,男童组与女童组的数据均不服从正态分布。基本思想分别抽取样本量为n1和n2的两个样本,总例数N=n1+n2。将全部数据统一编秩,取任意样本(如样本量为n1的样本)的秩和作为Wilcoxon秩和检验统计量W,假设两个总体分布相同(H0),则W的均数和标准差分别等于:当W远离W,有理由拒绝H0具体通过W的抽样分布计算P值获得推断结论。(一)两组定量数据的比较第二节两组独立样本的比较112WnN12112WnnN检验步骤(1)建立检验假设,确定检验水准H0:男童与女童头发中Ca含量的总体分布相同H1:男童与女童头发中Ca含量的总体分布不同=0.05(2)编秩、求秩和先将男童组与女童组发样中Ca含量的数值由小到大统一编秩,将两组秩分别相加得每组秩和。见表。(一)两组定量数据的比较第二节两组独立样本的比较(3)计算检验统计量本例W=77,Z=-2.117。(4)确定P值,作出推断本例P=0.034,按α=0.05水准拒绝H0,接受H1,可以认为男童与女童的头发中Ca含量差异有统计学意义。男童组平均秩为77/10=7.7,女童组平均秩为133/10=13.3,可认为女童的头发中Ca含量高于男童。(一)两组定量数据的比较第二节两组独立样本的比较(一)两组定量数据的比较第二节两组独立样本的比较12岁男童与女童发样中Ca含量(μg/g)的比较男童女童Ca含量(1)秩(2)Ca含量(3)秩(4)1843188421438343362406574212334113671544361623166761159787711319761935831818176079643104847453420n1=10R1=77n2=10R2=133当两个样本例数较大时(n210或n2-n110),秩和检验统计量W将近似正态分布,可通过对W采取标准化变换获得值:本例Z=2.078,P=0.032,结论同前。(一)两组定量数据的比较第二节两组独立样本的比较1120.5(1)/20.5(1)/12当数据包含相同秩时,秩和检验统计量W的精确分布会改变,同时,W的标准差必须进行如下调整:j为出现相同秩的总次数,ti为第i次相同秩的个数(一)两组定量数据的比较第二节两组独立样本的比较33121()12(1)jWiiinnNNttNN例42003年10月在两个不同主食地区的中老年人手骨关节炎患病率随机抽样调查中,测得甲地区(主食大米)的175人和乙地区(主食面粉)的194人的手骨关节炎分值,数据见下表。现比较甲地区人群与乙地区人群的手骨关节炎分值是否具有统计学差异?(一)两组定量数据的比较第二节两组独立样本的比较甲地区与乙地区随机抽样人群的手骨关节炎分值比较骨关节炎分值人数合计秩范围平均秩秩和甲地区乙地区甲地区乙地区0172191~19101702011801820~3728.55130……………………合计n1=175n2=194---R1=18642R2=49623检验步骤(1)建立检验假设,确定检验水准H0:甲地区人群与乙地区人群的手骨关节炎分值的总体分布相同H1:甲地区人群与乙地区人群的手骨关节炎分值的总体分布不同=0.05(2)编秩、求秩和(略)(一)两组定量数据的比较第二节两组独立样本的比较检验步骤(3)计算检验统计量W=R1=18642,Z=-13.447(4)确定P值,作出推断P0.001,按=0.05水准拒绝H0,接受H1,可以认为甲地区人群与乙地区人群的手骨关节炎分值的差异有统计学意义,可认为乙地区人群比甲地区人群的手骨关节炎严重。(一)两组定量数据的比较第二节两组独立样本的比较例52007年7月至11月对西藏拉萨市和山南地区大骨节病进行流行病学调查,获得了两个地区受检人群大骨节病不同临床分度的数据,见下表。现比较两个地区的大骨节病临床分度是否具有统计学差异?(二)两组等级变量的比较第二节两组独立样本的比较2007年拉萨市和山南地区大骨节病临床分度的比较临床分度人数合计秩范围平均秩秩和拉萨山南拉萨山南Ⅰ度73751481~14874.55438.55587.5Ⅱ度212243149~19117035703740Ⅲ度8917192~20820016001800合计n1=102n2=106208--R1=10608.5R2=11127.5检验步骤(1)建立检验假设,确定检验水准H0:两个地区的大骨节病临床分度的总体分布相同H1:两个地区的大骨节病临床分度的总体分布不同=0.05(2)编秩、求秩和(略)(3)计算检验统计量W=R1=10608.5,Z=0.145(4)确定P值,作出推断P0.05,按=0.05水准不拒绝H0,尚不能认为拉萨市和山南地区的大骨节病临床分度的差异有统计学意义。(二)两组等级变量的比较第二节两组独立样本的比较第三节多组独立样本的比较(一)多组定量数据的比较第三节多组独立样本的比较例6为了解不同剂量的DON对新西兰家兔膝关节软骨和滑膜的损伤情况,将15只新西兰家兔按体重随机分为对照组、低剂量组和高剂量组,分别注射无菌生理盐水、0.05g/g和0.10g/g剂量DON毒素进行实验处理,实验期满后测定关节冲洗液中肿瘤坏死因子(TNF-α)的水平(μg/L),获得数据见下表10-6。现比较3组家兔关节冲洗液TNF-α测定结果是否具有统计学差异?3组家兔关节冲洗液TNF-α(μg/L)测定结果对照组低剂量组高剂量组0.2180.2530.6950.0510.5580.5300.1860.3520.6450.1980.2840.6210.0360.4870.384基本思想Kruskal-Wallis检验的基本思想就是用所有观测值的秩代替原始观测值进行单因素方差分析。检验统计量为:其实质是用秩计算组间变异,当组间变异较大时,有理由认为组间存在差异。具体通过H分布计算P值获得推断结论。若有相同秩出现,则需要校正:(一)多组定量数据的比较第三节多组独立样本的比较)1(3)1(122NnRNNHii313()1()cjiiiHHttNN检