@163.com主讲内容第一概述——基本思想第二2×2表卡方检验第三配对四格表卡方检验第四R×C表卡方检验第五Fisher确切概率检验第六多个样本率的多重比较第七有序分组资料的线性趋势检验2卡方检验概述p136•研究目的:率or构成比的假设检验(大样本率或小样本率)•资料类型:计数资料•基本思想:检验中的是希腊字母,称为卡方检验,是一种用途较广的计数资料的假设检验方法,属于非参数检验的范畴,主要是比较两个及两个以上样本率(构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。22检验的应用•①检验两个样本率之间差别的显著性;•②检验多个样本率或构成比之间差别的显著性;•③检验两个双向无序分类变量是否存在关联;•④配对计数资料的比较。2一、两独立样本率检验(一)两独立样本率资料的四格表形式例7-1为研究肿瘤标志物癌胚抗原(CEA)对肺癌的诊断价值,随机抽取72例确诊为肺癌的患者为肺癌组,114例接受健康体检的非肺癌患者为对照组。用CEA对其进行检测,结果呈阳性反应者病例组中33例,对照组中10例。问两组人群的CEA阳性率有无差异?表7-1CEA对两组人群的诊断结果*分组阳性阴性合计阳性率(%)肺癌组33(16.6)39(55.4)7245.8对照组10(26.4)104(87.6)1148.8合计4314318623.1*括号内为理论频数。本例资料经整理成表7-1形式,即有两个处理组,每个处理组的例数由发生数和未发生数两部分组成。表内有33、39、10、104四个基本数据,其余数据均由此四个数据推算出来的,故称四格表资料。(二)检验的基本思想2处理组发生数未发生数合计甲aba+b乙cdc+d合计a+cb+dn表7-2四格表资料的基本形式基本思想:可通过检验的基本公式来理解。22(),()(1)ATT行数-1列数式中,A为实际频数(actualfrequency),T为理论频数(theoreticalfrequency)。2理论频数是根据检验设,且用合并率来估计而定的。T012:H(72)acacabcdn11()()(73)aabacTTn21()()(74)ccdacTTn(75)bdbdabcdn12()()(76)babbdTTn22()()(77)dcdbdTTn理论频数由下式求得:RCRCnnTn式中,TRC为第R行C列的理论频数nR为相应的行合计nC为相应的列合计检验统计量值反映了实际频数与理论频数的吻合程度。若检验假设H0:π1=π2成立,四个格子的实际频数A与理论频数T相差不应该很大,即统计量不应该很大。如果值很大,即相对应的P值很小,若,则反过来推断A与T相差太大,超出了抽样误差允许的范围,从而怀疑H0的正确性,继而拒绝H0,接受其对立假设H1,即π1≠π2。P22由公式(7-1)还可以看出:值的大小还取决于个数的多少(严格地说是自由度ν的大小)。由于各皆是正值,故自由度ν愈大,值也会愈大;所以只有考虑了自由度ν的影响,值才能正确地反映实际频数A和理论频数T的吻合程度。检验的自由度取决于可以自由取值的格子数目,而不是样本含量n。四格表资料只有两行两列,=1,即在周边合计数固定的情况下,4个基本数据当中只有一个可以自由取值。22()ATT2()ATT222(1)建立检验假设,确定检验水平。H0:π1=π2H1:π1≠π2α=0.05。(三)假设检验(2)求检验统计量值117243/18616.6T,127216.655.4T214316.626.4T,2211426.487.6T。22222(9990.48)(513.52)(7583.52)(2112.48)90.4813.5283.5212.4812.861)12)(12(22222(3316.6)(3955.4)(1026.4)(10487.6)16.655.426.487.611112()34.3216.416.655.426.487.6以=1查附表8的2界值表得005.0P。按05.0检验水准拒绝0H,接受1H,肺癌患者癌胚抗原的阳性率显著高于健康人,提示可能具有临床诊断价值。四格表资料检验的专用公式22()()()()()adbcnabacbdcd2186(331041039)234.107243143114(四)四格表资料检验的校正公式22(0.5)cATT22()2()()()()cn|ad-bc|-n=a+bc+da+cb+d分布是一连续型分布,而四格表资料属离散型分布,由此计算得的统计量的抽样分布亦呈离散性质。为改善统计量分布的连续性,则进行连续性校正。222四格表资料检验公式选择条件:40,5nT2,不校正的理论或专用公式;,校正公式;,直接计算概率(Fisher)。40,15nT401nT或连续性校正仅用于的四格表资料,当时,一般不作校正。212例7-2将116例癫痫患者随机分为两组,一组70例接受常规加高压氧治疗(高压氧组),另一组46例接受常规治疗(常规组),治疗结果见表7-3。问两种疗法的有效率有无差别?表7-3两种疗法治疗癫痫的效果治疗结果治疗方法有效无效合计有效率(%)高压氧组66(62.8)4(7.2)7094.3常规组38(41.2)8(4.8)4682.6合计1041211689.7012112:,:,0.05HH本例,故用四格表资料检验的校正公式22116,4.8nT但2,查界值表得。按检验水准不拒绝,尚不能认为组有效率不等。1210.005.0P05.00H2(6684381162)11622.92704610412c本资料若不校正时,结论与之相反。24.080.05P,(四)卡方检验的连续性校正问题赞成依据是:这样做可使卡方统计量抽样分布的连续性和平滑性得到改善,可以降低I类错误的概率,连续性校正后的卡方检验,其结果更接近于Fisher确切概率法。不过,校正也不是无条件的,它只适合于自由度为1时,样本含量较小,如n<40,或至少有一个格子的理论频数太小,如T<5的情形。(四)卡方检验的连续性校正问题反对依据是:经连续性校正后,P值有过分保守之嫌。此外,Fisher确切概率法建立在四格表双边固定的假定下,而实际资料则是单边固定的四格表,连续性校正卡方检验的P值与Fisher确切概率法的P值没有可比性。•就应用而言,无论是否经过连续性校正,若两种检验的结果一致,无须在此问题上纠缠。但是,当两种检验结果相互矛盾时,如例7-2,就需要谨慎解释结果了。•为客观起见,建议将两种结论同时报告出来,以便他人判断。当然,如果两种结论一致,如均为或,则只报道非连续性检验的结果即可。第二节、两相关样本率检验(McNemar检验)配对四格表资料的检验2与计量资料推断两总体均数是否有差别有成组设计和配对设计一样,计数资料推断两个总体率(构成比)是否有差别也有成组设计和配对设计,即四格表资料和配对四格表资料。例7-3某抗癌新药的毒理研究中,将78只大鼠按性别、窝别、体重、年龄等因素配成39对,每个对子的两只大鼠经随机分配,分别接受甲剂量和乙剂量注射,试验结果见表7-4。试分析该新药两种不同剂量的毒性有无差异。表7-4某抗癌新药两种剂量的毒理实验结果乙剂量甲剂量死亡(+)生存(-)合计死亡(+)6(a)12(b)18生存(-)3(c)18(d)21合计93039上述配对设计实验中,就每个对子而言,两种处理的结果不外乎有四种可能:①两只大鼠均死亡(甲+乙+)数(a);②两只均生存(甲-乙-)数(d);③其中一只死亡(甲+乙-)数(b);④其中一只死亡(甲-乙+)数(c)。其中,a,d为两法观察结果一致的两种情况,b,c为两法观察结果不一致的两种情况。cbcb22)(,1cbcbc22)1(,1=检验统计量为H0:总体四格表中甲+乙-的对子数与甲-乙+的对子数出现频率相同(两剂量毒性相同);H1:总体四格表中甲+乙-的对子数与甲-乙+的对子数出现频率不同(两剂量毒性不同);=0.05已知样本四格表中,b=12,c=3,因b+c=15,故将其代入公式9-13,有查附表8,20.025,15.02,20.05,13.84,得0.025<P<0.05,按=0.05水准拒绝H0,接受H1,可以认为两种剂量的毒性有差异,甲剂量组的死亡率较高(因b>c)。27.4312)1321(22c注意:本法一般用于样本含量不太大的资料。因为它仅考虑了两法结果不一致的两种情况(b,c),而未考虑样本含量n和两法结果一致的两种情况(a,d)。所以,当n很大且a与d的数值很大(即两法的一致率较高),b与c的数值相对较小时,即便是检验结果有统计学意义,其实际意义往往也不大。第三节R×C表检验2行×列表资料①多个样本率比较时,有R行2列,称为R×2表;②两个样本的构成比比较时,有2行C列,称2×C表;③多个样本的构成比比较,以及双向无序分类资料关联性检验时,有行列,称为R×C表。检验统计量22(1)(1)(1)RCAnnn行数列数一、多个样本率的比较例7-4用A、B、C三种不同方法分别处理新生儿脐带,发生感染的情况见表7-6,试比较3种不同方法的脐带感染率有无差异。表9-6三种脐带处理方法的脐带感染情况脐带感染处理组感染未感染合计感染率(%)A76314332192.36B15240924240.62C27627640.26合计93631464071.45二、两组构成比的比较例7-5为研究某种新药对尿路疼痛的止痛效果,将有尿路疼痛的患者144例随机分为两组,每组72例,一组服该新药(治疗组),另一组服安慰剂(对照组)。两组患者尿路疼痛的原因见表7-7,问两组患者尿路疼痛原因的分布有无差异?表7-7两组患者尿路疼痛原因的分布尿路疼痛原因分组尿路感染器械损伤其它合计治疗组3429972对照组2935872合计6364171442.求检验统计量和自由度。将表9-7数据代入公式9-14,有22222234299293582144(1)1.02726372647217726372647217(21)(31)2创创创3.确定P值,下结论。查2界值表,20.5,21.39,20.5,21.018,所以,P>0.50,以0.05水准不拒绝H0,即尚不能认为两组患者尿路疼痛原因的分布有差异。三、多组构成比的比较例7-6在某项疼痛测量研究中,给160例手术后疼痛的患者提供四种疼痛测量量表,即直观模拟量表(VAS),数字评估量表(NRS),词语描述量表(VDS),面部表情疼痛量表(FPS),患者首选的量表以及患者的文化程度见表7-8,问患者首选疼痛量表与文化程度是否有关?表7-8不同文化程度患者首选疼痛量表的类型首选测痛量表文化程度VASVDSNRSFPS合计高中以下3(3.5)16(18.7)18(19.7)44(39.0)81高中0(1.6)10(8.6)9(9.0)18(17.8)37高中以上4(1.8)11(9.7)12(10.2)15(20.2)42合计7373977160四、R×C表检验的条件21.行列表中的各格T≥1,并且1≤T<5的格子数不宜超过1/5格子总数,否则可能产生偏性。处理方法有三种:增大样本含量以达到增大理论频数的目的,属首选方法,只是有些研究无法增大样本含量,如同一批号试剂已用完等。根据专业知识,删去理论频数太小的行或列,或将理论频数太小