卡方检验Chi-SquareTest预防医学教研室张杰课程内容第一节:四格表(fourfolddata)资料的x2检验**第二节:配对(paireddata)资料的x2检验**第三节:R×C表资料的x2检验*第四节:分层卡方检验第五节:多个样本率间的多重比较课程小结SPSS统计分析•交叉表(Crosstabs)过程(一)四格表(fourfolddata)资料的x2检验(二)配对(paireddata)资料的x2检验(三)R×C表资料的x2检验(四)两分类变量有无关联分析及列联系数C•卡方(Chi-Square)过程(五)拟合问题-比较样本与已知总体的分布第一节四格表资料的检验x2testoffourfolddata2目的:推断两个总体率(构成比)是否有差别要求:两样本的两分类个体数排列成四格表资料使用含氟牙膏与一般牙膏儿童的龋患率牙膏类型患龋齿人数未患龋齿人数调查人数龋患率(%)含氟牙膏7013020035.00一般牙膏455510045.00合计11518530038.33一、2检验的基本思想2是一种用途较广的计数资料的假设检验方法,属于非参数检验的范畴。根本思想:在于比较理论频数和实际频数的吻合程度或拟合优度问题。•x2检验:以x2分布为方法的理论基础2检验的基本公式•A为实际频数(actualfrequency),T为理论频数(theoreticalfrequency)•nR是行和,nC是列和,n是四格数之和•2表示观察值与期望值之间的偏离程度。•1900年由英国统计学家KarlPearson首次提出,故被称为Pearson2。使用含氟牙膏与一般牙膏儿童的龋患率牙膏类型患龋齿人数未患龋齿人数调查人数龋患率(%)含氟牙膏7013020035.00一般牙膏455510045.00合计11518530038.338使用含氟牙膏与一般牙膏儿童的龋患率牙膏类型患龋齿人数未患龋齿人数调查人数龋患率(%)含氟牙膏7013020035.00一般牙膏455510045.00合计11518530038.33*例1:四格表资料的x2检验x2检验基本步骤1.建立检验假设H0:两总体龋患率相等H1:两总体龋患率不等计算理论频数2.计算x2统计量3.确定P值,作出推论•四格表检验的条件:•1)2)3)2公式;用不校正的且2,540Tn公式;用校正的个格子且至少2,51140Tn需用确切概率法或,140TnTTA22)5.0())()()(()2/(22dbcadcbanncbad校正公式:SPSS操作过程•①建立数据文件:例1.sav数据格式:包括4行3列的频数格式,3个变量即行变量(group)、列变量(effect)和频数变量(freq)。•②说明频数变量:数据加权个案DataWeightCases•③x2检验:从菜单选择分析描述统计交叉表AnalyzeDescriptiveStatisticsCrosstabs•结合例1数据演示操作过程。首先建立数据文件,如下。注意:由于上表给出的不是原始数据,而是频数表数据,应该进行预处理。*****指定加权变量(weightcases)在实际的统计中,经常需要计算数据的加权平均数。例如,希望了解不用牙膏使用者的平均患龋量。如果仅以各种牙膏的患龋量的平均数作为平均患龋量是不合理的还应考虑到各牙膏使用者的患龋量对平均患龋量的影响。因此,以各牙膏使用者的患龋量作为权重计算各牙膏患龋率的加权平均数,才是我们需要求的数据。在SPSS处理中就需要将各牙膏的患龋量作为加权变量。不设置权重设置权重频数变量“WeightCases”对话框交叉表(Crosstabs)过程•Crosstabs过程用于对分类资料和有序分类资料进行统计描述和统计推断。–统计描述过程可以产生2维至n维列联表,并计算相应的百分数指标。–统计推断包括了常用的x2检验、Kappa值,分层X2(X2M-H),以及四格表资料的确切概率(Fisher’sExactTest)值。行变量列变量计算统计量卡方统计量Kappa系数风险度配对四格表McNemar检验实际频数理论频数Crosstabs过程详解•界面说明-[行Rows框]用于选择行×列表中的行变量。-[列Columns框]用于选择行×列表中的列变量。-[层Layer框]指定分层变量,即控制变量。如果要指定不同的分层变量做分析,则将其选入Layer框,并用Previous和Next钮设为不同层。-[Displayclusteredbarcharts复选框]:显示复式条图-[Suppresstable复选框]:不在输出结果中给出行×列表。Crosstabs过程详解•界面说明精确(Exact)子对话框:针对2×2以上的行×列表设计计算确切概率的方法。统计量(Statistics)子对话框:用于定义所需计算的统计量-Chi-square复选框:计算pearson卡方值,对四格表资料自动给出校正卡方检验和确切概率法结果。-Correlations复选框:计算行列变量的pearson相关系数和Spearman等级相关系数。Crosstabs过程详解•界面说明-Kappa复选框:计算Kappa值,即内部一致性系数,介于0~0.7071之间;-Risk复选框:计算比数比OR值、RR值;-McNemanr复选框:进行配对卡方检验的McNemanr检验(一种非参数检验)-Cochran’sandMantel-Haenszelstatistics复选框:计算X2M-H统计量、X2CMH,可在下方输出H0假设的OR值,默认为1。过程详解•界面说明单元格(Cells)子对话框:用于定义列联表单元格中需要计算的指标。-Counts复选框:是否输出实际观察数(Observed)和理论频数(Expected)-Percentages复选框:是否输出行百分数(Row)、列百分数(Column)以及合计百分数(Total)-Residuals复选框:选择残差的显示方式格式(Format)子对话框:用于选择行变量是升序还是降序排列。表示含氟牙膏与一般牙膏患龋率的比较,除了观察值以外,还有期望值。实际频数理论频数SPSS结果输出结论:2=2.82,P=0.093,按=0.05水准,不拒绝H0,尚不能认为使用含氟牙膏比使用一般牙膏儿童的龋患率低。卡方值自由度P值双侧确切概率值单侧确切概率值Pearson卡方连续校正卡方似然比卡方Fisher确切卡方线性相关检验样本数注意检查样本例数n和理论频数T是否满足条件:N≥40且理论频数T≥5。*例2.x2检验----校正公式将116例癫痫患者随机分为两组,一组70例接受常规加高压氧治疗(高压氧组),另一组46例接受常规治疗(常规组),结果如下。问两种疗法的有效率有无差别?•T5,按检验水准不拒绝,尚不能认为组有效率不等。10.005.0P05.00H本资料若不校正时,,结论与之相反。24.080.05P,例3研究某新药治疗原发性高血压的疗效,并用常规治疗药物作为对照组,结果见表6.9,问新药疗效与对照组疗效有无差别?某新药治疗原发性高血压的疗效分组有效无效合计有效率()试验组20(a)8(b)2871.43对照组2(c)6(d)825.00合计22143661.11*例3.x2检验----Fisher确切概率法(一)适用条件①T1或n40②P≈(二)基本思想(超几何分布)!!!!!)!()!()!()!(ndcbadbcadcbaPi在四格表周边合计不变的条件下,直接计算表内四个数据的各种组合之概率。找出的所有表格并将概率求和,若这些表的合计P,则推翻H0假设。TATA原表*例3.x2检验----Fisher确切概率法(三)检验步骤1.假设H0、H12.计算最小理论频数及值TA4.边缘合计不变条件下,变动表中数据3.找出边缘合计中的最小值minmminTminTminm对应的格子中的数据从0到,排出所有可能的四格表。5.选出值的所有表,分别求P值后相加。TATA原表例3研究某新药治疗原发性高血压的疗效,并用常规治疗药物作为对照组,结果见表6.9,问新药疗效与对照组疗效有无差别?某新药治疗原发性高血压的疗效分组有效无效合计有效率()试验组20(a)8(b)2871.43对照组2(c)6(d)825.00合计22143661.11SPSS操作过程•①建立数据文件:例3.sav数据格式:包括4行3列的频数格式,3个变量即行变量(group)、列变量(effect)和频数变量(freq)。•②说明频数变量:数据加权个案DataWeightCases•③x2检验:从菜单选择分析描述统计交叉表AnalyzeDescriptiveStatisticsCrosstabs•结合数据(例3.sav)演示操作过程。实际频数理论频数Fisher确切概率第二节配对资料的检验x2testofpairedfourfolddata2与计量资料推断两总体均数是否有差别有成组设计和配对设计一样,计数资料推断两个总体率(构成比)是否有差别也有成组设计和配对设计,即四格表资料和配对四格表资料。例4某抗癌新药的毒理研究,将78只大鼠按性别、窝别、体重、年龄等因素配成39对,每个对子的两只大鼠经随机分配,分别接受甲剂量和乙剂量注射,试验结果见下表。分析该新药两种不同剂量的毒性有无差异。配对(paireddata)资料的x2检验上述配对设计实验中,就每个对子而言,两种处理的结果不外乎有四种可能:①两种剂量方法皆为阳性数(a);②两种剂量方法皆为阴性数(d);③甲剂量注射法为阳性,乙剂量注射法法为阴性数(b);④乙剂量注射法为阳性,甲剂量注射法为阴性数(c)。其中,a,d为两法结果一致的两种情况,b,c为两法结果不一致的两种情况。cbcb22)(,1cbcbc22)1(,1=检验统计量为(b+c)≥𝟒𝟎(b+c)≤40注意:本法一般用于样本含量不太大的资料。因为它仅考虑了两法结果不一致的两种情况(b,c),而未考虑样本含量n和两法结果一致的两种情况(a,d)。所以,当n很大且a与d的数值很大(即两法的一致率较高),b与c的数值相对较小时,即便是检验结果有统计学意义,其实际意义往往也不大。0H:CB,1H:CB,05.04015312cb,用校正公式27.4312)1312(22c1,查2界值表得05.0P。按05.0检验水准拒绝0H,接受1H,可以认为两种剂量注射的结果不同。检验步骤:操作过程•①建立数据文件:例4.sav数据格式:包括4行3列的频数格式,三个变量分别为行变量、列变量和频数变量。•②说明频数变量:数据加权个案DataWeightCases•③x2检验:从菜单选择分析描述统计交叉表AnalyzeDescriptiveStatisticsCrosstabs•统计量Statistics:√McNemar√Kappa选中进行配对卡方检验P0.05,按α=0.05水准,拒绝H0,接受H1,可以认为两种剂量的毒性有差异,甲剂量组的死亡率较高(因为bc)48配对四格表McNemar检验Kappa系数在Pearson卡方检验中,对行变量和列变量的相关性作检验,其中行变量和列变量是一个事物的两个不同属性。在实际中,还有一种列联表,其行变量和列变量反映的是一个事物的同一属性的相同水平,只是对该属性各水平的区分方法不同。Kappa一致性检验目的:检验两种方法对同一个样本(研究对象)的检验结果是否一致一致性检验一般认为,当Kappa≥0.75时,表明两者一致性较好;0.75Kappa≥0.4时,表明一致性一般;Kappa0.4时,表明两者一致性较差。一致性检验P值Kappa系数=0.1980.4