分类资料的统计推断(二)刘娅DepartmentofEpidemiology&statistics检验Chi-squaretest2简要回顾统计分析统计描述统计推断参数估计假设检验Example分类资料率、比、构成比总体率的可信区间u检验,χ2检验检验的基本思想检验正确应用2主要内容两个率的比较R×C列联表的分析配对设计两个率的比较2一、四格表资料χ2检验例4.1某医院肿瘤科3年来共治疗乳腺癌患者n=131例,每例均观察满5年,其中单纯手术治疗组观察n1=84例,存活x1=57例,存活率p1=67.9%,联合治疗(手术+术后化疗)组观察n2=47例,存活x2=39例,存活p2=83.0%,问两组存活率有无差别?处理存活数死亡数合计存活率(%)联合治疗4783.0单纯治疗8467.9合计963513173.33985727表4-1两组存活率的比较四格表(fourfoldtable)四格表资料(fourfoldtable)理论频数(theoreticalfrequence)H0:π1=π2以样本的合计存活率作为总体存活率的点估计值。在这样的假设前提下,可以计算每个格子的理论频数T(theoreticalfrequency)。=73.3%处理存活数死亡数合计存活率(%)联合治疗39847单纯治疗572784合计963513173.373.3理论频数34.44理论频数的计算(theoreticalfrequence)理论频数12.56理论频数=4773.3%理论频数=8473.3%rcrcnnTn73.361.5622.44χ2检验的基本思想(1)通过构造A与T吻合程度的统计量来反映两样本率的差别!3985727实际数A理论数T34.4412.5661.5622.44222()~ATT分布H0成立时,实际数与理论数的差别不会很大,出现较大χ2值概率很小。若P≤α,则拒绝H0;若P>α,则尚无理由拒绝它。χ2检验的基本思想(2)(1)建立检验假设。确定检验水准H0:两组总体存活率相同,即π1=π2;H1:两组总体存活率不同,即π1≠π2;α=0.05。χ2检验的步骤(1)(2)计算统计量实际数与理论数的差值服从χ2分布χ2检验的步骤(2)22iiii2222ATT(3934.44)(812.56)(5761.56)(2722.44)34.4412.5661.5622.443.52ν=1自由度为1的2分布界值自由度为1的2分布界值0.00.10.20.30.40.53.840.05(3)查χ2分布界值表确定P值并作出推论按=(2-1)×(2-1)=1查2界值表,得P>0.05,按=0.05水准,不拒绝H0,差别无统计学意义。故尚不能认为单纯手术疗法与联合疗法对乳腺癌患者治疗效果有差别。χ2检验的步骤(3)总结比较两个样本率所代表的总体率是否有差别,实质是考察现有的样本频数分布与假设下的理论频数分布间的差异到底是否包含了本质上的差异。χ2统计量代表了实际数与理论数吻合的程度。四格表及行×列表的自由度在表中周边合计数不变的前提下,基本数据可以自由变动的格子数。3947849635131827571=行数-列数-1χ2检验相关问题-自由度χ2检验相关问题-2分布Chi-squaredistribution=3=1=2=4=6χ2检验相关问题-2分布Chi-squaredistribution=10=20=30=50分布的形状依赖于自由度ν的大小:①当自由度ν≤2时,曲线呈“L”型;②随着ν的增加,曲线逐渐趋于对称;③当自由度ν→∞时,曲线逼近于正态曲线。22222分布特点TTA22)(基本公式:χ2检验相关问题-四格表专用公式1))()()(()(22dbcadcbanbcadabcdχ2分布是连续性分布;定性资料,离散型分布;当n≥40,但1≤T5时:连续性校正公式:TTAC22)5.0())()()(()2/(22dbcadcbanncbdaCχ2检验相关问题-χ2值的校正n≥40,T≥5,用2检验;n≥40,但1≤T5,用连续性校正2检验。n40,或T1,用确切概率法。χ2检验相关问题-应用条件【例题】某矿石粉厂当生产一种矿石粉石时,在数天内即有部分工人患职业性皮肤炎,在生产季节开始,随机抽取15名车间工人穿上新防护服,其余28人仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病率,结果如表,问两组工人的皮肤炎患病率有无差别?χ2检验相关问题-应用条件表穿新旧两种防护服工人的皮肤炎患病率比较防护服种类阳性例数阴性例数合计患病率(%)新114156.7旧10182835.7合计11324325.6χ2检验相关问题-应用条件(1)建立假设,确定(2)计算统计量(3)确定p值,做结论94.2321128152/4310141814322χ2检验相关问题-应用条件H0:π1=π2,两组工人的皮肤炎患病率无差别;H1:π1≠π2,两组工人的皮肤炎患病率有差别;=0.05查χ2界值表得P0.05,按=0.05水平不拒绝H0,差别无统计学意义。尚不能认为穿不同防护服的皮肤炎患病率有差别。二、多个率或构成比比较的2检验多组率或构成比比较时,由于行数或列数超出了2,我们把这样的资料称为行×列表资料。行×列表的χ2检验统计量:iCRiiinnAnTTA1222地区检验的样品合计污染率(%)未污染污染甲6232979.3乙30144431.8丙831127.3合计44408447.6某省三个地区花生的黄曲酶毒素B1污染率比较多个率比较的2检验理论数的计算15.213.823.021.05.85.2实际数A理论数T62329301444831144(52.4%)40(47.6%)84NnnNnnTCRCR2值的计算15.213.823.021.05.85.2实际数A理论数T623301483iiiTTA22)(91.172.5)2.53(8.5)8.58(0.21)0.2114(0.23)0.2330(8.13)8.1323(2.15)2.156(22222222值的计算iiiTTA22)(62329301444831144408491171441134411844441444443040292344296842222222.122CRnnAn自由度为2的2分布界值0.00.10.20.30.40.55.99=0.05多个率比较的2检验步骤一.建立假设二.计算统计量三.确定P值,做结论H0:1=2=3H1:1,2,3不等或不全相等=0.052=17.91v=2P0.05,按=0.05水准,拒绝H0,接受H1。认为三个地区花生中黄曲酶毒素B1污染率不等或不全相等。构成比的比较美国、中国、挪威三种不同国籍者的ABO血型分布国籍OABAB合计美国450410100401000挪威1902504020500中国3002503501001000合计940910490160250构成比的比较美国、中国、挪威三种不同国籍者的ABO血型分布n(%)国籍OABAB合计美国450(45.0)410(41.0)100(10.0)40(4.0)1000挪威190(38.0)250(50.0)40(8.0)20(4.0)500中国300(30.0)250(25.0)350(35.0)100(10.0)1000合计940(37.6)910(36.4)490(19.6)160(6.4)2502值的计算45041010040190250402030025035010037636419664158182983237636419664iiiTTA22)(122CRnnAn实际数A理论数T2值的计算9668.332)116010001004901000350910100025094010003001605002049050040910500250940500190160100040490100010091010004109401000450(25002222222222222-4504101004010001902504020500300250350100100094091049016025003个构成比比较的2检验步骤一.建立假设,确定检验水准二.计算统计量:三.确定p值,做结论H0:三种国籍国民的血型构成相同;2=332.9668,v=6P0.05,按=0.05水准,拒绝H0,接受H1。认为三种国籍国民的血型构成不同或不全相同。H1:三种国籍国民的血型构成不同或不全相同。=0.05理论频数不宜太小,否则有可能导致分析的偏性:有1/5以上格子的理论频数小于5或有1个格子的理论频数小于1R×C列联表检验注意事项2如果以上条件不能满足,可采用:增加样本含量(最好!)删去该格所在的行或列(丢失信息!)合理地合并部分行或列(丢失信息!甚至出假象)Fisher精确概率法R×C列联表检验注意事项2多个率(或构成比)比较的χ2检验,结论为拒绝H0时,只能认为各总体率(或总体构成比)之间总的来说有差别,并非任2组之间都有差别。若想进一步了解哪两者有差别,需要进行多个样本率(或构成比)的两两比较,如:χ2分割法、率的可信区间法。R×C列联表检验注意事项2资料为有序多分类变量的R×C列联表,在比较各处理组的平均效应大小是否有差别时,不宜用χ2检验,应该用秩和检验或Ridit检验。R×C列联表检验注意事项2表11.6甲、乙两药治疗尿道感染的疗效药物痊愈显效进步无效合计甲461712984乙3015251282合计76323721166三、配对四格表资料的2检验McNemar检验(McNemar'stest)用途比较两种检验方法、两种培养方法、两种提取方法等的差别。例4.2用甲(荧光抗体法)、乙(常规培养法)两种检验方法对某食品作沙门氏菌检验,结果如表4-2,试比较两种方法的阳性结果是否有差别。三、配对四格表资料的2检验两种检验方法阳性率结果可能的结果甲乙频数1++a2+-b3-+c4--d配对四格表资料的2检验表配对四格表形式甲乙合计+-+aba+b-cdc+d合计a+cb+dn甲法阳性率:乙法阳性率:(a+b)/n(a+c)/n(b-c)/n表4-2两种检验方法结果比较荧光抗体法(甲)常规培养法(乙)合计+-+160(a)26(b)186-5(c)48(d)53合计16574239配对四格表资料的2检验配对四格表资料的实际数与理论数26(b)5(c)15.515.5iiiTTA22)(实际数理论数ν=12222()(()()2222)bcbcbcbcbcbcbc连续性校正iiiCTTA22)5.0(2222Cbcbc(b0.5)(c0.5)22bcbc2(bc1)(bc2)当b+c40时,需要连续性校正:配对四格表资料的2检验步骤(1)建立假设,确定(2)计算统计量(3)确定p值,做结论H0:B=C,两种检验方法相同;H1:B≠C,两种检验方法不同。=0.05。22265112.90265,=1P0.05,按=0.05水准,拒绝H0,接受H1,差别有统计学意义,可以认为两法检验结果不一样,荧光抗体法阳性结果高于常规培养法。检验2总结两个率的比较配对设计两个率的比较R×C列联表的分析正确应用Chi-square