卡方检验

snowkite
2 ℃
2020-02-28

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

卡方检验2内容安排卡方检验入门配对设计两样本率比较的χ2检验行列表资料的分析确切概率法卡方检验入门4概述卡方检验是以卡方分布为基础的一种常用假设检验方法，主要用于分类变量，它的基本的无效假设是：•H0：行分类变量与列分类变量无关联•H1：行分类变量与列分类变量有关联•=0.05•统计量，其中Ai是样本资料的计数，Ti是在H0为真的情况下的理论数(期望值)。221()kiiPiiATT5卡方检验•在H0为真时，实际观察数与理论数之差Ai－Ti应该比较接近0。所以在H0为真时，检验统计量服从自由度为k-1的卡方分布。即：，拒绝H0。上述卡方检验由此派生了不同应用背景的各种问题的检验，特别最常用的是两个样本率的检验等。因为该原理的使用范围很广，但本次课程只学习用于推断两个分类变量是否相互关联22,Pv221()kiiPiiATT6概述表6.2使用含氟牙膏与一般牙膏儿童的龋患率牙膏类型患龋齿人数未患龋齿人数调查人数龋患率（%）含氟牙膏70(76.67)130(123.33)20035.00一般牙膏45(38.33)55(61.67)10045.00合计11518530038.33更一般地，可将上述表格记为表6.3的一般形式，称之为四格表(fourfoldtable)。因为表中a、b、c和d四个格子的数据是基本的，其余数据均可从这四个数据派生出来。7方法原理理论频数•基于H0成立，两样本所在总体无差别的前提下计算出各单元格的理论频数来牙膏类型患龋齿人数未患龋齿人数调查人数龋患率（%）含氟牙膏70(76.67)130(123.33)20035.00一般牙膏45(38.33)55(61.67)10045.00合计11518530038.33nnnTCRRC8方法原理残差•设A代表某个类别的观察频数，E代表基于H0计算出的期望频数，A与E之差被称为残差残差可以表示某一个类别观察值和理论值的偏离程度，但残差有正有负，相加后会彼此抵消，总和仍然为0。为此可以将残差平方后求和，以表示样本总的偏离无效假设的程度9方法原理另一方面，残差大小是一个相对的概念，相对于期望频数为10时，20的残差非常大；可相对于期望频数为1000时20就很小了。因此又将残差平方除以期望频数再求和，以标准化观察频数与期望频数的差别。•这就是我们所说的卡方统计量，在1900年由英国统计学家Pearson首次提出，其公式为：22211()()kkiiiiiiiiAEAnpEnp10方法原理从卡方的计算公式可见，当观察频数与期望频数完全一致时，卡方值为0；观察频数与期望频数越接近，两者之间的差异越小，卡方值越小；反之，观察频数与期望频数差别越大，两者之间的差异越大，卡方值越大。当然，卡方值的大小也和自由度有关11方法原理卡方分布•显然，卡方值的大小不仅与A、E之差有关，还与单元格数（自由度）有关chi-square38.1936.1834.1732.1630.1528.1426.1324.1222.1120.1018.0916.0814.0712.0610.058.046.034.022.01.00概率.12.10.08.06.04.020.0012操作步骤1.建立检验假设和确定检验水准•H0：使用含氟牙膏和一般牙膏儿童龋患率相等•H1：使用含氟牙膏和一般牙膏儿童龋患率不等2.=0.053.计算检验统计量2值82.267.6167.615533.3833.384533.12333.12313067.7667.76702222213操作步骤3.确定P值和作出推断结论•查附表8，2界值表，得p0.05。按=0.05水准，不拒绝H0，尚不能认为使用含氟牙膏比使用一般牙膏儿童的龋患率低。•对于四格表，卡方的计算公式又可进行简化，以方便手工计算对计算机而言并无实际价值tabiab\cd,chi214操作步骤值得指出，成组设计四格表资料的2检验与前面学习过的两样本率比较的双侧u检验是等价的。若对同一资料作两种检验，两个统计量的关系为2=u2。其对应的界值也为平方关系。两者的应用条件也是基本一致的，连续性校正也基本互相对应。15卡方检验假设的等价性两组儿童的龋齿率相同•两组发生率的比较实际数据的频数分布和理论假设相同•理论分布与实际分布的检验使用不同的牙膏并不会影响龋齿的发生（两个分类变量间无关联）•两变量的相关分析16四格表2值的校正英国统计学家Yates认为，2分布是一种连续型分布，而四格表资料是分类资料，属离散型分布，由此计算的2值的抽样分布也应当是不连续的，当样本量较小时，两者间的差异不可忽略，应进行连续性校正（在每个单元格的残差中都减去0.5）•若n40，此时有1T5时，需计算Yates连续性校正2值•T1，或n40时，应改用Fisher确切概率法直接计算概率17例6.8为比较某新药与传统药物治疗脑动脉硬化的疗效，临床试验结果见表6.4，问两种药物的疗效有无差异？表6.4两种药物治疗脑动脉硬化的疗效处理措施有效无效合计有效率（）新药组41(38.18)3(5.82)4493.18传统药物组18(20.82)6(3.18)2475.00合计5996886.76配对设计两样本率比较的χ2检验19方法原理例6.9用A、B两种方法检查已确诊的乳腺癌患者140名，A法检出91名(65%)，B法检出77名(55%)，A、B两法一致的检出56名(40%)，问哪种方法阳性检出率更高？B法A法＋－合计＋56(a)35(b)91－21(c)28(d)49合计776314020方法原理显然，本例对同一个个体有两次不同的测量，从设计的角度上讲可以被理解为自身配对设计按照配对设计的思路进行分析，则首先应当求出各对的差值，然后考察样本中差值的分布是否按照H0假设的情况对称分布按此分析思路，最终可整理出如前所列的配对四格表21方法原理注意•主对角线上两种检验方法的结论相同，对问题的解答不会有任何贡献•另两个单元格才代表了检验方法间的差异假设检验步骤如下：•H0：两法总体阳性检出率无差别，即B=C•H1：两法总体阳性检出率有差别，即BC22方法原理mcci56352128根据H0得b、c两格的理论数均为Tb=Tc=(b+c)/2，对应的配对检验统计量为：1,)(22cbcb一般在b+c40时，需用确切概率法进行检验，或者进行校正。23注意事项McNemar检验只会利用非主对角线单元格上的信息，即它只关心两者不一致的评价情况，用于比较两个评价者间存在怎样的倾向。因此，对于一致性较好的大样本数据，McNemar检验可能会失去实用价值。•例如对1万个案例进行一致性评价，9995个都是完全一致的，在主对角线上，另有5个分布在左下的三角区，显然，此时一致性相当的好。但如果使用McNemar检验，此时反而会得出两种评价有差异的结论来。行列表资料的分析25例6.10用某新药治疗不同类型关节炎的疗效如表6.6，问该药治疗不同类型关节炎的疗效是否有差别？表6.6三种不同类型关节炎的临床疗效关节炎类型有效无效合计类风湿性关节炎9718115风湿性关节炎372057骨性关节炎141731合计1485520326分析步骤建立假设•H0：三种不同类型关节炎的疗效相同•H1：三种不同类型关节炎的疗效不全相同求出统计量下结论27几点遗留问题是否应当进行两两比较？•这又是一个打嘴仗的问题，虽然有人提出用卡方分割等方法来检验，但同样也有学者对这种做法嗤之以鼻•实际上，随着统计学的发展，这个问题已被超越，可以使用对分类数据的建模方法，如logistic模型等对此问题加以解答28几点遗留问题如果是有序资料该怎么处理•传统的卡方检验是无法对次序信息加以利用的•单向有序：秩和检验啦•双向有序：实际上考察的是两变量间的关联性（相关性），可以使用专门的关联性指标分析•目前对卡方检验还有一些扩展方法，如CMH卡方，可以处理此类问题29几点遗留问题行列表卡方检验的适用条件•理论频数不宜太小，一般认为不宜有1/5以上格子的理论频数小于5或有一个格子的理论频数小于1•不太理想的办法与邻近行或列中的实际频数合并删去理论频数太小的格子所对应的行或列•最理想的办法增加样本含量以增大理论频数（但是可能吗）确切概率法确切概率法31分析实例•注意：确切概率法不属于2检验的范畴，但常作为2检验应用上的补充。例6.13研究某新药治疗原发性高血压的疗效，并用常规治疗药物作为对照组，结果见表6.9，问新药疗效与对照组疗效有无差别？表6.9某新药治疗原发性高血压的疗效分组有效无效合计有效率（）试验组20(a)8(b)2871.43对照组2(c)6(d)825.00合计22143661.1132分析实例1．建立检验假设和确立检验水准•H0：新药组与对照组疗效相等，即1=2•H1：新药组与对照组疗效不等，即122．计算概率和确定P值•本例n=3640，不满足2检验的应用条件，宜采用四格表确切概率法。33方法原理在四格表周边合计不变的条件下，在相应的总体中进行抽样，四格表中出现各种排列组合情况的概率•本例即28、8、22、14保持不变的条件下，若H0成立，计算出现各种四格表的概率!!!!!)!()!()!()!(ndcbadbcadcbaP34方法原理表6.10在四格表(表6.9)周边合计不变的条件下，1=2时的概率分布计算d0123456*78P(d)0.01060.07890.22440.31680.24200.10190.02290.00250.0001累计概率0.01060.08950.31380.63060.87260.97450.99740.99991.0000*本例现有样本情况d=6。然后将其中小于等于现有样本概率的概率值相加，即为P值：•本例中P值=P(0)+P(6)+P(7)+P(8)=0.03610.0535一点补充确切概率法的原理具有通用性，对于四格表以外的情况也适用，如行乘列表、配对、配伍表格均可对于较大的行乘列表，确切概率法的计算量将变得十分惊人，有可能超出硬件系统可以支持的范围此时可以采用计算统计学中的其他抽样技术加以解决，如Bootstrap方法等36Stata计算两个或多个率、构成比的比较1、Pearsonχ2对两个样本率比较tabiab\cd,chi2r其中r表示按行计算比例2、用Fisher确切概率法检验量个样本率tabiab\cd,chi2exact37Stata计算配对四格表资料的分析mcciabcd38Stata计算行列表资料统计分析双变量无序：Pearson卡方•应用条件：同前。•命令：tabi556344\456923\575436单变量有序：秩和检验、CMH卡方双变量有序：Spearman等级相关、CMH卡方