统计学培训班RC表资料的统计分析与错误辨析胡良平军事医学科学生物医学统计咨询中心第一类:22表,四型(一)横断面研究设计2×2表;(二)队列研究设计2×2表;(三)病例-对照研究设计2×2表;(四)配对研究设计2×2表。RC表的分类、分型以及统计分析方法的合理选择第二类:RC表,四型(一)双向无序列联表;(二)单向有序列联表;(三)双向有序且属性不同的列联表;(四)双向有序且属性相同的列联表。第三类:高维表,三型(一)结果变量为“二值变量”的高维表;(二)结果变量为“多值有序变量”的高维表;(三)结果变量为“多值名义变量”的高维表。列联表分类第一部分:R×C表的四型1、双向无序列联表;2、结果变量为有序变量的单向有序列联表;3、双向有序且属性不同的列联表;4、双向有序且属性相同的列联表。1型资料举例1(双向无序R×C表)表1某地6094人按2种血型划分的结果━━━━━━━━━━━━━━━━━━━ABO人数血型MN血型:MNMN───────────────────O431490902A388410800B495587950AB137179325───────────────合计145116662977━━━━━━━━━━━━━━━━━━━例1计算方法(双向无序R×C表)因表中小于5的理论频数没有或很少,故这样的双向无序列联表资料可以用一般的卡方检验来处理。1型资料举例2(双向无序R×C表)表2心律失常种类与心肌梗塞部位关系━━━━━━━━━━━━━━━━━━━━缓慢心率梗塞例数失常种类部位:下壁前壁真后壁心内膜下────────────────────窦性过缓8721被动心律1100房室阻滞6311束支阻滞11610───────────────合计162742━━━━━━━━━━━━━━━━━━━━例2计算方法(双向无序R×C表)因表中小于5的理论频数超过了总格子数的1/5,故这样的双向无序列联表资料应选用Fisher的精确检验来处理。理论频数=(行合计)(列合计)/N2型资料举例(单向有序R×C表)表33种药物疗效的观察结果━━━━━━━━━━━━━━━━━━━疗人数效药物∶ABC───────────────────治愈1541显效49915好转315045无效52224───────────────合计1008585━━━━━━━━━━━━━━━━━━━例3计算方法(结果变量为有序变量的单向有序R×C表)(1)秩和检验;(2)Ridit分析;(3)有序变量的Logistic回归分析。(关键是对结果变量打分计算)3型资料举例(双向有序且属性不同R×C表)表4眼晶状体混浊度与年龄之关系━━━━━━━━━━━━━━━━━━━晶状体混眼数浊程度年龄∶20~30~40~───────────────────+215131148++67101128+++4463132───────────────合计326295408━━━━━━━━━━━━━━━━━━━3型资料计算方法(双向有序且属性不同R×C表)双向有序且属性不同的二维列联表有四个分析目的:其一、检验各组结果之间的差别;其二、研究两有序变量之间的相关性;其三、研究两有序变量之间是否呈直线关系;其四、各行(或列)频数分布是否相同。3型资料计算方法(双向有序且属性不同R×C表)其一、检验各组结果之间的差别;用秩和检验等方法处理资料;其二、研究两有序变量之间的相关性;用Spearman秩相关分析处理资料;其三、研究两有序变量之间是否呈直线关系;用线性趋势检验处理资料;其四、各行(或列)频数分布是否相同;用卡方检验或Fisher精确检验处理资料。4型资料举例(双向有序且属性相同R×C表)表5两法检查室壁收缩运动的符合情况━━━━━━━━━━━━━━━━━━━对比法测冠心病人数定的结果核素法∶正常减弱异常───────────────────正常5823减弱1427异常8917───────────────合计675327━━━━━━━━━━━━━━━━━━━4型资料计算方法(双向有序且属性相同R×C表)双向有序且属性不同的二维列联表有一个分析目的:即两种检测方法检测的结果是否一致。可选用的统计分析方法为:(1)Kappa检验(或称为一致性检验);(2)特殊模型分析(复杂,少用)第二部分RC表资料统计分析常见错误的辨析与释疑1、对单向有序资料未进行统计分析直接得出结论《两种术式治疗单侧声带麻痹的比较》,原作者对23例喉支架术(9例)及喉神经再支配术(14例)的患者手术前及手术后进行了比较观察,各术式声音评估情况见表1:对差错的辨析原作者未对资料进行统计分析就直接得出结论,显然是错误的,本资料应属于结果变量为有序变量的单向有序列联表资料,原表设计不利于进行相应的统计分析,先把上表修改如下:两种手术方法术前声音评估情况(修改表)例数术式恢复程度:正常显改改善无改支配术3420再支配术0067释疑在保证两组之间重要的非处理因素均衡的前提下,适当增大样本含量,并采用适合于分析单向有序列联表资料的秩和检验或Ridit分析,作出专业结论。释疑严格地说,若两组患者均在各时间点被重复测量了疗效(有序变量),应按具有重复测量设计定性资料的方式整理和分析资料。2、双向有序且属性相同资料未进行统计分析直接得出结论240《喉癌MRI分期评价》,原作者目的预评价MRI在喉癌术前T分期中的价值。采用方法为:对59例喉癌的MRI资料进行回顾性分期,并与纤维喉镜及手术病理对照。结果见下表:附表各期喉癌MRI和纤维喉镜分期结果t例mri纤维喉镜分级数正确错误正确错误未定T1212011902T2171521520T313112823T4880134合计595454379总准确率:MRI:92%(54/59);纤维喉镜:73%(43/59);P<0.01结论MRI能准确判断会厌前间隙(PES)、喉旁间隙(PGS)浸润及软骨破坏,因而可显著提高喉癌术前分期的准确性,对临床治疗方案选择具有重要意义。对差错的辨析采用两种分析方法分别测定同一人群,测定结果都分为正确、未确定、错误,从资料类型看,应属于双向有序且属性相同的列联表资料,原作者未经相应的统计分析直接得出结论,显然是不合适的。为便于作统计分析先把上表修改如下:病例数Mri纤维喉:正确未确定错误合计正确439254未确定0000错误0055合计439759各期喉癌MRI和纤维喉镜分期结果(修改表)释疑原作者真正的目的是想分析这两种检测方法的检测结果之间是否具有一致性,因而应选用与之相应的一致性检验,即kappa检验。3、误用卡方检验处理单向有序列联表资料《溶菌酶和乳铁蛋白在慢性鼻窦炎钩突粘膜中的表达》,采用免疫组化ABC法,检测溶菌酶(LZ)和乳铁蛋白(LF)在17侧健康和70侧慢性鼻窦炎患者(分为单纯炎症组和合并鼻息肉组)钩突粘膜中的表达情况。分别得到以下两表和结论:从资料类型上看,需要进行秩和检验或Ridit分析,其实再看一看每一时期两组的样本含量,就会发现样本含量太小,每组分为四个疗效级别而例数只有9例和14例,即使两组间疗效真正存在差别,也可能由于样本例数太小,无法提供充足的信息而不能得出差异具有统计学意义的结论来。表1溶菌酶在各组钩突粘膜中的表达状况杯状细胞腺体细胞上皮细胞分组--++++++-++++++--++++++正常对照组83510107017000单纯鼻炎组1117201110019200并鼻息肉组1322104010271243510表2乳褐质在各组钩突粘膜中的表达状况杯状细胞腺体细胞上皮细胞分组--++++++—++++++—++++++正常对照组143000143017000单纯鼻炎组1467011010018300并鼻息肉组43510011827346201原作者的分析方法:卡方检验。结果①LZ在单纯炎症组钩突粘膜杯状细胞中表达较健康对照组加强(P0.05);LF在健康和慢性鼻窦炎钩突杯状细胞中常为阴性表达;同样,得出lf的结果。结论钩突粘膜中的杯状细胞和混合腺对LZ和LF的分泌起重要作用,可能参与构成局部免疫防御系统。对差错的辨析本资料的结果变量具有一定顺序,因而应属于结果变量为有序变量的单向有序列联表资料,原作者采用卡方检验分析资料,并进行两两比较,是错误的。释疑适合分析单向有序列联表资料的统计分析方法有秩和检验或Ridit分析,对平均秩进行两两间比较也有相应的近似方法。4、误用2检验回答相关性问题原文题目《上颌窦鳞癌两种癌基因及增殖细胞核抗原的表达及意义》目的:检测上颌窦鳞癌、上颌窦内翻性乳头状瘤及上颌窦炎性年膜中ras、p53及增殖细胞抗原PCNA的表达情况,并分析其表达与上颌窦鳞癌临床病理特性和预后的关系。原作者在研究上颌窦鳞癌病理分级与ras、p53及PCNA表达关系时按上颌窦鳞癌病理分级不同分为三个组,检测结果见表3,然后得出ras基因表达与上颌窦鳞癌分化程度有关,其表达多见于高分化鳞癌中(卡方检验,P=0.02),P53基因表达与上颌窦鳞癌分化程度无关(P0.05)。表3上颌窦鳞癌病理分级与RAS、P53及PCNA的表达关系阳性例数病理例数分级RasP53PCNA指数均值(%)高分化33219.30中分化25121118.02低分化122715.89结论:RAS基因表达与上颌窦鳞癌病理分级有关,多见于高分化鳞癌中(卡方检验P=0.02);P53基因表达与上颌窦鳞癌病理分级无关(P0.05)。对差错的辨析由上表可以看出:原因变量(病理分级)的三个水平之间具有一定的顺序,是一个有序变量。而基因ras(或p53)的表达与否只有两个水平,相当于阴性(0)和阳性(1),可以看成是顺序的一种特例。因而可将其视为双向有序的列联表资料。原作者对其进行一般的2检验,只能得出不同病理分级的上颌窦鳞癌之间的ras(或p53)基因表达率差异是否具有统计学意义。并不能说明原作者的实验目的,即上颌窦鳞癌病理分级与ras(或p53)基因表达率之间有相关关系(需要用Spearman秩相关分析)。释疑应根据作者实验目的采用适合此资料的Spearman秩相关分析法。变换原表如下:表1上颌窦鳞癌病理分级与RAS、P53基因表达关系Ras表达(例)P53表达(例)病理例数分级+-+-高分化33021中分化2512131114低分化1221075程序运行结果:ras基因表达与否与病理分级之间的相关性分析:rs=0.41822,P=0.00720.05。故可以认为ras基因表达与否与上颌窦鳞癌病理分级之间的相关性有统计学意义。程序运行结果:P53基因表达与否与病理分级之间的相关性分析:rs=-0.05834,P=0.72060.05。故可以认为P53基因表达与否与上颌窦鳞癌病理分级之间的相关性无统计学意义。5、列表与分析所用的资料详略不同,误用Ridit分析处理四格表资料本题资料来源同错误一:原作者在研究RAS蛋白在上颌窦鳞癌与内翻性乳头状瘤中表达差异时得实验结果见下表:表1ras蛋白在上颌窦鳞癌及内翻性乳头状瘤中的表达表达强度(例数)组别-++++++阳性(%)上颌窦癌2377317(42.5)乳头状瘤126208(40.0)原作者得出结论:ras蛋白表达阳性率及强度在上颌窦鳞癌与乳头状瘤间差异无显著性(Ridit检验,P0.05)。对差错的辨析该资料的分组变量是一个名义变量,而结果变量(即表达强度)是一个具有四个等级的有序变量,所以该资料是一个“结果变量为有序变量的单向有序的2X4列联表资料”,用Ridit分析适宜。但是原作者在分析两组表达阳性率时,就不应该使用Ridit分析了。因为ras蛋白的表达与否是一个具有两个水平的无序变量,这时的资料类型为一般的四格表资料。而Ridit分析是处理结果变量为有序变量的单向有序列联表资料的统计分析方法,不适用