医学科学研究论文中统计方法的正确应用一、统计方法正确应用的重要性医学统计方法很多,各适用于不同的数据。临床试验中所用统计方法必须根据数据情况认真选用。这是因为,数理统计是根据一定的数据分布推导出一定的统计方法,它仅适用于一定的数据。例如,t检验及方差分析是由正态分布数据以及各组方差相同推导出来的,因而要求数据为正态分布(至少接近正态分布)且方差齐性。但是,在论文的统计方法部分常有如下阐述:一般资料进行χ2检验,其余资料进行t检验,这种不管数据分布是否很偏态,就一概使用某种统计方法不正确。此外,分类数据与计量数据的统计方法也不同,分类数据中对于名义变量和顺序变量的统计方法也不同。统计方法应用的错误会使整个精心进行的研究得出错误的结论。在这一讲中我们将结合目前文献中常见的一些统计方法的错误应用,对如何根据数据的情况来正确地选择统计方法进行讨论。二、统计方法上常见的一些问题1.t检验和方差分析要求数据服从正态分布:在医学研究中大量的数据并不服从正态分布。有时可以从报告中的数据看出。例如,在文献中体温降至正常的平均日数在两组分别为3.0±1.7及2.4±2.0。由数据可以看到标准差是平均数的1/2以上,甚至接近平均数。这就提示数据严重偏离了正态分布。因为,当数据不可能为负值(如日数),且样本不是过小时,按正态分布规律,平均数减3个标准差仍应是正数。这里平均数减3个标准差已经是-2.1和-3.6了。因为日数不可能是负数,这就说明数据偏离了正态分布规律。又如,文献[2]关于统计分析方法方面写道:“测量参数以x±s表示。根据性别及骨密度(2.5s为界)分组,用两样本均数t检验对组间各形态计量参数进行统计分析(SPSS8.0软件)。样本均数与总体均数用t检验比较形态计量学参数与正常参考值之间的差异”。由文内表格(表1)可以看到有不少标准差大于均数。数据很可能是很偏态,不宜使用t检验。事实上,t检验和方差分析是一种所谓“稳建的”(robust)统计方法。就是说,当分布偏离正态分布不大时,对其结果的影响不大。但对于计量数据还是应当先做正态性检验。如果正态性检验结果认为数据不服从正态,可以进行数据转换,但比较麻烦。简单的方法是用非参数统计。过去一般认为非参数统计效率较差,但这是指当数据为正态分布时。如果数据是非正态分布时其效率比参数法高,甚至可以高出很多。常用的有秩和检验和符号秩和检验等。2.关于多组计量资料的一揽子比较:在多组计量资料的组间两两比较时不可以用“一揽子比较”。所谓“一揽子比较”是进行多组比较时进行所有的两两比较。这是因为,在进行两组间比较时我们确定了第Ⅰ类错误的概率α。一般我们用α=0.05。如果做一揽子比较,α就会扩大,也即,第Ⅰ类错误的概率扩大了。我们就会得到过多的假阳性结果。这时对第Ⅰ类错误的概率α进行调整的方法很多。一般先做方差分析,然后再用各种多重比较的方法,如StudentNewmanKeuls法等,做各组间的两两比较。文献[2]是一个用错了的例子。文献[4]的表中(表2),原作者对A、B、C3组做了一揽子比较。正确的做法应当是先做总的检验,然后再做多重比较。本例还有各组间方差不齐的问题。不宜用方差分析而需用非参数统计方法来处理。3.顺序变量的χ2检验:(1)临床疗效的比较:2组有效率的比较,用四格表χ2检验或Fisher精确检验法是可以的。但是,如按疗效分成多个等级,如痊愈、显效、进步、无效4个疗效等级,则目前常用的χ2(Peasonχ2)不能说明疗效的好坏。因为Peasonχ2只检验结构是否均衡而不能检验2组疗效是否有差别。在表3这个假设的例子中,Peasonχ2检验得到差别有高度统计意义的结果。而实际上很难说哪一组疗效更好。如果我们对表3中任何两列进行对换。Peasonχ2的数值也不会有变化。表1老年股骨颈骨折患者骨密度、骨形态计量学参数与形态计量学正常值比较(%,x±s)组别例数TBVOVTOSPRS正常值15.361.0713.214.76骨密度降低≥2.5s108.68±3.187.78±13.546.55±7.076.79±8.68骨密度降低2.5s77.92±2.584.35±7.405.94±6.272.43±2.9与正常值比较:P0.05,P0.001表2燃煤型砷中毒患者皮肤组织中p53mt阳性表达分析组别例数阳性细胞密度(x±s)阳性率(%)A组1838.07±29.0088.89B组1117.16±15.0072.73C组394.05±8.2425.64对照1200各组与对照比较:P0.01;A与B比较P0.01;A与C比较P0.01;B与C比较P0.05表3一个假设的顺序变量χ2检验的例子(例数)组别痊愈显效进步无效A药1005050100B药5010010050χ2=56.556,ν=3,P=0.001表4是克霉唑与对照治疗阴道炎的实例。原作者并未对此进行统计分析。对于这种顺序分类变量资料可以用Wilcoxon秩和检验、Ridit分析或CochranMantelHaensze行平均分差检验(Testofrowmeanscoresdifference)。这三者都是合理的方法,只是评分方法有所不同而已。因为其检验的假设有所不同,其结果也会有些差别,其中以用“行平均分差检验”较好。因为可以计算出平均得分显示两者之差值。如表4,若用4个等级以0,1,2,3来评分,2组平均分分别为2728及2632分,十分接近,ν=1,P=0324。本例得出差别无统计意义的结论,但这并不能说2种药的疗效相等或相近(见本讲第三节)。表4克霉唑与对照治疗阴道炎的疗效比较(例数)组别痊愈显效进步无效平均分克霉唑921714311/114=2.728对照药651462229/87=2.632(2)时间作为顺序变量:如上所述,Pearsonχ2检验只能说明构成比例的不同。对于顺序变量,需要用行平均分差的检验。Ridit检验或者Wilcoxon秩和检验。文献[7]是以时间作为顺序变量的例子(表5)。这一Pearsonχ2检验的结果只能得出新生儿黄疸消退时间不同的结论,而不能得出观察组消退较晚的结论。如果我们把任何各列交换。Pearsonχ2检验的结果完全不变。如果我们以0、1、2、3来代表7~、9~、11~等依次各列,可以计算对照组和观察组的平均分为:对照组:(0×8+1×16+2×36)/(8+16+36)=446/150=2.973。观察组:(0×0+1×6+2×18)/(0+6+18+)=826/196=4.214。行平均分检验结果为χ2=94593,ν=1,P=0.001说明观察组黄疸消退延长。本例为计量资料的频数表形式。也可计算均数和标准差,用u检验比较均数的差别。4.把行×列表合并成四格表:比较疗效时,把疗效合并成四格表而用卡方检验有效率,在方法上似无不可,但损失了信息。而且,合并的方法对于疗效的判断会有影响(表6)。表5肉眼观察新生儿黄疸消退时间(例数)出生后时间(d)组别7~9~11~13~15~17~19~21~23~24对照组8163668166000观察组061834594519132Peasonχ2=1139(作者为11406),P001表6治疗组与对照组的疗效比较显效好转无效总有效组别例数例数(%)例数(%)例数(%)例数(%)治疗组201680.0315.015.01995.0对照组27414.82074.1311.12488.9作者由表6得出结论:治疗组显效率明显高于对照组,统计学上差异有极显着性(P0.01);治疗组总有效率与对照组比较差异无显着性(P0.05)。由此可见,不同的合并方法对结果有很大的影响。这种情况还是用对顺序变量作分析的统计方法来分析为好。本例用秩和检验结果u=4.088,P=0.000。说明2组差别有高度统计意义。从数据可见治疗组疗效较好。在临床试验中有人把无效和改善合并为无效,显效和控制合并为有效来计算有效率。由于病情轻的病人原来病情为1级,治愈了为0级,降低了1级,只能算改善,不可能达到显效或控制。因而,有效率的统计就会受到入组病人病情严重程度差异的影响。比较各组病人病情的不同也会影响有效率的比较。这只有采用在病人入组时,按病情分层随机化的方法来解决。对于分层的数据应当把层作为一个因素进行分析。如用方差分析和多元回归。对于生存数据用COX回归分析等。这时把层作为协变量进行分析。5.一般χ2检验只用于分析计数资料:χ2分布原本由连续变量导出。但目前我们大量应用的χ2检验是应用于计数资料。计数是指清点的数目。对于分类数据是清点人数、阳性数……文献[7]是一个应用错误的例子。表7的数据是计量数据,这样算出来的χ2什么也不是。表7新生儿接种乙肝疫苗后不同时间平均胆红素浓度血胆红素平均值(μmol/L)出生后时间(d)观察组(44例)对照组(21例)018.017.53110.0108.06151.2148.29177.0130.312168.066.015159.331.018126.020.12176.315.02436.42716.0χ2=16404,P0001三、临床等效性研究的统计分析有不少临床试验是要说明两种药物的疗效相近。这种试验常采用一般常用的统计检验方法,即无效假设为两组疗效相等而备择假设为两组疗效不等的t检验或χ2检验等。实际上,这种检验方法只能作出2组不相等的结论,但不能得出两组“相等”(相近)的结论,这尤其表现在当样本量很小时假阴性率会很高,得出的结论很可能是一个假阴性。在生物等效性的研究中美国食品及药物管理局(FDA)和其他一些机构最早采用的也是这种方法,后来发觉其错误,自1986年起采用了以2组疗效不同为无效假设而备择假设为两组相近(差值不超过某一标准)的检验方法。这就是双单侧检验和计算90%可信区间的方法,这样在否定了无效假设之后才能作出两者疗效相近的结论。例如,文献[11]对比了2种滴眼剂。得到P005的结果。但作者并未作出两药疗效相同或相近的结论。这是正确的。然而,这样设计的目的却常常是为了说明两种药的疗效相近。这是应该用等效性检验的方法。四、科研论文中应写明所用统计分析方法的具体名称统计方法的误用在杂志上屡见不鲜。通常,在文章的材料与方法部分应当有一段专门阐明所用统计方法的内容。在发表文章时写明所用的统计方法,这样才能供审稿者或读者来判断结论是否正确可靠。例如,配对数据与成组数据的统计方法就不同。如果笼统地说用了t检验,就很难判断其正确性。可是,有些研究报告中却完全没有提到所用的是什么统计方法。例如,在文献[12]中,列出了许多P值,下了许多结论,竟完全没有提及所用的统计方法。这样怎么让读者来判断结论是否正确呢?五、统计检验结论的表达1.差别有统计意义的表达:统计分析的结果是推翻无效假设或是不能推翻无效假设。无效假设在一般的统计检验为2组总体参数相等。推翻无效假设只能说2组总体参数不相等而并不能说2组相差很大。2组相差如何要对可信区间进行研究观察后得出。由于统计检验不能得出差别的大小,因而结论不能说“有明显差异”或“有显着差异”,也不能说“差异非常显着”,更不能说“差异明显”。在国外的统计书籍上的英语表达为“significant”,它的正确意义应当是“有意义的、有重要性的”。俄语为Значмый和日语中的“有意”也是这个意思。国内只有极个别的英汉词典把“significant”误译为“显着的”。正确的说法应当是“差异有统计意义”或“差异有高度统计意义”等。在《中华医学会系列杂志对来稿中统计学处理的有关要求》中对此也有说明。文献[15]中有这样一段说明:“丙酸倍氯米松组患者吸入糖皮质激素后,其气道反应性有显着降低(P0.05),而安慰剂组气道反应性无明显变化(P0.05);对照组治疗前后气道反应性无明显变化(P0.05,)。这显然是把统计意义和差别的大小混为一谈了。文献[16]总结了1984年6月至1998年12月手术治疗的肝内胆管结石640例。文中有一段说明为:“肝切除术后残石率(7.8%)明显低于胆