ChinJEvid-basedMed,2007,Vol.7(8)分析中效应尺度指标的选择文进李幼平*关键词Meta分析合并统计量效应尺度作者单位1.四川大学华西医院中国循证医学中心(成都610041)第一作者简介文进,男(1974年~),流行病与卫生统计学硕士,循证医学在读博士,以循证决策和管理为主要研究方向。Email:huaxiwenjin@163.com*通讯作者,Email:yzmylab@hotmail.com摘 要Meta分析中效应尺度指标的选择对其结果的解释和应用非常重要。本文首先简要介绍了常见的几种Meta分析合并统计量的基本概念。Meta分析中选择合并统计量常需要考虑以下因素:流行病学设计类型,资料(数据)类型,效应一致性,数学特性和可解释性。对连续性变量,当对同一干预措施效应的测量方法或单位完全相同时,宜选择WMD;当对同一干预措施效应采用不同的测量方法或单位,或不同研究间均数差异过大时,宜选择SMD作为合并统计量。对二分类变量,随机对照试验的Meta分析推荐首选RR为合并统计量。当干预(暴露)组和对照组的事件发生率均非常低时,可以采用OR估计RR。Meta分析中无一个可应用于所有情形的最佳合并统计量。中国循证医学杂志,2007,7(8):606-613.证据是循证医学的核心,系统评价或Meta分析是公认的最高级别证据。来自Meta分析的证据总是通过一定的效应尺度(effectsize,ES;或effectmagnitude,EM)指标来表示。但国内外杂志上发表的Meta分析在选择效应尺度指标时常存在误用指标或错误解释指标结果的情况。因此,深刻理解Meta分析中各种常用效应尺度指标的意义,对正确选择效应指标、理解和应用统计结果至关重要。Meta分析中使用的定量合成效应尺度指标,也被称为合并统计量(summarystatistic)。1基本概念研究中常用的效应尺度指标包括结局为分类变量时的oddsratio(OR)、relativerisk(RR)和riskdifference(RD),以及结局为连续性变量时的weightedmeandifference(WMD)和standardizedmeandifference(SMD)。下面对这些基本概念进行简要介绍。1.1OROR即比值比或优势比,是测量疾病与暴露联系强度的一个重要指标。是某组中某事件的比值与另一组内该事件的比值之比。OR=1表示比较组间没有差异。当研究结局为不利事件时,OR1表示暴露可能会降低结局风险。比值(Odds):是某事件发生可能性的一种表示方式,为一个样本中发生某事件的人数与没有发生某事件的人数之比。例如,在一个100人的样本中,20人死亡,80人存活,则这个样本中发生死亡的比值为20/80=1/4或0.25。比值也可以定义为某事件发生的概率与不发生的概率之比,即P/(1-P),这里P表示某事件发生的概率。表1为常见的研究暴露(干预)与疾病关系时候的资料总结表。根据流行病学不同的研究设计类型,可以获得以下三种比值比。1.1.1发病比值比(incidenceoddsratio)对于队列研究或随机对照试验而言,可以获得发病比值比,其计算如下:暴露(干预)组发病的比值=p1=a/(a+c)=a1-p1c/(a+c)c非暴露(非干预)组发病的比值=p2=b/(b+d)=b1-p2d/(b+d)d发病比值比=OR1=p1/p2=ad1-p11-p2bc1.1.2暴露比值比(exposureoddsratio)病例对照研究不能得到发病比值比,只能得到暴露比值比。表1暴露与疾病关系的四格表Table1FourfoldtablefordataanalysisbetweenexposureanddiseaseE(暴露/exposure)E(非暴露/un-exposure)D(疾病/disease)aba+bD(非疾病/non-disease)cdc+da+cb+d中国循证医学杂志2007年第7卷第8期实践与交流病例组暴露的比值=病例中暴露的比值=a/(a+b)=a病例中非暴露的比值b/(a+b)b对照组暴露的比值=对照中暴露的比值=c/(c+d)=c对照中非暴露的比值d/(c+d)d暴露比值比=病例暴露的比值=ORE=a/b=ad对照暴露的比值c/dbc1.1.3患病比值比(prevalenceoddsratio)对横断面研究而言,既不能获得发病比值比,也不能得到暴露比值比。横断面研究可以获得患病比值比。患病比值比=ORP=a/c=adb/dbc由于横断面研究的因果论证强度非常低,因此在使用和解释患病比值比时务必谨慎。1.2RRRR是rateratio或riskratio或relativerisk的缩写,国内翻译为“相对危险度”,其意义为两组的事件率之比。RR是反映暴露(干预)与事件关联强度的最有用的指标。RR=1表示比较组间没有差异。当研究结局为不利事件时,RR1表示干预可降低结局风险。RR=a/b=p1a+cb+dp2需要注意的是,只有队列研究和随机对照试验结果可以直接获得相对危险度。1.3RDRD(riskdifference)即危险差,也被称为归因危险度(attributablerisk,AR)、绝对风险差(absoluteriskdifference)和绝对风险降低率(absoluteriskreduction,ARR),是指干预(暴露)组和对照组结局事件发生概率的绝对差值。例如,感染某种疾病的风险在干预组为10%,对照组是15%,则研究的RD为-5%。RD反映了暴露(干预)组中净由暴露(干预)因素所致的发病水平(从暴露组角度考虑)。RD=0表示比较组间没有差异。当研究结局为不利事件时,RD0表示干预可降低结局风险。通常只有队列研究和随机对照试验结果可以计算RD。1.4WMDWMD(weightedmeandifference)即加权均数差,用于Meta分析中所有研究具有相同连续性结局变量(如体重)和测量单位时。计算WMD时,需要知道每个原始研究的均数、标准差和样本量。每个原始研究均数差的权重(例如每个研究对Meta分析合并统计量的影响大小)由其效应估计的精确性决定。Cochrane协作网的RevMan统计软件设定计算WMD的权重为方差的倒数。1.5SMDSMD(standardizedmeandifference)即标准化均数差,为两组估计均数差值除以平均标准差而得。由于消除了量纲的影响,因而结果可以被合并。风险(risk)是观察对象中发生研究事件的人数与总的观察人数之比,而比值(odds)是观察对象中发生研究事件人数与未发生研究事件人数之比。例如,24人去滑雪,其中6人跌倒,那么跌倒的风险为6/24=0.25=25%,跌倒的比值为6/18=1/3=0.33。2Meta分析中效应尺度指标的选择2.1Meta分析中效应尺度指标选择需要考虑的因素2.1.1流行病学研究设计类型前瞻性研究(队列研究和随机对照试验)可以计算相对危险度和发病比值比;病例对照研究不能直接获取相对危险度,只能计算暴露比值比;横断面研究可以计算患病比值比。2.1.2数据类型与效应尺度指标[1]Meta分析中的数据类型有以下几类:①二分类变量:可计算相对危险度、风险差或比值比。②连续性变量:可以计算加权均数差或标准化均数差。③等级变量:由于方法学上某些局限性,该类资料在等级较少时一般转化为二分类变量,在等级较多时可以视为连续性变量处理。④计算个体事件(重复)发生的次数而获得的计数和率:当获得的频数为小概率事件时,类似Poisson数据,此时如果有详细的人时记录,可以获得发病密度(率),可计算RR或RD;当频数为非小概率事件时,可将计数当作连续性变量处理。⑤时间事件(生存)数据(time-to-event/survivaldata):某些时候(如某个时点上所有患者的情况都清楚)当作二分类变量处理,此时可以采用RR、RD或OR等效应指标。但最适合时间事件数据分析的方法是通过危险比(hazardratio,HR)来表示干预效应的生存分析。Hazard和Risk在概念上相似,细微的差别在于Hazard表述的是瞬时风险而且可能随时间不断变化。HR的解释也与RR类似。时间事件数据的Meta分析通常需要有单个患者数据(individualpatientdata,IPD)才可以进行。总之,多数情况下,不同类型的数据最终都转化ChinJEvid-basedMed,2007,Vol.7(8)分析。2.1.3效应尺度指标的特性[2]2.1.3.1一致性(consistency)一致性主要是指合并统计量值与所有纳入原始研究或亚组人群效应值的相似性。关注一致性主要是因为各个原始研究纳入人群的基线风险常常存在差异,选择一致性较好的合并统计量有利于Meta分析结果的推广性。通常相对效应指标比绝对效应指标的一致性好。因此,可以认为SMD的一致性比WMD好,OR和RR的一致性比RD好。而且,OR和RR在一致性方面差别不大。一般不推荐使用基于特定情况下才最具一致性的效应尺度指标。例如,某研究试验组和对照组的A事件率分别是20%和10%,另一相同研究试验组和对照组A事件率分别是10%和5%。选择相对效应指标RR,则两个原始研究的RR值均为2;若选择绝对效应指标RD,则一个研究RD为10%,另一个为5%。如此,当进行Meta分析时,选择合并统计量为RR时可能异质性检验提示同质性好,而选择合并统计量为RD时则很可能提示原始研究间统计异质性较大。2.1.3.2数学特性(mathematicalproperties)最重要的数学特性就是可靠方差估计值的可得性。研究表明,常用的分类变量效应尺度指标中,OR的数学特性最好。连续性变量一般都能对方差进行较好的估计,故WMD与SMD的数学特性相近。数学特性是进行Meta分析时需要考虑的因素之一。例如需治疗人数(NNT)虽然非常容易被理解,受到临床医生的欢迎,但由于其没有一个简单的方差估计值,故难以在Meta分析中被作为合并统计量而直接使用。2.1.3.3可解释性(easeofinterpretation)合并统计量应该容易被阅读Meta分析者所理解、交流和使用。对连续性变量而言,WMD的可解释性比SMD好。由于SMD被标准化而无量纲,因而常常难于从专业上对其结果进行解释。对二分类变量而言,OR是最不容易被理解和使用的合并统计量。许多Meta分析采用OR为合并统计量,但被错误解释为RR。因此从可解释性出发,RR和RD比OR好。表2列出了二分类变量效应尺度指标的重要特性。2.1.4专业相关因素主要是从专业角度分析临床异质性大小、基线风险差异大小和数据表述在不同研究间有无差异等,这些因素也可能影响合并统计量的选择。2.2Meta分析中各种效应尺度指标的选择从上述效应尺度指标选择时需要考虑的因素分析中可以知道,Meta分析中没有一个可以应用于所有情形的最佳合并统计量。每个合并统计量的不同特质有时是矛盾的,例如绝对效应指标很容易被解释,但可推广性受限。选择合并统计量时,常常需要综合考虑各种因素。2.2.1连续性变量合并统计量的选择当对同一干预措施效应的测量方法或单位完全相同时,宜选择WMD。当对同一干预措施效应采用不同的测量方法或单位,如测定疼痛采用不同的量表测量,或者不同研究间均数差异过大时,宜选择SMD作为合并统计量。需要注意的是,关于“研究间均数差异过大”必须结合专业知识进行判断。2.2.2二分类变量合并统计量的选择[2-7]纳入研究为病例对照研究时只能选择OR。对同为前瞻性研究的队列研究和随机对照试验而言,指标选择具有相似性。由于观察性研究的Meta分析在方法学上尚存在争议,这里主要针对随机对照试验的Meta分析讨论合