第四章循证医学证据的评价(Theevaluationofevidence-basedmedicineevidences)《循证医学》作者单位温州医科大学作者姓名杨新军教学要求掌握:1.临床研究证据的分类2.临床研究证据的分级标准3.证据评价的基本要素熟悉:1.临床研究证据的来源、证据评价的基本内容2.常用的证据评价工具了解:影响证据质量的因素主要内容一、概述二、证据的来源三、证据的分类四、证据的分级五、证据的评价六、影响证据质量的因素七、证据评价举例一、概述证据是循证医学的基础与核心证据质量决定循证医学决策的正确性和科学性证据应具有真实性、临床重要性、适用性二、证据来源1.来自目前已有的证据资源库现有证据资源库包括各种电子数据库、出版的书籍、公开发表的期刊、网站、会议文献等,可以通过计算机或手工检索的方法,获取所需证据。2.生产和创造证据医学决策者可以根据临床实践工作中发现的问题,开展原始研究或二次研究来生产和创造证据。三、证据的分类(一)按照产生证据的研究方法分类1.原始研究证据(primaryresearchevidence)是指以临床病人或社区居民为研究对象,开展的临床诊断、治疗、预防和干预等的随机对照试验、队列研究或病例对照研究等,获取原始资料,并进行分析、总结后,获得的研究证据。这类证据数量庞大,更新速度快。三、证据的分类2.二次研究证据(secondaryresearchevidence)是指通过全面收集某一问题的所有原始研究证据文献,应用系统评价、Meta分析等方法进行严格评价、分析处理、综合评估后形成的证据。这类证据是对多个原始研究证据再加工后得到的更高层次证据,因此,更新速度较原始研究慢,数量也少于原始研究。三、证据的分类(二)按照使用证据者的需求分类1.系统评价2.临床实践指南3.临床决策分析4.临床证据手册5.卫生技术评估6.健康教育材料三、证据的分类(三)按照临床研究问题的类型分类1.病因研究2.诊断研究3.治疗研究4.预后研究5.预防研究6.临床经济学研究四、证据的分级证据质量分级的标准和方法:不断发展与完善1.牛津大学循证医学中心的证据分级标准2.GRADE标准表4-12001年牛津证据分级(以病因、治疗、预防部分为例)推荐强度证据分级病因、治疗、预防A1a1b1c同质RCTs的系统评价单个RCT(可信区间窄)全或无(传统治疗全部无效)B2a2b2c3a3b同质队列研究的系统评价单个的队列研究(包括低质量的RCT,如随访率80%)结局性研究同质病例-对照研究的系统评价单个病例-对照研究C4病例系列报告(包括低质量队列研究及病例-对照研究)D5基于经验未经严格论证的专家意见表4-22004年GRADE证据分级及推荐强度证据分级具体描述推荐级别具体描述高未来研究几乎不可能改变现有疗效评估结果的可信度强明确显示干预措施利大于弊或弊大于利中未来研究可能对现有疗效评估有重要影响,可能改变评估结果的可信度弱利弊不确定或无论质量高低的证据均显示利弊相当低未来研究很有可能对现有疗效评估有重要影响,改变评估结果可信度的可能性较大极低任何疗效的评估都很不确定五、证据的评价(一)评价的目的证据评价的目的是明确证据的真实性、重要性和适用性,更好地指导临床实践。(二)证据评价的基本要素1真实性2临床重要性(价值)3适用性四、证据的评价研究设计的因素:设计的科学性、可行性,研究方法是否合理等;研究对象的因素:纳入及排除标准、样本量大小、有无混杂因素;研究方法的因素:测量指标选择、指标的敏感性和特异性,有无测量偏倚;研究结果的因素:基线状况与可比性,统计分析方法是否正确,结果解释是否合理等1.影响证据真实性的因素效应指标的数值大小:如相对危险度、特异危险度等可信区间范围:95%可信区间检验效能:检验power不同研究类型具体效应指标不同,如诊断性研究的灵敏度、特异度、预测值的大小,病因学研究证据的OR或RR值及可信区间范围的大小等2.影响证据临床重要性的因素研究人群的人口学特征研究对象类型社会环境经济条件3.影响证据适用性的因素四、证据的评价(三)证据评价的基本内容包括从研究目的---研究方法---研究结果---结论全过程的评价研究目的研究方法研究对象研究实施质量控制研究结果结果分析结果表达研究设计研究结论经济学分析四、证据的评价表4-3研究类型与设计方案类型研究目的研究设计方案病因研究评估某因素与疾病发生是否有关队列研究、病例-对照研究,试验研究诊断性研究评估新的诊断方法的有效性和可靠性横断面调查(须同时进行新方法和金标准方法检验)治疗性研究检验各种干预措施如药物治疗、介入或外科手术的效果随机对照试验(RCT)预后研究了解确诊病人以后可能发生的情况纵向队列研究筛检研究评估适于大规模人群检验和在疾病呈现症状早期检出该病的各种检查方法横断面研究个案研究特殊病例描述和介绍个案报告、病例分析(四)证据评价的工具1.原始研究证据的评价工具四、证据的评价(1)随机对照试验的评价工具Jadad量表Cochrane偏倚风险评估工具表4-4Jadad量表的质量标准(Jadad1996)评价指标内容描述计分随机恰当:通过计算机产生的随机序列或随机数字表产生的序列不清楚:试验提到随机分配,但未描述随机分配的方法不恰当:采用交替分配的方法如按入院顺序、出生日期单双号等210双盲法恰当:描述了实施双盲的具体方法并且被认为是恰当的,如采用了完全一致的安慰剂等不清楚:试验仅提及采用盲法,但未描述方法不恰当:试验提及采用盲法,但方法不恰当,如片剂和注射剂比较未提到“双伪”的方法210退出与失访恰当:对退出与失访的病例数和退出理由进行了详细的描述不恰当:没有提到退出和失访10表4-5Cochrane偏倚风险评估工具评价指标评价内容选择偏倚随机序列产生分配隐藏详细描述了产生随机分配序列的方法,以便评估组间可比性详细描述了隐藏随机分配序列的方法,以便判断干预措施分配情况是否能预知实施偏倚对研究者和受试者施盲详细描述了对研究者和受试者实施盲法的方法,以防其知晓受试者的干预措施。提供了判断盲法是否有效的信息测量偏倚研究结果盲法评价详细描述了对研究结果评价者实施盲法的方法,以防其知晓受试者的干预措施。提供了判断盲法是否有效的信息随访偏倚结果数据的完整性完整地报告了每个主要结局指标的数据,包括失访及退出的,是否明确报道了失访及退出,每组人数(与随机入组的总人数相比),失访/退出的原因,以便系统评价者行相关的处理报告偏倚选择性报告研究结果描述的信息可供系统评价者判断选择性报告研究结果的可能性及相关情况其他偏倚其他偏倚来源除上述偏倚外,提供的信息是否可评估存在其他引起偏倚的因素;如果是先在计划书(protocol)中提到某个问题或因素,需给出对应的回答(2)非随机对照试验的评价工具MINORS条目(methodologicalindexfornon-randomizedstudies,MINORS)评价指标共12条,每一条分为0~2分。前8条针对无对照组的研究,最高分为16分;后4条与前8条一起针对有对照组的研究,最高分共24分。计分方法:0分表示未报道;1分表示报道了但信息不充分;2分表示报道了且提供了充分的信息表4-6MINORS评价条目评价条目评价内容1.明确地给出了研究目的所定义的问题应该是精确的且与可获得文献有关2.纳入患者的连贯性所有具有潜在可能性的患者(满足纳入标准)都在研究期间被纳入了(无排除或给出了排除的理由)3.预期数据的收集收集了根据研究开始前制定的研究方案中设定的数据4.终点指标能恰当地反映研究目的明确地解释用来评价与所定义的问题一致的结局指标的标准。同时,应在意向性治疗分析的基础上对终点指标进行评估5.终点指标评价的客观性对客观终点指标的评价采用评价者单盲法,对主观终点指标的评价采用评价者双盲法。否则应给出未行盲法评价的理由6.随访时间是否充足随访时间应足够长,以使得能对终点指标及可能的不良事件进行评估7.失访率低于5%应对所有的患者进行随访。否则,失访的比例不能超过反映主要终点指标的患者比例8.是否估算了样本量根据预期结局事件的发生率,计算了可检测出不同研究结局的样本量及其95%可信区间;且提供的信息能够从有统计学差异及估算把握度水平,对预期结果与实际结果进行比较9~12条用于评价有对照组的研究的附加标准9.对照组的选择是否恰当对于诊断性试验,应为诊断的“金标准”;对于治疗干预性试验,应是能从已发表研究中获取的最佳干预措施10.对照组是否同步对照组与试验组应该是同期进行的(非历史对照)11.组间基线是否可比不同于研究终点,对照组与试验组起点的基线标准应该具有相似性。没有可能导致使结果解释产生偏倚的混杂因素12.统计分析是否恰当用于计算可信区间或相对危险度(RR)的统计资料是否与研究类型相匹配(3)观察性研究常用的评价工具NOS量表(TheNewcastle-OttawaScale,NOS):NOS量表通过研究人群选择、可比性、暴露评价或结果评价三方面共8个条目的方法,评价病例对照研究和队列研究。AHRQ横断面研究评价标准:美国卫生保健质量和研究机构(AgencyforHealthcareResearchandQuality,AHRQ)推荐评价横断面研究(cross-sectionalstudy)的标准包括11个条目。表4-7病例对照研究的NOS评价标准评价内容(条目)星级数研究人群选择对于所选择的病例描述是否充分该病例是否有代表性对照组的选择方法对照的描述是否充分每个条目最多一个☆可比性以病例组和对照组的设计或分析为基础的可比性对应相关标准给出评价但是最多两个☆暴露暴露的确定方法是否用相同的方法确定对照和病例组的暴露无反应率的相关问题每个条目最多一个☆表4-8队列研究的NOS评价标准评价内容(条目)星级数研究人群选择暴露队列的代表性如何非暴露组的选择方法暴露的确定方法是否有证实在研究开始时所关注结果确实还没有出现每个条目最多一个☆可比性以设计和分析为基础的队列之间的可比性对应相关标准给出评价但是最多两个☆结果研究对于结果的评价是否充分结果发生后随访是否足够长队列群体随访是否充分每个条目最多一个☆1)是否明确了资料的来源(调查,文献回顾)?2)是否列出了暴露组和非暴露组(病例和对照)的纳入及排除标准或参考以往的出版物?3)是否给出了鉴别患者的时间阶段?4)如果不是人群来源的话,研究对象是否连续?5)评价者的主观因素是否掩盖了研究对象其他方面情况?6)描述了任何为保证质量而进行的评估(如对主要结局指标的检测/再检测);7)解释了排除分析的任何患者的理由;8)描述了如何评价和(或)控制混杂因素的措施;9)如果可能,解释了分析中是如何处理丢失数据的;10)总结了患者的应答率及数据收集的完整性;11)如果有随访,查明预期的患者不完整数据所占的百分比或随访结果。AHRQ横断面研究评价标准2.二次研究证据的评价工具(1)系统评价/Meta分析的评价工具AMSTAR量表AMSTAR量表包括如下11个条目,每个条目均采用“是”、“否”、“不知道”和“不适用”进行判定。1.是否提供了前期方案?2.纳入研究的选择和资料提取是否具有可重复性?3.是否进行了全面的文献检索?4.发表状态是否已考虑在纳入标准中,如灰色文献?5.是否提供了纳入和排除的研究清单?6.是否描述纳入研究的基本特征?7.是否评价和报道了纳入研究的科学性?8.是否恰当地运用纳入研究的科学性推导结论?9.合成纳入研究结果的方法是否恰当?10.是否评估了发表偏倚的可能性?11.是否报告了利益冲突?AMSTAR量表评价条目(2)临床实践指南的评价工具最常用的工具是《临床指南研究与评价系统》(AppraisalofGuidelinesforResearchandEvaluation,AGREE),即AGREE工具评价内容和方法:具体评价的6个领域(23个条目),每个条目的评分为1~7分,1分表示指南完全不符合该条目,7分代表指南完全符合该条目,2~6分代表指