第三章临床医学科研常用流行病学研究方法中南大学公共卫生学院刘爱忠第一节概述临床科研设计方案可分为二大类:(一)观察性研究:病因、诊断与预后1.描述性研究;2.病例对照研究;3.队列研究。(二)试验性研究:临床试验(clinicaltrial)疗效分析1.随机对照试验;2.前后对照试验;3.交叉对照试验;4.序贯试验。第二节病例对照研究一、原理暴露(exposure):是指研究对象曾经接触过某些因素,或具备某些特征,或处于某种状态。这些因素、特征或状态即为暴露因素。暴露因素可以是机体的特征,也可以是机体外的;可以是先天的、人体固有的,也可以是后天获得的。研究者所关心的任何因素都可以叫做暴露因素。暴露因素可以是有害的,也可以是有益的。暴露因素也叫做研究变量(variable)。病例对照研究的特点:1、病例对照研究是一种回顾性的研究方法。2、是一种由“果”索“因”的方法。3、对临床上许多已出现但又不能人为地重演的医疗事件的原因探讨有较大的应用价值。二、研究类型(一)病例与对照非匹配:随机获取一定数量的病例与对照;(二)病例与对照进行匹配:匹配(matching):是指使对照组在非研究因素上与病例组保持一致的一种限制手段。目的:提高效率;控制混杂。1、频数匹配/成组匹配按照病例组的某些重要因素(如性别)的频率选择对照,使匹配因素的比例在两组一致。如性别男:女=1:12、个体匹配以病例和对照的个体为单位进行匹配。对每个病例,按照某些因素选择一个或多个对照,构成1:1,1:2,……1:R的对子或混合。(三)其它衍生类型①巢式病例对照研究(nestedcasecontrolstudy);②病例队列研究(casecohortstudy);③病例交叉研究(casecrossoverdesign);④单纯病例研究(casecasestudy);⑤病例—时间—对照设计等。巢式病例对照研究(nestedcase-controlstudy)/队列内病例对照研究(case-controlstudynestedinacohort)标本(生物学)发病队列随访、收集基线资料未发病追踪随访至所需病例数为止,检测病例和部分非病例标本,按配比病例对照研究分析资料,其他非病例标本和资料可弃而不用。例:1992年Ross报告了上海地区肝癌与尿黄曲霉毒素生物学标志的关系,18244名中年男子尿22例肝癌1:5配比,检测开始时的尿样:结果OR=2.3~6.2。OR(a)=3.8(1.2-12.2)。三、研究对象的选择(一)病例的选择1.疾病的诊断标准病例的诊断标准尽量采用国际、国内通用的诊断标准,以便能与他人的研究进行比较。2.病例的种类:新发病例、现患病例和死亡病例。三种病例的差异主要体现在对回忆信息提供的准确性上。3.病例的来源1)从医院选取病例。2)从一般人群中选择病例。(二)对照的选择对照选择的基本原则:①来源于产生病例的源人群,并且能代表这个源人群;②与病例组具有可比性,这一点主要通过匹配来实现;③对照的选择应该独立于暴露状态。对照的来源主要有四种:①与病例同一或多个医疗机构中诊断的其它病例;②社区人口中的非该病病例或健康人;③病例的邻居、同事、同学、配偶、同胞等;④社会团体人群中的非该病病例或健康人。四、样本量的估计样本大小与下面四个方面的因素有关:①被研究的因素在一般人群的估计暴露率P0;②被研究的主要因素的作用强度大小,通常以估计的比值比(OR值)大小来表示;③α水平;④把握度(1-β)。其大小可通过查表或计算获得。病例对照研究的设计类型不同,计算公式也不同。(一)不匹配或频数匹配设计的样本含量估计例:某学者欲在某地进行一项吸烟与肺癌关系的成组匹配的病例对照研究,已知该地人群的吸烟率为30%(P0=0.30),吸烟的预期比值比(OR)为3,取α=0.05,β=0.10,试计算此研究所需的最小样本量?此研究至少需病例组、对照组各73人。(二)1:1配对病例对照研究样本含量的估计1.求出病例与对照暴露状态不一致的对子数(m)2.再求调查所需的总对子数(M)M=m/Pe公式(3-3)式中Pe=P0(1-P1)+P1(1-P0)P0、P1分别代表源人群中对照组和病例组的估计暴露率。例:上述吸烟与肺癌关系的研究若采用1:1匹配的病例对照研究,样本含量为多少?六、资料整理与分析资料收集完毕以后,首先应对资料进行复核,修正验收、归档等一系列处理,合格后对资料进行分组,归纳,编码输入计算机,建立原始数据库,以备分析。1.统计描述1)描述研究对象的一般特征:年龄、性别等的分布;2)非研究因素的均衡性检验2.统计推断:暴露与疾病有无统计学关联;关联强度大小;1)X2检验2)OR=ad/bc3)ORCIOR值的含义为暴露人群的发病危险性是非暴露人群发病危险性的多少倍。OR>1,说明暴露因素与疾病呈“正”关联。OR=1,说明暴露因素与疾病无关。OR<1,则说明暴露与疾病呈“负”关联。结果表明:石棉暴露是肺癌的危险因素,暴露者患肺癌的危险是非暴露者的1.82倍,这种危险的95%可信范围在1.33~2.49之间。七、偏倚及其控制:1、选择偏倚选择的对象不能代表总体人群,如入院率偏倚(尽量从各种各类医院中选择病例,从多科室多病种选择对照)2、信息偏倚最常见的是在收集资料时产生的回忆偏倚。由于调查员的差异也会产生信息偏倚(调查员的培训和调查时统一口径)。3、混杂偏倚匹配、分层和多因素分析匹配可以控制偏倚,但是“匹配过度”也可以引起偏倚四、优缺点1.优点:1)适用于罕见病的病因研究;2)省时、省力、省钱,出结果快;3)所需样本量较小。4)可广泛探索危险因素,即一病多因。2.缺点:1)前因后果的时间顺序有时难以确定;2)易发生回忆偏倚、选择偏倚;3)不能得到疾病的发病率;4)不适于人群中暴露比例很低的因素的研究。第三节队列研究一、原理队列研究:是将一群研究对象按是否暴露于某因素分成暴露组与非暴露组,将此两个队列随访适当长的时间,比较两组的结局,以研究暴露与疾病的关系。队列:指具有共同经历或有共同状态特征的一群人。如出生队列、吸烟队列、不吸烟队列。调查方向现在暴露将来疾病人数+a+-b研究人群+c--d二、队列研究的类型按研究对象进入队列的时间分为:1、前瞻性队列研究(prospectivecohortstudy)2、历史性队列研究(historicalcohortstudy)3、双向性队列研究(ambispectivecohortstudy)三、研究人群的选择研究对象进入队列时均应确诊未患被研究的疾病(事件)。1.暴露队列1)职业人群:某些职业中存在特殊的暴露因素。2)特殊暴露人群:如原子弹爆炸的受害者,洪灾、地震的暴露人群;3)一般人群:某种暴露在人群中很普遍。4)有组织的人群:较易获得所需资料。2.对照人群:除暴露因素外,其他因素应与暴露组一致。1)内对照:比性较好,如吸烟与肺癌关系2)外对照:如选石棉厂工人作为暴露人群,对照人群常需到不生产石棉的工厂工人中去选取。选外对照时必须注意可比性。3)总人口对照:利用整个地区的发病或死亡统计资料;四、样本含量设计阶段,要随访多少人才能发现暴露与疾病的联系,其大小可通过查表或计算获得。按10%的失访率,将所得结果加大10%为实际样本量。队列研究的样本大小取决于以下四个参数:①对照组的预期发病率P0;②暴露组发病率(P1)与对照组发病率(P0)的差值;③显著性水平(α);④检验的把握度(1-β)。例:某人拟用队列研究方法探讨孕妇服用某药与先天性心脏病的关系。已知未服此药者先天性心脏病的发病率(p0)为0.01,估计服用该药物的RR为2.0,取α=0.05,β=0.10,试计算该研究的样本量?五、资料的收集1、收集资料:基线资料和随访资料。1)基线资料:研究对象开始时的个人基本信息(如年龄、性别、住址等)、暴露因素的信息、健康状况的信息等。2)随访资料:研究人群的暴露及疾病结局的情况。2、随访方法:面访、电话访问、定期体检、环境与疾病的监测等。应注意的是对暴露组和对照组应采取相同的随访方法,且在整个随访的过程中,随访方法保持不变。3、随访目的:研究结局出现否?暴露因素是否有变化?研究对象的其他因素是否发生变化?4、随访期:(潜伏期、RR)六、资料的整理与分析随访结束以后,首先了解资料的正确性、完整性,对有明显错误的资料进行重新调查或修正,然后建立数据库。(一)描述性统计描述研究对象的组成、失访情况及失访原因,失访人群构成的分析,两组人群均衡性检验等。(二)推断统计1、率的计算及显著性检验1)累计发病率(cumulativeincidence,CI):CI=D/E适用于变动小的固定人群,分母为队列开始时的人口数。2)发病密度(incidencedensity,ID):ID=D/PT当人口变动大:观察对象进入队列的时间先后不一、失访,使得每个观察对象的随访时间不尽相同。数字大小本身无意义,要报告单位。如100年-1=8.33月-1=0.27天-13)显著性检验:E与D有无关联?u检验,χ2检验,计分检验(scoretest)等。HBsAg与肝癌关系的研究HBsAg肝癌病例非肝癌病例合计+25099750100000-9518999051900000合计34519996552000000暴露组CI1=250/10000=250/10万非暴露组CI0=95/1900000=5/10万2、效应估计1)相对危险度(relativerisk/riskratio/rateratio,RR):RR=Ie/I0指暴露组的发病或死亡是非暴露组的多少倍。相对效应:RR=1,RR〈1,RR〉1在肝癌例子中,RR=50,表示HBsAg阳性的人群患肝癌的危险是HBsAg阴性的人群的50倍。RR与关联的强度相对危险度RR关联的强度0.9~1.01.0~1.1无0.7~0.81.2~1.4弱0.4~0.61.5~2.9中等0.1~0.33.0~9.9强〈0.110~很强2)归因危险度(attributablerisk,AR):AR=Ie-I0指暴露组与非暴露组发病危险相差的绝对值。在肝癌的例子中,AR=245/10万,表示在HBsAg阳性的人群中,由HBsAg感染引起肝癌的发病率为245/10万。RR与AR意义不同3)归因危险度百分比(attributableriskpercent,AR%)AR%=(Ie-I0)/Ie*100%指暴露组归因于暴露的发病率占暴露组发病率的百分比。或指暴露组中归因于暴露的成分占全部病因的百分比。因此归因危险度百分比又称病因分值(etiologicalfraction,EF)。例子中,AR%=98%,表示在HBsAg阳性的人群中,有98%的肝癌是由HBsAg感染引起的。4)人群归因危险度(populationattributablerisk,PAR)PAR=It-I0指在整个人群中由于暴露所致的发病率或死亡率。5)人群归因危险度百分比(populationattributableriskpercent,PAR%)PAR%=(It-I0)/It*100%PAR%=Pe*(RR-1)/(Pe*(RR-1)+1)*100%指人群中由于暴露所致的发病率或死亡率占人群发病率或死亡率的百分比。或指人群中归因于暴露的成分占全部病因的百分比。故又称之为人群病因分值(populationetiologicfraction,PEF)。例:吸烟与肺癌的研究获得如下结果:Ie=0.96‰,I0=0.07‰,It=0.56‰。请计算相关指标并解释其含义。七、队列研究中的常见偏倚1.选择偏倚最严重的表现为失访偏倚(losttofollow-up)。队列研究的失访偏倚很难完全控制,一项研究的失访率最好不超过10%,