回顾性临床研究的设计与数据分析文毅临床流行病学研究员上海罗氏制药医学部1NP-OBC-2015.11-002ValidUntil2017.11目标受众:专业资料,仅供医药卫生专业人士参考声明•本资料为仅用于学术会议或活动的专业资料,旨在促进医药信息的沟通和交流,仅供医药卫生专业人士参考。内容可能含有未在中国批准的临床适应症。处方请参考国家食品药品监督管理总局批准的药品说明书2专业资料,仅供医药卫生专业人士参考前瞻性vs.回顾性•时间顺序性–研究问题vs.数据收集–暴露因素vs.研究结局•数据的分析永远是回顾性的•数据的产生永远是前瞻性的3专业资料,仅供医药卫生专业人士参考常见的回顾性研究设计•一般为观察性研究•回顾性队列研究(因→果)•病例对照研究(果→因)•横断面研究4专业资料,仅供医药卫生专业人士参考队列研究暴露时间轴一组人前进结局5专业资料,仅供医药卫生专业人士参考队列研究暴露时间轴一组人前进结局现在回顾性现在前瞻性6因→果专业资料,仅供医药卫生专业人士参考队列研究可以回答哪些问题?•疾病(事件)的发生情况:发生率•疾病(状态)的流行或分布:百分数•疾病(事件、状态)发生、流行和分布的影响因素:比(HazardRatio,RateRatio)7专业资料,仅供医药卫生专业人士参考确定研究终点确定暴露因素随访起止点确定研究人群队列研究的设计要素从暴露时间轴一组人到结局8前进确定研究问题专业资料,仅供医药卫生专业人士参考随访•起点:–暴露或者风险发生的起点–过去的某个时间点•终点:–事件发生–失访或脱落–研究结束9过去的某个时间点现在or过去的某个时间点专业资料,仅供医药卫生专业人士参考确定研究人群•目标人群•源人群•研究人群10从研究起点(过去)进行选择专业资料,仅供医药卫生专业人士参考确定暴露状态•根据研究对象在研究起点(过去)的暴露状态而确定的–暴露组–对照组•根据研究问题清晰定义–有/无(治疗方案)–按暴露程度(剂量)–按暴露的Pattern(顺序)11专业资料,仅供医药卫生专业人士参考对照组的选择•除了暴露因素外,应与暴露组相似•内部对照–从同一地点,同一时间内选择。如从同一家医院,在同一个时间段内选择•外部对照–不同地点,不同时间–需要更强的相似性假设12专业资料,仅供医药卫生专业人士参考暴露组与对照组的可比性•观察性研究的特性决定了暴露组与对照组是不可比的–基线的背景风险不同(选择性入组)–脱落者与在访者的背景风险不同(选择性脱落)•忽略这种不同会影响我们对结果的解读“选择性偏倚”13随机(Randomization)专业资料,仅供医药卫生专业人士参考举例:死亡率指标“二、三级综合医院医疗服务能力标准”征求意见稿14住院患者死亡率住院手术死亡率三级医院≤0.8%≤1.4‰二级医院≤0.4%≤0.28‰专业资料,仅供医药卫生专业人士参考“差异”的校正和控制•研究设计上•研究实施上•数据分析上•结果解读上•选择内部对照•尽可能收集风险因素•减少因失访导致的信息缺失•分层分析•多变量分析•谨慎,避免结论性的论断15专业资料,仅供医药卫生专业人士参考队列研究的终点/结局•事件的发生(已知)–Time-to-event(OS,PFS)–Diseaseincidence•随访终点(已知)•一个队列研究可观察多个研究结局16专业资料,仅供医药卫生专业人士参考结局和暴露状态的测量•基本原则:独立与客观–研究结局不应影响暴露状态的判断–暴露状态不应影响研究结局的判断•观察性研究中不存在完全的独立与客观•测量的误差会影响研究结果,无法校正“信息偏倚”盲法(Blinding)17专业资料,仅供医药卫生专业人士参考回顾性队列研究中的选择性偏移与信息偏移•选择性偏移–选择性入组和脱落–回顾性数据的完整性•信息偏移–回顾性数据的准确性–回忆的准确性–暴露状态对结局的影响相对较小18专业资料,仅供医药卫生专业人士参考关于失访•观察性研究的失访无法避免•对临床研究的影响–减少了样本量,降低研究的效力–造成选择性偏倚•应对措施–补充数据,减少失访造成的信息缺失–接受现实、评估可能的影响、谨慎解读结果19专业资料,仅供医药卫生专业人士参考病例对照研究•研究结局(果)→暴露状态(因)–Step1:根据结局确定“病例”与“对照”–Step2:确定各自的暴露状态–Step3:计算20专业资料,仅供医药卫生专业人士参考病例对照研究21专业资料,仅供医药卫生专业人士参考病例对照研究22病例专业资料,仅供医药卫生专业人士参考病例对照研究23病例对照专业资料,仅供医药卫生专业人士参考结局暴露24病例:对照:专业资料,仅供医药卫生专业人士参考暴露非暴露病例对照OddsRatio(OR)254422病例对照OR=专业资料,仅供医药卫生专业人士参考病例对照研究可以回答哪些问题?•疾病或状态的影响因素(比较性问题)–保护因素–风险因素–唯一的产出:OR26专业资料,仅供医药卫生专业人士参考病例对照研究的设计要素•确定研究问题•确定研究人群–病例的选择–对照的选择•判断暴露状态27专业资料,仅供医药卫生专业人士参考病例的选择•理论上,人群中所有病例均应作为case•实际中,选择部分病例作为case•一般选择新发病例而非既往病例–不同时期的诊断水平存在差异28专业资料,仅供医药卫生专业人士参考对照的选择•在选择时没有发生研究结局•与病例来自同一人群–如果发生了研究结局,那么对照符合病例的入选标准•对照的选择不受暴露因素的影响•除了暴露因素外,对照应与病例类似•病例对照比例:1:1~1:429专业资料,仅供医药卫生专业人士参考判断暴露状态•往往是回顾性的–基于已有病例档案(完整性?)–基于回忆(准确性?)30专业资料,仅供医药卫生专业人士参考病例对照研究中的偏倚与混杂•选择性偏倚–不恰当的选择对照(受暴露状态的影响)–病例与对照来自不同人群•信息偏倚(暴露信息不准确)–回顾性的数据收集方式•回忆偏倚•研究者引入的偏倚•混杂–风险因素数据不完整或缺失31专业资料,仅供医药卫生专业人士参考病例对照研究中的偏倚与混杂的控制•较队列研究更难控制•可用的方法–配对–尽可能收集风险因素–使用客观测量结果–分析:分层、多因素分析•承认其存在以及研究的局限性32专业资料,仅供医药卫生专业人士参考•研究问题:–MKK4基因多态性与结直肠癌的相关性•研究设计:–病例对照33专业资料,仅供医药卫生专业人士参考病例与对照的选择•病例–2002年6月-2008年12月–广州地区6所医院–706名组织病理学确诊CRC患者•对照–相同时间段–广州地区健康体检人群–随机选择723名无CRC研究对象–年龄、性别配对34YishengWei,etal.Int.J.Cancer:125,1876–1883(2009)专业资料,仅供医药卫生专业人士参考暴露因素测量•问卷:吸烟、饮酒、家族史……•采集血样进行基因分析35YishengWei,etal.Int.J.Cancer:125,1876–1883(2009)专业资料,仅供医药卫生专业人士参考36专业资料,仅供医药卫生专业人士参考横断面研究37•了解某种疾病或状态在特定时间、某个人群中的分布状态(流行率)+流行率=专业资料,仅供医药卫生专业人士参考横断面研究•特殊的病例对照研究–所有的non-case均选为control–相关因素分析(OR)38专业资料,仅供医药卫生专业人士参考横断面研究的设计要素•确定研究人群–在哪个人群切?•确定数据收集/产生时间–在什么时候切?•结局与暴露的测量–数据收集39人群的切面专业资料,仅供医药卫生专业人士参考数据收集/产生时间•日历时间(calendartime)–X年X月-X年X月•事件时间(eventtime)–就诊、诊断、治疗、死亡…40专业资料,仅供医药卫生专业人士参考数据收集•同时收集暴露与结局信息(一次性收集)•收集方式:–面对面访谈–邮寄调查问卷–电话访谈–自我填写的调查问卷–医学检查(实验室检查)–已有档案回顾41专业资料,仅供医药卫生专业人士参考横断面研究的偏倚与混杂•选择性偏倚:研究对象不具代表性•信息偏倚:基于回忆或自我报告•混杂:风险因素缺失或未收集42专业资料,仅供医药卫生专业人士参考•研究人群:–2010/7-2012/7–就诊乳腺癌患者•数据收集:–病理科档案43专业资料,仅供医药卫生专业人士参考常用的分析方法•描述性分析(Descriptiveanalysis)–描述研究人群的基本特征•组间比较(Subgroupcomparison)–了解可能存在的组间差异•回归分析(Regressionanalysis)–偏倚与混杂的校正,分析影响因素44描述性分析•根据变量类型选择分析方法变量类型描述性分析连续变量•按连续变量报告•平均数(SD,95%CI)•中位数(Range,IQR)•转换成分类变量,如年龄段•计数,百分比分类变量•计数、百分比45组间比较•比较组间基线特征差异–t检验(连续变量)–卡方检验(分类变量)•“我该使用哪种检验方法?”①DependentVariable:因变量(年龄)②IndependentVariable:自变量(治疗方案)③NatureofDependVariable–Interval–Normal–Ordinal–Categorical①②③47使用的检验方法四种统计软件的操作方法回归分析•根据研究设计和因变量(结果变量)种类选择回归分析方法–生存分析(Cox回归):time-to-event变量–Logistic回归:0,1结果变量–线性回归:连续性结果变量–Poisson回归:非负的计数性结果变量•单变量vs.多变量48单因素与多因素分析•单因素分析:–Y=α+βX1–生存状态=α+β*治疗方案–粗估,未考虑其他因素对Y的影响•多因素分析:–Y=α+β1X1+β2X2+β3X3+…βnXn–生存状态=α+β1*治疗方案+β2*年龄+β3*并发疾病–校正后估计,考虑其他因素对Y的影响49多变量分析中变量的选择•统计学方法–Backward,Forward,Stepwise–AIC,BIC,Adjusted-R2•临床意义–风险因素“Allmodelsarewrong,butsomeareuseful”50总结•根据研究问题选择研究设计•是否需要前瞻性的收集数据(数据积累)•省时高效•正确认识回顾性研究的局限性51专业资料,仅供医药卫生专业人士参考Doingnowwhatpatientsneednext专业资料,仅供医药卫生专业人士参考52