归因分析北大医院心脑血管病临床研究平台陶庄2013-10医学的使命•寻找病因•寻找治疗病因的手段对原因进行研究的两个范畴•哲学层面–因果的机制(mechanismofcause)•统计学层面–因果的效应(causaleffect)什么是原因Aristotle(AD384-AD322)的“四因说”•“质料因(thematerialcause)”•“形式因(theformalcause)”•“动力因(theefficientcause)”•“目的因(thefinalcause)”“那个使被动者运动的事物,引起变化者变化的事物。”Suppes(1922-)APBAPAPBAP||•如果B的存在导致A发生的概率增大(或减小),则可称B是A的原因(cause)。Granger(1935-2009)•如果B的存在导致A发生的概率增大(或减小),则可称B是A的原因(cause)。nnnnnYXFXF||11观测性等价(Observationalequivalence)•按Bayes公式推导如果P(B|A)P(B)成立,则P(A|B)P(A)一定成立。•也就是说:•如果A是B的原因,则必然可以推导出B是A的原因。初步证据的因果性(primafaciecausality)•“最近的一些作者因为缺少对原始文献的阅读,很多应用都是不恰当的,就象一个聚会中的传言一样,以讹传讹,最后与初始的东西面目全非。”——Granger(1980)小插曲——•causaleffect(因果效应)•gain(天赋)对原因的研究研究原因(归因)的两类方法•直接分类研究(categoricalattribution)•反事实分析(counterfactualanalysis)反事实(counterfactual)分析“IfAhadoccurred,Cwouldhaveoccurred.”Rubin反事实模型(Rubin’sCounterfactualModel)•原因E的效应(causaleffect)被定义为:对一个特定的个体u来说,在特定时间内,接受E或C所带来的效果指标Y的不同。设y(E)是个体u接受E后测得的效果,y(C)是个体u接受C测得的效果,那么原因E的效果就可表示为:CyEyNiiiCyEyNACE2121因果推断的基本问题(FundamentalProblemofCausalInference)•对于每一个个体u来说,如果他被置于E组,那么他就绝不会同时再被置于C组;•当然,这个个体也就不能在同一时间观察到两种不同处理的结果。•所以……至少其中一组不是真实存在的!•所以……必须寻找合适的u的替代!反事实分析的最根本的条件•接受不同处理的两组个体,除处理因素(E和C)外,其它各种情况应该一样。•扩展来说,就是这两组样本所代表的总体应该是同一的(homogeneous)。其余条件不变(ceterisparibus)的概念——也就是保持其它(相关的)因素固定不变,是建立因果关系(causalrelationship)的核心。原因对照(causalcontrast)•如果R1=A1/B1和R0=A0/B0分别为实际人群与虚拟人群的发病率,那么此时可以定义一个R1和R0的原因对照(causalcontrast):001101//BABARRRR原因目标人群的替代反事实(counterfactual)替代001100101///FEBAFERRRRR的替代对关联反事实理论模型的内涵(1)•对效应测量指标的选择和解释,即只有上述的原因对照指标(即RR,RD)对病因的推断才有意义,而其它的统计量,如P值,χ2值不能说明病因的问题,而RR原因或RD原因的意义十分清晰,可以认为是暴露因素在分布水平1和0间的“净”(net)改变。•反事实理论模型给病因推断提供了一个通用的框架,不仅可以用于随机试验,同样可以用于观察性研究。•在应用中,使用反事实,需要注意混杂因素(confounder)造成的影响,这主要表现在,所选择的替代人群与目标人群不在某些影响因果关系的方面不齐同,那么此时就会发生混杂(confounding)000000110011//////FEBABABAFEBARRRR原因关联反事实理论模型的内涵(2)•在一个人群得到的RR或RD,一般情况下与另一个人群得到的不同。•对同一个问题的不同研究,其RR或RD一般也不会一致(consistency),此时可使用Meta分析等方法进行综合处理。•可以使用敏感性分析等方法对混杂带来偏倚(bias)进行估计。•使用倾向分(propensityscore)等方法增加可比性。反事实理论模型的内涵(3)因果联系间的时间累积效应时间累积效应TTTTdxLtxfRRtxRR00|部分可能的时间累积函数(1)•RR的累积效应仅依赖于目前的暴露与过去无关。比如疫苗的注射引起的不良反应,意外伤害等。TxRRtxRRTtxfTT0|01其它部分可能的时间累积函数(2)•RR的累积效应在各时间点恒定。比如某些致癌因素等。TTTTdxtxRRtxRRxf00|1部分可能的时间累积函数(3)•RR的累积效应与现在和过去的暴露都有关,关键是过去效应的持续时间K,而效应是线性递减的。比如降低血压后对某些致癌因素的保护效应等。TTTTdxtxKKTtRRtxRRKTtKxf00|01其它部分可能的时间累积函数(4)•RR的累积效应与现在和过去的暴露都有关,关键是过去效应的持续时间K,而效应是指数递减的。比如降低血压后对某些致癌因素的保护效应等。TTTtTTTtdxtxeRRtxRRexf00|某原因在总体效应中的贡献率归因分值(Attributablefraction,AF)111RRPRRPAF反事实场景(counterfactualscenario)关于AF的例子0.9190.51190.51)-p(RR11)-p(RRPAF多级暴露水平•生理学风险因子(Physiologicalriskfactors),如血压,血脂等,其暴露-反应曲线为J型或U型;•行为风险因子(Behavioural),如吸烟,水果蔬菜摄入量,其暴露-反应曲线为J型或单调上升;•环境风险因子(Environmentalriskfactors),其暴露-反应曲线为单调上升;•社会学“风险因子”(Socioeconomic“riskfactors”),如收入,形态更加复杂。不同的剂量—反应曲线niiiniiiRRPRRPPAF11111人群归因分值(Populationattributablefraction,PAF)反事实场景(counterfactualscenario)潜在影响分值(Potentialimpactfraction,PIF).'000mxmxmxdxxPxRRdxxPxRRdxxPxRRPIF反事实场景(counterfactualscenario)关于PIF的例子(1)•研究某地区腹泻死亡归因于水、卫生设施和卫生饮用因素的研究。现实情况为:–现实场景1:该地区有卫生设施且安全饮用的地区占68%,其相应的RR=6.9;–现实场景2:该地区有卫生设施但没有安全饮用的地区占7%,其相应的RR=8.7;–现实场景3:该地区没有卫生设施且没有安全饮用的地区占25%,其相应的RR=11。•其反事实场景为:场景1占95%,场景2占5%。关于PIF的例子(2)%18.13051.899.6051.811%257.8%79.6%687.8%59.6%9511%257.8%79.6%68'111niiiniiiniiiRRPRRPRRPPIF可归因的危害(Attributedharms)•死亡率或发病率:AM=PIF×M(死亡率)•负担:AB=PIF×B(疾病负担:如YPLL)•成本:AC=PIF×C(成本)•(不同的项目对应不同的PIF,一般不同)可避免的危害•如果控制了以前相应的危险因素后,现在可以避免的危害,称可归因(attributed)。•如果控制了现在相应的危险因素后,将来可以避免的危害,称可避免(avoidable)。