第二十三章偏倚控制及病因推断(王束玫)第一节偏倚的概念一、研究结果的误差和真实性真实性是指研究所做出的推论的可靠程度。真实性又有:内部真实性(internalvalidity):指研究结果能准确反映目标人群的真实状况的程度。和外部真实性(externalvalidity):指研究结果被外推至不同时间、不同地区、不同特征人群的程度。误差是观察值与真实值之差。有分为:随机误差:主要由抽样所致,虽在抽样研究中不可避免但可用统计学方法估计。系统误差:是人为的、有方向性的、可以避免的。第一节偏倚的概念二、偏倚的概念偏倚(bias):是在研究的设计、实施、分析等阶段发生的系统误差。分类选择偏倚信息偏倚混杂偏倚我们称夸大真实值的偏倚为正偏倚;缩小真实值的偏倚为负偏倚。第二节选择偏倚选择偏倚(selectionbias)指由于研究对象与目标人群的特征存在着系统误差,使效应估计值与真值之间发生的偏差。一、选择偏倚的种类㈠入院率偏倚(admissionbias):又称伯克森偏倚(Berkson’sbias),是在以医院为基础的病例对照研究中,由于各比较组中患不同疾病者的入院率不同所造成的偏倚。第二节选择偏倚产生入院率偏倚的条件是:来自某时期到某医院就医的A病病例,对照取自同期在病例同一所医院就医的B病病例;A、B两种疾病的患者由于病情或医院在某类疾病治疗方面的专长等而存在不同的入院率;暴露于研究因素X者也有稳定的入院率,此率不受A、B两种疾病影响。假设,社区中A、B两种疾病患者各为1000人,暴露于X的概率均为20%,以此社区为基础进行因素X与A病关系的病例对照研究可获得如下数据:第二节选择偏倚以社区为基础的因素X与A病关系的病例对照研究病例组于对照组的X暴露率均为20%,OR=1.0,A病与X无关暴露于X未暴露于X合计病例组(A病)对照组(B病)20020080080010001000第二节选择偏倚再假设:上述病例组和对照组按照A病入院率30%、B病入院率60%、暴露于X者入院率40%的比例到某医院就医。那么,患A病且暴露于X的200人,因A病入院率为30%而入院60人,剩余的140人又因暴露于X者入院率为40%而入院56人,合计共入院116人。可按如下方法计算出各类患者的入院人数:患A病暴露于X者的入院人数=116患A病不暴露于X者的入院人数=240患B病暴露于X者的入院人数=152患B病不暴露于X者的入院人数=480OR=1.53第二节选择偏倚1978年Robin等分别在社区人群中和到该社区医院就医的患者中做病例对照研究:心脏病类药物与风湿性疾病关系的OR:社区为3.46、医院为49.92。安眠药与循环系统疾病关系的OR:社区为6.38、医院为3.27。第二节选择偏倚㈡现患病例-新病例偏倚(prevalence-incidencebias):又称奈曼偏倚(Neymanbias)。在病例对照研究或现况研究中,用于研究的病例常为某病现患病例,若他们在与研究有关的某些特征方面不能代表新发病例,由此造成的偏倚称为现患病例-新病例偏倚。第二节选择偏倚㈢检出症候偏倚(detectionsignalbias):指某因素与某疾病虽无关联,但该因素可引发该病的某些症状或体征。暴露于该因素者可因上述症状或体征到医院就诊,其中的患者因此而提早确诊,使暴露于该因素的人群有较高的该病检出率,以致得出该因素与该病相关的错误结论。第二节选择偏倚㈣无应答偏倚(non-responsebias):无应答是指研究对象未对调查内容予以应答。无应答者在某些与研究有关的特征上与应答者存在的系统误差称无应答偏倚。㈤失访偏倚(losstofollow-upbias):失访指研究对象因各种原因从原定的研究队列中退出。失访者在某些与研究有关的特征上与未失访者存在的系统误差称失访偏倚。失访偏倚的性质与无应答偏倚相似。第二节选择偏倚㈥易感性偏倚(susceptibilitybias):指在观察性研究中,由于样本人群与总体人群之间或对比组人群之间对所研究疾病的易感性不同而引起的偏倚。健康工人效应(healthworkereffect)就是一种典型的易感性偏倚。当研究某种职业毒物对机体的危害时,常以有毒作业的工人为暴露组,以一般人群为非暴露组。鉴于工作性质的需要,有毒作业工人的健康水平应比一般人群高,其对毒物的易感性比一般人群低,此时既便所研究的毒物对人体有害,职业队列的死亡率也会低于非暴露组,得到该因素对人体无害甚至有保护作用的结论,此即健康工人效应。第二节选择偏倚㈦领先时间偏倚(leadtimebias):有些患者在筛检时被及时发现,其生存期从筛检之日算起。在观察某措施对预后的影响时,即使措施无效,也会因确诊时间的领先而出现上述病例的生存期长于出现症状后被医院确诊病例的生存期的假象,此即领先时间偏倚。第二节选择偏倚二、选择性偏倚的控制㈠要有周密、严谨的科研设计规定严格的纳入标准和排除标准设计严格的随机分组方法或随机抽样方法病例对照研究中病例组尽量选择新发病例调查敏感问题前应事先设计好调查方案和提问方法等。㈡提高应答率、降低失访率做好宣传工作获得调查对象的配合采用无痛、无创、简便的调查方法调查者应有细致的工作方法和热情的工作态度第三节信息偏倚信息偏倚(informationbias)又称观察偏倚(observationalbias),指在研究的实施阶段从研究对象获取信息时所产生的系统误差。一、信息偏倚的种类㈠回忆偏倚(recallbias):多发生于病例对照研究,指研究对象在回忆以往发生的事件时,比较组之间在回忆的准确性和完整性上存在的系统误差。虽调查事件的发生率及距今的时间距离可影响回忆的准确性,但比较组之间对调查事件关心程度的差异是引起回忆偏倚的主要原因。关节炎病例组(%)病例同胞(%)对照组(%)双亲均无275055双亲之一有584237双亲均有1588类风湿性关节炎家族史调查结果第三节信息偏倚㈡报告偏倚(reportingbias):指由研究对象有意夸大或缩小某些信息而导致的偏倚。㈢诊断怀疑偏倚(diagnosticsuspicionbias):易发生于前瞻性研究,指研究者有暴露于某因素者易发生某疾病的先入之见,所以在诊断疾病时对暴露组采取了比非暴露组更认真的方法和态度,致使暴露者更易做出某疾病诊断的情况。第三节信息偏倚㈣暴露怀疑偏倚(exposuresuspicionbias):易发生于病例对照研究中,指研究者有某疾病与暴露于某因素有关联的先入之见,因而在收集病例组和对照组的暴露信息时采取了不同的方法和态度,致使病例组比对照组更易获得暴露信息的情况。㈤错误分类偏倚(misclassificationbias):错误分类偏倚指由于判断疾病或暴露的标准不明确或方法不当,未能准确地判断患病或暴露,并由此带来研究信息的偏差。第三节信息偏倚㈥测量偏倚(measurementbias):指由于研究中所使用的仪器、试剂、方法、条件的不标准、不统一,或研究指标设定不合理造成的研究结果系统地偏离真值的现象。㈦发表偏倚(publicationbias):指阳性结果的研究比阴性结果的研究更易得到发表,使人们从公开发表的材料上获得的信息与真实情况的偏差。第三节信息偏倚二、信息偏倚的控制㈠要有严格的研究设计严格规定资料收集方法调查员掌握统一的调查技巧尽量采用“盲法”观察给暴露因素以客观的定义制定统一而明确的疾病诊断标准等㈡加强资料收集过程中的质量控制要加强对调查员和被调查者的宣传教育监督调查员的工作随机抽差被调查者第四节混杂偏倚一、混杂因素和混杂偏倚的概念混杂因素:与研究的因素和研究的疾病均有关,若在比较的人群组中分布不均可以掩盖或夸大因素和疾病之间真正联系的因素称之。混杂因素必须满足下列条件:必须与所研究疾病有关必须与所研究因素有关不是研究因素与研究疾病因果链上的中间环节混杂偏倚(confoundingbias):在流行病学研究中由于一个或多个混杂因素的存在,掩盖或夸大了研究因素与疾病(事件)之间的真实联系称为混杂偏倚或混杂(confounding)。第四节混杂偏倚二、混杂因素的判断和混杂偏倚的测量㈠混杂因素的判断f代表可疑混杂因素d代表疾病e代表研究因素代表非病例组代表非暴露组cRR代表存在f时,因素与疾病关联的相对危险度,也称粗RRaRR代表排除f的作用后,因素与疾病关联的相对危险度,也称调整RR。DE第四节混杂偏倚1.判断f是否歪曲研究结果有以下判断条件:⑴cRR=aRR,f无混杂作用。⑵cRR≠aRR,f有可能存在混杂作用。cRR>aRR时f有可能存在正混杂作用,cRR<aRR时f有可能存在负混杂作用。2.判断f是否符合混杂因素的条件⑴RRdf│≠1:表示在非暴露组中,反映可疑混杂因素与疾病之间效应的RR大于1或小于1,即f在病例组和对照组之间分布不等,f与d有关联,符合混杂因素的条件。⑵RRef│≠1表示在非病例组中,反映可疑混杂因素与研究因素之间效应的RR大于1或小于1,即f在研究因素的暴露组和非暴露组之间分布不等,f与e有关联,符合混杂因素的条件。ED第四节混杂偏倚㈡判断f引起的混杂偏倚的程度此公式计算结果若为零无混杂;为正值则有正混杂;为负值则有负混杂。aRRaRRcRR混杂偏倚=第四节混杂偏倚三、混杂偏倚的控制1.随机化(randomization):在实验性研究中,随机化可使所有已知和未知的混杂因素在组间得到最大程度的均衡,并以此保证实验性研究较强的因果联系说服力。2.限制(restriction):指针对可能存在的混杂因素,限制研究对象的纳入条件,仅在具备一定特征的人群中选择研究对象,以保证该特征在比较组之间的均衡性,排除其对研究结果的干扰。3.匹配(matching):指为指示研究对象选择那些在某个和某些可疑混杂因素方面具有共同或相似暴露经历者为对照的方法。4.统计分析:混杂偏倚可经多种统计分析方法加以控制。第五节病因推断一、病因概述㈠病因的定义概率论的因果观(称广义因果律):原因就是使结果发生概率升高的事件或特征,即原因以确定的概率导致结果的发生。该观点为解释生命科学中的因果关系的判定奠定了理论基础。美国约翰.霍普金斯大学的流行病学教授Lilienfeld的病因概念:根据广义因果律,认为:那些使人群发病概率升高的因素就可认为是病因,其中某个或多个因素不存在时人群疾病频率就会下降。从预防医学角度提出的病因概念,使人们冲破了单病因论的束缚,加速了疾病防治工作的进程。第五节病因推断㈡病因的分类1.充分病因与必要病因充分病因:指有该病因存在,必定(概率为100%)导致某疾病发生。必要病因:有相应疾病发生以前,必定(概率为100%)有该病因存在。多个既不属于必要病因又不属于充分病因的病因可以构成能引起某个疾病的复合病因。第五节病因推断绝大多数人类疾病几乎找不到充分病因。概率论的因果观抛弃的正是充分原因,取而代之的是“原因是使结果发生概率升高的因素”。因此,流行病学的病因研究不需要追求充分病因,而是测量某因素使疾病发生率升高的程度。许多非传染性疾病也得不到“必要病因”的证据。流行病学研究中,可以测量病因的必要性或必要程度,也不必刻意追求“必要病因”。第五节病因推断2.直接病因与间接病因:引起疾病的诸多因素有时可连续按顺次起作用。设X1、X2分别为两个病因,Y为疾病;X1→X2→Y表示X1导致X2,X2导致Y。此时X2为直接病因,X1为间接病因。X1通过X2而间接引起疾病。第五节病因推断1.轮状模型:该病因模型将宿主置于环境之中,遗传因素又放在宿主之内,意为病因不存在于宿主体内便存在于各种环境之中。环境分为生物、理化、社会三部分。模型中的各部分都包含着许多疾病病因。已知不同疾病之间不仅病因不同,而且即使有相同病因其作用程度也相去甚远,所以模型中的各部分所占比例可随各种疾病的不同而做相应变动。社会环境生物环境理化环境宿主遗传核第五节病因推