生存分析survivalanalysis山东大学公共卫生学院医学研究中,为了解某种疾病(如慢性病、恶性肿瘤等)的预后及远期疗效、评价治疗方法的优劣或观察预防保健措施的效果等,常需对研究对象进行追踪观察,以获得必要的数据(如病人的生存时间、治疗后病情缓解情况及持续时间等),这类资料都属于随访资料。随访资料是指对一批研究对象进行追踪观察所获得的有关其结局以及出现这种结局所经历的时间等方面的资料。由于随访资料的分析最初起源于对寿命资料的统计分析,故称为生存分析,或称为生存时间分析。2何为生存分析3传统方法在分析随访资料时存在的困难1随访结局和时间都成为了要关心的因素原有的疗效指标如有效率、治愈率等难以适用。除了关注是否出现某种结局(如有效、治愈、死亡等),还要考虑出现这些结局所经历的时间长短。如:除了随访结局作为判定标准以外,只要能让病人存活时间延长,这种药物也应当被认为有效。即时间延长也认为有效。将两者均作为因变量拟合多元模型极为困难(“时间”分布不明,一般不呈正态分布,在不同情况下的分布规律也不同)。4传统方法在分析随访资料时存在的困难2存在大量失访的资料失去联系(病人搬走,电话号码改变……)无法观察到结局(死于其他原因)研究截止……显然,无论是将失访数据算作“死亡”还是“存活”似乎都不大合理。生存分析是将研究对象的观察结局和出现这一结局所经历的时间结合起来分析的一种统计分析方法。并能充分利用所获得的信息,达到较准确、全面地评价和比较随访资料的目的,是临床试验和队列研究的一种重要分析手段。5生存分析的历史与应用17、18世纪:寿命表的提出及其应用。1926年:Greenwood提出评价生存函数的误差的方法—Greenwood公式。1958年:生存函数的计算方法—Kaplan-Meier法(乘积极限法product-limit)的提出。1960年代中叶:生存时间的组间比较方法的开发—广义Wilcoxon秩和检验(Gehan,1965年);对数秩检验(log-ranktest,又称时序检验)[Mantel,1966年]。1970年:将协变量的影响模型化—参数模型(假设生存时间服从Weibull分布、对数正态分布等);半参数模型(比例风险模型,又称Cox回归模型)[Cox,1972年]。主要内容概述生存分析的基本概念、资料要求…生存率估计的非参数法乘积极限法、寿命表法生存率的比较Log-rank检验…Cox比例风险回归模型67§1概述生存分析的方法已被广泛应用到医学研究领域,如现场追踪研究、临床疗效试验、疾病预后分析等,生存时间的涵义也随之扩展到更广义的范围,又称为时间-效应分析(time-effectanalysis)。其研究内容主要包括:①对生存状况进行统计描述(生存概率、生存率、中位生存期等);②寻找影响生存时间的“危险因素”和“保护因素”;③估计生存率和生存时间长短,进行预后评价。8随访研究例:某医师收集了1992年1月1日到2001年12月31日10年间共346例手术后的大肠癌患者资料,以了解患者术后生存情况及其可能的影响因素。患者编号性别年龄dtime(月)手术日期终止随访日期结局生存时间(月)1男32101994.01.231994.12.24死亡112女48121998.02.141999.01.01失访10+3女2661992.03.041995.04.12死亡374男5531999.08.202001.09.21死于其他25+5女5882001.03.102001.12.31存活9+┊┊┊┊┊┊┊┊346男46122000.08.122001.12.12存活16+表22-110年间346例手术后的大肠癌患者生存资料记录表随访过程示意图910一、生存分析中的基本概念1.起始事件、终点事件2.生存时间3.死亡概率、死亡率4.生存概率、生存率、生存函数5.生存率曲线6.中位生存期7.危险率函数11基本概念(一)起始事件、终点事件起始事件(initialevent):反映研究对象生存过程的起始特征的事件。如癌症患者接受某种特定的治疗、铅作业工人开始职业性铅接触等。终点事件(endpointevent):又称失效事件(failureevent),指研究者所关心的研究对象的特定结局。如患者死于癌症、工人出现重症铅中毒症状等。12基本概念(二)生存时间定义:广义的生存时间(survivaltime):也称失效时间(failuretime),指从某个起始事件开始到某个终点事件的发生(出现反应)所经历的时间。13疾病确诊死亡疾病确诊痊愈治疗开始死亡治疗开始痊愈症状缓解疾病恶化接触毒物出现毒性反映接触危险因素发病出生出现第一颗乳牙开始戒烟(毒)再次吸烟(毒)起始事件终点事件随访时间生存时间14基本概念(二)生存时间特点:1.分布类型不易确定。一般不服从正态分布,有时近似服从指数分布、Weibull分布、Gompertz分布等,多数情况下往往不服从任何规则的分布类型。2.生存时间的影响因素多而复杂且不易控制。15基本概念(二)生存时间特点:3.根据研究对象的结局,生存时间数据可分为:(1)完全数据(completedata):研究对象在观察期内出现反应(终点事件),这时记录到的时间信息是完整的,这种生存时间数据称为完全数据。(2)截尾数据(截尾值、删失数据,censoreddata):观察期内尚未观察到研究对象出现反应(终点事件)时,即由于某种原因停止了随访,这时记录到的时间信息是不完整的,这种生存时间数据称为不完全数据或截尾值。表示为“+”16基本概念(二)生存时间特点:3.根据研究对象的结局,生存时间数据可分两种类型:(1)完全数据(2)截尾数据截尾的原因①失访:生存但中途失访,包括拒绝访问、失去联系等。②退出:中途退出试验、改变治疗方案、死于其它与研究无关的原因:如肺癌患者死于心机梗塞、自杀或因车祸死亡,终止随访时间为死亡时间。③终止:指观察期结束时仍未出现结局。17随访资料常见形式终点始点死亡(结局事件)失访、退出终止18基本概念(二)生存时间生存时间资料的收集与整理:对于随访资料,需记录的原始数据包括开始观察的时点(起始事件发生的时间)、终止观察的时点、研究对象的结局、考虑的影响因素等。◆生存时间t为反映时间长短的指标,属数值变量:生存时间(t)=终止观察的时点–开始观察的时点;◆结局变量δ反映终点事件是否发生,为二分类的变量。通常用(t,δ)完整地表示一个观察对象的随访结果。19表16-14例鼻咽癌患者术后随访记录病例号开始日期终止日期结局治疗方法性别…111/29/8011/04/85死亡1F206/13/8206/08/83死亡1M303/02/8312/31/86失访0M408/04/8304/10/86死亡0F表16-24例鼻咽癌患者术后生存时间及相关资料整理表病例号生存时间(天)t结局治疗方法X1性别X2……11800112236011131400+001499010220基本概念(三)死亡概率、死亡率死亡概率(mortalityprobability):是指某单位时段期初的观察对象在该单位时段内死亡的可能性大小。若某时段内有删失,则分母用校正人口数:该时段期初观察人数某单位时段内死亡数q删失数期初观察人数校正人口数2121基本概念(三)死亡概率、死亡率死亡率(mortalityrate):指单位时间内研究对象的死亡频率或强度,即平均每千人(或万人、百人等)中的死亡人数。平均人口数=(该时段期初人口数+期末人口数)/2‰该时段平均人口数某单位时段内死亡数1000m22基本概念(四)生存概率、生存率、生存函数生存概率(survivalprobability):表示某单位时段开始时存活的个体到该时段结束时仍存活的可能性大小。若该时段内有删失,则分母用校正人口数。qp-1该时段期初观察人数活满某时段的人数删失数期初观察人数校正人口数2123基本概念(四)生存概率、生存率、生存函数生存率(survivalrate):指研究对象经历t个时段后仍存活的概率,即生存时间大于等于t的概率,用P(T≥t)表示。生存函数(survivalfunction):生存率随时间t变化而变化,即生存率是相对于时间t的函数,记为S(t)。生存函数在某时点的函数值就是生存率。生存函数或生存率计算如下:①若前t个时段无删失:研究期初观察总人数数时段结束时仍存活的人ttTPtS)()(如:%100研究期初观察人数年的人数活满年生存率nn。②若观察期内有删失:假定观察对象在各个单位时段内是否生存的事件是相互独立的,其生存概率分别为tpppp,,,,321,则根据概率乘法原理得ttjtjpp......ppptS321()故生存函数又称累积生存概率(cumulativeprobabilityofsurvival),即将时刻t尚存活看成是前t个时段一直存活的累计结果。如:11211101......nppppn年生存率。2425基本概念(五)生存率曲线生存率曲线(survivalcurve):指以时间为横轴、生存率为纵轴,将各个时点的生存率连接在一起的曲线图。阶梯形:小样本资料用直接法估计的生存曲线;折线形:大样本资料用频数表法估计的生存曲线。2627图16-3233例食管癌患者术后生存率曲线00.10.20.30.40.50.60.70.80.9101234567术后年数生存率28基本概念(六)中位生存期中位生存期(mediansurvivaltime):也称半数生存期,即生存时间的中位数,表示生存率等于50%时的时间。反映生存时间的平均水平。由于生存时间并非正态分布,故常用中位生存期作为某人群生存过程的概括性描述指标。中位生存期越长,表示疾病预后越好;中位生存期越短,表示疾病预后越差。[利用生存曲线图或线性内插法估计]29基本概念(七)危险率函数危险率函数(hazardfunction):指t时刻尚存活的研究对象死于t时刻后一瞬间的概率,为条件概率。即活到t时刻的条件下在t~t+t这一微时段内死亡的概率,用h(t)表示。T为观察对象的生存时间危险率函数也称为死亡力(forceofmortality)、瞬时死亡率(instantaneousfailurerate)等。ttTttTtPthtΔ)Δ()(Δ0lim危险率函数是生存分析的基本函数,它反映研究对象在某时点的死亡风险大小。生存函数与危险率函数的关系可表示为:tdtthtS0)(exp)(30危险率函数与生存函数的关系31h1(t)是一种上升的曲线,表示危险率随时间变化而增加,如急性白血病患者治疗无效其危险率随时间呈增加趋势;h2(t)的曲线为下降趋势,表示危险率逐渐减小,如意外事故造成的外伤经有效治疗后死亡的危险性逐渐减小;h3(t)为一种稳定的危险率函数,如某些慢性病患者在稳定期,其危险率基本不变。h4(t)为一种山峰型曲线,表示危险率先增大后降低。图不同形式的危险率函数曲线h(t)0th1(t)h2(t)h3(t)h4(t)32二、生存分析对资料的基本要求1.样本由随机抽样方法获得,要有一定的数量。2.完全数据所占的比例不能太少,即截尾值不宜太多。3.截尾值出现的原因无偏性。为防止偏性,常需对截尾的研究对象的年龄、职业、地区、病情轻重等情况进行分析。4.生存时间尽可能精确。因为许多常用的生存分析方法都在生存时间排序的基础上作统计处理,即使小小的舍入误差也可能改变生存时间顺序而影响结果。5.缺项要尽量补齐。33三、生存分析的方法1.非参数法:其特点是不论资料是什么样的分布形式,只根据样本提供的顺序统计量对生存率进行估计,常用的方法有乘积极限法和寿命表法。2.参数法:其特点是假定生存时间服从于特定的参数分布,根据已知分布的特点对影响生存时间的因素进行分析,常用的方法有指数分布法、Weibull分