2019/12/211黄志刚广东医学院公共卫生学院第十四章生存分析2019/12/212在临床医学实践中,对病人疗效考查:1.治疗结局?2.生存时间?一、引言2019/12/213【例14-1】某临床医生将22例肺癌患者随机分成两组,分别采用化疗和放化疗联合治疗,从缓解出院日开始随访,随访时间(月)如下(带“+”号的数据表示患者至少活了多少个月)。化疗组:1,2,3,5,6,9+,11,13,16,26,37+放化疗联合组:10,11+,14,18,22,22,26,32,38,40+,42+欲比较两种治疗措施的疗效应采用何种统计分析方法?2019/12/214卡方检验:存活死亡化疗组29联合组38•化疗组:1,2,3,5,6,9,11,13,16,26,37(月)•放化疗联合组:10,11,14,18,22,22,26,32,38,40,42(月)+++++t检验:化疗组:x1=11.7s1=11.1联合组:x1=25.0s1=11.62019/12/215二、生存资料的特点蕴涵有结局和时间两个方面的信息结局为两分类互斥事件一般是通过随访收集得到,随访观察往往是从某统一时间点开始,观察到某规定时间点截止常因失访等原因造成某些研究对象的时间数据不完整,分布类型复杂,一般不能采用ttest、ANOVA、卡方检验等进行统计分析2019/12/216随访(follow-up)资料的记录•生存资料一般通过随访收集记录的项目:(起始与终止)随访事件生存时间(开始观察日期与终止观察日期)(年、月、天、小时、分、秒等)分组变量(处理方法)和其它变量或因素(性别、年龄、职业、文化程度等)2019/12/217三、生存分析的概念生存分析(survivalanalysis)是将事件的结局和出现这一结局所经历的时间,结合起来分析的一大类统计方法近30多年来发展起来的一个新的数理统计学分支,是一个相对独立的理论体系70年代中期以来应用广泛,目前在工业、农业、国防和医学等领域均有广泛的应用2019/12/218四、生存分析的应用描述生存过程–研究生存时间的分布特点,估计生存率及绘制生存率曲线–方法:乘积极限法(kaplan-meier法)寿命表法(life-tablemethod)2019/12/219比较生存过程–进行两组或多组生存曲线(生存过程)比较–方法:对数秩检验(log-ranktest)生存过程的影响因素分析–采用多因素生存分析方法寻找影响预后的主要因素,达到在手术前后加以预防和干预的目的–方法:Cox比例风险模型2019/12/2110五、生存分析中的几个基本概念死亡事件(deathevent):又称失效事件或终点事件,不单是指通常意义下的生物体死亡,而是泛指标志某种处理措施失败、失效的特征事件,或者出现了预期的结局事件。一般是在设计阶段根据研究目的确定。2019/12/2111生存时间(survivaltime):指观察到的“存活”时间。不单是指通常意义下生物体的存活时间,而是泛指研究者所关心的某现象的持续时间。─可用天、周、月、年等时间单位记录,常用符号t表示─根据其特点,可分为两种类型:完全数据截尾数据2019/12/2112完全数据(completedata):是指从观察起点到发生死亡事件所经历的时间截尾数据(censoreddata):简称截尾值(censoredvalue),又称删失值或终检值。观察过程的终止不是由于死亡事件,而是由于其他原因。常用t+表示•失访•退出(死于其它原因)•终止(截止随访结束时尚存活)2019/12/2113临床随访研究中的完全数据与截尾数据观察起点观察终点起点事件终点事件失访退出终止2019/12/2114起始事件生存时间终点事件(死亡事件)疾病确诊死亡疾病确诊痊愈治疗开始死亡治疗开始痊愈症状缓解疾病恶化接触毒物出现毒性反映接触危险因素发病2019/12/2115生存时间资料的特点2个效应变量(1)生存时间(天、月、年等)(2)结局(死亡与否、是否复发等)截尾数据(病人未观察到底,不知他们究竟能活多长时间)产生结尾原因:(1)迁移(2)死于其他原因(3)因其他客观原因中途退出(4)预定终止结果迟迟不发生分布类型复杂:生存时间分布常呈正偏态分布2019/12/2116•两种错误的做法:•错误1:丢弃截尾数据,只考虑确切数据(损失了信息)•错误2:将截尾数据当作确切数据处理(低估了生存时间的平均水平)截尾数据(censoreddata)2019/12/2117•两种错误的做法:•错误1:采用平均生存时间而不是采用中位生存时间来表示生存时间的平均水平。•错误2:采用常规t检验或方差分析进行组间比较。(应采用log-rank检验比较几组生存时间)正偏态(positiveskewness)数据2019/12/2118生存分析的统计描述指标1、死亡概率、生存概率2、生存率及其标准误3、生存曲线4、半数生存期(中位数)及四分位数间距2019/12/2119死亡概率(mortalityprobability):指在某单位时段开始时存活的个体在该时段内死亡的可能性大小,记为q–年死亡概率的计算公式为–若年内有截尾,则分母用校正人口数q某年内死亡数某年年初观察例数截尾例数年初观察例数校正人口数212019/12/2120生存概率(survivalprobability):表示在某单位时段开始时存活的个体,到该时段结束时仍存活的可能性大小,记为p–某年生存概率的计算公式为1pq某年活满一年人数某年年初观察例数2019/12/2121生存率(survivalrate)–记为,指观察对象经历t个单位时段后仍存活的可能性,即活过tk时刻的概率。–若无截尾数据,则ˆ()kStˆ()()kkktStPTt时刻仍存活的例数观察总例数期初观察例数年例数活满年生存率=33期初观察例数年例数活满年生存率=552019/12/2122–如果含有截尾数据,采用概率乘法原理估计•假定观察对象在各个时段的生存事件独立,生存概率分别为,则根据概率乘法原理得到估计生存率的计算公式为12kppp,,,12ˆ()()kkkStPTtpppˆ()kSt实质上是累积生存概率(cumulativeprobabilityofsurvival)·2019/12/2123•生存率(累积生存概率)指病人经历t个单位时间后仍存活的概率–生存概率指单个时段的概率–生存率指从0~t多个时段的累积概率2019/12/2124例手术治疗50例肺癌病人,术后1,2,3年的死亡数分别为10,10,10例,无截尾数据。试求各年的生存概率和3年生存率。各年生存概率:p1=(50–10)/50=40/50p2=(40–10)/40=30/40p3=(30–10)/30=20/303年生存率:直接法:S(3)=(50–30)/50=0.4概率乘法定理:或S(3)=p1p2p3=40/50×30/40×20/30=0.42019/12/2125生存率的标准误(Greenwood估计)1ˆˆ()()()kjkkjjjjdSEStStnnd–nj表示时刻tj的期初观察人数–dj表示tj时刻的死亡人数2019/12/2126生存率的可信区间估计(正态近似法)100(1-)%可信区间为:2ˆˆ()()kkStuSESt2019/12/2127生存曲线(survivalcurve):以观察(随访)时间为横轴,以生存率为纵轴,将各个时间点所对应的生存率连接在一起的曲线图,用以描述生存过程。2019/12/2128生存曲线(K-M法)•阶梯状:每一级阶梯代表一个死亡时间点(在截尾时间点无阶梯);如果最大时间点是截尾则生存曲线不与横轴相交(见下图),否则与横轴相交。DeathCensored2019/12/2129•半数生存期及四分位数间距半数生存期也称中位生存期(mediansurvivaltime)–即生存时间中位数,表示50%的个体可存活的时间,即生存率为50%时对应的生存时间(集中趋势指标)•生存期的四分位数间距–T25-T75,反映离散程度大小2019/12/2130•MedianSurvival(中位生存期)1.8Years2019/12/2131–描述生存过程•乘积极限法(kaplan-meier法)适用于小样本的未分组生存时间资料•寿命表法(life-tablemethod)适用于大样本的分组生存时间资料–比较生存过程:对数秩检验(log-ranktest)–生存时间的影响因素分析:Cox回归分析–生存率的预测:Cox回归模型生存分析的基本研究方法2019/12/2132未分组资料是指由每个观察单位的原始测得值组成的资料,在生存分析中即是各观察单位的具体生存时间资料,常用乘积极限法(product-limitestimate)乘积极限法是一种非参数法,由Kaplan-Meier于1958年首先提出,故又称Kaplan-Meier法(简记为KM法)六、未分组资料的生存分析2019/12/2133【例14-2】某医师采用手术疗法治疗12例宫颈癌患者,随访时间(月)记录如下:1,2,4,5,7,8+,11,15,18,33+,36,38+。试估计各时点生存率及其标准误、各时点总体生存率的95%可信区间、中位生存时间,并绘制生存曲线。2019/12/2134•Kaplan-Meier法基本思想:–将生存时间由小到大依次排列,在每个死亡点上,计算其期初人数、死亡人数、死亡概率、生存概率和生存率。2019/12/21352月的死亡人数在2月时点以前尚存活的病例数2月时点以前尚存活的患者在2月死亡的概率2019/12/21362月时点以前尚存活的患者在2月存活的概率(单位时段)2月时点以前尚存活的患者活过2月概率2019/12/21373123111ˆ()(1)(1)(1)0.7500121110Stppp2019/12/2138生存率的标准误(Greenwood估计)1ˆˆ()()()kjkkjjjjdSEStStnnd–nj表示时刻tj的期初观察人数–dj表示tj时刻的死亡人数2019/12/21391ˆˆ[()]()1110.7500121211111110101kjkkjjjjdSEStStndn1ˆˆ()()()kjkkjjjjdSEStStnnd2019/12/2140生存率的可信区间估计(正态近似法)100(1-)%可信区间为:2ˆˆ()()kkStuSESt33ˆˆ()1.96()0.75001.960.12500.5050,0.9950StSESt2019/12/2141中位生存时间的计算(内插法)71170.58330.48610.58330.5t4.104861.05833.0)5.05833.0)(117(7t2019/12/2142生存曲线–未分组资料的生存曲线也称Kaplan-Meier曲线。它是以生存时间t为横轴,生存率为纵轴,绘制而成的连续的阶梯形曲线,用以说明生存时间与生存率之间的关系–生存曲线图可直观地比较各组观察对象的生存过程,也可对任意时刻的生存率作出粗略估计2019/12/214338+361815117542133+8+2019/12/2144七、分组资料的生存分析随访结果只有某年或某月的观察人数、发生死亡事件人数和截尾人数,而没有每个观察对象确切的生存时间,只能获得按随访时间分组的资料当样本含量较大(如n≥50)时,采用乘积极限法估计其生存率及其标准误较为繁琐,往往也是先将原始资料按照生存时间分组后再进行分析分组资料的生存分析常用采用寿命表法(lifetablemethod)2019/12/2145【例14-3】某医师对110例原发性肺癌患者确诊后