19生存分析生存分析的目的1.估计:根据样本生存资料估计总体生存率及其他有关指标(如中位生存期)等。2.比较:对不同组生存率进行比较。3.影响因素分析:为探索和了解影响生存时间长短的因素,或平衡某些因素后,研究某个或某些因素对生存的影响。4.预测:对具有不同因素、不同水平的个体进行生存预测。第一节生存时间资料的特点第二节小样本生存率的kaplan-Meier估计第三节大样本生存率的寿命表法估计第四节生存曲线比较的假设检验第一节生存时间资料的特点一、数据结构二、统计描述指标三、资料要求一、数据结构在临床医学中,对病人疗效考查:1.治疗结局?2.生存时间?“生存时间”的概念开始事件终点事件生物生存死亡生存时间电脑开始使用正常出现故障疾病产生治愈疾病治愈复发阴性阳性生存时间的三个要点一、起始事件二、终点事件三、生存时间医学例子:起始事件随访时间终点事件疾病确诊死亡治疗开始死亡治疗开始痊愈接触危险物出现反应治愈出院复发广义的“生存时间”也可为医疗费用(元)、医疗设备使用次数、车辆行驶总里程(公里)等随访(follow-up)资料的记录生存资料一般通过随访收集,记录的项目:(起始与终止)随访事件生存时间(开始观察日期与终止观察日期)(年、月、天、小时、分、秒等)分组变量(处理方法)和其它协变量(性别、年龄、职业、文化程度等)表12-15例胰腺癌随访记录协变量登记观察记录整理序号姓名性别(男=1)手术开始日期终止日期结局(死=1)原因生存天数(t)1冯××1000-07-0800-11-270失访142+2李××0100-07-1000-12-151复发死亡1583黄××1100-07-1600-12-310研究终止168+4吴××0000-08-1800-11-221复发死亡965马××1100-10-1000-11-121转移死亡33月份(2000年)图12-1生存时间原始记录示意(+截尾)789101112130.01.02.03.04.05.06.07.0No.12345++天数图12-2生存时间排序整理数据示意03060901201501800.01.02.03.04.05.06.07.0No.541233396158++01167生存时间资料的特点2个效应变量(1)生存时间(天数),(2)结局(死亡与否、是否阳性等)删失(截尾)数据:在规定的观察期内,对某些观察对象由于某种原因未能观察到死亡结局,并不知道确切的生存时间,称为生存时间的删失数据(censoreddata)。如表12-1中的1号和3号病人未观察到底,不知他们究竟能活多长时间。产生结尾原因:(1)迁移(2)死于其他原因(3)因其他客观原因中途退出(4)研究结束时终点事件尚未发生分布类型复杂:生存时间分布不服从正态分布,常常呈正偏态分布、Weibull分布、Gamma分布或更为复杂的分布,因此要用特殊的统计方法。2个效应变量(1)生存时间(天数),(2)结局(死亡与否、是否阳性等)错误1:忽略生存时间,采用Logistic回归分析死亡率错误2:忽略结局,采用t检验、线性回归分析生存时间得不到确切的生存时间,但它们提供的生存时间长于观察期的时间,这种数据为不完全数据。或截尾数据、删失数据或终检值。(如有确切的生存时间,则这种数据称为完全数据。)两种错误的做法:错误1:丢弃截尾数据,只考虑确切数据。(损失了信息)错误2:将截尾数据当作确切数据处理。(低估了生存时间的平均水平)。截尾(删失)数据或终检值(censoreddata)两种错误的做法:错误1:采用平均生存时间而不是采用中位生存时间来表示生存时间的平均水平。错误2:采用常规t检验或方差分析进行组间比较。(应采用log-rank检验比较几组生存时间)正偏态(positiveskewness)数据二、生存分析的统计描述指标1.死亡概率、生存概率2.生存率及其标准误3.半数生存期(中位数)及四分位数间距[例1]手术治疗60例肺癌病人,术后每年死亡10例,无删失。试求基本生存分析指标。N=60;术后年内年内年初年死亡死亡生存(t+1)年年死亡截尾观察平均率概率概率生存率数例数例数例数例数p=1-qtdcn0n=no-d/2m=d/nq=d/n0(n0-d)/n0(n0-d)/N(1)(2)(3)(4)(5)(6)(7)(8)(9)0~1006055.181.167.833.8331~1005045.222.200.800.6672~1004035.286.250.750.5003~1003025.400.333.667.3334~1002015.667.500.500.1671.死亡率、死亡概率、生存概率(1)死亡率(mortalityrate,deathrate)表示某单位时间内的死亡强度。年平均人口数=(年初人口数+年末人口数)/20001000年平均人口数年内死亡人数年死亡率m(2)死亡概率(mortalityprobability)是指单位时段开始时存活的个体到该时段结束时死亡的可能性,即死于某时段t~t+n内的概率。=d/n0年内有删失,分母用校正人口数:校正人口数=年初人口数—删失例数/2=n0-c/2年初观察例数年内死亡人数年死亡概率q(3)生存概率(survivalprobability)指某单位时段开始时存活的个体到该时段结束时仍存活的可能性的大小。=(n0-d)/n0分子为年末尚存人数,若年内有删失,分母用校正人口数。qp死亡概率年生存概率1年初人口数该年活满一年的人数生存率(survivalrate)(累积生存概率cumulativeprobabilityofsurvival)指病人经历t个单位时间后仍存活的概率。生存概率指单个时段的概率,生存率指从0~t多个时段的积累概率。2.生存率及其标准误生存率与生存概率仅一字之差,含义却是不同的。生存概率是针对单位时间而言的,生存率是针对某个较长时间段的,它是生存概率的累积结果。如评价肿瘤预后常用的5年生存率,是指第1年存活、第2年也存活,……,直至第5年仍存活的累积概率,而这5年间每1年有不同的生存概率。如数据中无删失,生存率可用下式计算如果有删失数据,则需分时段计算不同单位时间的生存概率Pi(i=1,2,…,t),然后利用概率乘法原理将Pi相乘得到t时刻生存率。S(t)=P(T≥tk)=p1p2…pk时刻内观察总例数时刻仍存活例数tttTPtS)()(例如手术治疗50例肺癌病人,术后1,2,3年的死亡数分别为10,10,10例,无截尾数据。试求各年的生存概率和3年生存率。解:各年生存概率p1=(50–10)/50,p2=(40–10)/40,p3=(30–10)/303年生存率S(3)=P(T≥3)=(n0-d)/N=(50–30)/50=0.4000或S(3)=p1p2p3=0.4000生存率的标准误生存率置信区间kjjjjjkkjjjjkkdnndtSnpqtStSSE10010)()()())((2()[()]StZSESt生存曲线以生存时间为横轴,生存率为纵轴绘制的曲线(a)研究终止在475天(b)研究终止在474天图12-3乘积极限法生存曲线(阶梯形)及其半数生存期(Md=158天)0100200300400500t(day)0.00.20.40.60.81.0S(t)S(132)=0.50100200300400500t(day)0.00.20.40.60.81.0S(t)Md=158012345t(year)0.00.20.40.60.81.0S(t)Md=1.7图12-4寿命表法生存曲线(折线)及其半数生存期(Md=1.7年)生存曲线给我们的信息阶梯状;每一级阶梯代表一个死亡时间点(在截尾时间点无阶梯);如果最大时间点是截尾则生存曲线不与曲线相交(见下图),否则与横轴相交。DeathCensoredMedianSurvival1.8Years生存曲线给我们的信息3.半数生存期及四分位数间距半数生存期也称中位生存期(mediansurvivaltime),即生存时间中位数,表示恰好有50%的个体活过此时间,即生存率为50%时对应的生存时间(集中趋势指标)。其数值可借助生存曲线进行粗略的图表法估计,或用线性内插法求解精确的数值。删失数据超过样本量的50%时,无法估计中位生存时间。此时较为实际的做法是使用生存时间超过一给定时间长度的概率(如3年生存率或5年生存率)生存期的四分位数间距=t25-t75,反映离散程度大小三、资料的基本要求1.死亡例数(或死亡比例)不宜太少,否则宜出现偏性;2.截尾原因无偏性;3.生存时间尽可能记录精确生存率估计常用的两种方法:1.乘积极限法,即kaplan-Meier法(小样本时)2.寿命表法(大样本时)第二节小样本生存率的kaplan-Meier估计乘积极限法(product-limitmethod)又称Kaplan-Meier法,由Kaplan和Meier于1958年提出,主要针对小样本资料,也可用于大样本,是一种非参数方法。基本思想:将生存时间由小到大依次排列,在每个死亡点上,计算其期初人数、死亡人数、死亡概率、生存概率和生存率。11名接受“手术+化疗”治疗的乳腺癌患者的生存时间:10,14,15,16+,19,19,20,20+,24,26,28序号时间(月)死亡数删失数期初例数生存概率生存率标准误itidiciniPi=(ni-di)/niS(ti)SE(S(ti))110101110/11=0.90910.90910.086721410109/10=0.90000.81820.11633151098/9=0.88890.72730.1343416+0188/8=1.00000.72730.13435192075/7=0.71430.51950.15696201054/5=0.80000.41560.1562720+0144/4=1.00000.41560.15628241032/3=0.66670.27710.15379261021/2=0.50000.13850.124510281010/1=0.00000.0000-------1952.19,5.05195.04196.05195.0192019mmtt中位生存期3911.24,75.08182.07273.08182.01415147575tt7503.14,25.02771.01385.02771.02426242525tt例12-2一组病人的存活时间为79,133,185,475,133,238+天,试用Kaplan-Meier法估计生存率。表12-3乘积极限法估计生存率计算表序号存活时间(天)t时刻死亡数t时刻截尾数t时刻期初例数死亡概率生存概率生存率标准误jtdcn0q=d/n0p=1-qS(t)SE[S(t)](1)(2)(3)(4)(5)(6)(7)(8)(9)1791061/65/6(5/6)=0.8330.15221332052/53/5(5/6)(3/5)=0.5000.20431851031/32/3(5/6)(3/5)(2/3)=0.3330.19342380120/22/2(5/6)(3/5)(2/3)(2/2)=0.333054751011/10/1(5/6)(3/5)(2/3)(0/1)=0.0000kjjjjjkkjjjjkkdnndtSnpqtStSSE10010)()()())(((a)研究终止在475天(b)研究终止在474天图12-3乘积极限法生存曲线(阶梯形)及其半数生存期(Md=158天)0100200300400500t(day)0.00.20.40.60.81.0S(t)S(132)=0.50100200300400500t(day)0.00.20.40.60.81.0S(t)Md=15800第三节大样本生存率的寿命表法估计寿命表法(life-tablemethod)的应用早于Ka