卫生统计学毕育学西安交通大学刘红波中国医科大学第十二章生存分析目录第一节:基本概念与主要内容第二节:生存曲线的估计第三节:生存曲线的比较01020304重点难点※生存资料的特点※生存函数及其相关概念※Kaplan-Meier法估计生存函数※各时点的生存曲线比较的对数秩检验第一节基本概念与主要内容1.终点事件终点事件又称失效事件(failureevent)或死亡事件,终点事件是一个广义概念,泛指标志某种处理措施失败或失效的特征事件。一般是在设计阶段根据研究目的来确定。(一)基本概念第一节基本概念与主要内容1.终点事件(1)实例:①如肾上腺皮质癌患者手术后的死亡;②白血病患者化疗后的复发;③肾移植患者的肾功能衰竭;④接受健康教育戒烟后的青少年复吸烟;⑤接受某种健康保险方式后的中途退保。(一)基本概念第一节基本概念与主要内容2.生存时间生存时间(survivaltime)指从观察起点到终点事件的时间间隔,常用符号T表示。(1)生存时间相关的要素①观察起点(起点事件)②观察终点(终点事件)③时间间隔的度量。这三者都需要根据研究目的,在研究设计阶段明确地定义出来,且在整个研究过程中保持不变。(一)基本概念第一节基本概念与主要内容(2)观察对象的观察起点的设置①所有观察对象在同一时间点接受治疗;②观察对象在不同时间点接受治疗。在进行研究时可根据实际情况选择其中一种方式进行。如图所示。(一)基本概念第一节基本概念与主要内容两种不同研究对象纳入形式示意图(3)数据的分类①完全数据(completedata):在整个研究过程中,随访到了观察对象的终点事件发生的时间,研究者可以获得从起点到终点完整的生存时间,所提供的是准确的生存时间。②删失数据(censoreddata):在整个研究过程中,无法确切获得生存时间的数据,称为删失数据(censoreddata),也被称为截尾数据。(一)基本概念第一节基本概念与主要内容(4)产生删失数据原因①失访:由于患者变更联系方式、未继续就诊或拒绝访问等原因,无法继续随访,未能观察到终点事件。②退出:患者死于其他疾病或因其他原因死亡(如死于车祸)而终止观察。③终止:研究结束时终点事件尚未发生。(一)基本概念第一节基本概念与主要内容(5)生存时间数据的分布特点①根据研究选择相应的度量单位,如年、月、日、小时等。②生存时间数据是通过随访收集获得,且有删失。③为非正态分布。因研究不同,生存时间常呈指数分布、Weibull分布、对数正态分布等分布,因此需要与之对应的统计方法来分析。(一)基本概念第一节基本概念与主要内容3.生存曲线与生存曲线相关的概念(1)死亡概率与生存概率①死亡概率(probabilityofdeath)用q表示,指某时段开始时存活的个体,在该时段内死亡的可能性。如年死亡概率表示年初尚存人口在今后1年内死亡的可能性(一)基本概念第一节基本概念与主要内容3.生存曲线与生存曲线相关的概念(1)死亡概率与生存概率②生存概率(survivalprobability)用p表示,某时段开始时存活的个体,到该时段结束时仍存活的可能性。如年生存概率表示年初尚存人口存活满一年的可能性。显然p=1-q。(一)基本概念第一节基本概念与主要内容3.生存曲线与生存曲线相关的概念(2)生存率①生存函数(survivalfunction)表示观察对象的生存时间t大于时间的概率,常用S(t)表示,即S(t)=Pr(Tt)。生存函数又称为累积生存率,简称生存率(survivalrate)。若数据中无删失值,生存函数可用下式估计:(一)基本概念第一节基本概念与主要内容3.生存曲线与生存曲线相关的概念(2)生存率②生存函数特征:生存函数是一个随时间下降的函数,t=0时,生存函数值为1,表示每个患者在接受治疗前处于存活状态;当t趋于无穷大时,生存函数值为0,表示每位患者的生存时间是有限的。(一)基本概念第一节基本概念与主要内容3.生存曲线与生存曲线相关的概念(2)生存率③与生存概率的关系:生存概率是单位时间上生存的可能性,生存率是某个时间段(由一个或多个单位时间组成的时间段)生存的可能性,即数个单位时间生存概率的累积结果。(一)基本概念第一节基本概念与主要内容3.生存曲线与生存曲线相关的概念(2)生存率③与生存概率的关系:对于不同单位时间的生存概率pi(i=1,2,…ti),可利用概率乘法原理将相乘得到ti时刻生存率,即(一)基本概念第一节基本概念与主要内容3.生存曲线与生存曲线相关的概念(2)生存率③与生存概率的关系:(一)基本概念第一节基本概念与主要内容3.生存曲线以生存时间ti为横坐标,各时间点的S(ti)为纵坐标,将各个时间点的生存率连接在一起绘制成的连续曲线称之为生存曲线(survivalcurve)。是以更为直观的图示法描述生存率随生存时间而变化的曲线。(一)基本概念第一节基本概念与主要内容K-M生存曲线3.生存曲线与生存曲线相关的概念(3)中位生存时间生存函数取值为0.5时对应的生存时间称为中位生存时间(mediansurvivaltime),又称中位生存期或半数生存期,记为T50,即S(T50)。它表示有50%的个体可以存活到比更长时间,通常用于描述生存期的平均水平。(一)基本概念第一节基本概念与主要内容3.生存率与生存曲线相关的概念(3)生存曲线生存概率是单位时间上生存的可能性,生存率是某个时间段(由一个或多个单位时间组成的时间段)生存的可能性,即数个单位时间生存概率的累积结果。(一)基本概念第一节基本概念与主要内容1.描述生存时间的分布特点。通过生存时间和生存结局的数据估计平均存活时间及生存率,绘制生存曲线,根据生存曲线分析其生存特点等。(二)主要内容第一节基本概念与主要内容2.比较生存曲线。通过相应的假设检验方法对不同样本的生存曲线进行比较,以推断各总体的生存状况是否存在差别,比较不同治疗方法预后效果的差异。3.分析影响生存状况的因素。通过生存分析模型来探讨影响生存状况的因素,通常以生存时间和结局作为因变量,而将可能的影响因素作为自变量,通过拟合生存分析模型,筛选具有统计学意义的生存状况的影响因素。第二节生存曲线的估计随访资料生存曲线的估计方法有参数法和非参数法,对于服从特定参数分布的生存资料,参数法更为准确,但大多数生存资料分布不规则、不确定或未知,常用非参数法。常见的非参数方法有Kaplan-Meier法和寿命表法。前者一般用于观察例数较少的未分组资料,后者适用于观察例数较多的分组资料。第二节生存曲线的估计Kaplan-Meier法,又称乘积极限法,基本思想是将所有观察对象的生存时间(包括删失数据)由小到大依次排列,对每个时间点进行死亡概率、生存概率和生存率的估计。一般用于观察对象数目较少的未分组资料,能够充分利用每条记录的信息,估计不同生存时间点的生存率。(一)Kaplan-Meier法第二节生存曲线的估计例1欲进一步了解肾上腺皮质癌患者接受治疗后的生存状况,研究者收集了肾上腺皮质癌患者的住院资料。其中,有12人进行手术治疗后再辅以化学药物治疗,他们的生存时间(月)分别为:2,5,8,9,9+,10,13,13,15+,18,20,23+。试问,采用该治疗方案的12名患者的术后生存率如何?(一)Kaplan-Meier法第二节生存曲线的估计1.生存率及其标准误的计算第二节生存曲线的估计(1)编号和排序:将生存时间t从小到大排序并编号。相同的生存时间只取其中一个参加排序;完全数据与删失数据相同时,分别列出,完全数据列在删失数据前面,见上表第(1)栏。(2)列出各时间点死亡例数和删失例数,见表第(2)、(3)栏。(3)计算期初人数:每一时间点之前观察到的生存例数,即为期初例数,其计算公式为:1iiiinndc1.生存率及其标准误的计算第二节生存曲线的估计(4)计算各时间点的死亡概率()和生存概率():(5)计算各时间点生存率:(6)计算生存率的标准误,其近似计算公式为:ˆiqˆipˆiiidqnˆˆ1iipq112()Pr()()kkkkttStTtStppppkˆ()iStˆ[()]iSESt1ˆˆ[()]()()ijiijjjjdSEStStnnd2.中位生存时间和生存曲线第二节生存曲线的估计(1)中位生存时间的概率及计算方法:中位生存时间是指寿命中位数,表示有且只有50%的观察对象可以活这么长时间。如果样本生存率中有0.5,则中位生存时间;如果样本生存率中没有0.5,则可采用插值法进行估计。(2)生存曲线:以生存时间为横坐标,各时间点的生存率为纵坐标,将各个时间点的生存率连接在一起绘制成连续型的曲线称之为生存曲线。3.生存率的95%置信区间求出样本各时点生存率及其标准误后,可用正态近似原理估计某时点总体生存率的置信区间,计算公式为:/2ˆˆ()[()]iiStzSESt第二节生存曲线的估计序号i时间(月)it死亡例数id删失例数ic期初人数in死亡概率ˆiq生存概率ˆip生存率ˆ()iSt生存率标准误ˆ[()]iSESt(1)(2)(3)(4)(5)(6)(7)(8)1210121/121−1/120.91670.07982510111/111−1/110.83330.10763810101/101−1/100.75000.1250491091/91−1/90.66670.136159+0180/81−0/80.66670.13616101071/71−1/70.57140.14627132062/61−2/60.38100.1470815+0140/41−0/40.38100.14709181031/31−1/30.25400.142710201021/21−1/20.12700.11471123+0110/11−0/10.12700.114712例术后辅助化疗的肾上腺皮质癌患者的生存率及其标准误当遇到样本含量较大的随访资料时,某些个体的删失发生在两次随访之间,不能获得确切的生存时间,这时需要将原始资料按照生存时间分组后再进行分析。一般用于观察对象数目较多的分组资料,不能够充分利用每条记录的信息,但其计算和结果的解释都很简单。(二)寿命表法第二节生存曲线的估计例2尘肺是煤矿工人长期接触生产性粉尘引起的不可逆转的职业性疾病,为了解尘肺患者的生存期,回顾性调查了某煤矿确诊为尘肺的患者1166人,其生存时间列于下表。试计算生存率及其标准误。(二)寿命表法第二节生存曲线的估计第二节生存曲线的估计1166名尘肺患者确诊后生存率及其标准误1.生存率及其标准误的计算第二节生存曲线的估计(1)确定分组区间:根据随访时间及观察例数确定组数和区间宽度。(2)计算期内死亡数、期内删失数和期初观察人数:第一个时间区间的期初观察人数是所有的观察例数;下一个区间的期初观察例数按以下公式计算:(3)计算期初校正人数公式如下:1iiiinndc,itt2iicicnn1.生存率及其标准误的计算第二节生存曲线的估计(4)死亡概率和生存概率计算:计算各时间点的死亡概率、生存概率:(5)计算各时间点生存率:(6)计算生存率的标准误,其近似计算公式为:ˆiiicdqn112()Pr()()kkkkttStTtStppppk1ˆˆ[()]()()ijiijjjjdSEStStnnd2.中位生存时间和生存曲线第二节生存曲线的估计(1)中位生存时间的概率及计算方法:利用寿命表法估计大样本分组资料生存率,其中位生存时间的计算与K-M法一致,只是如果样本生存率中有则半数生存期等于其区间的上限时间;如果样本生存率中没有0.5,仍采用插值法进行估计。(2)生存曲线:寿命表法估计生存率可以绘制成连续的折线型生存曲线,见下图。/2ˆˆ()[()]iiStzSEStˆ()0.5iSt50T寿命表法估计生存率的生存曲线(折线形)第三节生存曲线的比较在随访研究中,人们往往关心随访观察的结果和发生结果所经历的时间,通过第二节的方法我们能够估计出样本的生存率、中位生存时间以及绘