1生存分析第一节引言第二节生存分析的基本概念第三节非参数生存分析第四节Cox模型第五节实例分析与计算机实现2第一节引言在医学研究中,常常用追踪的方式来研究事物发展的规律。如,了解某药物的疗效,了解手术的存活时间,了解某医疗仪器设备使用寿命等等。对生存资料的分析称为生存分析。所谓生存资料就是描述寿命或者一个发生时间的数据。更详细的说一个人的生存时间的长短与许多因素有联系的,研究因素与生存时间的联系有无及程度大小,称为生存分析。生存分析在医学科学研究中具有广泛而重要的应用价值,它对人群寿命的研究,各种慢性疾病的现场追踪研究,临床疗效试验和动物试验等研究中随访资料的处理起着举足轻重的作用。3第二节生存分析基本概念一、基本概念1、失效事件与起始时间在生存分析随防研究过程中,一部分研究对象可观察到死亡,可以得到准确的生存时间,它提供的信息是完全;这种事件称为失效事件(failureevent)也称之为死亡事件、终点事件。起始事件(initialevent)是反映生存时间起始特征的事件,如疾病确诊、某种疾病治疗开始、接触毒物等。。4生存分析的基本概念2、截尾数据(Censoreddata)但往往有一部分人或中途失防,或到观察结束时仍存活,对这些人无法知道准确的生存时间,对于这样的观测值,只知道其生存时间大于T,而不知道其准确的生存时间。这种数据称为截尾数据(Censoreddata)。它提供不完全信息。5生存分析的基本概念25例病人原始资料及参加试验日期治疗组分组日期终止日期是否该病死亡参加试验日数治疗组分组日期终止日期是否该病死亡参加试验日数A1968.05.121968.05.20Y8B1972.07.021972.07.15Y13B1970.10.181971.04.16Y180B1968.12.181974.05.31仍存活1990B1969.02.121970.11.06Y632A1969.01.011974.05.31仍存活1976A1972.01.301974.05.31仍存活852B1973.09.021973.09.20Y18A1973.11.111974.01.02Y52B1979.02.111972.01.12Y700B1968.08.121974.04.30车祸死亡2240A1970.11.121974.05.31仍存活1296A1969.01061969.08.14Y230A1968.05.191972.05.19失访1460A1973.09071973.11.09Y63B1973.07.181974.02.13Y210B1971.05.021971.11.13Y195A1969.03.121969.05.14Y63B1968.03081968.05.23Y76A1970.10.111974.05.31仍存活1328B1973.12.121974.02.20Y70B1969.11.171973.06.05Y1296A1974.05.011974.05.09Y8A1969.02.081970.02.08迁出365B1974.03.071974.03.30Y236生存分析的基本概念生产截尾值的原因:1)病人失访;2)病人的生存期超过了研究的终止期;3)在动物实验中,有时事先规定观察期限或动物数7生存分析的基本概念3、生存时间生存时间(survivaltime)是指任何两个有联系事件之间的时间间隔,常用t表示。狭义的生存时间指患某疾病的病人从发病到死亡所经历的时间跨度,广义的生存时间定义为从某种起始事件到终点事件所经历的时间跨度。8生存分析的基本概念4、中位(半数)生存时间中位生存时间(Mediansurvivaltime)是指寿命中位数,表示有且只有50%的观察对象还可以活这么长时间。由于截尾数据的存在,中位生存期的计算不同于普通的中位数,它可以利用生存函数公式或生存曲线图,令生存率为50%时,推算出生存时间9生存分析的基本概念5、生存时间函数1)生存函数生存概率又称为生存率(SurvivalRate)或生存函数,它表示一个病人的生存时间长于时间t的概率,用S(t)表示:s(t)=P(Tt)如5年生存率:s(5)=P(T5)以时间t为横坐标,S(t)为纵坐标所作的曲线称为生存率曲线,它是一条下降的曲线,下降的坡度越陡,表示生存率越低或生存时间越短,其斜率表示死亡速率。10生存分析的基本概念11生存分析的基本概念2)死亡函数概率密度函数(ProbabilityDensityFunction)简称为密度函数,记为f(t),其定义为:f(t)=lim(一个病人在区间(t,t+△t)内死亡概率/△t)它表示死亡速率的大小。如以t为横坐,f(t)为纵坐标作出的曲线称为密度曲线,由曲线上可看出不同时间的死亡速率及死亡高峰时间。纵坐标越大,其死亡速率越高,如曲线呈现单调下降,则死亡速率越来越小,如呈现峰值,则为死亡高峰。12生存分析的基本概念3)风险函数风险函数(HazardFunction)用h(t)表示,其定义为:h(t)=lim(在时间t生存的病人死于区间(t,△t)的概率/△t)由于计算h(t)时,用到了生存到时间t,这一条件,故上式极限式中分子部分是一个条件概率。可将h(t)称为生存到时间t的病人在时间t的瞬时死亡率或条件死亡速率或年龄别死亡速率。当用t作横坐标,h(t)为纵坐标所绘的曲线,如递增,则表示条件死亡速率随时间而增加,如平行于横轴,则表示没有随时间而加速(或减少)死亡的情况。13生存分析的基本概念如急性白血病病人从治疗开始到复发为止之间的缓解期,冠心病病人两次发作之间的时间间隔,戒烟开始到重新吸烟之间的时间间隔,接触危险因素到发病的时间间隔等。生存分析中最基本的问题就是计算生存时间,要明确规定事件的起点、终点及时间的测度单位,否则就无法分析比较。14生存分析的基本概念生存分析这个统计技术可以同时分析有结局的生存数据和没有结局的截尾数据,能较充分地利用资料信息。如果改变出生/死亡的含义,可使生存分析得到更广泛的应用。如以开始暴露于某病的危险因素代替出生,以发生此病代替死亡可用生存分析来研究暴露于危险因子后在多少月或年内发病概率。再比如,以某病治疗代替出生,以死于该病作为死亡,生存分析来研究某病治疗后的生存时间,如此等等。15资料收集二、资料收集一)随访内容1、明确开始随访的时间如住院时间、确诊时间、开始治疗时间等。2、随访结局和终止随防的时间3、记录影响生存时间的有关因素二)随访方式1、全体观察对象同时接受处理措施,观察到最后一例出现结果,或事先规定的随访截止时间。2、全体观察对象在不同时间接受治疗,完成一定数量随访病例后决定随访截止时间,可按事先规定的时间停止随访。16随访资料常见形式示意图17三)生存分析研究的主要内容1、描述生存过程(估计生存函数)2、比较生存过程(比较生存函数)3、影响生存时间的因素分析生存分析研究目的18生存率S(t)的估计方法有参数法和非参数法。常用非参数法,非参数法主要有二个,即,乘积极限法与寿命表法,前者主要用于观察例数较少而未分组的生存资料,后者适用于观察例数较多而分组的资料,不同的分组寿命表法的计算结果亦会不同,当分组资料中每一个分组区间中最多只有1个观察值时,寿命表法的计算结果与乘积极限法完全相同。生存率的估计方法19第三节非参数生存分析方法一.乘积极限法(Product-LimitMethod)简称为积限法或PL法,它是由统计学家Kaplan和Meier于1958年首先提出的,因此又称为Kaplan-Meier法,是利用条件概率及概率的乘法原理计算生存率及其标准误的。设S(t)表示t年的生存率,s(ti/ti-1)表示活过ti-1年又活过ti年的条件概率,例如s(1),s(2)分别表示一年,二年的生存率,而s(2/1)表示活过一年者,再活一年的条件概率,据概率的乘法定律有:S(2)=S(1)S(2/1),一般地有S(ti)=S(ti-1)S(ti/ti-1)20一、乘积极限法一.乘积极限法(Product-LimitMethod)例1用某中药加化疗(中药组)和化疗(对照组)两种疗法治疗白血病后,随访记录各患者的生存时间,不带+号者表示已死亡,即完全数据,带+号者表示尚存活,即截尾数据,试作生存分析。时间单位为月。中药组10,2+,12+,13,18,6+,19+,26,9+,8+,6+,43+,9,4,31,24对照组2+,13,7+,11+,6,1,11,3,17,721资料中药组积限法计算生存率─────────────────────────────────────时间状态期初人数死亡人数条件生存率累积生di∑di/ni(ni-di)累积生存tisinidi(ni-di)/ni存率^S(ti)ni(ni-di)率标准误①②③④⑤⑥⑦⑧⑨=⑥√⑧─────────────────────────────────────2活4死1510.93330.93330.0047620.0047620.06446活6活8活9死1110.90900.84850.0090910.0138530.09999活10死910.88890.75420.0138890.0277420.125612活13死710.85710.64650.0238100.0515510.146818死610.83330.53870.0333330.0848850.157019活24死410.75000.40400.0833330.1682180.165726死310.66670.26940.1666670.3348850.155931死210.50000.13470.5000000.8348850.123143活─────────────────────────────────────22二.寿命表法(LifeTableMethod)适用于随访的病例数较多,将资料按生存期进行分组,在分组的基础上计算生存率,本法也能用于不分组的资料,此时计算结果与积限法相同。23某医院1946年1月1日到1951年12月31日收治的126例胃癌病例,生存情况如表2,试用寿命表法估计生存率。表2126例胃癌患者寿命表法估计生存率─────────────────────────────────────────────────────时间(年)期初例数死亡例数失访例数截尾例数有效例数条件生存率累积生存率di∑di/ni(ni-di)累积生存tin'idiuiwini^S(ti/ti-1)^S(ti)ni(ni-di)率标准误⑴⑵⑶⑷⑸⑹⑺⑻⑼⑽⑾=⑻√⑽─────────────────────────────────────────────────────0-12647415116.50.59660.59665.805×10-35.805×10-30.04551-60561151.50.90290.53862.088×10-37.893×10-30.04792-38201530.50.93440.50332.301×10-30.01020.05083-2122716.50.87880.44238.359×10-30.01860.06024-100067.01.00000.442300.01860.06025-40042.01.00000.442300.01860.0602─────────────────────────────────────────────────────24寿命表法估计生存率步骤如下:1.将观察例数按时间段(年)0-,1-,2-,划分,分别计数期初例数,死亡,失访,截尾例数列入表2的1-5列。事实上,从第二个时间段开始,期初人数ni系由下式算得:n'i=n'i-1-di-ui-wi例如第二行,即时间段1-,有n'2=126-47-4-15=602.计算各时间段期初实际观察例数,(亦称有效例数)nini=n'i-ui/2-wi/2253.分别用(22.5)(22.6)