医学统计:生存分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

生存分析survivalanalysis孙秀彬何为生存分析医学研究中,为了了解某种疾病的预后、评价治疗方法的优劣或观察预防保健措施的效果等,常需对研究对象进行追踪观察,以获得必要的数据,这类资料都属于随访资料。随访资料是指对一批研究对象进行追踪观察所获得的有关其结局以及出现这种结局所经历的时间等方面的资料。由于随访资料的分析最初起源于对寿命资料的统计分析,故称为生存分析,或称为生存时间分析。生存分析的历史与应用17、18世纪:寿命表的提出及其应用。1926年:Greenwood提出评价生存函数的误差的方法—Greenwood公式。1958年:生存函数的计算方法—Kaplan-Meier法(乘积极限法product-limit)的提出。1960年代中叶:生存时间的组间比较方法的开发—广义Wilcoxon秩和检验(Gehan,1965年);对数秩检验(log-ranktest)又称时序检验(Mantel,1966年)。1970年:将协变量的影响模型化—参数模型:假设生存时间服从Weibull分布、对数正态分布等;半参数模型:比例风险模型(Cox,1972年),又称Cox回归模型。第一节概述生存分析的方法已被广泛应用到医学研究领域,如现场追踪研究、临床疗效试验、疾病预后分析等,生存时间的涵义也随之扩展到更广义的范围,又称为时间-效应分析(time-effectanalysis)。其研究内容主要包括3个方面:①对生存状况进行统计描述(生存概率、生存率、中位生存期等);②寻找影响生存时间的“危险因素”和“保护因素”;③估计生存率和生存时间长短,进行预后评价。一、基本概念(一)死亡事件死亡事件又称失效事件,不单指通常意义下的生物体的死亡,而是泛指标志某种处理措施失败或失效的特征事件。(二)生存时间(survivaltime):1.定义:广义的生存时间是指从某个起始事件开始到某个终点事件的发生(出现反应)所经历的时间。也称失效时间(failuretime)。2.特点:(1)分布类型不易确定。一般不服从正态分布,有时近似服从指数分布、Weibull分布、Gompertz分布等,多数情况下往往不服从任何规则的分布类型。(2)生存时间的影响因素多而复杂且不易控制。(3)根据研究对象的结局,生存时间数据可分两种类型:①完全数据(completedata):观察对象在观察期内出现反应(终点事件),这时记录到的时间信息是完整的,这种生存时间数据称为完全数据。②截尾数据(截尾值、删失数据,censoreddata):尚未观察到研究对象出现反应(终点事件)时,即由于某种原因停止了随访,这时记录到的时间信息是不完整的,这种生存时间数据称为不完全数据或截尾值。截尾的原因主要有3种:①失访:失去联系②退出:死于非研究因素或其他非处理因素、改变治疗方案等导致退出研究。③终止:指观察研究期限结束时仍未出现结局。关于截尾或删失删失的模式图随访开始事件失访失访研究截止时仍存活研究截止时点患者进入期间3.生存时间资料的整理:对于随访资料,需记录的原始数据包括开始观察的时点(起始事件发生的时间)、终止观察的时点、研究对象的结局、考虑的影响因素。生存时间为反映时间长短的指标,属数值变量:生存时间(t)=终止观察的时点–开始观察的时点;结局变量()反映终点事件是否发生,为二分类的变量。通常用(t,)完整地表示一个观察对象的随访结果。表16-14例鼻咽癌患者术后随访记录病例号开始日期终止日期结局治疗方法性别…111/29/8011/04/85死亡1F206/13/8206/08/83死亡1M303/02/8312/31/86失访0M408/04/8304/10/86死亡0F表16-24例鼻咽癌患者术后生存时间及相关资料整理表病例号生存时间(天)t结局治疗方法X1性别X2……1180011F236011M31400+00M499010F(二)死亡概率、死亡率:死亡概率(mortalityprobability):是指某单位时段期初的观察对象在该单位时段内死亡的可能性大小。该时段期初观察人数某单位时段内死亡数q若该时段内有删失,则分母用校正人口数:删失数期初观察人数校正人口数21死亡率(mortalityrate):指单位时间内研究对象的死亡频率或强度,即平均每千人(或万人、百人等)中的死亡人数。1000该时段平均人口数某单位时段内死亡数m‰平均人口数=21(该时段期初人口数+期末人口数)(三)生存概率:生存概率(survivalprobability):表示某单位时段开始时存活的个体到该时段结束时仍存活的可能性大小,用p表示,公式如下:qp-1该时段期初观察人数活满某时段的人数若该时段内有删失,则分母用校正人口数。(四)生存率、生存函数、生存率曲线:生存率(survivalrate):指研究对象经历t个时段后仍存活的概率,即生存时间大于等于t的概率,用tTP表示。生存率随时间t变化而变化,即生存率是相对于时间t的函数,称为生存函数(survivalfunction),记为tS。生存函数在某时点的函数值就是生存率。生存函数或生存率计算如下:①若前t个时段没有删失:研究期初观察总人数数时段结束时仍存活的人ttTPtS)()(如:%100研究期初观察人数年的人数活满年生存率nn。生存函数或生存率计算如下:②若观察期内有删失:假定观察对象在各个单位时段内是否生存的事件是相互独立的,其生存概率分别为tpppp,,,,321,则根据概率乘法原理得ttjtjpppppt......)S(321故生存函数又称累积生存概率(cumulativeProbabilityofsurvival),即将时刻t尚存活看成是前t个时段一直存活的累计结果。如:11211101np......pppn年生存率。(五)生存率曲线(survivalcurve):是指以时间为横轴、生存率为纵轴,将各个时点的生存率连接在一起的曲线图。曲线形状分为两种:1、阶梯形:小样本资料用直接法估计的生存曲线;2、折线形:大样本资料用频数表法估计的生存曲线。(六)中位生存期(mediansurvivaltime):也称半数生存期,即生存时间的中位数,表示生存率等于50%时的时间。反映生存时间的平均水平。(七)危险率函数(hazardfunction):指t时刻尚存活的研究对象死于t时刻后一瞬间的概率,为条件概率。即活到了t时刻的条件下在t~tt这一微时段内死亡的概率,用th表示。ttTttTtPtht)(lim)(0ttnttntnt)()()(lim0T为观察对象的生存时间,tn为t时刻的生存人数,ttn为t+t时刻的生存人数。危险率函数也称为死亡力(forceofmortality)、瞬时死亡率(instantaneousfailurerate)等。危险率函数是生存分析的基本函数,它反映研究对象在某时点的死亡风险大小。生存函数与危险率函数的关系可表示为:tdtthtS0)(exp)(风险函数与生存函数的关系th1是一种上升的曲线,危险率随时间变化而增加,如急性白血病患者治疗无效时其危险率随时间呈增加趋势;th2的曲线为下降趋势,表示危险率逐渐减小,如意外事故造成的外伤经有效治疗后死亡的危险性逐渐减小;th3为一种稳定的危险率函数,如某些慢性病患者在稳定期,其危险率基本不变。图16-1三种不同形式的危险率函数曲线二、生存分析对资料的基本要求1.样本由随机抽样方法获得,要有一定的数量。死亡例数和比例不能太少。2.完全数据所占的比例不能太少,即截尾值不宜太多。3.截尾值出现的原因无偏性。为防止偏性,常需对被截尾的研究对象的年龄、职业、地区、病情轻重等情况进行分析。4.生存时间尽可能精确。因为许多常用的生存分析方法都在生存时间排序的基础上作统计处理,即使小小的舍入误差也可能改变生存时间顺序而影响结果。5.缺项要尽量补齐。三、生存分析的主要内容和基本方法(一)生存分析的主要内容1、描述生存过程:研究生存时间的分布特点、估计生存率及其标准误、绘制生存率曲线等。2、比较生存过程:可进行两组或多组生存曲线的比较。3、分析影响生存过程的因素(二)生存分析的基本方法1.非参数法:其特点是不论资料是什么样的分布形式,只根据样本提供的顺序统计量对生存率进行估计,常用的方法有乘积极限法和寿命表法。2.参数法:参数法的特点是假定生存时间服从于特定的参数分布,根据已知分布的特点对影响生存的时间进行分析,常用的方法有指数分布法、Weibull分布法、对数正态回归分析法和对数logistic回归分析法等。3.半参数法:半参数法兼有非参数法和参数法的特点,主要用于分析影响生存时间和生存率的因素,属多因素分析方法,典型方法为Cox模型分析法。第二节生存率估计的非参数法一、乘积极限法乘积极限法(product-limitmethod)是由Kaplan和Meier在1958年首先提出,故又称Kaplan-Meier法(K-M法)。主要适用于样本含量较小的资料。步骤如下:(1)将含量为n的样本观察值(生存时间t)由小到大依次排列,秩次ni,,2,1。如遇非截尾值与截尾值相同时,将非截尾值排在前面。(2)列出各时点(实为一短的时间单位)开始时的存活数,即期初观察单位数in。(3)计算各时点死亡概率q及生存概率p(p=1-q)。(4)求活过各时点的生存率itS,等于从开始观察时点到it时点各生存概率的连乘积。(5)按下式计算生存率的标准误:iiiiidntStStSSE)(1(6)绘制生存率曲线。常绘制成阶梯形的曲线,方法是将各非截尾值及其对应的生存率标在直角坐标纸上,然后将各点垂直向下再水平向右连成阶梯形。(7)必要时可按正态近似法估计总体生存率的可信区间。某时点ti的总体生存率%1的可信区间为:iitSSEutS2用某中药+化疗(中药组)和化疗(对照组)两种疗法治疗白血病后,随访记录患者死前存活月数,结果如下。试分别估计两组的生存率并绘制生存率曲线。中药组:102+12+13186+19+269+8+6+43+943124对照组:2+137+11+61113177用Kaplan-Meier法分别计算两组的生存率。表16-3中药组生存率计算秩次观察月数期初病例数死亡人数死亡概率生存概率活过该月的生存率生存率的标准误itnidqpS(ti)SE[S(ti)](1)(2)(3)(4)(5)(6)(7)(8)12+1600.00001.00001.0000.241510.06670.93330.93330.064436+1400.00001.00000.9333.46+1300.00001.00000.9333.58+1200.00001.00000.9333.691110.09090.91910.84850.099979+1000.00001.00000.8485.810910.11110.88890.75420.1256912+800.00001.00000.7542.1013710.14290.85710.64650.14681118610.16670.83330.53870.15701219+500.00001.00000.5387.1324410.25000.75000.40400.16571426310.33330.66670.26940.15591531210.50000.50000.13470.12311643+100.00001.00000.1347.表16-4对照组生存率计算秩次观察月数期初病例数死亡人数死亡概率生存概率活过该月的生存率生存率标准误ixndqpp(xt)s(1)(2)(3)(4)(5)(6)(7)(8)111010.10000.90000.90000.094922+900.00001.00000.9000.33810.1250

1 / 85
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功