多元统计分析方法TheMethodsofMultivariateStatisticalAnalysis生存分析SurvivalAnalysis第十章主要内容什么是生存分析?生存分析的基本概念生存分析的基本方法非参数分析方法Cox比例风险回归分析方法生存分析的注意事项数据的收集方式:横断面数据(cross-sectionaldata)在同一个时间点上收集的数据;纵断面数据(longitudinaldata)在连续的若干个时间点上收集的数据。---随防数据:50个人的术后存活时间---时间序列数据:近20年每年的肺癌死亡率在医学研究中,常常用追踪(followup)的方式来研究事物发展的规律。例如:o了解某药物的疗效o了解手术后的存活时间o了解某医疗仪器设备的使用寿命这种研究的特点是追踪研究的现象都要经过一段时间,统计学上将这段时间称为生存时间。生存分析就是用来研究生存时间的分布规律以及生存时间和相关因素之间关系的一种统计分析方法。一、什么是生存分析?二、生存分析的基本概念A)生存时间B)生存时间数据的类型C)生存时间数据的特点D)生存分析资料的收集方法E)描述生存时间分布规律的函数F)生存分析的主要研究内容A)生存时间(survivaltime):从某起始事件起到某终止事件止所经历的时间跨度称为生存时间。例如,o在临床研究中,急性白血病患者从骨髓移植治疗开始到复发为止之间的时间间隔。o冠心病患者在两次发作之间的时间间隔。o在流行病学研究中,从开始接触某危险因素到发病所经历的时间。o在动物实验研究中,从开始给药到发生死亡所经历的时间。B)生存时间数据的类型1)完全数据(completedata):它准确地度量了观察对象实际生存的时间。2)截尾数据(censoreddata):它没有准确地度量观察对象实际生存的时间。例如,o在随访过程中某些观察对象失访;o或死于其它原因;o或在规定的研究过程结束时观察对象的终止事件还未发生。C)生存时间数据的特点:1)所有观察值取值非负2)存在截尾数据D)生存分析资料的收集方法:1)确定随访内容(指标变量)2)确定随访人数(样本数)3)确定随访的起始和终止时间o同时开始,同时结束o不同时间开始,同时结束o不同时间开始,不同时间结束E)描述生存时间分布规律的函数:1、生存函数2、死亡函数3、死亡密度函数4、风险函数1.生存函数S(t):观察对象的生存时间T大于某时刻t的概率称为生存函数(survivalfunction)。S(t)满足条件:S(0)=1,S(∞)=0,且0≤S(t)≤1。2.死亡函数F(t):观察对象的生存时间T不大于某时刻t的概率称为死亡函数(failurefunction)。F(t)满足条件:F(0)=0,F(∞)=1,且0≤F(t)≤1。3.死亡密度函数f(t):观察对象在某时刻t的瞬时死亡率称为死亡密度函数(failuredensityfunction)。4.风险函数h(t):生存到时刻t的观察对象在时刻t的瞬时死亡率称为风险函数(hazardfunction)。F)生存分析的主要研究内容:1、描述生存过程2、比较生存过程3、分析危险因素4、建立数学模型1、描述法2、非参数分析法3、参数分析法4、半参数分析法三、生存分析的基本方法1、描述法:根据样本观察值提供的信息,直接用公式计算出每一时间点或每一个时间区间上的生存函数、死亡函数、风险函数等,并采用列表或绘图的形式来显示生存时间的分布规律。o优点:方法简单,且对数据的分布无要求。o缺点:1)不能比较两组或多组生存时间分布函数的区别;2)不能分析危险因素对生存时间的影响;3)不能建立生存时间与危险因素之间的关系模型。例1、某研究者收集了两组急性淋巴细胞性白血病患者治疗后的随访资料,其中,有淋巴结浸润组(LA)18人,无淋巴结浸润组(NLA)25人。生存时间T(月)的数据如下。协变量为淋巴结状态(SLN),负数代表截尾数据。LA组:1,2,3,4,5,7,8,9,10,11,13,14,15,18,-19,-20,-21,23NLA组:1,2,3,4,5,7,8,9,10,11,13,14,15,18,19,-20,21,23,26,28,31,37,66,73,-124StandardNumberNumberTSurvivalFailureErrorFailedLeft0.0001.0000000181.0000.94440.05560.05401172.0000.88890.11110.07412163.0000.83330.16670.08783154.0000.77780.22220.09804145.0000.72220.27780.10565137.0000.66670.33330.11116128.0000.61110.38890.11497119.0000.55560.44440.117181010.0000.50000.50000.11799911.0000.44440.55560.117110813.0000.38890.61110.114911714.0000.33330.66670.111112615.0000.27780.72220.105613518.0000.22220.77780.098014419.000*...14320.000*...14221.000*...14123.00001.00000150LA组生存时间分布规律StandardNumberNumberTSurvivalFailureErrorFailedLeft0.0001.0000000251.0000.96000.04000.03921242.0000.92000.08000.05432233.0000.88000.12000.06503224.0000.84000.16000.07334215.0000.80000.20000.08005207.0000.76000.24000.08546198.0000.72000.28000.08987189.0000.68000.32000.093381710.0000.64000.36000.096091611.0000.60000.40000.0980101513.0000.56000.44000.09931114NLA组生存时间分布规律StandardNumberNumberTSurvivalFailureErrorFailedLeft14.0000.52000.48000.0999121315.0000.48000.52000.0999131218.0000.44000.56000.0993141119.0000.40000.60000.0980151020.000*...15921.0000.35560.64440.096616823.0000.31110.68890.094217726.0000.26670.73330.090618628.0000.22220.77780.085719531.0000.17780.82220.079320437.0000.13330.86670.070821366.0000.08890.91110.059622273.0000.04440.95560.0433231124.000*...230NLA组生存时间分布规律(续)SurvivalFunctionEstimates1.0+**|**SDF|**N|L*N|L*NN0.5+LLNNN|LLNNNN|LLLNNN|L--LN-N--N||N-------------N---N0.0+LN----+----+----+----+----+----+----+----+----+----+----+-----0102030405060708090100Time无淋巴结浸润患者(N)比有淋巴结浸润患者(L)的平均生存时间长。两组急性淋巴细胞性白血病患者治疗后的生存时间比较2、非参数法:估计生存函数时对生存时间的分布没有要求,并且检验危险因素对生存时间的影响时采用的是非参数检验方法。例如,乘积极限法和寿命表法。o优点:1)可以估计生存函数;2)可以比较两组或多组生存布函数;3)可以分析危险因素对生存时间的影响;4)对生存时间的分布没有要求。o缺点:不能建立生存时间与危险因素之间依存关系的数学模型。两种非参数生存分析方法乘积极限法(PL法):适用于离散数据,它用于建立时刻t上的生存函数。PL法是根据t时刻及其之前各时间点上的条件生存率的乘积来估计时刻t的生存函数S(t)和它的标准误SE(S(t))。累积生存率:标准误:例如:P260,表18.1寿命表法(LT)法:LT法适用于区间数据,它用于建立时间区间[t,t+Δt)上的生存函数。LT法是根据时间区间[t,t+Δt)左端点的生存率及其之前各区间左端点生存率之积来估计区间[t,t+Δt)的生存函数S(t)和它的标准误SE(S(t))。累积生存率:标准误:例如:P263,表18.3例1、某研究者收集了两组急性淋巴细胞性白血病患者治疗后的随访资料,其中,有淋巴结浸润组(LA)18人,无淋巴结浸润组(NLA)25人,数据如下。设因变量T为生存时间(月),协变量为淋巴结状态(SLN),截尾指标用censor表示,负数代表截尾数据。试用非参数的PL法进行生存分析,检验患者有无淋巴结浸润对其生存时间长短的影响。LA组:1,2,3,4,5,7,8,9,10,11,13,14,15,18,-19,-20,-21,23NLA组:1,2,3,4,5,7,8,9,10,11,13,14,15,18,19,-20,21,23,26,28,31,37,66,73,-124【SAS程序】datad1;inputsln$n;doi=1ton;inputt@@;ift0thencensor=0;elsecensor=1;t=abs(t);output;end;cards;LA1812345789101113141518-19-20-2123NLA251234578910111314151819-202123262831376673-124run;proclifetestplots=(s,ls,lls)method=pl;timet*censor(0);stratasln;run;TheLIFETESTProcedureProduct-LimitSurvivalEstimatesSLN=LASurvivalStandardNumberNumberTSurvivalFailureErrorFailedLeft0.0001.0000000181.0000.94440.05560.05401172.0000.88890.11110.07412163.0000.83330.16670.08783154.0000.77780.22220.09804145.0000.72220.27780.10565137.0000.66670.33330.11116128.0000.61110.38890.11497119.0000.55560.44440.117181010.0000.50000.50000.11799911.0000.44440.55560.117110813.0000.38890.61110.114911714.0000.33330.66670.111112615.0000.27780.72220.105613518.0000.22220.77780.098014419.000*...14320.000*...14221.000*...14123.00001.00000150SurvivalFunctionEstimates1.0+**|**SDF|**N|L*N|L*NN0.5+LLNNN|LLNNNN|LLLNNN|L--LN-N--N||N-------------N---N0.0+LN----+----+----+----+----+----+---