摘要随着世界经济的增长,卫生保健事业的发展,疾病谱的变化和平均寿命的提高,有关肿瘤、慢性病、老年性疾病的临床试验和流行病学方面的随访研究越束越重要,越来越多,这些临床试验和随访研究的资料都可整理为生存资料。目前对生存资料的多因素分析最常用的方法仍然是Cox比例风险回归模型,简称Cox模型。该模型是一种多因素的生存分析方法,可以分析带有截尾生存时间的资料,同时分析众多因素对生存期的影响,且不要求估计资料的生存函数的分布类型。用SAS分析膀胱癌手术后生存时间的影响因素。比较Kaplan-Meier估计的生存曲线,用生存资料拟合COX回归方程。进而得出结论。[关键词]生存分析,Cox回归,Kaplan-Meier估计,Nalson-Aalen估计,Log-Rank检验1.理论及程序1.1Kaplan-Meier估计乘积极限法适合于离散数据,它用于建立时刻t上的生存函数。kaplan-meier法是根据t时刻及其之前个时间点上的条件生存率的乘积,来估计t的生存函数S(t)和它的标准误SE(S(t)).设kttt21代表K个观测对象的生存时间,设in为it时刻开始之前生存的个体数目,即危险集的大小(i=1,2...k),再设id表示生存时间的截尾性质,i=1,2...k。又令iP表示观察对象在时刻it的条件生存率,即对于i=1,2,...k,有:iiiindnp,其中是截尾数据;个生存时间,如果第是完全数据;个生存时间,如果第iiititid01那么,观察对象在时刻t时的死亡率如下:iipq1对于i=1,2,...k,kaplan-meier法定义时刻t上的生存函数和它的标准误的估计公式如下:kiptSikki,,2,1,)(ˆ0ikkkkiipnqtStSSE0ˆ)ˆ(1.2Nalson-Aalen估计在删失情况下,可以根据累计死亡率与生存函数的关系H(t)=-ln(S(t))来估计累积死亡力函数H(t)。这时估计式为tStHˆlnˆ。nalson-aalen估计式比上一个估计式拥有更好的小样本性质。在最大时间观察范围内定义如下:ttiiiiittYdtttH,,0~;该估计式的方差可以从下式得到:ttiiiHiYdt22以死亡率的nalson-aalen估计式为基础,生存函数的另一个估计式为:tHtSˆexpˆnalson-aalen估计在分析数据时主要有以下两个应用,一是在选择事件发生时间的参数方法的应用。另一个是死亡力好h(t)提供粗估计,这些估计值是nalson-aalen估计式的斜率,对死亡力的更精确估计,可以通过对nalson-aalen估计式的跳跃进行参数核平滑得到。所有估计函数都是阶梯函数,在死亡发生处发生跳跃。1.3Cox模型Cox比例风险回归模型是一种多因素的生存分析方法,可以分析带有截尾生存时间的资料,同时分析众多因素对生存期的影响,且不要求估计资料的生存函数的分布类型。基本Cox模型表达式为)exp()()(110ppxxthth式中pxxx,,,21为协变量或影响因素,一般包括研究开始时个体的年龄、性别、临床及生化指标等;h(t)为具有协变量pxxx21,个体在t时刻的风险函数,近似地表示t时刻存活的个体在t时刻之后一个单位时段内的死亡概率;ho(t)为t的未知函数,即021pxxx时f时刻的风险函数,称为基准风险函数;p,,1为各协变量所对应的回归系数,需由样本资料做出估计。任两个个体风险函数之比,即风险比或相对危险度)()(expexpexp111110110jpippjijppjippijiXXXXXXhXXhththRR该比值与h(t)无关,在时间t上为常数,即模型中协变量的效应不随时间而改变,称为比例风险假定,简称PH假定,比例风险模型由此得名。简单地,对o-l变量COX模型,0组的风险函数为thoxth0);(,1组的风险为exp1;01ththxth,则exp01thth即两组风险函数之比在时间上的常数,或两组风险函数成比例。1.4Log-Rank检验这个检验是基于对每个观测值均赋予一定的分值而设计出来的。这些分值是生存函数的对数的函数。itjijirmte作为对数生存函数在t(i)估计值。其中m(j),r(i)都是前面已经定义过的两。Peto和peto二人按照如下方式对各观测值赋予分值Wi;对非删除数据t(i),iiteW1;对删失数据T,TeWi。在实际运算时,若it是删失数据时,则取iiteW,其中jt是满足ijtt的最大非删失数据。因此删失数据越大,对应的分值就越小。删失数据对应的分值是负的,两组数据和在一起后各数据对应的Wi值之和等于零。设一个组中的各个数据对应的分值Wi之和为S。S的“排列方法”是:1var2121122121nnnnWnnSnnii可以改写为:112121211nnnnnnrmrmVkiiiiilog-rank检验就是选择SSLvar/作为检验统计量。可以证明在假设为真的情况下,L渐进服从标准正态分布。若S是从第1组得到的和数,则否定域是ZL;若S是从第2组得到的和数,则否定域是ZL,其中Z由等式0HZLP决定。2.实例2.1数据背景选择1996-2000年间经手术治疗的膀胱肿瘤患者30例,对可能影响膀胱肿瘤术后生存时间的因素进行了调查,患者的生存结局(死亡与否)通过查阅病历、网上查询的形式获得。2.2研究目的研究影响膀胱肿瘤术后生存时间的因素2.3数据表1胱肿瘤生存资料变量赋值表变量因素分组赋值age年龄(岁)grade肿瘤分级1级=1;11级=2;111级=3size肿瘤大小(cm)=3.0=1;3.0=0relapse是否复发是=1;否=0time生存时间(月)status生存结局死亡=1;截尾=0表2膀胱肿瘤生存资科原始记录表idagegradesizerelapsetimecensor1621005902641005413522014404601005305592102316591113717631105018621003619501103011026111431114321034112621004511367100421147020040115561013211685201191176510126118543111311962200291205230028121632102712250311101238321125124613102012557311111266320114127723111212856311912973311713054311613.sas程序与结果3.1Kaplan-Meier估计3.1.1sas程序datasasa;inputnagegradesizerelapsetstatus@@;cards;162100590264100541352201440460100530559210231659111371763110501862100361950110301102611143111432103411262100451136710042114702004011556101321168520119117651012611854311131196220029120523002812163210271225031110123832112512461310201255731111126632011412772311121285631191297331171305431161;datasasa1;setsasa;ifage=60thenage=1;elseage=0;proclifetestmethod=plplots=(s);timet*status(0);strataage;proclifetestmethod=plplots=(s);timet*status(0);stratagrade;proclifetestmethod=plplots=(s);timet*status(0);stratasize;proclifetestmethod=plplots=(s);timet*status(0);stratarelapse;run;3.1.2运行结果Kaplan-Meier估计对年龄生存资料进行统计描述的结果,小与60岁患者的中位生存期数为44个月,平均生存期数为24.5395个月。大于等于60岁患者的中位生存期数为59个月,平均生存期数为32.5882个月图1年龄的生存分布曲线患者关于年龄的生存分布曲线。由图看出年龄大于等于60的患者生存时间长。由于检验统计量的p值均大于0.05,则变量age不显著Kaplan-Meier估计对肿瘤分级生存资料进行统计描述的结果,1级患者的中位生存期数为59个月,平均生存期数为41,9167个月。2级患者的中位生存期数为44个月,平均生存期数为27.889个月,,3级患者的中位生存期数为28个月,平均生存期数为12.8889个月图2肿瘤分级的生存分布曲线患者关于肿瘤分级的生存分布曲线。由图看出肿瘤1级患者生存时间长。由于检验统计量的p值均小于0.05,则肿瘤分级对研究对象的生存时间的影响有显著性差异。Kaplan-Meier估计对肿瘤大小生存资料进行统计描述的结果,大于等于3厘米的中位生存期数为59个月,平均生存期数为37.4821个月。2级患者的中位生存期数为44个月,平均生存期数为27.889个月,图3肿瘤大小的生存分布曲线患者关于肿瘤大小的生存分布曲线。由图看出肿瘤小的患者生存时间长。由于检验统计量中,log-rank检验和wilxoxon检验p值均小于0.05,则肿瘤大小对研究对象的生存时间的影响有显著性差异。Kaplan-Meier估计对是否复发存资料进行统计描述的结果,不复发的中位生存期数为59个月,平均生存期数为37.7333个月。复发患者的中位生存期数为44个月,平均生存期数为20.4667个月。图4是否复发的生存分布曲线患者关于是否复发的生存分布曲线。由图看出不复发患者生存时间长。由于检验统计量中,log-rank检验和wilxoxon检验p值均小于0.05,则是否复发对研究对象的生存时间的影响有显著性差异。3.2Nelson-Aalen估计3.2.1sas程序datasasa1;setsasa;ifage=60thenage=1;elseage=0;proclifetestmethod=plNelsonplots=(s);timet*status(0);strataage;proclifetestmethod=plNelsonplots=(s);timet*status(0);stratagrade;proclifetestmethod=plNelsonplots=(s);timet*status(0);stratasize;proclifetestmethod=plNelsonplots=(s);timet*status(0);stratarelapse;run;3.2.2运行结果变量age检验t在层之间的生存曲线的齐性秩统计量age对数秩Wilcoxon00.7844430.0001-0.78444-30.000对数秩统计量的协方差矩阵age0102.26890-2.268901-2.268902.26890Wilcoxon统计量的协方差矩阵age010762.536-762.5361-762.536762.536层间等效检验检验卡方自由度Pr卡方对数秩0.271210.6025Wilcoxon