生存分析SPSS过程(SPSSofSurvivalAnalysis)邹莉玲预防医学教研室1.何为生存分析?生存分析(survivalanalysis)是将事件的结果(终点事件)和出现结果经历的时间结合起来分析的一种统计分析方法。2.生存分析的目的:(1)描述生存过程:估计不同时间的总体生存率,计算中位生存期,绘制生存函数曲线。统计方法包括Kaplan-Meier(K-M)法、寿命表法。(2)比较:比较不同处理组的生存率,如比较不同疗法治疗脑瘤的生存率,以了解哪种治疗方案较优。统计方法log-rank检验等。(3)影响因素分析:研究某个或某些因素对生存率或生存时间的影响作用。如为改善脑瘤病人的预后,应了解影响病人预后的主要因素,包括病人的年龄、性别、病程、肿瘤分期、治疗方案等。统计方法cox比例风险回归模型等。(4)预测:建立cox回归预测模型。生存分析的理论复习生存分析(SurvivalAnalysis)菜单寿命表(LifeTables)过程Lifetables过程用于(小样本和大样本资料):1.估计某生存时间的生存率,以及中位生存时间。2.绘制各种曲线:如生存函数、风险函数曲线等。3.对某一研究因素不同水平的生存时间分布的比较。4.控制另一个因素后对研究因素不同水平的生存时间分布的比较。5.对多组生存时间分布进行两两比较。(比较总体生存时间分布采用wilcoxon检验)CompanyLogo实例分析例1:为了比较不同手术方法治疗肾上腺肿瘤的疗效,某研究者随机将43例病人分成两组,甲组23例、乙组20例的生存时间(月)如下所示:其中有“+”者是删失数据,表示病人仍生存或失访,括号内为死亡人数。(1)计算甲、乙两法术后10月的生存率和标准误。(2)估计两组的中位生存期。(3)绘制各组生存函数曲线。(4)比较两组的总体生存时间分布有无差别。CompanyLogo一、建立数据文件(data-01.sav)定义5个变量:生存时间变量:t,值标签“生存时间(月)”生存状态变量:status,取值“1=死亡,0=删失或存活”频数变量:freq,值标签“人数”分组变量:group,取值“1=甲组,2=乙组”生存时间序号变量(可无):i二、操作过程主菜单:分析Analyze生存Survival寿命表Lifetables对话框参数设置:1.时间time框:选入“t”。2.显示时间间隔Displaytimeintervals框:步长by前面填入最大生存时间的上限(必须包括生存时间最大值),步长by后面填入生存时间的组距。本例上限填“60”,组距填“1”。3.状态status框:选入“status”,击defineevents钮,在singlevalue框填入“1”4.因子factor框:选入“group”,定义最小值“1”,最大值“2”。5.单击选项option按钮,弹出对话框:1)√寿命表,系统默认。2)图:√生存函数3)比较第一个因子的水平:√整体比较三、主要输出结果1.10月生存率的估计:甲法48%,标准误0.1乙法30%,标准误0.12.两组的中位生存期估计:CompanyLogo3.绘制生存曲线:CompanyLogo4.两组生存时间分布的比较:Kaplan-Meier过程Kaplan-Meier过程用于(尤其小样本资料):1.估计各生存时间的生存率以及中位生存时间。2.绘制各种曲线:如生存函数、风险函数曲线等。3.比较某研究因素不同水平的生存时间有无差异。4.控制某个分层因素后对研究因素不同水平的生存时间分布进行比较。5.对多组生存时间分布进行两两比较。(各总体分布比较采用Log-rank等非参数方法)CompanyLogo实例分析例2:(数据同例1)为了比较不同手术方法治疗肾上腺肿瘤的疗效,某研究者随机将43例病人分成两组,甲组23例、乙组20例的生存时间(月)如下所示:其中有“+”者是删失数据,表示病人仍生存或失访,括号内为死亡人数。(1)计算甲、乙两法各生存时间的生存率和标准误。(2)估计两组的中位生存期。(3)绘制各组生存函数曲线。(4)比较两组的总体生存时间分布有无差别。一、建立数据文件(同前)二、操作过程主菜单:分析Analyze生存SurvivalKaplan-Meier对话框参数设置:1.时间time框:选入“t”。2.状态status框:选入“status”,击defineevents钮,在singlevalue框填入“1”。3.因子factor框:选入“group”。4.单击选项option按钮,弹出对话框:1)统计量:√生存分析表,系统默认。√均值和中位生存时间,系统默认。2)图:√生存函数5.单击比较因子CompareFactor按钮,弹出对话框:1)检验统计量TestStatistics:都用于检验时间分布是否相同。√对数秩Log-rank:各时间点的权重一样。Breslow:按各时间点的观察例数赋权。Tarone-Ware:按各时间点观察例数的平方根赋权。二、操作过程2)水平间的两两比较。6.单击Save按钮,弹出保存新变量Savenewvariables对话框:√√√三、主要输出结果1.生存表:略2.两组的中位生存期估计:3.绘制生存曲线:CompanyLogo4.两组生存时间分布的比较:Cox回归过程Cox回归过程用于:1.多个因素对生存时间的影响作用分析和比较2.生存(或死亡)风险预测实例分析例3:为探讨某恶性肿瘤的预后,某研究者收集了63例患者的生存时间、生存结局及影响因素。影响因素包括病人年龄、性别、组织学类型、治疗方式、淋巴结转移、肿瘤浸润程度,生存时间以月计算。变量的赋值和所收集的资料分别见表17-8和表17-9。试用Cox回归模型进行分析。NoX1X2X3X4X5X6tYNoX1X2X3X4X5X6tY1540011052033620001012002570100051034401110140135800011351355010010261443111101030363311000120054801000713757111001200640010006003848100101200744010005803928000103183600011291405410110120193911101700413501011711042010016704247000101811142010006604349101101200124210110870444301000120013511110085045481100015114550100182046440001041154911101760476011100120016521110174048400001016117481110063049320100124118541011110105044000111911938010001000514810010120020401110166152720101024121380001093053420001021221900010241546310110120023671011093055550110012124370011090056390001051254310010151574400010120026490001031584211100120027501111187059740001171285311100120060610101040129321110012006145101101080304601001120062380100024131431011012006362000101613244101101200表17-963名某恶性肿瘤患者的生存时间(月)及影响因素一、建立数据文件(data-03.sav)二、操作过程主菜单:分析Analyze生存SurvivalCoxRegressionCox回归主对话框二、操作过程主对话框参数设置:1.时间time框:选入“t”。2.状态status框:选入“y”,击defineevents钮,在singlevalue框填入“1”3.协变量Covariates框:选入“x1~x6”。4.方法Method框:选择自变量进入Cox模型的方法,SPSS提供以下7种方法。√√1.分析例数描述案例处理摘要2641.3%3758.7%63100.0%0.0%0.0%0.0%0.0%63100.0%事件a删失合计分析中可用的案例带有缺失值的案例带有负时间的案例层中的最早事件之前删失的案例合计删除的案例合计N百分比因变量:ta.三、主要输出结果2-1.模型检验(全变量模型)模型系数的综合测试a,b180.05220.1746.00321.9426.00121.9426.001-2倍对数似然值卡方dfSig.整体(得分)卡方dfSig.从上一步骤开始更改卡方dfSig.从上一块开始更改起始块编号0,最初的对数似然函数:-2倍对数似然值:201.994a.起始块编号1.方法=输入b.结果提示:(1)对模型总体检验有显著意义(P=0.003),即至少有1个自变量的总体回归系数不为0。2-2.模型检验(逐步回归模型,Method=向前法LR,自变量进入P≤0.05,剔除P0.10)模型系数的综合测试a,b182.77717.5942.00019.2172.000步骤2-2倍对数似然值卡方dfSig.整体(得分)卡方dfSig.从上一块开始更改起始块编号0,最初的对数似然函数:-2倍对数似然值:201.994a.起始块编号1.方法=向前逐步(似然比)b.(2)采用逐步回归法进行Cox模型分析的结果提示:模型拟合自变量进入和剔除的检验水准分别为0.05和0.1时,筛选后的最佳模型包含两个协变量,即X4(治疗方式)和X5(淋巴结是否转移),该拟合模型总体检验提示具有统计学意义(整体卡方=17.594,P0.001)。3.参数估计(逐步回归模型,Method=向前法LR,自变量进入P≤0.05,剔除P0.10)方程中的变量-1.762.54810.3371.001.172.059.503.931.4454.3891.0362.5381.0626.066X4X5步骤2BSEWalddfSig.Exp(B)下部上部95.0%CI用于Exp(B)B:偏回归系数,SE:偏回归系数的标准误Wald:用于检验总体偏回归系数与0有无显著差异,v=1时,W=(B/SE)2。Exp(B):相对危险度估计(RR值)(3)X4(治疗方式)对生存时间有影响,采用新疗法病人的死亡风险降至传统疗法的17.2%(RR的95%CI为0.059~0.503)。(4)X5(淋巴结是否转移)对生存时间也有影响,有淋巴结转移病人的死亡风险为无淋巴结转移病人的2.538倍(RR的95%CI为1.062~6.066)。4.自/协变量的均值(选入2个变量的模型)协变量均值.413.571X4X5均值5.生存曲线(选入2个变量的模型)CompanyLogo练习1:某临床试验对20名第Ⅲ或第Ⅳ期黑色素瘤的患者进行随访研究,截至研究期结束,记录的生存资料见表1。应用SPSS软件建立数据文件,并计算100周生存率。表120名第Ⅲ或Ⅳ期黑色素瘤患者的治疗后生存时间(周)12.815.624.0+26.429.230.8+39.242.058.4+72.0+77.282.487.2+94.4+97.2+106.0+114.8+117.2+140.0+168.0+练习题练习2:某研究者随访收集了某地男性心绞痛患者2418例,其生存时间数据整理后见表2。(1)建立SPSS数据文件。(2)估计该地男性心绞痛患者的2年生存率和标准误,以及中位生存期。练习3:某研究者分别用免疫疗法、药物+免疫疗法治疗黑色素瘤患者,经随访得到各患者的生存时间(月)见数据文件ex-03.sav。(1)试用Kaplan-Meier过程计算其生存率和标准误。(2)对两组的生存率进行log-rank检验。(3)绘制生存曲线,计算中位生存期。