生存分析与Cox回归分析一、基本概念生存时间(survivaltime):疾病治疗的预后情况,一方面看结局好坏,另一方面还要看出现这种结局所经历的时间长短。所经历的时间称为生存时间。完全与不完全数据一部分研究对象可观察到死亡,从而得到准确的生存时间,所提供的信息是完全的,称为完全数据;另一部分病人由于失访、意外事故、或到观察结束时仍存活等原因,无法知道确切的生存时间,它提供了不完全的信息,称为不完全数据(截尾数据、删失数据:censordata)。始点终点始点终点生存分析(survivalanalysis):生存时间一般是通过随访收集。不完全数据提供了部分信息。须要用专门的方法进行统计处理,这类统计方法起源于对寿命资料的统计分析,故称为生存分析。二、生存分析的主要内容第一,描述生存过程研究生存时间的分布特点,估计生存率,生存曲线;第二,比较生存过程(假设检验)对两组或多组生存率进行比较;第三,影响生存时间的因素分析了解影响生存过程的主要因素为改善预后提供指导。例在对资料进行描述时:5名癌症患者存活时间(月)610142020n=5平均生存时间,mean=18,median=1478+2535+50当有截尾数据时,?Kaplanmeier生存率曲线图三、Cox回归分析(Coxregression)影响生存时间的长短不仅与治疗措施有关,还可能与病人的体质,年龄,病情的轻重等多种因素有关。如何找出它们之间的关系呢?对生存资料不能用多元线性回归分析。1972年英国统计学家CoxDR.提出了一种能处理多因素生存分析数据的比例危险模型(Cox'sproportionalharzardmodel)。表1多元线性回归分析的数据结构实验对象yX1X2X3….XP1y1a11a12a13…a1p2y2a21a22a23…a2p3y3a31a32a33…a3p…………………nynan1an2an3…anp━━━━━━━━━━━━━━━━━━其中:y取值是服从正态分布多元线性回归模型通过实验测得含有p个自变量x1,x2,x3,…,xp及一个因变量y的n个观察对象值,利用最小二乘法原理,建立多元线性回归模型:其中b0为截距,b1,b2…bp称为偏回归系数.bi表示当将其它p-1个变量的作用加以固定后,Xi改变1个单位时Y将改变bi个单位.ppxbxbxbby22110ˆSPSS实现逐步回归方法:操作过程:Analyze---Regression---Linear---y选入Dependent---x1、x2、X3选入Independent---Stepwise---options--ok表2Logistic回归模型的数据结构实验对象yX1X2X3….XP1y1a11a12a13…a1p2y2a21a22a23…a2p3y3a31a32a33…a3p…………………nynan1an2an3…anp━━━━━━━━━━━━━━━━━━其中:y取值是二值或多项分类定义:为Logistic变换,即:)]1/(ln[)(logpppitppXXpLogit110)(SPSS操作步骤:Analyze-----Regression-----BinaryLogistic-----Dependent框(y)-----Covariates框(x1,x2,…)------ok设含有p个变量x1,x2,…,xp及时间T和结局C的n个观察对象.其数据结构见表3。表3COX模型数据结构实验对象tCX1X2X3….XP1t11a11a12a13…a1p2t20a21a22a23…a2p3t30a31a32a33…a3p……………………ntn1an1an2an3…anp1、数据结构(1)风险率(hazardrate):患者在t时刻仍存活,在时间t后的瞬间死亡率,以h(t)表示。tttttth时刻尚存的病人数在的病人数死于区间),()(3、COX回归模型(Coxregressionmodel)(2)COX回归模型的构造多元线性回归模型:pipiiixbxbxbby22110ˆ设不存在因素X1、X2、Xp的影响下,病人t时刻死亡的风险率为h0(t),存在因素X1、X2、Xpt的影响下,t时刻死亡的风险率为h(t).用死亡率的比h(t)/h0(t)代替P/(1-P)即得。Logistic回归模型:ppXXpp110)]1/(ln[(3)Cox比例风险回归模型ln(h(t)/h0(t))=β1x1+β2x2+…+βpxp参数β1,β2…,βp称为偏回归系数,由于h0(t)是未知的,所以COX模型称为半参数模型。COX比例风险函数的另一种形式:h(t)=h0(t)exp(β1x1+β2x2+…+βpxp)变量xj暴露水平时的风险率与非暴露水平时的风险率之比称为风险比hr(hazardratio)hr=eβi(4)流行病学意义hr风险比相对危险度RR(5)Cox回归模型的检验对Cox模型的检验采用似然比检验。假设为H0:所有的βi为0,H1:至少有一个βi不为0。将Ho和H1条件下的最大部分似然函数的对数值分别记为和可以证明在H0成立的条件下,统计量χ2=-2[-]服从自由度为p的χ2分布。)(1HLLP)(1HLLP)(1HLLP)(0HLLP(6)Cox模型中回归系数的检验假设为H0:,其它参数β固定;H1:,其它参数β固定。H0成立时,统计量Z=bk/SE(bk)服从标准正态分布。SE(bk)是回归系数bk的标准误。0k0k3、Cox回归模型的作用(1)可以分析各因素的作用(2)可以计算各因素的相对危险度(relativerisk,RR)(3)可以用β1x1+β2x2+…+βpxp(预后指数)估计疾病的预后。4、筛选变量(逐步COX回归分析)(1)向前法(forwardselection)(2)后退法(backwardselection)(3)逐步回归法逐步引入-剔除法(stepwiseselection)SPSS实现方法与Logistic回归相同Enter和Remove的确定同前调试法:P从大到小取值0.5,0.1,0.05,一般实际用时,Enter,Remove应多次选取调整。例.某医师对1988年收治的16例鼻腔淋巴瘤患者随访了13年,数据见表7,试作COX回归。表2鼻腔淋巴瘤患者随访资料编项目登记观察记录整理号性别年龄分期鼻血放疗化疗开始日终止日结局生存天数1145220188-1-1789-8-1715782036220188-1-2192-4-17115493045201088-2-290-12-3104717……………………………16051221088-12-195-5-2212363注:性别‘1’为男性、放疗‘1’表示采用,‘0’表示未采用、结局‘1’表示死亡。3.SPSS软件实现方法File→Open→相应数据(已存在)→Analyze→Survival→Coxregression→Time(dat)→Status→Defineevent→singlevalue(1)→Continue→Covariates(自变量)→method→Fkward→Continue→Options→Correlationofestimate→Displaymodel→atlaststep→Entry-removal(0.05,0.10)→Maximumiterations(20)→Continue→OKCaseProcessingSummary1593.8%16.3%16100.0%0.0%0.0%0.0%0.0%16100.0%EventaCensoredTotalCasesavailableinanalysisCaseswithmissingvaluesCaseswithnon-positivetimeCensoredcasesbeforetheearliesteventinastratumTotalCasesdroppedTotalNPercentDependentVariable:DAYa.OmnibusTestsofModelCoefficientsa,b45.14514.7836.02216.1996.01316.1996.013-2LogLikelihoodChi-squaredfSig.Overall(score)Chi-squaredfSig.ChangeFromPreviousStepChi-squaredfSig.ChangeFromPreviousBlockBeginningBlockNumber0,initialLogLikelihoodfunction:-2Loglikelihood:-61.344a.BeginningBlockNumber1.Method:Enterb.VariablesintheEquation.262.896.0851.7701.299.053.053.9951.3181.054-1.2741.2611.0201.312.2801.106.6183.2011.0743.023-2.5871.1145.3971.020.075-.541.848.4071.524.582X1X2X3X4X5X6BSEWalddfSig.Exp(B)CovariateMeans.50044.6252.0631.250.563.625X1X2X3X4X5X6MeanZhubu:Block1:Method=ForwardStepwise(Wald)VariablesnotintheEquationa,b1.3201.251.2201.639.0191.8916.1441.013.4881.485.0161.900.7121.399.8671.352.6921.406X1X2X3X5X6Step1X1X2X3X6Step2ScoredfSig.ResidualChiSquare=9.374with5dfSig.=.095a.ResidualChiSquare=2.790with4dfSig.=.594b.VariablesintheEquation1.084.4216.6301.0102.9571.381.5306.7991.0093.978-1.589.6955.2211.022.204X4Step1X4X5Step2BSEWalddfSig.Exp(B)解释设第i个因素的回归系数为bi,对应的风险比(riskratio,记为RRi):RRi=exp(bi),表示该因素每增加一个单位时,风险度改变多少倍。在本例中放疗X5,取值0和1,b=-1.589,RR=0.204,表示因子水平1与0比较,前者的风险度是后者的0.204倍(20.4%),提示“放疗”是有利因素。“鼻血”X4取值是0、1、2,b=1.38,RR=3.979,表示因子水平每增加1个等级,风险度增加3.979倍,提示“鼻血”是不利因素。谈思路输卵管注药绝育术是一种经宫颈往输卵管注入小剂药物使之闭塞而达到节育目的一种女性非手术绝育技术。该术在我国历经30余年的发展,并得以广泛应用。但其有效性、安全性问题始终受到医学界关注。输卵管注药绝育术多中心临床研究在1986年4月至1991年6月开展。被接纳进入该研究的共有1705名受术合格对象。术时按随机原则将复方苯酚糊剂(PAP)和显影苯酚胶浆(PM)分配给受术对象,PAP组871名,PM组834名。手术后7-14天、3个月、1年、2年及5年进行随访调查。最后共失访27例,更换其他避孕方法6例,因病死亡2例,因子宫肌瘤行全摘术2例。对随访资料采用COX回归分析。临床随访研究的缺点:•随访研究容易造成失访。当失访率高于50%时,研究失败;•随访时间可能很长;•各组间不易达到均衡一致,缺乏可比性;•常伴有主观因素的影响,盲法观察不易实施。