COX‘sProportionalHazardModelCox比例风险模型统计学课中介绍了生存分析方法,只能研究一至两个因素对生存时间的影响,当对生存时间的影响因素有多个时,它们就无能为力了,需要使用CoxRegression过程,这是一种专门用于生存时间的多变量分析的统计方法。基本概念:借助于多元线性回归及Logistic模型构造的思想构筑COX模型Logistic模型:ln[P/(1-P)]=β0+β1X1+β2X2…+βpXp.多元线回归Y^=β0+β1X1+β2X2+…+βpXp等式右边不变。能不能左边直接用时间T代替Y、P?设不存在因素X1、X2、Xp的影响下,病人t时刻死亡的风险率为h0(t),存在因素X1、X2、Xp的影响下,t时刻死亡的风险率为h(t)。COX提出:用死亡风险率的比h(t)/h0(t)代替P/(1-P)即得COX模型。Cox比例风险回归模型ln[h(t)/h0(t)]=β1X1+β2X2+…+βpXpCOX比例风险函数的另一种形式:h(t)=h0(t)exp(β1X1+β2X2+…+βpXp)X表示可能影响生存的诸因素,也称协变量,参数β1,β2…,βp称为偏回归系数,由于h0(t)不要求服从特定分布形式,但指数部分具有参数模型的形式,所以COX模型称为半参数模型。风险率t表示生存时间;h(t)称为具有协变量X的个体在t时刻的风险函数,表示生存时间已达t的个体在t时刻的瞬时风险率或死亡率;h0(t)称为基线风险函数,表示所有X都取值为0时的个体在t时刻的瞬时风险率或死亡率。RRththXthXthjjjj)exp()()exp()()0,()1,(00ββ)exp()exp()())1exp()(),()1,(00βββkthkthkXthkXthRRjj回归系数的意义判断:当回归系数大于0时,对事件发生的可能性增加,小于0时,减少事件发生的可能性,等于0时,与事件的发生无关。设含有p个变量x1,x2,…,xp及生存时间T和结局C的n个观察对象.其数据结构为:编号X1X2….XPTC1x11x21…x1py112x21x22…x2py20………………nxn1xn2…xnpyn.━━━━━━━━━━━━━━━━━━数据结构Cox模型的参数估计Cox回归的参数估计同Logistic回归分析一样采用最大似然估计法。其基本思想是先建立偏似然函数和对数偏似然函数,求偏似然函数或对数偏似然函数达到极大时参数的取值,即为参数的最大似然估计值。7、Cox模型的检验对Cox模型的检验常采用得分检验(scoretest)、wald检验和似然比检验(likelihoodratiotest),均为卡方检验,自由度为协变量个数。一般scoretest用于入选变量,wald检验多用于剔除变量,似然比检验用于不同协变量模型的比较,既可用于变量入选也可用于变量剔除。检验假设H0:所有的βi为0,H1:至少有一个βi不为0。8、Cox模型中回归系数的检验假设为H0:,其它参数β固定;H1:,其它参数β固定。H0成立时,统计量Z=bk/SE(bk)服从标准正态分布。SE(bk)是回归系数bk的标准误。0k0k变量xj暴露水平时的风险率与非暴露水平时的风险率之比称为风险比hr(hazardratio)hr=eβi流行病学意义hr风险比相对危险度RR参数的意义及其解释(1)在其它预后因素固定不变的情况下,预后因素Xj每改变一个观察单位时所引起的相对风险度改变量的自然对数值。β0,RR1,说明变量X增加时,危险率增加,即X是危险因素。β0,RR1,说明变量X增加时,危险率下降,即X是保护因素。β=0,RR=1,说明变量X增加时,危险率不变,即X是危险无关因素。eRR参数的意义及其解释(2)9.COX回归的应用:和LOGISTIC回归相似(1)因素分析分析哪些因素(协变量)对生存期的长短有显著作用。对各偏回归系数作显著性检验,如显著,则说明在排除其它因素的影响后,该因素与生存期的长短有显著关系。(2)求各因素在排除其它因素的影响后,对于死亡的相对危险度(或比数比)如某因素Xi的偏回归系数为βi,则该因素Xi对于死亡的比数比为exp(βi)当Xi为二值变量时,如转移(1=转移,0=不转移)exp(βi)为转移相对于不转移对于死亡的相对危险度(或比数比)当Xi为等级变量时,如淋巴结转移,分0,1,2,3,4五个等级。exp(βi)为每增加一个等级,死亡的相对危险度,如等级3相对于等级0其死亡的相对危险度为:exp(3βi)当Xi为连续变量时,如年龄(岁)exp(βi)为每增加一岁时,死亡的相对危险度如60岁相对于35岁其死亡的相对危险度为exp(25βi)(3)比较各因素对于生存期长短的相对重要性比较各标准化偏回归系数βi’绝对值的大小,绝对值大的对生存期长短的作用也大。(4)考察因素之间的交互作用如考察XL和XK之间的交互作用是否显著,再增加一各指标:XLK=XL*XK,如其偏回归系数βLK显著,则XL和XK之间的交互作用显著。(5)计算预后指数(PI)将所有偏回归系数乘上变量赋值然后相加,记得带β值负号不能丢。PI越大,预后越差。实例分析为探讨某恶性肿瘤的预后,某研究者收集了63例患者的生存时间、生存结局及影响因素。影响因素包括病人年龄、性别、组织学类型、治疗方式、淋巴结转移、肿瘤浸润程度,生存时间以月计算。变量的赋值和所收集的资料分别见表17-8和表17-9。试用Cox回归模型进行分析。NoX1X2X3X4X5X6tYNoX1X2X3X4X5X6tY1540011052033620001012002570100051034401110140135800011351355010010261443111101030363311000120054801000713757111001200640010006003848100101200744010005803928000103183600011291405410110120193911101700413501011711042010016704247000101811142010006604349101101200124210110870444301000120013511110085045481100015114550100182046440001041154911101760476011100120016521110174048400001016117481110063049320100124118541011110105044000111911938010001000514810010120020401110166152720101024121380001093053420001021221900010241546310110120023671011093055550110012124370011090056390001051254310010151574400010120026490001031584211100120027501111187059740001171285311100120060610101040129321110012006145101101080304601001120062380100024131431011012006362000101613244101101200表17-963名某恶性肿瘤患者的生存时间(月)及影响因素建立数据文件(data-03.sav)操作过程主菜单:分析Analyze生存SurvivalCoxRegressionCox回归主对话框操作过程主对话框参数设置:1.时间time框:选入“t”。2.状态status框:选入“y”,击defineevents钮,在singlevalue框填入“1”3.协变量Covariates框:选入“x1~x6”。4.方法Method框:选择自变量进入Cox模型的方法,SPSS提供以下7种方法。√√1.分析例数描述案例处理摘要2641.3%3758.7%63100.0%0.0%0.0%0.0%0.0%63100.0%事件a删失合计分析中可用的案例带有缺失值的案例带有负时间的案例层中的最早事件之前删失的案例合计删除的案例合计N百分比因变量:ta.主要输出结果2-1.模型检验(全变量模型)模型系数的综合测试a,b180.05220.1746.00321.9426.00121.9426.001-2倍对数似然值卡方dfSig.整体(得分)卡方dfSig.从上一步骤开始更改卡方dfSig.从上一块开始更改起始块编号0,最初的对数似然函数:-2倍对数似然值:201.994a.起始块编号1.方法=输入b.结果提示:(1)对模型总体检验有显著意义(P=0.003),即至少有1个自变量的总体回归系数不为0。2-2.模型检验(逐步回归模型,Method=向前法LR,自变量进入P≤0.05,剔除P0.10)模型系数的综合测试a,b182.77717.5942.00019.2172.000步骤2-2倍对数似然值卡方dfSig.整体(得分)卡方dfSig.从上一块开始更改起始块编号0,最初的对数似然函数:-2倍对数似然值:201.994a.起始块编号1.方法=向前逐步(似然比)b.(2)采用逐步回归法进行Cox模型分析的结果提示:模型拟合自变量进入和剔除的检验水准分别为0.05和0.1时,筛选后的最佳模型包含两个协变量,即X4(治疗方式)和X5(淋巴结是否转移),该拟合模型总体检验提示具有统计学意义(整体卡方=17.594,P0.001)。3.参数估计(逐步回归模型,Method=向前法LR,自变量进入P≤0.05,剔除P0.10)方程中的变量-1.762.54810.3371.001.172.059.503.931.4454.3891.0362.5381.0626.066X4X5步骤2BSEWalddfSig.Exp(B)下部上部95.0%CI用于Exp(B)B:偏回归系数,SE:偏回归系数的标准误Wald:用于检验总体偏回归系数与0有无显著差异,v=1时,W=(B/SE)2。Exp(B):相对危险度估计(RR值)(3)X4(治疗方式)对生存时间有影响,采用新疗法病人的死亡风险降至传统疗法的17.2%(RR的95%CI为0.059~0.503)。(4)X5(淋巴结是否转移)对生存时间也有影响,有淋巴结转移病人的死亡风险为无淋巴结转移病人的2.538倍(RR的95%CI为1.062~6.066)。4.自/协变量的均值(选入2个变量的模型)协变量均值.413.571X4X5均值5.生存曲线(选入2个变量的模型)生存分析结果报告描述研究事件(如死亡时间等)说明研究起始时间与终止时间(如症状出现与康复时间,诊断日期与终止日期等)说明删失数据的种类与原因说明计算生存率的统计学方法生存分析结果报告(续)给出Cox回归模型,呈现解释变量与风险之间的联系给出风险比(hazardratio)及其置信区间给出模型整体的假设检验结果分析结果报告个体的预后指数及预后分组:预后指数(prognosticindex,PI)=预后指数越小,预后越好;预后指数越大,预后越差。ppXbXbXb2211)exp()(),(22110ppXbXbXbthXth例如:传统治疗方式,淋巴结转移,PI=2.6929传统治疗方式,淋巴结无转移,PI=1.7616新治疗方式,淋巴结转移,PI=0.9313新治疗方式,淋巴结无转移,PI=0据PI的大小可将病人分为不同的危险组,常见分三组(即低危组、中危组、高危组)或五组。绘制分组的生存曲线,直观比较各危险组的生存情况,如中位生存期、t年生存率等。549313.07616.1XXPI因素筛选与最佳模型建立因素筛选剔去缺失数据较多,或变异程度几乎为0的因子;逐步回归前进法第0步