卵巢癌预后因素评价和生存率预测研究北京大学概率统计系房祥忠1提纲背景介绍资料特征处理属性数据的两步回归方法分类树回归方法方法比较总结2背景介绍向大家介绍是一个生存分析实际案例分析卵巢肿瘤是女性常见的三大恶性肿瘤之一,死亡率居妇科恶性肿瘤首位因卵巢癌早期无症状,发病隐匿,且缺乏有效的诊断方法,诊断时多为晚期,生存率较低为提高患者生存率,医生们做了许多努力和尝试,特别是提高和改善患者预后3背景介绍影响卵巢癌预后的因素很多,在疾病进展过程中,多种因素共同影响患者预后如何根据患者的不同情况,综合判断患者预后状况,预测生存率是迫切需要解决的问题4背景介绍本文采用的数据集是从全国七家医院5年搜集的879例卵巢癌患者临床随访数据。数据集包括存活期、年龄、原发灶大小、病理类型、临床分期、淋巴是否转移、病理分级、手术残余灶大小、化疗方法、化疗方案、CA125等风险因素。5背景介绍这些风险因素多为多类别的分类变量,在做回归分析时往往需要引入哑变量。当分类变量个数和水平较多时,需要引入的哑变量数目与样本量相比较会很大。如果直接做回归,它们之间的共线性会导致模型参数估计失真甚至反序等诸多问题,这也是我们在解决实际问题中遇到的最大困难。6背景介绍针对该问题,我们尝试了两步回归法和CART-COX方法。并将CART-COX方法与基于Cox模型的直接回归法和两步回归法做比较。结果表明,从拟合及预测的总体效果看,CART-COX方法比两步回归法和直接回归都更占优势。最后,为方便医生使用,我们给出了生存率表。7提纲背景介绍资料特征处理属性数据的两步回归方法分类树回归方法方法比较总结8资料特征数据9资料特征在建立多变量Cox模型前,我们需要确定每个协变量分层是否合理。多类别分类变量需要按照不同水平引入哑变量。以某一水平为基准层,其它各水平的Cox模型回归系数实际上是相对于该基准层危险率的变动。原始数据各变量水平的划分是按临床危险程度由低到高排列的,所以若协变量水平划分合理,它们的回归系数应该单调递增。10资料特征-分期原始数据中临床分期按国际惯用的FIGO分期,共有10个水平。最初我们按照这种分层做Cox回归,发现系数不单调,并且反复出现波动。由于该变量水平划分非常细致,且划分标准对医生的临床经验程度依赖很高,不是非常客观。所以在保证每层系数显著且保序的前提下,根据医生建议,我们重新划分了临床分期。结果见下表:11资料特征-分期最终分期FIGO分期删失样本寿终样本删失比例样本比例平均寿命第一层Ia51782.73%21.33%62.67IbIcIIaIIbIIc第二层IIIa15840.17%68.35%30.70IIIbIIIc第三层IV1871.15%10.32%27.2112资料特征-淋巴结是否转移原始数据中淋巴结是否转移分为三个水平,未转移,转移,未清。Cox回归时发现未清这一水平的系数是负值,也就是说,手术未清情况下的危险率比淋巴未转移的低,这与我们的初衷是违背的。13资料特征-淋巴结是否转移重新翻查病例资料并与医生讨论得知,部分病人淋巴结未清不是因为病变范围广,无法进行淋巴结清除术,而是病情并不严重才没有清除,这部分患者生存期相对较长。他们对生存期的预测是一种干扰。理论上讲应当将这部分病人按照淋巴结是否转移重新分,但种操作无法实现。未清病例占总样本比例较大(30%),我们不能删除所有未清样本,所以后面的分析我们不再考虑该变量。14资料特征-化疗方法原始数据中化疗分为三层,规范化疗,不规范化疗,未化疗。按照这三个水平Cox回归时发现,未化疗组的危险率与规范化疗组接近,并且数据显示未化疗组的平均寿命几乎是不规范化疗组的2倍!这是一个非常可疑的结果。15资料特征-化疗方法经过分析发现,化疗的分层同淋巴结是否转移有相似的问题。未化疗组实际上包括两类病人,一是病情严重,病人认为没有必要从而放弃化疗;二是手术成功,病情轻微,病人觉得可以不用做化疗。这一水平的存在严重干扰了分析化疗对生存率的影响作用。所幸未化疗组仅占总样本2.38%,征得医生同意,我们删除了未化疗组样本。最后化疗变量只包括两个水平,规范化疗与不规范化疗。16资料特征-其它因子年龄,病理分级,术后残余灶直径这三个变量在原始数据中的分层比较合理,我们不再重新划分。17Cox比例风险回归模型Cox比例风险回归模型(Cox’sproportionalhazardsregressionmodel),简称Cox回归模型该模型由英国统计学家D.R.Cox于1972年提出,主要用于肿瘤和其它慢性病的预后分析,也可用于队列研究的病因探索。其优点:–多因素分析方法–利用截尾数据Cox模型的基本形式h(t,X)—t时刻风险函数、风险率或瞬时死亡率(hazardfunction)。h0(t)—基准风险函数,即所有变量都取0时t时刻风险函数。X1、X2、…、Xp—协变量、影响因素、预后因素。β1、β2、…、βp—回归系数。)exp()(),(22110ppXXXthXthβ0,RR1,说明变量X增加时,危险率增加,即X是危险因素。β0,RR1,说明变量X增加时,危险率下降,即X是保护因素。β=0,RR=1,说明变量X增加时,危险率不变,即X是危险无关因素。eRR资料特征-单因素分析按照协变量重新分层结果,用Kaplan-Meier法做单因素分析,检验各层对生存率影响差异显著性重新分层后的5个协变量对生存率影响都显著变量Chi-Square统计量P值对数秩Wilcoxon似然比对数秩Wilcoxon似然比临床分期145.9928145.992888.9645.0001.0001.0001化疗41.815264.206424.6183.0001.0001.0001年龄31.991921.324017.7509.0001.00010.0001病理分级34.048415.779821.3831.00010.0004.0001术后残余灶直径104.965897.886264.4063.0001.0001.000121单因素分析-Cox回归结果对每个重新分层的协变量单独做Cox回归以上各变量模型都是显著成立的,并且系数单调递增,是合理的。因素水平系数危险比率系数P值模型P值临床分期31.013422.755.0001.00011.157983.184.0001化疗20.499091.647.0001.0001年龄30.369061.4460.0009.00010.693522.001.0001分级30.407331.503.0001.00010.578991.784.0001残余灶直径30.774132.169.00010.00010.951382.589.000122比例危险率假设检验Kolmogorov-TypeSupremum检验变量P值分期10.9230分期20.9550化疗0.8730年龄10.9920年龄20.9910分级10.9900分级20.9530术后残余灶直径10.9410术后残余灶直径20.9570可以看到,所有的变量不能拒绝PH假定的原假设23病情分期各层对数累积危险率曲线病情分期各层累积危险率曲线•而对数累积危险率函数曲线应该相互平行。•可以看到,这些变量基本上没有偏离危险率成比例假定如果PH假定成立,各累积危险率函数曲线应该是通过原点的直线;24化疗各层累积危险率曲线化疗各层对数累积危险率曲线25年龄各层累积危险率曲线年龄各层对数累积危险率曲线26病理分级各层累积危险率曲线病理分级各层对数累积危险率曲线27术后残余灶直径各层累积危险率曲线术后残余灶直径各层对数累积危险率曲线28哑变量多因素直接Cox回归与医生讨论后,我们选取785例样本进行多变量回归。由于随访时间较长,这785例样本中仅有7例右删失,寿终样本778例,删失率为0.89%。由于生存时间存在结点,我们采用Efron偏似然函数。候选协变量共5个,分别是临床分期、术后是否进行规范化疗、年龄、病理分级、术后残余灶直径大小。我们引入9个哑变量直接作Cox回归,结果如下:29哑变量多因素Cox模型直接回归结果因素分层系数危险比率P值年龄I01.II0.069011.0710.5600III0.219911.2460.1076临床分期I01.II0.786932.1970.0001III0.808602.2450.0001化疗I01.II0.417811.5190.0001病理分级I01.II-0.024280.9760.8422III0.196521.2170.0783残余灶直径I01.II0.271261.3120.0144III0.276491.3180.039730哑变量多因素Cox模型直接回归可以看到,若取检验水平为0.1,这9个变量中有2个不显著,即年龄的第二层、分级的第二层,并且分级第二层的系数为负。单变量回归时,各个变量回归系数都是显著而且保序的,而多变量回归却出现这种不合理现象这很可能是由变量间的共线性导致。一般地,逐步回归可以解决共线性,但此时的协变量是几组特殊的哑变量,即需要一组哑变量来表示一个风险因素,我们不能简单地删除某个不显著的哑变量。31哑变量多因素Cox模型逐步回归结果下表是取置信水平为0.1,逐步回归得到的结果,变量的陈列顺序是它们被选入模型的先后顺序。因素分层系数危险比率P值临床分期I01.II0.962582.6180.0001III0.988772.6880.0001化疗I01.II0.429511.5360.0001病理分级I01.III0.225511.2530.0021年龄I01.III0.158831.1720.073632哑变量多因素Cox模型逐步回归结果分级和年龄都只入选了一层,我们无法解释这个结果的实际临床意义。这使得我们需要考虑其它方法来解决这个问题解决这个问题一个很自然的想法是用有实际意义的数值来标记风险因素的不同水平。两步回归法就是基于这种想法发展而来。33提纲背景介绍资料特征处理属性数据的两步回归方法分类树回归方法方法比较总结34两步回归法两步回归法总共分两步。首先,对单个协变量各分层作Cox回归,用得到的系数标记各层,把这些系数作为该变量不同水平下的取值,这些系数的大小是对风险的一种衡量。例如,年龄各层的回归系数是(00.369060.69352),若某样本属于第二层,就令该样本年龄变量取值为0.36906。在所有协变量标记完成后,就可以把它们当做作连续型变量做多变量Cox回归。35两步回归法变量回归系数P值临床分期0.734100.0001化疗0.841480.0001年龄0.321230.0992病理分级0.377590.0533残余灶直径0.315090.0162•首先,用前面表中单变量Cox回归系数标记5个协变量•然后,把它们当做连续变量进行多变量Cox回归•结果如下:36两步回归法若取水平为0.1,各个变量都是显著的。结合量表的结果可以得到两步回归法的最终模型。从下表的结果可以看到,两步回归法得到的结果是合理的。我们能够直观地看出各协变量对生存率影响大小。影响最大的风险因素是临床分期,其次是术后化疗是否规范,这与前面逐步回归最先选入模型的两个协变量一致。后面我们将这种方法与其他方法做进一步比较。37最终Cox模型回归系数协变量变量回归系数各层回归系数总回归系数临床分期0.73410001.013420.7439521.157980.850073化疗0.84148000.499090.419974年龄0.32123000.369060.1185530.693520.222779病理分级0.37759000.407330.1538040.578990.218621残余灶直径0.31509000.77413