生存分析(2)•由于生存曲线只是对样本生存过程的统计描述•样本生存率或生存曲线不同也可能是抽样误差所致,•在生存分析中一个重要的问题是进一步对总体的生存曲线进行假设检验log-rank检验•属于非参数方法•该法并不指定生存时间服从某种特定的分布•所比较的是整个生存时间的分布,而不是仅仅比较某个特定时间点的生存率•例23-3就例23-1数据,比较甲乙两疗法组脑瘤患者的生存率有无差别?•两种治疗方式的脑瘤患者生存曲线相同•两种治疗方式的脑瘤患者生存曲线不同0.05序号i(1)时间(周)it(2)甲疗法组乙疗法组合计1in(3)1id(4)1iT(5)iV1(6)2in(7)2id(8)2iT(9)iV2(10)iN(11)iD(12)111100.55000.2475910.45000.2475201231101.15800.4604820.84210.4604192351110.64710.2284600.35290.2284171471000.62500.2344610.37500.2344161510900.64290.2296510.35710.2296141613921.38460.3905400.61540.3905132715701.27270.4165420.72730.4165112823711.55560.3025210.44440.302592930611.71430.2041110.28570.2041721038411.00000.0000000.00000.0000411142322.00000.0000000.00000.000032合计——812.55012.7139—94.44992.7139—17•两组在不同时点的期初观察例数列于第3、第7列,其合计列于第11列•不同时点两组的死亡人数,分列于第4、第8列,其合计列于第12列•注意到不同时点期初观察例数等于上一时点期初观察例数减去上一时点的死亡数与删失数•之后按下式计算各组期望死亡人数并分列于表中第5、第9列•由于假设成立时,两组的生存分布相同,故可把两组的数据合并•计算合并的死亡概率,以此计算相应的期望死亡人数,故将两组的完全生存时间混合排序列在表23-5第2列•相同生存时间只列1次•k=1,2•表示在每个时点,当两组的死亡率相等且均为该时点的总死亡数除以该时点的总观察数时,按照各组期初例数计算的期望死亡人数ikikiiDTnN•分别将两组各时点期望死亡人数相加列在第5、第9列合计处,而两组实际总死亡数为第4、第8列合计•如果两组各时点生存率都相等,那么两组总的期望死亡数和总的实际死亡数相差不大2221()kkkkATT1k30.64499.4)4499.49(5501.12)5501.128(222211注意事项•(1)以上介绍的是log-rank检验的近似法,计算简便,但其结果较精确法(一般统计软件中输出精确法计算结果)保守。log-rank检验精确法统计量计算公式为:•wi为权重,对log-rank检验,wi=1,即该检验给任意时间点处两组间死亡的差别相同的权重。当比较的两总体生存曲线呈比例时,检验效能最大;wi=ni则对应Gehan检验(1965)或Wilcoxon检验,该检验给两组间死亡的早期差别更大的权重kkikiiVTdwχ22)(•(2)对于大样本频数表形式的生存曲线比较,基本方法与上述相同。•另外,该法很容易推广到多个组的比较,在此不赘述。•需要强调的是,生存曲线的比较也和前面均数、率的比较一样,要求组间具有可比性,最好是按照比较因素进行随机化分配之后再比较。•如果是未经随机化分配的观察对比资料,要考虑是否有混杂因素干扰,若存在混杂因素,可进行分层分析或采用多因素分析方法(见本章第四节)。•(3)当假设检验发现组间生存曲线有差别时,可通过中位生存期、相对危险度RR(relativerisk)等指标评价其差别。•相对危险度是两个对比组相对死亡比的比值,而相对死亡比是实际死亡数与期望死亡数之比,于是,第i组相对于第j组的相对危险度为://iijjATRRAT9/4.44993.178/12.5501RR•(4)log-rank检验用于整条生存曲线的比较,若比较两组某时间点处的生存率,则按下式计算:•如比较多个时间点处生存率,检验水准可取Bonferroni校正,以保证总的I型错误概率不超过122212()()[()][()]StStuSEStSESt趋势检验•多组生存率比较时,若分组变量是等级变量,如肿瘤分期为Ⅰ期、Ⅱ期、Ⅲ期,或连续变量等级化分组,如年龄(岁)<30、30~、40~、≥50,在log-rank检验组间生存率差别有统计学意义后,还可作趋势检验(trendtest),分析危险率是否有随分组等级变化而变化的趋势。即是否有肿瘤分期越高,预后越差,或年龄越大(或越小),预后越差的情况。•(1)按某种因素影响大小将病人分组可采用临床上该因素的自然分组,如疾病的分期等,组数一般取奇数,如3组或5组。•(2)计算每组的实际死亡数与期望死亡数。•(3)进行趋势检验。)]/()[()]([2222TSTTSTASχ例23-4试就表23-6资料,分析多发性骨髓瘤患者血尿素氮与预后的关系。表23-6多发性骨髓瘤患者血尿素氮与预后的关系血尿素氮(mg/100ml)病例数实际死亡数A期望死亡数T相对死亡比(TA/)(1)(2)(3)(4)(5)0~3911379122.060.6540~79928174.601.09≥80535316.343.24log-rank检验99.9734.16)34.1653(60.74)60.7481(06.122)06.12279(22222001.0P,可认为三组间生存率差别有统计学意义,进一步进行趋势检验。0H:)()()(321tStStS三组总体生存率无随血尿素氮变化的趋势1H:)()()(321tStStS即血尿素氮越低,生存率越高05.0表23-7趋势检验2计算表血尿素氮(mg/100ml)记分SAT)(TASSTTS2(1)(2)(3)(4)(5)(6)(7)0~39179122.06-43.06122.06122.0640~7928174.6012.80149.20298.40≥8035316.34109.9849.02147.06合计—213213.0079.72320.28567.52代入式(23-14)96.73]00.213/28.320[52.56772.792222,查2界值表得,005.0P,可认为血尿素氮越低,生存率越高,预后越好。Cox比例风险回归模型•log-rank检验属于生存时间比较的单因素分析方法,应该注意的是生存分析中的单因素比较在实验设计方面和均数、率的比较一样,要求对比组之间在非处理因素方面具有可比性。•一般而言,经过随机化分配处理的实验设计数据在处理组之间可比性较好•在实际工作中多见的观察对比资料其可比性通常不能满足•或者研究者关心的影响生存时间的因素不止一个,此时应采用适当的多因素分析方法•由于生存分析问题中反应变量比较特殊,是事件结局以及出现这一结局所经历的时间,普通的线性回归和logistic回归通常并不适用。•如果仅考虑生存时间作为反应变量进行线性回归,由于生存时间通常并不是正态分布,不满足线性回归的模型要求;•仅考虑某一时点事件结局作为反应变量进行logistic回归,生存时间长短的信息又未能充分利用;•生存时间资料中还有删失数据的问题,上述两种模型都不能够利用这种不完全数据提供的信息模型结构01122(,)()exp()mmhtXhtXXX0(|,)(,)limtPtTttTtXhtXt•式中x的表示研究者认为可能影响生存的诸因素,也称协变量(covariates),这些变量在随访期间的取值不随时间变化而变化,例如根据研究目的可以是随访对象的年龄、性别、接受的不同治疗方式等。•t表示生存时间,好h(t,x)称为具有协变量x的个体在t时刻的风险函数(hazardfunction),表示生存时间已达的个体在t时刻的瞬时风险率,•h0(t)称为基线风险函数(baselinehazardfunction),表示所有x都取值为0时的个体在t时刻的瞬时风险率或死亡率。•风险函数定义为具有协变量x的个体在活过t时刻以后在t到t+△t这一段很短时间内死亡概率与△t之比的极限值•参数为回归系数,其估计值可以从样本计算得出。•由于模型右侧的基线风险函数不要求服从特定分布形式,具有非参数的特点,而指数部分的协变量效应具有参数模型的形式,故Cox回归属于半参数模型(semi-parametricmodel)。(1,2,,)jjmjb参数的统计学意义如果假设危险因素jX在非暴露组取值为0,在暴露组取值为1,不难看出:00(,1)()exp()exp()(,0)()jjjjhtXhtRRhtXht上式中得到的暴露组与非暴露组的风险率之比正是流行病学中的相对危险度RR,于是可以看出Cox模型中回归系数的流行病学含义是0-1协变量X的相对危险度的自然对数。在生存分析中RR称风险比。如果jX为连续性变量,假设其取值为1k与k时的相对危险度为RR00(,1)()exp[(1)]exp()(,)()exp()jjjjjhtXkhtkRRhtXkhtk可以看出连续性协变量jX的回归系数表示jX每增加一个单位时其相对危险度的自然对数改变量。当回归系数大于0时,相应协变量值的增加将增大所研究事件发生的可能性;当回归系数小于0时,相应协变量值的增加将减小所研究事件发生的可能性;当回归系数等于0时,相应协变量与所研究事件的发生无关。模型假定(1)变量X的作用是使个体的风险函数由)(0th增至)exp()(10th;m个变量1X、2X、…、pX共同影响下的风险函数为01122(,)()exp()exp()exp()mmhtXhtXXX,使得个体风险函数由)(0th增至)(0th1122exp()exp()exp()mmXXX,故Cox模型是一种乘法模型。(2)任意两个个体风险函数之比,即相对危险度RR或风险比(riskratio)0112201122()exp()(,)(,)()exp()miiimijjjmjmhtXXXhtXRRhtXhtXXX111222exp[()()()]ijijmimjmXXXXXX(23-17)ji,nji,,2,1,该比值保持一个恒定的比例,与时间t无关,称为比例风险(proportionalhazards)假定,简称PH假定。从公式(23-17)中清楚地看出,无论随时间变化的基线风险函数0()ht是何形式,一旦从样本数据中求出回归系数,给定非0的X值时个体的相对危险度就是一定的,而各个协变量与时间无关的相对危险度正是多因素分析时最关注的问题。因而Cox模型巧妙地将非参数(0()ht部分)与参数(回归系数)的概念结合起来,这种灵活性使得它在生存分析的应用中备受青睐。参数估计与假设检验•模型中的回归系数可借助部分似然函数(partiallikelihoodfunction)用最大似然估计方法得到。•对回归模型的假设检验通常采用得分检验(scoretest)、wald检验和似然比检验(maximumlikelihoodratiotest),这些检验统计量均为卡方分布,自由度为模型中待检验的协变量个数。•得分检验常用于模型外新变量的入选,wald检验常用于模型中变量的剔除;似然比检验用于不同协变量模型的比较,既可用于变量入选也可用于变量剔除。•多因素分析时协变量的筛选策略与其他回归模型类似,通常可采用逐步法。例23-5从本章开始提到的346例手术后的大肠癌患者随访资料可以