复习•Logistic回归模型是一种概率模型,适合于病例—对照研究、随访研究和横断面研究,且结果发生的变量取值必须是二分的或多项分类的。•可用影响结果变量发生的因素为自变量与因变量建立回归方程。复习•1.Logistic回归分析的数据结构•2.Logistic回归分析的模型•3.筛选变量的常用方法•4.Logistic回归分析的结果解释目的:作出以多个自变量(影响因素)估计应变量(结果变量)的logistic回归方程资料:1.应变量为反映某现象发生与不发生的二值变量;2.自变量(影响因素)可能是二值数据或等级资料或计量资料。分类变量要数量化用途:研究某种疾病或现象发生和多个危险因素(或保护因子)的数量关系1.Logistic回归模型的数据结构•设资料中有一个因变量Y、p个自变量X1,X2,…,Xp,对每个实验对象共有n次观测结果,可将原始资料列成表1形式。表1.Logistic回归模型的数据结构实验对象YX1X2X3….XP1Y1a11a12a13…a1p2Y2a21a22a23…a2p3Y3a31a32a33…a3p…………………nYnan1an2an3…anp其中:Y取值是二值或多项分类5表2.肺癌与危险因素的调查分析例号是否患病性别吸烟年龄地区101030020014613100351………………30100261是否患病:‘1’代表否,‘0’代表是性别:‘1’代表男,‘0’代表女吸烟:‘1’代表吸烟,‘0’代表不吸烟地区:‘1’代表农村,‘0’代表城市表3.配对资料(1:1)对子号病例对照X1X2X3X1X2X3113010120311303012020…………………10222000注:X1蛋白质摄入量,取值:0,1,2,3X2不良饮食习惯,取值:0,1,2,3X3精神状况,取值:0,1,22、Logistic回归模型令:Y=1发病(阳性、死亡、治愈等)Y=0未发病(阴性、生存、未治愈等)将发病(Y=1)的概率记为P,它与自变量x1,x2,…,xp之间的Logistic回归模型为:)exp(1)exp(110110ppppXXXXPppXXPP110)]1/(ln[定义:为Logistic变换,即:)]1/(ln[)(PPPLogitppXXPLogit110)(2.Logistic回归的模型3.筛选变量的常用方法•向前法(forwardselection)•后退法(backwardselection)•逐步回归法(stepwiseselection)VariablesintheEquation.143.0479.3881.0021.1541.0531.265-6.0431.9669.4481.002.0023.0211.3754.8301.02820.5051.386303.296.149.0547.7201.0051.1611.0451.289-7.4032.5228.6151.003.001X3ConstantStep1aX2X3ConstantStep2bBS.E.WalddfSig.Exp(B)LowerUpper95.0%C.I.forEXP(B)Variable(s)enteredonstep1:X3.a.Variable(s)enteredonstep2:X2.b.4.Logistic回归的结果解释4.Logistic回归的结果解释•设第i个因素的回归系数为bi,表示当有多个自变量存在时,其它自变量固定不变的情况下,自变量Xi每增加一个单位时,所得到的优势比的自然对数。也就是其它自变量固定不变的情况下,自变量Xi每增加一个单位时,影响因变量Y=0发生的倍数设第i个因素的回归系数为bi•当bi0时,对应的优势比ORi=exp(bi)1,说明该因素是危险因素;•当bi0时,对应的优势比ORi=exp(bi)1,说明该因素是保护因素例4、某北方城市研究喉癌发病的危险因素,用1:2配对的病例对照研究方法进行了调查。现选取了6个可能的危险因素并节录25对数据,各因素的赋值说明见表9,资料表(略),试作条件logistic逐步回归分析。表9.喉癌的危险因素与赋值说明因素变量名赋值说明咽炎X1无=1,偶尔=2,经常=3吸烟量(支/日)X20=1,14=2,59=3,1020=4,20=5声嘶史X3无=1,偶尔=2,经常=3摄食新鲜蔬菜X4少=1,经常=2,每天=3摄食水果X5很少=1,少量=2,经常=3癌症家族史X6无=0,有=1是否患喉癌Y病例=1,对照=0)15.0,10.0(出入宋曼殳公共卫生学院流行病与卫生统计学系songms@ccmu.edu.cn医学科研中的统计学方法•对于急性病的疗效评价,一般可以用治愈率、病死率等指标•但对于肿瘤、结核及其他慢性疾病,其预后不是短期内所能明确判断的,因此上述指标不太适用。•临床试验研究通常观察各个对象在各个时点上事件的发生情况(结局),以评价临床疗效。•在比较不同疗法的疗效时,不仅要考虑是否有效,还要考虑从试验开始到产生疗效的时间。•例:假定用甲、乙两种药物治疗某病,其治愈率均为80%,能否说两种疗效一致?•还应考虑时间效应问题,如果甲药平均3天治愈80%,而乙药平均7天治愈80%,则可以认为甲药比乙药的疗效好。•评价两种治疗方法的好坏,不能简单地比较治愈率和有效率,还要看出现结局的时间长短,因此,不能用t检验和卡方检验等不包含时间因素的方法,需要学习新的方法。•可以对疾病进行长期随访,统计一定年限后的生存和死亡情况以判断疗效。这就需要用生存分析(survivalanalysis)。18主要内容•基本概念•生存率估计与生存曲线•生存曲线的log-rank检验生存时间:是任何两个有联系事件之间的时间间隔,终点(失效)事件与起始事件之间的时间间隔,常用符号t表示。广义的生存时间定义为从某种起始事件到终点事件所经历的时间跨度。狭义的生存时间常指患某种疾病的病人从发病到死亡所经历的时间跨度;一、基本概念21一、基本概念生存时间(survivaltime):•疾病治疗的预后情况,一方面看结局好坏,另一方面还要看出现这种结局所经历的时间长短,所经历的时间称为生存时间一、基本概念•起始事件是反映生存时间起始特征的事件,如疾病确诊、某种疾病治疗开始、接触毒物等,研究设计时需要明确规定。•终点事件指反映结局特征的事件,又称为死亡事件、失效事件。如肾移植病人因肾功能丧失引起的死亡,急性白血病患者的复发,癌症患者的死亡等。研究设计时也需事先明确规定。生存时间举例起始事件终点事件治疗开始(服药)痊愈疾病确诊死亡手术切除死亡接触毒物出现反应化疗缓解缓解复发•生存分析(survivalanalysis)是将事件的结局(终点事件)和出现这一结局所经历的时间结合起来分析的一种统计分析方法。能分析完全数据的资料,同时也可以分析包含不完全数据的资料•生存分析与其它多因素分析的主要区别就是生存分析考虑了每个观测出现某一结局的时间长短。一、基本概念25生存分析(survivalanalysis):•不完全数据提供了部分信息。必须用专门的方法进行统计处理,这类统计方法起源于对寿命资料的统计分析,故称为生存分析。26生存分析(survivalanalysis):•研究生存时间的分布规律以及生存时间和相关因素之间关系的一种统计分析方法。•主要用于反映慢性病的指标•能较好地处理不够完整的随访资料27一、基本概念临床试验及其随访资料的特点•一部分研究对象可观察到死亡,从而得到准确的生存时间,所提供的信息是完全的,称为完全数据(completedata);•另一部分病人由于失访、意外事故、或到观察结束时仍存活等原因,无法知道确切的生存时间,它提供了不完全的信息,称为不完全数据(截尾数据、删失数据censoreddata)。生存时间的类型•完全数据(completedata):从起点至死亡(死于所研究疾病)所经历的时间。•截尾数据(删失数据,censoreddata):从起点至截尾点所经历的时间。•截尾原因:失访、死于其它疾病、观察结束时病人尚存活等。资料收集•生存时间一般是通过随访收集。•随访内容确定开始随访的时间(观察起点)如入院时间、确诊时间、开始治疗时间等。•例如:乳腺癌:乳腺切除的第一天,或出院日白血病:出院日,或开始治疗的日期。•确诊时间、手术时间、开始治疗时间、出院时间等相对较确切,常作为随访开始时间。随访的结局可能有以下几种:①死亡,即处理失效,终止时间即为“死亡”时间②生存但中途失访,包括拒绝访问、失去联系或中途退出试验,其终止时间以最后一次访问时间为准③死于其他与研究疾病无关的原因,如肺癌患者死于心肌梗死、自杀或车祸等,其终止随访的时间为死亡时间④随访截止,随访研究结束时观察对象仍存活,终止随访时间为研究结束时间影响生存时间的有关因素(协变量)•如患者的年龄、病程、术前健康状况、经济、文化、职业等•以便分析这些因素对生存时间的影响随访方式•全体观察对象同时接受处理措施,观察到最后一例出现结果,或者事先规定的随访截止时间0始点终点ta时间图中“×”表示“死亡”,“o”表示失访、退出研究或死于与本研究无关的其它原因随访方式•全体观察对象在不同时间接受治疗处理,完成一定数量随访病例后决定随访截止时间,或按事先规定的时间停止随访•这是临床试验最常见的形式图中“×”表示“死亡”,“o”表示失访、退出研究或死于与本研究无关的其它原因0始点终点tb时间ta+tb+tc+td35截尾数据的处理•因为不太好处理截尾数据,很多临床研究工作者常常将失访或中止等原因造成的截尾数据在分析时抛弃。•截尾数据提供的信息虽然是不完全的,但也很有价值,不应随便删掉它。36例:某研究者追踪100名病人经治疗后的生存情况,第1年有30人死亡,第3年时,有20人死亡,有40人失访(退出观察),10人存活。试估计其生存率。表4是否去掉截尾数据不同情况去掉截尾数据不去掉截尾数据n=60n=100生存数生存率生存数生存率1年3030/60=50%7070/100=70%3年1010/60=13%10?37随访记录表随访资料记录的项目通常包括:处理组别、开始观察日期、终止观察日期、结局、生存时间等。表4.9例病人的随访记录病号性别开始日期终止日期结局处理1男08/31/8210/31/89死亡手术2男08/31/8208/28/86失访非手术3女10/30/8303/31/90死亡非手术4男12/01/8410/01/87死亡非手术5女01/01/8410/01/88死亡手术6男07/01/8510/01/88死亡手术7男08/31/8712/30/90生存手术8女07/11/8612/17/90死亡手术9男08/31/8610/01/90死亡非手术表5.9例病人随访记录的数据库nsextimeoutcometreat117112140030610413105041161311713018041191410表6.膀胱肿瘤患者生存资料变量赋值表变量(1)因素(2)分组及赋值(3)age年龄岁grade肿瘤分级I级:1;II级:2;III级:3size肿瘤大小(cm)<3.0:0;≥3.0:1relapse是否复发未复发:0;复发:1start手术日期月/日/年end终止观察日期月/日/年t生存时间月status生存结局删失:0;死亡:1表7.6例膀胱肿瘤患者生存资料原始记录表id(1)age(2)grade(3)size(4)relapse(5)start(6)end(7)t(8)status(9)结局(10)16210002/10/199612/30/2000590存活26410003/05/199608/12/2000541死亡35220104/09/199612/03/1999440失访46010006/06/199610/27/2000530死于其它55921007/20/19