1第十六章logistic回归分析2本章的内容第一节Logistic回归*基本概念、参数估计、假设检验、变量筛选、模型评价第二节条件Logistic回归第三节Logistic回归的应用和注意问题**为重点介绍3问题的提出医学科研中常研究多个影响因素(x)对结果变量(y为分类变量)的关系或作用.例冠心病与可能危险因素关系的研究冠心病结果(y)(x)危险因素结果记录有或无(x1)高血压史有或无(x2)高血脂史有或无(x3)吸烟有或无4多元线性回归方程多元线性回归的要求:Y变量的取值为连续性随机变量。Y与X间关系为线性关系。前例采用单因素统计方法?问题:1.常采用χ2检验,但如有混杂因素干扰,导致结果不一定正确。2.不能回答哪个因素(x)对(y)关系更密切或作用更大?1122ˆmmyabxbxbx5单因素方法分类变量(y)与影响因素(x)关系冠心病危险因素(x1=高血压)(Y)有=1无=0合计有=160(a)40(b)100无=040(c)60(d)100例1按血脂水平分层分析血脂高水平血脂低水平冠心病有高血压无高血压有高血压无高血压有=1(40)(10)(10)(40)无=0(30)(20)(20)(30)血压与血脂何者对冠心病作用更大?6例2两医院乳腺癌术后5年生存率比较比较组生存数死亡数合计生存率%甲医院48527075564.2乙医院25712638367.1Χ2=0.167p=0.683不考虑病情和其他因素,单因素分析结论:两生存率差别无统计意义7腋下淋巴甲医院=1乙医院=0结转移病例生存生存率%病例生存生存率%无=0453577.730021571.6有=171045063.4834250.6合计75548564.238325767.1多因素分析作用:1.可校正混杂因素,正确评价结果的效应.2.回答哪个因素对事件(疾病)作用更大?考虑病情因素,甲医院生存率高于乙医院.两医院乳腺癌术后5年生存率比较8第一节logistic回归一、基本概念logistic回归(logisticregression)是研究观察结果(y)为分类变量与多个影响因素(x)之间回归关系的多变量统计方法。根据因变量(y)取值不同,Logistic回归又有两分类BinaryLogistic回归和多分类MultinomialLogistic回归方法.9两分类的logistic回归模型变量的取值(y,x)应变量(y)为两分类:自变量(Xi)收集可能与y变量有关因素,称为危险因素(riskfactor)或暴露因素,可为连续变量、等级变量、分类变量。可有m个自变量X1,X2,…Xm。1(0(Y事件发生发病、有效、死亡等)事件未发生未发病、无效、存活等)10logistic回归模型以事件发生(y=1)的概率(p)做应变量,建立p和自变量Xi的函数关系,即概率p与自变量(x)的回归关系是logistic回归模型。P(概率)的取值波动0~1范围。(1)(),1,2....iiypyFxim10y或概率函数表达式111.logistic回归模型方程表达形式Logistic回归概率模型方程Y与一个自变量(x)的logistic回归方程:p(y=1/x):表示在某暴露因素(x)状态下,事件发生(y=1)的概率(P)模型。xxeexyP001)/1()](exp[11)/1(0xxyp概率回归方程,二者等价12logistic回归概率模型方程001(1/1)1xxepPyxe0011(0/1)111xxeqyxpe000(1/0)1epPyxe0000(0/0)111eqyxpe某暴露因素为有和无(X=1和0)13logistic回归模型方程的线性表达对logistic回归概率(p)模型做logit变换:11log()ln()1pitpp110)(logxpity截距(常数)回归系数Y~(-∞至+∞)线性表达形式:14在有多个危险因素(Xi)时logistic回归模型方程线性表达:mmXXXPP22110=1lnlogit(p)0112(....)1(1/,)1kkkkxxpyxxxe或概率模型公式16-2公式16-1152.模型中参数的意义110=1lnXPPΒ0(常数项):暴露因素Xi=0时,个体出现事件(发病)概率与不出现事件(发病)的概率之比的自然对数值(基线值)。0=)0/1(1)0/1(lnxyPxyP16方程中回归系数β的含义β的含义:某暴露因素存在(x=1)与不存在(x=0)相比,个体发生结果事件(如y=1)优势比的对数值。优势比:是流行病学上衡量暴露因素(X)与疾病(Y)发生是否有关联及关联程度大小的指标.17优势比(oddsratio,OR)暴露因素优势(odds1)有暴露因素的个体中,个体出现某事件(y=1)的概率P(y=1)与个体无事件(Y=0)的概率(1-P)的比值,称某暴露因素存在发生某事件的优势。1(1/1)/()(0/1)/()pyxaacoddspyxcac1/1/1xoddsx个体出现事件(疾病)的概率个体不出现事件的概率18吸烟与肺癌关系的病例对照研究结果暴露因素(x)(y)吸烟=1不吸烟=0合计肺癌组(y=1)688(a)21(b)709(a+b)对照组(y=0)350(c)359(d)709(c+d)合计1038(a+c)380(b+d)14181(1/1)/688/10381.965(0/1)/350/1038pyxaacoddspyxcac暴露因素(吸烟的优势)在两组的优势(odds1)同理:非暴露因素的odds0=21/359=0.058519优势比(oddsratio,OR)定义:暴露因素存在与暴露不存在出现事件(疾病)的优势(odds1)/(odds0)之比,称为事件暴露因素的优势比(oddsratio,OR)公式:/abadORcdbc6.3321350359688cbdaOR例:20优势比(oddsratio,OR)1(1,1)/(0,1)/pyxaacoddspyxcac111000/(1)//(1)/oddsppacadORoddsppbdbc0(1,0)/(0,0)/pyxbbdoddspyxdbd21OR值反映暴露因素与事件(疾病)关系OR意义:OR值1,表示有暴露因素的个体出现事件(患某病)的优势大于无暴露因素者,或优势(危险性)增加。OR值1,表示有暴露因素的人出现事件(患疾病)的优势低于无暴露因素者,或危险性减少。OR值=1,意味无论暴露出现与否,与事件(疾病)无关系.22Logistic方程的回归系数β含义1100/(1)lnln/(1)PPORPPeOR1001101loglog()()itPitPx暴露因素存在(x=1)与不存在(x=0)的个体相比,发生某事件(y=1)优势比的对数值。或x每增加一个单位发生Y事件的对数优势比.X=1X=023含义为:在其他变量(x)固定后,某X=1与x=0相比或x每增加一个单位发生Y事件优势比的对数值。回归系数β与ORX与Y关联结论β=0,OR=1无关β>0,OR>1有关,危险因素β<0,OR<1有关,保护因子OR值的大小反映暴露因素与事件发生关系的程度。多个自变量(x)回归模型的概念iii011logit(p)ln=1mmPXXP24二、logistic回归模型的参数估计1.模型中的回归系数(βi)估计用最大似然函数(maximumlikelihoodestimate,MLE)估计β,公式16-7,由统计软件包完成。mmXXXPP22110=1ln,,(16-7)niniYiYiiiiQPlL111niniYiYiiiiQPlL111252.优势比(OR)及可信区间的估计如X=1,0两分类,则OR的1-α可信区间估计公式为:ORe/2()jbjbuSejbS为回归系数的标准误(公式16-11)回归系数与OR的关系为:26例:讲义表16-1资料研究吸烟、饮酒与食管癌关系的病例-对照设计的资料(886例),试作logistic回归分析。变量的赋值10Y病例组:食管癌患者对照组:非食管癌011不吸烟吸烟X012不饮酒饮酒X01122ln=1PXXP建立Logistic回归模型为:27吸烟、饮酒与食管癌关系的病例-对照资料变量赋值和例数暴露因素(x)(y)例数吸烟饮酒病例对照0063136016310710445711265151暴露因素无=0,有=128经logistic回归计算后得b0=-0.9099,b1=0.8856,b2=0.5261,ORe4244.28856.0ORe6923.15261.0OReLogistic回归模型为:控制饮酒因素后,吸烟与不吸烟相比患食管癌的优势比为2.4倍ln()0.90990.885610.526121pxxp29OR的可信区间估计11/2exp()exp(0.88561.960.15)(1.81,3.25)bbuSX1变量(吸烟与不吸烟)OR的95%可信区间:2/22exp()exp(0.52611.960.1572)(1.24,2.30)bbuSX2变量(饮酒与不饮酒)OR的95%可信区间:30三、Logistic回归模型的假设检验1.检验模型中自变量的βj是否对Y有作用。检验方法:1)似然比检验(likelihoodratiotest)2)Wald检验3)计分检验(scoretest)0:210mH1:12)0jHjm各(,,,不全为mmXXXPP22110=1ln31假设检验的统计量112022[ln(,)ln()]2[579.711(597.436)]35.45GLXXLX102(lnln)GLL16-12G统计量>χ2,p<α,认为某变量对回归有统计意义。吸烟(X1)和饮酒(x2)与食管癌关系例子20.05,135.453.84,0.05GP消除饮酒的影响后,β1≠0,吸烟与食管癌有关系。1.似然比检验(likelihoodratiotest)322.Wald检验(单个变量检验)检验假设:Wald检验统计量0:0jH1:0jH22)(jbjSb公式16-14当认为某x对y有关系.22,1vp3.计分检验(scoretest)33例表16-1吸烟、饮酒与食管癌资料(SAS软件计算)1.对建立的整个模型做检验。TestingGlobalNullHypothesis:BETA=0TestChi-SquareDFPr似然比68.54572.0001计分检验67.07122.0001Wald检验64.27842.0001ln()0.90990.885610.526121pxxp34例表16-1资料,对各x的β做检验(wald检验)参数βWaldχ2Pr常数-0.90990.135844.8699.0001吸烟0.88560.150034.8625.0001饮酒0.52610.157211.2069.0008OddsRatioEstimatesPoint95%WaldEffectEstimateConfidenceLimits吸烟x12.4241.8073.253饮酒x21.6921.2442.303jbsP值35四、Logistic回归的变量筛选目的:将回归系数有统计意义的自变量选入模型中