1Logistic回归分析LogisticRegressionAnalysis翟景花公共卫生学院2复习:线性回归分析对反应变量的要求反应变量y连续型服从正态分布舒张压年龄胆固醇含量自变量x数值型与Y呈线性关系例如:3医学研究中经常遇到分类型变量,例如:•二分类变量:o生存与死亡o有病与无病o有效与无效o感染与未感染•多分类有序变量:o疾病程度(轻度、中度、重度)o治愈效果(治愈、显效、好转、无效)•多分类无序变量:o手术方法(A、B、C)o就诊医院(甲、乙、丙、丁)4医学研究者经常关心的问题诸如:•吸烟是否影响肺癌的发病?•年龄和糖尿病的发病有无关系?•哪些因素导致了手术后有的人感染,而有的人不感染?•哪些因素导致了某种治疗方法出现治愈、显效、好转、无效等不同的效果?是回归分析问题吗?5这些应该是属于回归分析问题!•但是这种回归分析问题不能借助于线性回归模型,因为反应变量的假设条件遭到破坏•能否找到一种其他形式的模型y=f(x)来描述分类变量y和x之间依存关系呢?NO•因为从数学角度看,使得x取任意值而y仅取1和0两个值的函数不存在。6“转换一个角度来解决这个问题”y=f(x)p=p(y=1|x)=p(x)不能直接分析变量y与x的关系转换为分析y取某个值的概率变量p与x的关系y=1,0x任意0≤p≤1,x任意存在Logistic回归模型7主要内容•Logistic回归模型的基本概念•Logistic回归的参数估计及假设检验•Logistic回归分析的分类•Logistic回归的应用8第一节Logistic回归模型的基本概念•一、Logistic回归的实例表20-1急性心肌梗死(AMI)患者的抢救危险因素资料(n=200)P=0(在医院抢救成功)P=1(未能抢救成功而死亡)X1X2X3NX1X2X3N00035000400134001100101701040111901115100171006101610191106110611161116X1表示休克,X2表示心衰,X3表示时间超过12小时。9二、Logistic回归模型的基本结构321XXXPAMI抢救后死亡率与影响因素关系的回归模型10xp0.5-α/βp=p(x)变量p与x的关系P值大于1或小于0变量变换10•1970年,Cox引入了Logit变换•请注意其右侧仍然可以写成线性的形式!•大量实践证明,LogitP往往和自变量呈线性关系。•已经成为了分类变量的标准建模方法。XPPPLogit0)1ln()()(1110XXXePeeP或Logistic函数Logistic回归模型11多变量的Logistic回归模型)(111111ppppppXXXXXXePeeP或12Logistic回归概念•是分类数据统计分析的一种重要方法,研究多水平(包括2个水平)的应变量与其影响因子间关系的回归分析。即用于分析某类事件发生概率与自变量之间依存关系的回归,即Logistic回归。•Logistic这个名称来源于它所采用的Logit变换,和英文单词Logistic的含义(后勤的)一点关系都没有,与逻辑就更不相干了。•自从传入国内以来,Logistic回归就一直采用英文写法,从没有使用过译名。13第二节Logistic回归的参数估计及假设检验•引发的新特点–由于反应变量为二分类,所以误差项应当服从二项分布,而不是正态分布。•误差项的分布规律应当和所预测的反应变量相同–由于上述原因,最小二乘法也不再适用,–最大似然法的优越性和重要性一举凸现出来。14•最大似然法(maximumlikelihood,ML)的基本思想是先建立似然函数或对数似然函数,求似然函数或对数似然函数达到极大时参数的取值,称为参数的最大似然估计值。•计算方法来自于概率分布。•似然(L,likelihood):某种结局组合出现的概率,由于总体率不同L也不同,所以又被称为似然函数。一、Logistic回归的参数估计及意义15VariablesintheEquation1.110.34810.1421.0013.0341.5326.007.703.3294.5591.0332.0191.0593.850.975.3448.0361.0052.6511.3515.203-2.086.35135.2631.000.124X1X2X3ConstantStep1aBS.E.WalddfSig.Exp(B)LowerUpper95.0%C.I.forEXP(B)Variable(s)enteredonstep1:X1,X2,X3.a.表20-2例20-1的参数估计与wald检验结果变量名ˆSE(ˆ)Wald值P值)ˆ(expOR常数项-2.0860.35135.2630.0000.124X11.1100.34810.1420.0013.034X20.7030.3294.5590.0332.019X30.9750.3448.0360.0052.65116321975.0703.0110.1086.2)1ln(XXXpp常数项表示在自变量取值均为0时,死亡优势(比数)的自然对数值。exp()=0.124是无休克、无心衰和抢救及时组死亡的优势。当死亡率很低时,该值近似等于自然死亡率。ˆˆˆˆ0ˆ表20-2例20-1的参数估计与wald检验结果变量名ˆSE(ˆ)Wald值P值)ˆ(expOR常数项-2.0860.35135.2630.0000.124X11.1100.34810.1420.0013.034X20.7030.3294.5590.0332.019X30.9750.3448.0360.0052.65117β为Logistic回归系数,表示其它自变量取值固定时,该自变量增加一个单位引起优势比自然对数的变化量。β=lnOR,OR=eβ或OR=exp(β)OR表示暴露组的疾病危险是非暴露组的多少倍。OR1为危险因素;OR1为保护因素。ˆˆˆˆ表20-2例20-1的参数估计与wald检验结果变量名ˆSE(ˆ)Wald值P值)ˆ(expOR常数项-2.0860.35135.2630.0000.124X11.1100.34810.1420.0013.034X20.7030.3294.5590.0332.019X30.9750.3448.0360.0052.651321975.0703.0110.1086.2)1ln(XXXpp18logistic回归模型系数β的意义解释:从e=OR≈RR,说明当发病率很低时,e近似地表示了相对危险度,即暴露下的发病率与非暴露下的发病率之比。例如,在例20-1中得到1=1.110,因此,RR≈OR=e=3.034,表明心梗发生后抢救前有休克的死亡危险是没有休克的3.034倍。19一般地,logistic回归模型系数的意义是:2)如果X是连续变量,则OR近似表示在X相邻两个单位上的相对危险度。1)如果X=1、0,则OR近似表示在X=1条件下的发病率与X=0条件下发病率之比。(见例20-1)3)如果X是分类变量,则要将X的哑变量放入模型,则OR表示两个类之间的相对危险度。20二、假设检验和回归系数的区间估计1.似然比检验(likelihoodratiotest)⑴检验整个模型是否有统计学意义,即检验所有的偏回归系数是否均为0。检验假设为–H0:β1=…=βm=0–H1:β1,…,βm不全为0统计量–G=-[2lnL(-1,…,-m)]--2lnL’–其中L是不包含m个自变量的模型的似然函数。–L’是包含所有自变量的模型似然函数,G反映的是后一个模型较前一个模型拟和优度提高的程度。–大样本,H0成立的条件下,G服从自由度为m的卡方检验。21•⑵分别检验各个自变量是否有意义,即单个总体回归系数是否为零。检验假设为–H0:βi=0–H1:βi≠0统计量–G=-2lnL-[-2lnL’(i)]–其中L是扣除Xi的模型似然函数,L’是包含Xi的模型的似然函数。–大样本,H0成立的条件下,G服从自由度为1的卡方检验。222.Wald检验•常用于回归系数的假设检验,检验假设为–H0:βi=0–H1:βi≠0统计量1422.10)3485.01098.1())ˆ(ˆ(212=统计量为的回归系数的分布。的大样本时,服从WaldXSE该检验是通过比较β值来进行的,它是基于β值服从正态分布的假设。23VariablesintheEquation1.110.34810.1421.0013.0341.5326.007.703.3294.5591.0332.0191.0593.850.975.3448.0361.0052.6511.3515.203-2.086.35135.2631.000.124X1X2X3ConstantStep1aBS.E.WalddfSig.Exp(B)LowerUpper95.0%C.I.forEXP(B)Variable(s)enteredonstep1:X1,X2,X3.a.3.优势比的区间估计总体回归系数的的(1-α)置信区间为)ˆ(ˆSEza24•按数据的类型:o非条件logistic回归分析(成组数据)o条件logistic回归分析(配对病例-对照数据)•按反应变量取值个数:o二值logistic回归分析o多值logistic回归分析•按自变量个数:o一元logistic回归分析对应四格表资料卡方检验o多元logistic回归分析第三节Logistic回归分析的分类★Logistic回归分析25条件logistic回归•研究中有N个配比组,每组中n个病例配m个对照者。这时,各个研究对象发生某事件的概率即为条件概率。•适用于–配比设计的病例-对照研究–精细分层设计的队列研究26条件Logistic回归•1:1条件Logistic回归及模型在1:1配对设计的病例-对照研究中,若y=1表示得病,y=0表示未得病;A表示病例,B为对照,一对病例和对照中只有1人得病的条件下恰好是A得病的概率为:27)](...)([)(11111)11(11)1(PBPApBABAXXXXAxxAeYPpeyp人得病一对中只有个自变量时:当有一对中只有一人得病条件Logistic回归模型28第四节Logistic回归的应用•筛选危险因素:如例20-1•校正混杂因素•预测与判别29筛选危险因素•病因学研究–病例-对照研究–队列研究•影响因素的研究–横断面调查30校正混杂因素•一般采用Mantel-Haenszel分层分析•分层较细或存在格子零频数时,M-H法无法采用。•logistic回归分析可综合校正多个混杂因素的影响31预测与判别•logistic回归模型作为一种概率模型,非条件logistic回归方程可计算相应的概率预测值,对个体所属类别作出概率性的判别。但由于条件logistic回归模型不能估计常数项,不能用于预测。32注意问题•个体间的独立性•足够的样本量•模型评价•标准化回归系数33注意问题•筛选自变量时,临床和流行病学意义和生物学机制在模型结果解释中占更重要的地位。•自变量可以是无序分类变量、有序分类变量和数值变量。无序分类变量常用多个0-1假(哑)变量来代替,使结果更容易解释。数值变量可以转换成等级变量,使参数意义更明确。•大多数情况下,不需对常数项做解释和假设检验。条件Logistic回归模型无常数项,不能用于预测。34Logistic回归分析和线性回归分析的异同点•相同点:o都可以利用模型来筛选危险因子;o都可以校正混杂因子的影响;o都可以用来做预测。•不同点:o前者对因变量无分布要求,后者要求因变量是正态分布变量;o前者要求因变量必须是分类型变量,后者要求因变量必须是连续型数值变量。o前者不要求自变量和因变量呈线性关系,