第二十章Logistic回归分析第13章介绍的多重线性回归研究一个正态随机因变量Y与一组自变量X=(1X,2X,...,pX)的数量关系。其应用的前提条件是:Y与X呈线性关系;各个体观测资料彼此独立;各X处的Y呈正态分布;不同X处Y的方差相等。医学中还常研究二分类因变量(如患病与未患病、阳性与阴性等)或多分类因变量Y与一组自变量(1X,2X,...,pX)的关系,线性回归分析方法就无能为力。logistic回归分析则是处理该类资料的有效方法。本章将主要介绍二分类因变量的logistic回归分析,对于多分类因变量的logistic回归分析方法,请参考有关专著。第一节logistic回归模型一、logistic回归模型例20-1为探讨超重和肥胖对高血压病的影响,2004年,某研究者采用整群抽样的方法,对某地6个镇35周岁以上的常住人口进行高血压普查,同时收集了身高、体重等相关信息。体质指数25BMI判为“超重或肥胖”,25BMI为“正常”;收缩压≥140mmHg和(或)舒张压≥90mmHg判为“高血压”。整理后资料见表20-1。记样本患病率为P,是相应总体概率的估计值;自变量X为体质指数,赋值为1与0,1X表示“超重或肥胖”,0X表示“正常”;因变量Y为是否患病,1Y表示“患病”,0Y表示“未患病”。表20-1不同体质指数组高血压患病率体质指数(X)调查人数患病(Y=1)未患病(Y=0)患病率(%)正常(X=0)67921331546119.60超重或肥胖(X=1)41481656249239.92合计109402987795327.30该研究旨在建立高血压患病率与体质指数间的数量关系模型,估计超重与肥胖对高血压患病的风险。由于因变量Y为二分类变量,不满足线性回归分析条件,首先对进行数据变换:)ln()1ln()(logOddsit这个变换将取值在0-1间的值转换为值域在(-,)的)(logit值。现在,建立)(logit与X的线性模型。Xit0)(log(20-1a)或XOdds0)ln((20-1b)或X0)1ln((20-1c)变换式(20-1c),得)(01Xe(20-2)求解,得)()(001XXee(20-3)或)(011Xe(20-4)因为(20-3)和(20-4)式的右端在数学上属于logistic函数,所以式(20-1a)、(20-1b)、(20-3)与(20-4)均称为单个自变量的logistic回归模型。若自变量扩展到P个,X(1X,2X,...,pX),则多个自变量的logistic回归模型为ppXXit110)(log(20-5a)或ppXXOdds110)ln((20-5b)或ppXX110)1ln((20-5c)或)()(1101101PPPPXXXXee(20-5d)或)(11011PPXXe(20-5e)其中,0为常数项(截距),1、2、...P为回归系数。二、模型参数的意义类似线性回归,0表示模型中所有自变量均为0时,)(logit的值;回归系数j表示在控制其他自变量时,自变量jX变化一个单位所引起)(logit的改变量。根据模型式(20-1b),我们有优势的表达式)(0XeOdds例20-1中,“超重或肥胖”组(1X)患高血压的优势为)()1(100eeOdds,“正常”组(0X)患高血压的优势为00)0(0eeOdds,两组的优势比(oddsratio,OR)为eeeoddsoddsOR00)(01一般地,根据多个自变量的logistic回归模型,在其他变量取值不变的情形下,与变量jX的二个水平1C与2C(12CC)相对应的事件的优势比为)(12CCjeOR(20-6)当jX的二个水平相差1个单位时,jeORj,)ln(jOR=j。可见,logistic回归模型的参数j就是在其他变量取值不变的情形下,jX增加1个单位后与增加前相比较,事件的优势比。logistic回归分析广泛用于流行病学中前瞻性的队列研究、回顾性的病例-对照研究以及现况研究。研究中,当变量jX的回归系数0j时,jX增加1个单位后与增加前相比,事件的优势比1jOR,表明与jX相应的因素为危险因素;0j时,jX增加1个单位后与增加前相比,事件的优势比1jOR,表明与jX相应的因素为保护因素;0j,jX增加1个单位后与增加前相比,事件的优势比1jOR,表明与jX相应的因素对结果变量不起作用。第二节logistic回归的参数估计及假设检验一、logistic回归的参数估计logistic回归模型中的参数0、1、2、...P需要通过样本资料,按照一定方法进行估计,估计量记为0b、1b、2b、...pb。参数估计方法有多种,极大似然估计(Maximumlikelihoodestimate,MLE)最为常用,其基本思想是选择能有最大概率获得当前样本的参数值作为参数的估计值。假设n例观察对象彼此独立,其自变量为iX(iX1,iX2,...,ipX),因变量为iY(0-1变量),ni,,2,1。对于第i个体,给定iX时,出现观察结果iY(0或1)的概率为:iipPiiipPiYXXYXXiieeXYP1)()(]111[]11[)(110110,若1iY,这个概率就是第一个方括号;若0iY,这个概率就是第二个方括号。对于n个独立个体,给定自变量iX时,出现当前观察结果iY(ni,,2,1)的概率为上述n个概率的乘积niYXXYXXnniipPiiipPieeXXXYYYP11)()(2121]111[]11[),,,,,(110110称为似然函数(likelihoodfunction),记为L。求解p,,,,210,使似然函数L达到极大,或使似然函数的对数Lln达到极大,这样得到的解记为pbbbb,,,,210,称为参数p,,,,210的极大似然估计值。二、假设检验和回归系数的区间估计1.假设检验由样本估计参数,并建立了logistic回归方程后,参数的估计值0jb(j=1,2…p)并不一定意味着参数0j,也不一定意味着回归方程就成立,还需通过假设检验才能作出推断。与logistic回归分析有关的假设检验包括两个内容:一是检验整个模型,即检验因变量与自变量之间的关系能否用所建立的回归方程来表示;二是检验单个回归系数是否为0,即检验单个自变量对因变量的影响是否存在。最常用的检验方法有似然比检验和Wald检验。(1)似然比检验(likelihoodratiotest)似然比检验常用于对整个模型的检验,检验的假设为0H:所有自变量的总体回归系数均为01H:自变量的总体回归系数不全为0假设模型A含有p个自变量,相应的达到极大的对数似然函数值记为0lnL;模型B是在模型A的p个自变量基础上新加入一个或几个自变量,自变量个数变为l,其相应的达到极大的对数似然函数值记为1lnL。通过比较模型A与模型B的极大似然函数值,构建似然比检验统计量G,)ln(ln201LLG(20-7)如果说,极大对数似然函数值0lnL和1lnL分别度量p个自变量和l个自变量模型“似然”的程度,那么,统计量G度量的则是增加pl个自变量后,模型“似然”程度的增量。可以证明,在0H成立的条件下,如果样本量较大,G近似地服从自由度为pl的2分布,(20-7)亦常记为)ln(ln2012LL。(2)Wald检验(Waldtest)Wald检验可用于对单个回归系数的检验,检验的假设为0H:0j1H:0jWald检验统计量为bSbZ0(20-8)等价于22)(bSb,1(20-9)可以证明,在0H成立的条件下,如果样本量较大,Z近似地服从标准正态分布)1,0(N,2近似地服从自由度为1的2分布。2.回归系数的区间估计已知b的抽样分布近似地服从正态分布,根据正态分布理论,总体回归系数的)1(置信区间为bSZb2/,则OR的估计值为be,)1(置信区间为)(2/bSZbe(20-10)3.实例:假设检验和参数估计(基于SAS的输出)(1)关于模型的似然比检验模型中仅有常数项(回归系数0)时,618.6413ln0L,加入自变量X后,751.6150ln1L,似然比统计量733.525)]618.6413()751.6150[(2)ln(ln201LLGP0.0001,拒绝0H,可以认为所建立的logistic回归方程是有意义的。(2)关于参数的Wald检验及OR的置信区间表20-2参数估计、Wald检验和OR变量名参数估计值bbSWald2P值OROR95%置信区间常数项-1.41170.03062132.74140.0001X1.00300.0440518.69500.00012.7272.501~2.972由表20-2,4117.10b,0030.1b,可以立即写出logistic回归方程Xpp0030.14117.1)1ln(或)0030.14117.1()0030.14117.1(1XXeep左端我们写的是p而不是,这是因为右端的系数是0b和1b,而不是0和1,表明这里的Logistic回归方程是根据样本资料对理论模型的估计。对单个回归系数进行Wald检验,Wald统计量2=518.6950,P0.0001,可以认为,超重或肥胖对高血压病有影响。OR估计值为727.2ˆ0030.1eeRObOR的95%置信区间为)0440.096.10030.1()(2/eebSZb2.972),501.2(这个置信区间并不包含1,上下限均大于1,再次表明,超重或肥胖是高血压病的危险因素。4.实例:自变量筛选(基于SAS的输出)例20-2为研究居民两周患病未治疗的影响因素,采用多阶段分层整群抽样,对某地11790名农村居民进行了入户调查。调查内容包括性别(男:0,女:1)、年龄(5岁:1,5岁-:2,15岁-:3,45岁-:4,65岁-:5)、年人均收入(不低于平均水平:0,低于平均水平:1)、医疗保障(有:0,无:1)、距就近医疗点时间(10分钟:1,10分钟-:2,30分钟-:3)、自感疾病严重程度(不严重:1,一般:2,严重:3)、发病时间(急性病两周内发生:1,急性病两周前发生延续到两周内:2,慢性病持续到两周内:3)、就诊(就诊:0,未就诊:1)。11790名居民中,调查前二周患病者1649人,其中未就医者720人,患者有关资料整理结果见表20-3。表20-3某地二周患病者门诊医疗卫生服务利用影响因素资料患者编号性别年龄年人均收入医疗保障距就近医疗点时间自感疾病严重程度发病时间就诊1X2X3X4X5X6X7XY114012231214011230304011330403112110513112110...........................164504112210164604113330164715112231164814112210164905012231“发病时间”虽为有序多分类变量资料,但目前尚不能确定表20-3中赋值是否可真实反映其测度,故以最高值为参照水平,产生2个哑变量。“发病时间”哑变量:7X71X72X110201300与多重线性回归类似,多因素logistic回归同样存在对自变量的筛选问题,即按事先规定的检验水平,利用固定的算法,将具有统计意义的变量逐步选入模型,不具有统计意义的变量剔除在模型外。具体方法有前进法、后退法、