1Logistic回归分析2Logistic回归(LogisticRegression)是研究因变量为二分类或多分类观察结果与影响因素(自变量)之间关系的一种多变量分析方法,属概率型非线性回归。Logistic回归的分类:(1)二分类资料Logistic回归:因变量为两分类变量的资料,可用非条件Logistic回归和条件Logistic回归进行分析。非条件Logistic回归多用于非配比病例-对照研究或队列研究资料,条件Logistic回归多用于配对或配比资料。(2)多分类资料Logistic回归:因变量为多项分类的资料,可用多项分类Logistic回归模型或有序分类Logistic回归模型进行分析。3非条件Logistic回归分析条件Logistic回归分析Logistic回归分析应用及注意事项4第一节非条件logistic回归一、logistic回归模型:设因变量Y是一个二分类变量,其取值为Y=1和Y=0。影响Y取值的m个自变量分别为mXXX,,,21。在m个自变量(即暴露因素)作用下阳性结果发生的条件概率为),,,1(21mXXXYPP,则logistic回归模型可表示为:)exp(1)exp(2211022110mmmmXXXXXXP(15.1)其中,0为常数项,m,,,21为偏回归系数。5设mmXXXZ22110,则Z与P之间关系的logistic曲线如下图所示。可看出:当Z趋于时,P值渐进于1;当Z趋于时,P值渐近于0;P值的变化在0~1之间,并且随Z值的变化以点(0,0.5)为中心成对称S形变化。6logit变换:logitP=PP1ln为P的logit变换,通过logit变换之后,就可将10P的资料转换为)(logPit的资料。作logit变换后,logistic回归模型可以表示成如下的线性形式:mmxxxPP221101ln7模型参数的流行病学含义当各种暴露因素为0时:01122010ln()100mmmPXXXP可看出:常数项0是当各种暴露因素为0时,个体发病与不发病概率之比的自然对数值。偏回归系数j(mj,,2,1)表示在其它自变量固定的条件下,第j个自变量每改变一个单位时logit)(P的改变量。它与比数比(优势比)OR(oddsratio)有对应关系。8在其它影响因素相同的情况下,某危险因素jX两个不同暴露水平1c和0c发病优势比的自然对数为:)1()1(lnln0011PPPPORj=)1ln()1ln(0011PPPP=)(01ccj则该因素的优势比:)](exp[01ccORjj式中1P和0P分别表示在jX取值为1c和0c时的发病概率,jOR为调整后优势比(adjustedoddsratio),表示扣除了其它自变量影响后危险因素jX的作用。9二、logistic回归模型的参数估计在病例-对照研究中,假设变量y取值1和0分别表示对象患病和不患病;变量x取值1和0表示具有和不具有某种危险因素;具体调查数据见下表:表1调查数据表2对应概率xxy10y101ab11p2p0cd01-1p1-2p合计a+cb+d合计11logistic回归模型的参数估计常采用最大似然估计。其基本思想是先建立似然函数与对数似然函数,求使对数似然函数最大时的参数值,其估计值即为最大似然估计值。10表1调查数据表2对应概率xxy10y101ab11p2p0cd01-1p1-2p合计a+cb+d合计11Logistic模型为:)exp(1)exp()|1(1xxxypp则四个格子所对应的概率分别是:)exp(1)exp()1|1(1xypp;)exp(1)exp()0|1(2xypp)exp(11)1|0(11xypp;)exp(11)0|0(12xypp则似然函数为:dcbaL])exp(11[])exp(11[])exp(1)exp([])exp(1)exp([11为使似然函数值最大,首先对函数两边取对数:)]exp(1ln[)]exp(1ln[)]exp(1ln[)]exp(1ln[)()ln(dcbbaaLQ对Q分别求关于和的一阶偏导数,得到关于和的线性方程组,解方程组得:)/ln(0dbb)ln()/ln()/ln(1bcaddbcab表1调查数据表2对应概率xxy10y101ab11p2p0cd01-1p1-2p合计a+cb+d合计1112对于更一般的情况,建立样本似然函数:11(1)iinYYiiiLPP(1,2,,in)(15.6)其中,iP表示第i例观察对象处于暴露条件下时阳性结果发生的概率。阳性结果时,1iY;阴性结果时,0iY。根据最大似然原理,似然函数L应取最大值。对似然函数取对数形式:1ln[ln(1)ln(1)]niiiiiLYPYP(15.7)式中为对数似然函数,对其取一阶导数求解参数。对于参数j(1,2,,jm),令lnL的一阶导数为0,即ln0jL,用Newton-Raphson迭代方法解方程组,得出参数j的估计值jb和jb的渐进标准误jbS。13优势比估计自变量jX不同水平1c和0c优势比的估计值:10ˆexp[()]jjORbcc当样本含量n较大时,jb的抽样分布近似服从正态分布,若jX只有暴露和非暴露2个水平,则优势比jOR的100(1)%可信区间为:2exp()jjbbuS14例、口服避孕药(OC)与心肌梗死(MI)关系的病例对照研究结果病例(MI)对照合计服用OC39a24c63未服OC114b154d268合计153178331Logistic模型为:)7863.03008.0exp(1)7863.03008.0exp()exp(1)exp(1xxxxp或者:xpppit7863.03008.0)1ln()(log)/ln(0dbb=30075.0)154/114ln()ln()/ln()/ln(1bcaddbcab=78626.01142415439ln参数估计为:15例、口服避孕药(OC)与心肌梗死(MI)关系的病例对照研究结果病例(MI)对照合计服用OC392463未服OC114154268合计153178331在logistic过程步中加“descending”选项的目的是使SAS过程按阳性率(y=1)拟合模型,得到阳性病例对应于阴性病例的优势比。16例、口服避孕药(OC)与心肌梗死(MI)关系的病例对照研究结果病例(MI)对照合计服用OC392463未服OC114154268合计153178331Logistic回归分析结果17表15-1为吸烟、饮酒与食管癌关系的病例-对照研究调查资料,试进行logistic回归分析。表15-1吸烟、饮酒与食管癌关系的病例-对照研究资料分层g吸烟1X饮酒2X总例数gn阳性数gd阴性数ggnd10019963136201170631073101014457411416265151首先确定变量的赋值或编码:吸烟饮酒病例110X不吸烟210X不饮酒10Y对照logistic回归分析过程可通过SAS统计软件包中logistic过程步实现18在logistic过程步中加“descending”选项的目的是使SAS过程按阳性率(y=1)拟合模型,得到阳性病例对应于阴性病例的优势比。观察例数19OR值OR的95%CI对偏回归系数的假设检验20吸烟与不吸烟的优势比:11ˆexpexp0.88562.42ORb,其1OR的95%可信区间:110.052exp[]exp(0.88561.960.1500)(1.81,3.25)bbuS饮酒与不饮酒的优势比:22ˆexpexp0.52611.69ORb,其2OR的95%可信区间:220.052exp[]exp(0.52611.960.1572)(1.24,2.30)bbuS由结果可看出,吸烟和饮酒均为食管癌发病的危险因素,吸烟人群发生食管癌的可能性是不吸烟人群的2.42倍,饮酒人群发生食管癌的可能性是不饮酒人群的1.69倍。21三、logistic回归模型的假设检验常用的检验方法有似然比检验(likelihoodratiotest)和Wald检验。1.似然比检验基本思想是比较2种不同假设条件下的对数似然函数值差别的大小。具体方法是:①先拟合不包含待检验因素的logistic模型,求对数似然函数值0lnL;②再拟合包含待检验因素的logistic模型,求另一个对数似然函数值1lnL;③比较两个对数似然函数值差别的大小22若2个模型分别包含l个自变量和p个自变量,似然比统计量G的计算公式为:2(lnln)plGLL当样本含量n较大时,在0H成立的条件下,G统计量近似服从自由度dpl的2分布。如果只对一个回归系数(或一个自变量)进行检验,则1。2.Wald检验用u检验或2检验来检验各参数j是否为0。jjbubS22jjbbSjbS为偏回归系数的标准误,其估计是以似然函数的一阶和二阶导数建立估计公式,用递推方法计算。23概率p值均小于0.05,说明方程有意义。对所拟合模型的假设检验:24四、变量筛选Logistic逐步回归变量筛选的过程与线性逐步回归变量筛选的过程极为相似,但其中所用的检验统计量不再是F统计量,而是似然比统计量、Wald统计量等。例如使用似然比统计量,即利用()()102[lnln]llGLL,在进行到第l步时,通过比较含有jX和不含jX的模型,决定jX是否引入模型。与多元线性回归类似,标准化偏回归系数可以比较各因素作用的相对重要性。25例某工作者在探讨肾细胞癌转移的有关临床病理因素研究中,收集了一批行根治性肾切除术患者的肾癌标本资料,现从中抽取26例。试用logistic回归分析筛选出与癌细胞转移有关的危险因素(变量选入和剔除水平均为0.10)。表15-4与肾细胞癌转移有关的因素及说明符号说明1X确诊时患者年龄(岁)2X肾细胞癌血管内皮生长因子(VEGF),阳性表述由低到高共3级3X肾细胞癌组织内微血管数(MVC)4X肾癌细胞核组织学分级,由低到高共4级5X肾细胞癌分期,由低到高共4期Y肾细胞癌转移情况(有转移Y=1;无转移Y=0)26用逐步回归法拟合模型,变量选入和剔除水平均为0.10指定选项“des”是为了按照y=1(有转移)的概率拟合模型。如果不加此选择项,则软件会按照y=0(无转移)的概率拟合模型,此时,应变量的排序水平发生颠倒,且所有参数估计的符号相反,OR值为原来的倒数。2728logistic逐步回归分析筛选出两个有统计学意义的变量为x2和x4,回归系数分别为2.4134和2.0963,比数比分别为11.172和8.136。结果中还给出了标准化偏回归系数,肾癌细胞核组织学分级(x4)在引起癌细胞转移中的危险性大于肾细胞癌血管内皮生长因子(x2)。29第二节条件logistic回归一、条件logistic回归的基本原理在流行病学病例-对照研究中,为正确分析危险因素与疾病间的关系,需要在设计阶段对可能构成混杂的因素进行控制,形成多个匹配组(每一匹配组可视为一个层)。常用的是每组中有一个病例和若干个对照(通常为1~4个),即1:M配比研究。在配比研究中,研究者通常不关心层因素的作用,不需要估计层因素的参数。条件logistic回归用条件似然函数替代一般似然函数。在构造条件似然函数时考虑了层因素的影响,使在最后得到的模型中消去了反映层因素的参数,从而减少了模型中要