Logistic回归模型主讲:黄志碧回归分析概述1、根据自变量多少分(1)简单回归(一个自变量)(2)多元回归(多个自变量)2、根据Y的取值分(1)确定型回归(多元线性回归)(2)概率型回归(Logistic回归)3、根据回归图形分线性回归(多元线性回归)非线性回归(Logistic回归)mmXXXY22110ˆ多元线性回归模型描述Y与X1,X2……Xm之间的线性关系。Y:连续变量,呈正态分布。最小二乘法求β1,β2……βmLogistic回归模型)exp()exp()|(XXxyP0011)exp(11)|0(0XxyQLogistic回归模型概述Logistic回归模型是一种概率模型,它是以某一事件发生与否的概率P为因变量,以影响P的因素为自变量建立的回归模型,分析某事件发生的概率与自变量之间的关系,是一种非线性回归模型。Logistic回归模型适用的资料:Logistic回归模型用于因变量Y为分类的资料,二项或多项分类的资料,Y也可以是计量资料,但主要用于Y为二项分类的资料(0,1资料)。注意:Y为二项分类的资料不宜用线性回归模型来进行分析,原因是:(1)由于Y的取值仅为0或1,不符合正态分布和方差齐性的假设;(2)用线性回归建立的方程来预报二分类资料,会使Y的预报值超出0,1之外,给结果解释带来困难。Logistic回归模型的应用Logistic回归模型在流行病学、临床医学研究中有广泛应用。只要事件的结局能表达为发生或不发生两项分类的资料,一般都能用该模型进行分析。常用于病因分析、预后因素分析、鉴别诊断、评价治疗措施的好坏等等。如:非传染性疾病的病因研究资料;影响治疗效果的因素;影响恶性肿瘤复发或远处转移的因素;药物剂量与动物死亡的关系,等等。病因研究的方法队列研究:按是否暴露于某因素或不同的暴露水平分组,观察各组的发病或死亡情况。可以直接计算相对危险度(RR),说明暴露因素与发病或死亡的联系强度。病例-对照研究:选某病患者做为病例组,以健康人或非该病患者做为对照组,收集某些因素暴露的情况。病例-对照研究类型成组的病例-对照研究配比的病例-对照研究(1:1,1:2,1:3,1:4)计算优势比(Oddsratio,OR),说明危险因素与疾病或死亡联系的强度。优势(Odds):指暴露组或非暴露组发病(或死亡)的概率P与未发病的概率(1-P)之比:P/(1-P),称为优势(Odds)。病因研究资料分析方法单因素分析:传统的经典的分析方法;受混杂因素的影响较大,可在设计时控制,或进行分层分析。如分层较多,需要的样本含量较大,有时难以做到。多因素分析:logistic回归模型进行分析。Logistic回归模型可分为1、条件Logistic回归模型2、非条件Logistic回归模型。前者适合于配对或配伍设计资料;后者适合于成组设计资料。因变量可以是:两项分类、无序多项分类、有序多项分类等。第一节多元logistic回归模型基本概念一、模型结构(一)、logistic分布函数y的取值在-∞~+∞之间,函数值F(y)在0~1之间取值,且呈单调上升的S型曲线。可以将这一特征运用到流行病学和临床医学中描述事件发生的概率与影响因素的关系。yyeeyF1)((二)logistic回归模型利用logistic分布函数的特征来表示在自变量X的作用下出现阳性结果或阴性性结果的概率。出现阳性结果的概率记为:P(y=1|x),出现阴性结果的概率为:Q(y=0|x),注意:P+Q=1。)exp()exp()|(XXxyP0011)exp(11)|0(0XxyQ当只有一个自变量时,logistic回归模型:式中,为回归线的截距,是与X有关的参数,也称回归系数。0(1)(2))exp()|0()|1(0XxyQxyP(3)当有多个X时,logistic回归模型:)....exp(1)....exp()|1(2211022110ppppxxxxxxxyP)....exp(11)|0(22110ppxxxxyQ(4)(5)式中,为截距,(j=1,2,…,p),称偏回归系数。0j)....exp()|0()|1(22110ppxxxxyQxyP(6)式(1)或式(4)称为logistic回归模型。)....exp(1)....exp()|1(2211022110ppppxxxxxxxyP)exp()exp()|(XXxyP0011(三)logit变换:将S型曲线转化为直线xQP0)/ln(ppxxxQP......)/ln(22110(7)(8))exp()|0()|1(0XxyQxyP)....exp()|0()|1(22110ppxxxxyQxyP(3)(6)对式(3)和式(6)两边取自然对数得:)/ln(logit(P)QP记xPit0)(logppxxxPit......)(log22110这就是线性回归方程。说明:(1)ln(P/Q)称为logit(P)变换;(2)P/Q称为事件的优势,在流行病学中称为比值(odds)。因此,优势的对数值与影响因素之间呈线性关系。(四)优势比(oddsratio),简记OR暴露组的优势(比值)与非暴露组的优势(比值)之比,称优势比(比值比)(OR)。OR用于说明暴露某因素引起疾病或死亡的危险度大小。)]0(1/[)0()]1(1/[)1(PPPPOR(9))]0([log)]1([log))]0(1/[)0()]1(1/[)1(ln()ln(PitPitPPPPOR对式(9)两边取自然对数得:(10)P(1)─X取1时,为暴露组;P(0)─X取0时,为非暴露组。)ln(ORxPit0)(log)0()1()]0([log)]1([log)ln(00PitPitOReOR由上式可见,的意义是:在其他自变量固定不变的情况下,自变量的暴露水平每改变一个测量单位所引起的优势比(OR)自然对数的改变量,或引起优势比为增加前的exp()倍。(五)的统计学意义)ln(OReOR)exp(与优势比OR有密切关系,同时与暴露因素(自变量)的取值有密切关系。1、若为正值,增加使OR增大,是危险因素;若为负值,增加使OR减少,是保护因素。2、当暴露因素X为二水平时(X取0,1),logistic回归模型中X的系数就是暴露与非暴露优势比的对数值。jjxjxjjxjxjj如果暴露时X=a,非暴露时X=b,则:)()()(loglog))/()/(ln()ln(babaitPitPPPPPOR01001111此时,不能直接解释为优势比的对数值,因为此时X改变“一个单位”没有实际意义。比如:年龄从50岁变到51岁。3、当X为等级变量时(0、1、2….),以最小或最大等级为参照组,exp()为增加一个等级时的优势比,exp(k)为增加K个等级时的优势比。4、如果X为连续性变量,如年龄,则将X分段或变为等级资料再分析。如60~64岁的人比55~59岁的人,有多大的可能性患冠心病,OR为exp(5)。5、当X为多项分类变量时,用1、2、3….k表示k个不同的分类,分析时转为k-1个指示变量或哑变量。每个指示变量都是二分类变量,都有自己的系数。如血型、民族、职业、工种等。如血型变量X:A、B、AB、O,用1、2、3、4分别表示。此时X仅为分类变量,不是等级变量。分析时,用D1、D2、D3表示血型x=1时:D1=1,D2=0,D3=0A血型;x=2时:D1=0,D2=1,D3=0B血型;x=3时:D1=0,D2=0,D3=1AB血型;x=4时:D1=0,D2=0,D3=0O血型;分析时,将D1、D2、D3放入logistic回归模型同时分析,得3个参数:。表示A与O的优势比;表示B与O的优势比;表示AB与O的优势比。231321、、(六)标准回归系数用于比较各个自变量对模型贡献大小。iiiiiiiSbSbSSbb5513.03/'ib为标准回归系数,bi为第i个自变量的回归系数,Si为第i个自变量的标准差,S为Y的标准差。的绝对值越大,则该自变量对模型贡献越大。ib二、logistic回归模型的参数估计与假设检验(一)logistic回归模型的建立Logistic回归分析的过程,就是要根据样本资料,求出各自变量的回归系数。由于logistic回归是一种概率模型,通常用最大似然法(maximunlikelihood,ML)求回归系数的估计值(i=1,2,3,…,p)。ii(二)logistic回归模型的假设检验1、回归系数的假设检验求得回归系数后,还要对回归系数进行检验,目的是检验总体回归系数β是否为零。检验方法有:1)、似然比检验(likelihioodratiotest)(1)检验引入的变量对模型有无贡献;(2)对模型回归系数进行整体检验。似然比检验(likelihioodratiotest):L为方程中包含m(mP)个自变量的对数似然函数值;为增加一个自变量Xi后的对数似然函数值。G服从自由度为1的X2分布。若,则可以认为在α检验水准下有统计学意义,Xi可以引入方程,否则不能引入方程。LLLLLGlnln)/ln(2221,xL2)、Wald检验3)、计分检验(scoretest)。似然比检验最可靠,Wald检验和计分检验一致。Wald检验未考虑因素的综合作用,当因素间存在共线性时,所得结果不可靠。)ˆ(ˆSEz02、logistic回归模型的拟合优度检验检验logistic回归模型预测的理论频数分布是否符合实际的理论频数分布。常用的方法:(1)偏差检验(Deviationtest)(2)Pearson检验(3)Hosmer-Lemesshow检验。偏差检验、Pearson检验的效果相近,其对样本含量和理论频数要求比较严格。Hosmer-Lemesshow检验用于两分类应变量的Logistic回归分析,当样本含量大,自变量数目多,且有连续型变量引入模型时,检验效果好。模型拟合优度检验:H0设实际频数分布和理论频数分布相符合,即模型的拟合优度较好。第二节二项分类变量资料非条件logistic回归二项分类反应变量是最常见的变量类型,又称0、1变量。可用于病例-对照研究,队列研究和横断面研究,其中成组设计的非条件Logistic回归最常见。例15-1:评价新旧两种降糖药的治疗效果。两所医院用新旧两种降糖药治疗的效果研究中心降糖药例数疗效有效率(%)有效无效甲医院新药4436881.82旧药53272650.94乙医院新药62501280.65旧药53203337.74变量的赋值方法因素变量名赋值方法研究中心X1甲医院1,乙医院2降糖药X2新药1,旧药2治疗效果Y有效1,无效0SPSS数据文件建构数据录入不同医院用新旧两种药物治疗的效果.367.3131.3741.2411.443.7812.6661.729.32029.1191.0005.6363.00810.562-.413.2532.6591.103.662研究中心降糖药常数项Step1aBS.E.WalddfSig.Exp(B)LowerUpper95.0%C.I.forEXP(B)Variable(s)enteredonstep1:x1,x2.a.新旧两种降糖药效果不同,新药疗效是旧药的5.636倍。不同医院疗效无差异。HosmerandLemeshowTest.5192.772Step1Chi-squaredfSig.对模型的检验:X2=0.519,P=0.772。说明模