第十六章logistic回归分析logistic回归为概率型非线性回归模型,是研究分类观察结果(y)与一些影响因素(x)之间关系的一种多变量分析方法问题提出:医学研究中常研究某因素存在条件下某结果是否发生?以及之间的关系如何?因素(X)疾病结果(Y)x1,x2,x3…XK发生Y=1不发生Y=0例:暴露因素冠心病结果高血压史(x1):有或无有或无高血脂史(x2):有或无吸烟(x3):有或无研究问题可否用多元线性回归方法?1.多元线性回归方法要求Y的取值为计量的连续性随机变量。2.多元线性回归方程要求Y与X间关系为线性关系。3.多元线性回归结果不能回答“发生与否”logistic回归方法补充多元线性回归的不足Yˆ1122ˆmmyabxbxbxLogistic回归方法该法研究是当y取某值(如y=1)发生的概率(p)与某暴露因素(x)的关系。P(概率)的取值波动0~1范围。基本原理:用一组观察数据拟合Logistic模型,揭示若干个x与一个因变量取值的关系,反映y对x的依存关系。(1/)(),()pyxfxfx即p一、基本概念1.变量的取值logistic回归要求应变量(Y)取值为分类变量(两分类或多个分类)自变量(Xi)称为危险因素或暴露因素,可为连续变量、等级变量、分类变量。可有m个自变量X1,X2,…Xm)未发病、无效、存活等出现阴性结果发病、有效、死亡等)出现阳性结果(0(1Y2.两值因变量的logistic回归模型方程•一个自变量与Y关系的回归模型如:y:发生=1,未发生=0x有=1无=0,记为p(y=1/x)表示某暴露因素状态下,结果y=1的概率(P)模型。)](exp[11)/1(0xxypxxeexyP001)/1(或模型描述了应变量p与x的关系P概率10.5Z值0123-1-2-3图16-1Logistic回归函数的几何图形)](exp[11)1(0xypxz10Β为正值,x越大,结果y=1发生的可能性(p)越大。几个logistic回归模型方程001(1/1)1xxepPyxe001(0/1)111xxePyxpe000(1/0)1epPyxe000(0/0)111ePyxpelogistic回归模型方程的线性表达对logistic回归模型的概率(p)做logit变换,log()ln()1pitpp110)(logxpity截距(常数)回归系数Y~(-∞至+∞)线性关系方程如下:在有多个危险因素(Xi)时•多个变量的logistic回归模型方程的线性表达:mmXXXPP22110=1lnlogit(p)0112(....)1(1/,)1kkkkxxpyxxxe或2.模型中参数的意义110=1lnXPPΒ0(常数项):暴露因素Xi=0时,个体发病概率与不发病概率之比的自然对数比值。0=)0/0(1)0/1(lnxyPxyP的含义:某危险因素,暴露水平变化时,即Xi=1与Xi=0相比,发生某结果(如发病)优势比的对数值。1100100110011/(1)lnln/(1)loglog()()PPORPPitPitPxxxiP1(y=1/x=1)的概率P0(y=1/x=0)的概率010011)1/()1/(oddsoddsPPPPOReOR危险因素Yx=1x=0发病=130(a)10(b)不发病=070(c)90(d)a+cb+d危险因素Yx=1x=0发病=1p1p0不发病=01-p11-p01apac有暴露因素人群中发病的比例反映了在其他变量固定后,X=1与x=0相比发生Y事件的对数优势比。回归系数β与ORX与Y的关联•β=0,OR=1,无关β>0,OR>1,有关,危险因素β<0,OR<1,有关,保护因子事件发生率很小,OR≈RR。多元回归模型的的概念iii011logit(p)ln=1mmPXXP二、Logistic回归模型•Logistic回归的分类二分类多分类条件Logistic回归非条件Logistic回归•Logit变换也称对数单位转换logitP=ln1PP流行病学概念:设P表示暴露因素X时个体发病的概率,则发病的概率P与未发病的概率1-P之比为优势(odds),logitP就是odds的对数值。•Logistic回归模型Logistic回归的logit模型Logistic回归模型01122logitP=bkkbxbxbx0112201122()()1kkkkbbxbxbxbbxbxbxePe三、参数估计•最大似然估计法(Maximumlikehoodestimate)似然函数:L=∏Pi对数似然函数:lnL=∑(lnP)=lnP1+lnP2+…+lnPn非线性迭代方法——Newton-Raphson法四、参数检验•似然比检验(likehoodratiotest)通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为G(又称Deviance)。G=-2(lnLp-lnLk)样本量较大时,G近似服从自由度为待检验因素个数的2分布。•比分检验(scoretest)以未包含某个或几个变量的模型为基础,保留模型中参数的估计值,并假设新增加的参数为零,计算似然函数的一价偏导数(又称有效比分)及信息距阵,两者相乘便得比分检验的统计量S。样本量较大时,S近似服从自由度为待检验因素个数的2分布。•Wald检验(waldtest)即广义的t检验,统计量为uu服从正态分布,即为标准正态离差。Logistic回归系数的区间估计iibbu=sibiSub上述三种方法中,似然比检验最可靠,比分检验一般与它相一致,但两者均要求较大的计算量;而Wald检验未考虑各因素间的综合作用,在因素间有共线性时结果不如其它两者可靠。五、回归系数的意义单纯从数学上讲,与多元线性回归分析中回归系数的解释并无不同,亦即bi表示xi改变一个单位时,logitP的平均变化量。流行病学中的一些基本概念:相对危险度(relativerisk):RR=P1/P2比数Odds=P/(1-P)比数比OR=[P1/(1-P1)]/[P2/(1-P2)]在患病率较小情况下,OR≈RR•Logistic回归中的常数项(b0)表示,在不接触任何潜在危险/保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。•Logistic回归中的回归系数(bi)表示,某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即OR的对数值。Logistic回归系数的意义•分析因素xi为二分类变量时,存在(暴露)xi=1,不存在(未暴露)xi=0,则Logistic回归中xi的系数bi就是暴露与非暴露优势比的对数值.即OR=exp(bi)=e(bi)•分析因素xi为多分类变量时,为方便起见,常用1,2,…,k分别表示k个不同的类别。进行Logistic回归分析前需将该变量转换成k-1个指示变量或哑变量(design/dummyvariable),这样指示变量都是一个二分变量,每一个指示变量均有一个估计系数,即回归系数,其解释同前。•分析因素xi为等级变量时,如果每个等级的作用相同,可按计量资料处理:如以最小或最大等级作参考组,并按等级顺序依次取为0,1,2,…。此时,e(bi)表示xi增加一个等级时的优势比,e(k*bi)表示xi增加k个等级时的优势比。如果每个等级的作用不相同,则应按多分类资料处理。•分析因素xi为连续性变量时,e(bi)表示xi增加一个计量单位时的优势比。多因素Logistic回归分析时,对回归系数的解释都是指在其它所有自变量固定的情况下的优势比。存在因素间交互作用时,Logistic回归系数的解释变得更为复杂,应特别小心。根据Wald检验,可知Logistic回归系数bi服从u分布。因此其可信区间为进而,优势比e(bi)的可信区间为ibiSub)(ibiSube六、Logistic回归分析方法基本思想同线性回归分析。从所用的方法看,有强迫法、前进法、后退法和逐步法。在这些方法中,筛选变量的过程与线性回归过程的完全一样。但其中所用的统计量不再是线性回归分析中的F统计量,而是以上介绍的参数检验方法中的三种统计量之一。为计算方便,通常向前选取变量用似然比或比分检验,而向后剔除变量常用Wald检验。七、条件Logistic回归•对配对/比调查资料,应该用条件Logistic回归分析。对于配比资料,第i个配比组可以建立一个Logistic回归:i1122logitP=bkkbxbxbx•假设自变量在各配比组中对结果变量的作用是相同的,即自变量的回归系数与配比组无关。•配比设计的Logistic回归模型其中不含常数项。1122logitP=bkkxbxbx•可以看出此回归模型与非条件Logistic回归模型十分相似,只不过这里的参数估计是根据条件概率得到的,因此称为条件Logistic回归模型。•条件Logistic回归的回归系数检验与分析,和非条件Logistic回归完全相同。八、logistic回归的应用1.疾病(某结果)的危险因素分析和筛选用回归模型中的回归系数(βi)和OR说明危险因素与疾病的关系。适用的资料:前瞻性研究设计、病例对照研究设计、横断面研究设计的资料。三类研究计算的logistic回归模型的β意义是一致。仅常数项不同。(证明略)2.校正混杂因素,对疗效做评价在临床研究和疗效的评价,组间某些因素构成不一致干扰疗效分析,通过该法可控制非处理因素,正确评价疗效。3.预测与判别预测个体在某因素存在条件下,发生某事件(发病)的概率,为进一步治疗提供依据。•输精管切除术与动脉粥样硬化疾病的研究•1.问题的描述(1)输精管切除术是否与动脉粥样硬化疾病有关?(2)如果存在联系,与其他已知的危险因素相比,输精管切除术的相对重要性有多大?(3)哪些男性亚群在输精管切除术以后发生动脉粥样硬化疾病的可能性特别大?九、logistic回归的应用举例2.研究目的(1)一般目的确定输精管切除术与其后因动脉粥样硬化疾病而住院之间是否有因果联系;如果有,则确定输精管切除术与患动脉粥样硬化性疾病的危险性是否因观察对象具有其他冠心病危险因素,如吸烟、高血压和高胆固醇等而增强。(2)特殊目的A.估计输精管切除术及其男性动脉粥样硬化性疾病危险因素的相对危险度(使用单变量分析方法);B.估计输精管切除术对动脉粥样硬化性疾病独立的作用(利用条件Logistic回归模型);C.检测输精管切除术导致动脉粥样硬化性疾病的可能期限;D.检测在输精管切除术、吸烟和高血压之间可能的协同作用。3.研究变量(1)按照世界卫生组织标准来诊断动脉粥样硬化性疾病;(2)病人特征:年龄,出生日期,宗教,教育,职业,家庭史,婚姻状况。(3)生育史:存活子女的数量与性别,妻子的生育情况。(4)生活方式:吸烟习惯,饮酒量,饮食习惯,食盐量,喝咖啡量,体力活动。(5)医学史:有无可能导致不育的疾病或手术、高血压、糖尿病或高胆固醇血症。4.研究设计①抽样:以完全随机抽样方式确定样本。样本量大小的计算是基于事先确定显著性水平、把握度和打算测知的相对危险度水平。假定样本量确定为病例组500例,对照组1000例。本设计力图避免或减少在病例一对照研究中常见的偏倚与误差。回忆偏倚、选择偏倚和输精管切除术报告偏倚对研究结果的真实性是极其重要的。•②资料收集:病例组的选取:调查员审阅每日住院病人情况→如果诊断适合研究的范围,将病例转给心脏病主任医师作评估→由他做出病例诊断是否合格的决定→调查人员核对病人背景资料是否合格