大城小事1第十六章logistic回归分析logistic回归为概率型非线性回归模型,是研究分类观察结果(y)与一些影响因素(x)之间关系的一种多变量分析方法大城小事2问题提出:医学研究中常研究某因素存在条件下某结果是否发生?以及之间的关系如何?因素(X)疾病结果(Y)x1,x2,x3…XK发生Y=1不发生Y=0例:暴露因素冠心病结果高血压史(x1):有或无有或无高血脂史(x2):有或无吸烟(x3):有或无大城小事3研究问题可否用多元线性回归方法?1.多元线性回归方法要求Y的取值为计量的连续性随机变量。2.多元线性回归方程要求Y与X间关系为线性关系。3.多元线性回归结果不能回答“发生与否”logistic回归方法补充多元线性回归的不足Yˆ1122ˆmmyabxbxbx大城小事4Logistic回归方法该法研究是当y取某值(如y=1)发生的概率(p)与某暴露因素(x)的关系。P(概率)的取值波动0~1范围。基本原理:用一组观察数据拟合Logistic模型,揭示若干个x与一个因变量取值的关系,反映y对x的依存关系。(1/)(),()pyxfxfx即p大城小事5第一节logistic回归一、基本概念1.变量的取值logistic回归要求应变量(Y)取值为分类变量(两分类或多个分类)自变量(Xi)称为危险因素或暴露因素,可为连续变量、等级变量、分类变量。可有m个自变量X1,X2,…Xm)未发病、无效、存活等出现阴性结果发病、有效、死亡等)出现阳性结果(0(1Y大城小事62.两值因变量的logistic回归模型方程一个自变量与Y关系的回归模型如:y:发生=1,未发生=0x:有=1,无=0,记为p(y=1/x)表示某暴露因素状态下,结果y=1的概率(P)模型。)](exp[11)/1(0xxypxxeexyP001)/1(或模型描述了应变量p与x的关系大城小事7P概率10.5Z值0123-1-2-3图16-1Logistic回归函数的几何图形)](exp[11)1(0xypxz10Β为正值,x越大,结果y=1发生的可能性(p)越大。大城小事8几个logistic回归模型方程001(1/1)1xxepPyxe001(0/1)111xxePyxpe000(1/0)1epPyxe000(0/0)111ePyxpe大城小事9logistic回归模型方程的线性表达对logistic回归模型的概率(p)做logit变换,log()ln()1pitpp110)(logxpity截距(常数)回归系数Y~(-∞至+∞)线形关系方程如下:大城小事10在有多个危险因素(Xi)时多个变量的logistic回归模型方程的线性表达:mmXXXPP22110=1lnlogit(p)0112(....)1(1/,)1kkkkxxpyxxxe或公式16-2大城小事112.模型中参数的意义110=1lnXPPΒ0(常数项):暴露因素Xi=0时,个体发病概率与不发病概率之比的自然对数比值。0=)0/0(1)0/1(lnxyPxyP大城小事12的含义:某危险因素,暴露水平变化时,即Xi=1与Xi=0相比,发生某结果(如发病)优势比的对数值。1100100110011/(1)lnln/(1)loglog()()PPORPPitPitPxxxiP1(y=1/x=1)的概率P0(y=1/x=0)的概率010011)1/()1/(oddsoddsPPPPOReOR大城小事13危险因素Yx=1x=0发病=130(a)10(b)不发病=070(c)90(d)a+cb+d危险因素Yx=1x=0发病=1p1p0不发病=01-p11-p01apac有暴露因素人群中发病的比例大城小事14反映了在其他变量固定后,X=1与x=0相比发生Y事件的对数优势比。回归系数β与ORX与Y的关联β=0,OR=1,无关β>1,OR>1,有关,危险因素β<1,OR<1,有关,保护因子事件发生率很小,OR≈RR。多元回归模型的的概念iii011logit(p)ln=1mmPXXP大城小事15二、logistic回归模型的参数估计1.模型中的参数(βi)估计通常用最大似然函数(maximumlikelihoodestimate,MLE)估计β,由统计软件包完成。(讲义259页)mmXXXPP22110=1ln,,大城小事162.优势比(OR)及可信区间的估计如X=1,0两分类,则OR的1-α可信区间估计公式ORe/2()jbjbuSejbS为回归系数的标准误(公式16-10)大城小事17例:讲义表16-1资料一个研究吸烟、饮酒与食道癌关系的病例-对照资料(886例),试作logistic回归分析。变量的赋值10Y食管癌患者对照:非食管癌011不吸烟吸烟X012不饮酒饮酒X大城小事18经logistic回归计算后得b0=-0.9099,b1=0.8856,b2=0.5261,OR)exp(4244.2)8856.0exp(OR6923.1)5261.0exp(OR方程表达:控制饮酒因素后,吸烟与不吸烟相比患食管癌的优势比为2.4倍ln()0.90990.885610.526121pxxp大城小事19OR的可信区间估计11/2exp()exp(0.88561.960.15)(1.81,3.25)bbuS吸烟与不吸烟患食管癌OR的95%可信区间:2/22exp()exp(0.52611.960.1572)(1.24,2.30)bbuS饮酒与不饮酒OR的95%可信区间:大城小事20三、Logistic回归模型的假设检验1.检验一:对建立的整个模型做检验。说明自变量对Y的作用是否有统计意义。检验方法(讲义260-261页)1)似然比检验(likelihoodratiotest)2)Wald检验3)计分检验(scoretest)0:210mH1:12)0jHjm各(,,,不全为mmXXXPP22110=1ln大城小事21例表16-1吸烟、饮酒与食管癌资料(SAS软件计算)1.对建立的整个模型做检验。TestingGlobalNullHypothesis:BETA=0TestChi-SquareDFPr似然比68.54572.0001计分检验67.07122.0001Wald检验64.27842.0001ln()0.90990.885610.526121pxxp大城小事222.检验二:检验模型中某β是否对Y有作用。检验假设:检验统计量:主要为Wald检验(SAS软件)例;在大样本时,三方法结果一致。0:0jH1:0jH22)(jbjSb公式16-13220.8856()33.860.15ν=1的χ2大城小事23例表16-1资料,对各x的β做检验(wald检验)参数β估计值标准误Chi-SquaPr常数-0.90990.135844.8699.0001吸烟0.88560.150034.8625.0001饮酒0.52610.157211.2069.0008OddsRatioEstimatesPoint95%WaldEffectEstimateConfidenceLimits吸烟x12.4241.8073.253饮酒x21.6921.2442.303大城小事24似然比检验(讲义)对某个β做检验,检验统计量(G)102(lnln)GLL1lnL包括p个自变量的对数似然函数0lnL包括l个自变量的对数似然函数G服从自由度(d)=p-l的χ2分布大城小事25似然比检验对β做检验112ln(,)579.711LXX01ln()585.326LX例:X1为吸烟,X2为饮酒,检验饮酒与食管癌关系,H0:β2=0,H1:β2≠01212[ln(,)ln()2(579.711(585.326)]11.23GLXXLXG>3.84,p<0.05,说明调整吸烟因素后,饮酒与食管癌有关系。01122log()itpxx011log()itpx大城小事26四、变量筛选目的;将回归系数有显著意义的自变量选入模型中,作用不显著的自变量则排除在外。变量筛选算法有:前进法、后退法和逐步法(stepwise)。例:讲义例16-2,用逐步法选入变量的显著水准为0.10,变量保留在方程的水准为0.15例:16-2讲义261-263页大城小事27表16-4进入方程的自变量及参数估计变量βSbWaldχ2P标准β’OR常数-4.7051.549.300.0023年龄0.9240.4773.760.05250.4012.52X51.4960.7444.040.04430.4064.46X63.1361.2496.300.01210.70323.06X81.9470.8475.290.02150.5237.01标准回归系数(b’)比较各自变量对Y的相对贡献'/(/3)jjjbbs大城小事28第二节条件Logistic回归概念:用配对设计获得病例对照研究资料,计算的Logistic回归模型为条件Logistic回归。成组(未配对)设计的病例对照研究资料,计算的Logistic回归模型为非条件Logistic回归。例:见265页区别:条件Logistic回归的参数估计无常数项(β0),主要用于危险因素的分析。大城小事29第三节logistic回归的应用及注意事项一、logistic回归的应用1.疾病(某结果)的危险因素分析和筛选用回归模型中的回归系数(βi)和OR说明危险因素与疾病的关系。例:讲义例16-1,16-2,16-3适用的资料:前瞻性研究设计、病例对照研究设计、横断面研究设计的资料。三类研究计算的logistic回归模型的β意义是一致。仅常数项不同。(证明略)大城小事30Logistic回归的应用2.校正混杂因素,对疗效做评价在临床研究和疗效的评价,组间某些因素构成不一致干扰疗效分析,通过该法可控制非处理因素,正确评价疗效。3.预测与判别预测个体在某因素存在条件下,发生某事件(发病)的概率,为进一步治疗提供依据。大城小事31表5-4甲乙两疗法某病治愈率%比较病型甲疗法乙疗法病人治愈治愈病人治愈治愈数数率数数率普通型30018060.01006565.0重型1003535.030012541.7合计40021553.840019047.5例:例1大城小事32表5-5直接法计算标准化治愈率病型标准甲疗法乙疗法治疗原治预期原治预期人数愈率治愈数愈率治愈数普通型40060.024065.0260重型40035.014041.7167合计800380427调整率(标准化率):%5.47800380'iiiNPNP甲%4.53800427'乙P大城小事33X1疗法(甲=0,乙=1)X2病情(轻=1,重=0)Y疗效(Y=1有效,Y=0无效)LOGISTIC回归计算StandardWaldParameterEstimateErrorChi-SquaPrIntercept-0.64530.165315.24.0001疗法0.24820.16992.130.1442病情0.99000.169933.93.0001OddsRatioEstimatePoint95%WaldEffectEstimateConfidenceLimits疗法1.2820.9191.788病情2.6911.9293.755大城小事34例2性别、两种药物对某病疗效的研究不考虑性别的影响,疗