第16章logistic回归logistic的主要内容logistic回归条件logistic回归多类结果的logistic回归有序结果的累计比数logistic回归logistic回归的正确应用logistic回归模型简介传统方法与logistic回归的关系回归系数的解释模型的估计与假设检验建模策略多重线性回归的适用条件计量资料(均数)=计量、等级、分类二分类资料(率)=计量、等级、分类?1模型简介P发病的概率,0≤P≤1。1122mmPxxx1122()11mmxxxPeCox(1970)logit变换logistic函数11zPe1122mmzxxxz-5-4-3-2-10123450.2.4.6.81Plogistic回归模型P发病的概率。为“机会”或“优势”(odds)logitP为优势之对数(logodds)mmxxxP2211logitPP1PPP1lnˆlogitlogistic回归模型的几种形式mmxxxP2211logit1122()11mmxxxPe112211221mmmmxxxxxxePe2传统方法与logistic回归四格表资料(病例对照)与logistic的关系分层四格表资料与logistic的关系例四格表资料探讨妇女使用雌激素与患子宫内膜癌的病例-对照研究雌激素使用过未使用过病例55(a)128(b)对照19(c)164(d)7089.31281916455)1()1(0011bcadPPPPOR5616.6~0964.2164119112815511.96exp3.7089:%95CI四格表资料的logistic回归X=1表示使用过雌激素X=0表示未使用过雌激素xP1.3107+0.2478-=logitxPP1.3107+0.2478-=-1ln四格表资料与logistic回归X=1时X=0时3107.11ln1ln)1/()1/(ln)ln(00110011PPPPPPPPOR11ln=-0.24781.31071-PP00ln=-0.24781-PP1100(1)(1)PPORPP1.31073.7089ORe例分层四格表资料与logistic回归年龄组X=1,使用过X=0,未使用过Y=1Y=0Y=1Y=01:25~1946222242:30~34933123903:35~39426333304:40~4469653625:45~496593301按年龄分层的心肌梗死与近期口服避孕药的关系Mantel-Haenszel法结果.mhoddsyx[fw=f],by(age)Comparingx==1vs.x==0byage---------------------------------------------------------------age|OddsRatiochi2(1)Pchi2[95%Conf.Interval]------+--------------------------------------------------------1|7.2258066.780.00921.26334041.328772|8.86363628.640.00003.36912823.318813|1.5384620.580.44500.5049524.6873034|3.7128216.580.01031.26658710.883615|3.8838715.530.01871.14749013.14561---------------------------------------------------------------Mantel-Haenszelestimatecontrollingforage----------------------------------------------------------------OddsRatiochi2(1)Pchi2[95%Conf.Interval]----------------------------------------------------------------3.96989534.720.00002.4180416.517702----------------------------------------------------------------TestofhomogeneityofORs(approx):chi2(4)=6.27Prchi2=0.1797logistic回归结果.xi:logityxi.age[fw=f]i.age_Iage_1-5(naturallycoded;_Iage_1omitted)LogitestimatesNumberofobs=1976LRchi2(5)=151.47Probchi2=0.0000Loglikelihood=-643.06749PseudoR2=0.1054----------------------------------------------------------------y|Coef.Std.Err.zP|z|95%CI--------+-------------------------------------------------------x|1.385176.25053235.530.000.89414171.87621_Iage_2|1.138362.47697192.390.017.20351462.07321_Iage_3|1.934401.45838814.220.0001.0359772.832825_Iage_4|2.648059.44977355.890.0001.7665193.529599_Iage_5|3.194293.44753267.140.0002.3171454.07144_cons|-4.36985.4347941-10.050.000-5.222031-3.517669----------------------------------------------------------------logistic回归结果.xi:logisticyxi.age[fw=f]i.age_Iage_1-5(naturallycoded;_Iage_1omitted)LogitestimatesNumberofobs=1976LRchi2(5)=151.47Probchi2=0.0000Loglikelihood=-643.06749PseudoR2=0.1054-----------------------------------------------------------------y|OddsRatioStd.Err.zP|z|[95%CI]---------+-------------------------------------------------------x|3.9955281.0010095.530.0002.4452366.528714_Iage_2|3.1216521.488942.390.0171.2257037.950304_Iage_3|6.9198973.1719984.220.0002.81785716.9934_Iage_4|14.126596.3537655.890.0005.85045234.11027_Iage_5|24.3929110.916627.140.00010.1466658.64136-----------------------------------------------------------------传统方法与logistic回归的关系单因素病例对照研究的OR,与logistic回归等价;分层病例对照研究的ORMH,与logistic回归结果近似。logistic回归是传统方法的扩展。混杂因素的控制控制某混杂因素,实际上就是将该因素纳入模型。在解释暴露因素的影响时,该混杂因素实际上是控制了。3回归系数的解释logistic回归中的系数,与OR有关!一个暴露因素时,当暴露为1,非暴露为0时,=ln(OR)/()ln()ln/()lnln()()=PPORPPPPPP11000110111110回归系数的解释一个暴露因素时,当暴露为c1,非暴露为c0时,/()ln()ln/()lnln()()=()PPORPPPPPPcccc1100011010101111回归系数的解释一个暴露因素:暴露为1,非暴露为0。一个混杂因素时:水平数分别为:1,2,…logitPxx1122当x2固定时(取某个值的前提下):/()ln()ln/()lnln()()=1100011012121111110PPORPPPPPPxx例食道癌危险因素研究在食道癌危险因素研究中,采用病例-对照设计,调查了200个食道癌患者和788个非食道癌患者,调查因素及编码如下。可疑因素变量名取值年龄(岁)AGE0=25-34,1=35-44,2=45-54,3=55-64,4=65-74,5=75+每日饮酒量(g)ALCOHOL0=0-39,1=40-79,2=80-119,3=120+每日吸烟量(g)TOBACO0=0-9,1=10-19,2=20-29,3=30+logistic回归系数的解释变量估计系数OR95%CIAGE0.74382.10391.7923~2.4698ALC1.10263.01202.4604~3.6872TOB0.43091.53861.2800~1.8496常数项-4.8868控制了吸烟和饮酒,年龄每增加1个等级,患食道癌的可能性增加1.1倍。控制了年龄和吸烟,饮酒每增加1个等级,患食道癌的可能性增加2.0倍。控制了年龄和饮酒,吸烟每增加1个等级,患食道癌的可能性增加0.54倍。回归系数的解释等级变量:一般以最小等级或最大等级作为参考组,并按等级顺序依次取为0,1,2,…。此时,exp()表示X增加一个等级时的优势比,exp(k)表示增加k个等级时的优势比。连续性变量:表示增加1(个计量单位)时的优势比。回归系数的解释多分类变量:哑变量(dummyvariable)x=1时:D1=0,D2=0,D3=0表示A型血x=2时:D1=1,D2=0,D3=0表示B型血x=3时:D1=0,D2=1,D3=0表示AB型血x=4时:D1=0,D2=0,D3=1表示O型血exp(1)表示B与A比之OR;exp(2)表示AB与A比之OR;exp(3)表示O与A比之OR。3322110logitDDDP回归系数的解释在横断面调查研究中,表示基线状态下,个体的患病率;在队列研究中,表示基线状态下,个体的发病率;在成组病例-对照研究中,表示基线状态下,病例在研究对象中所占比例;在1:1配比病例-对照研究中,=0,=0.5,表示基线状态下,病例在研究对象中占一半;)1(ee4模型的估计及假设检验线性模型时,用最小二乘估计(LSE)logistic回归模型,用极大似然估计。(maximumlikelihoodestimate,MLE)Wald检验Wald检验实际上是比较估计