1Logistic回归模型赵耐青复旦大学公共卫生学院2数据分析的背景•计量资料单因素统计分析–对于两组计量资料的比较,一般采用t检验或秩和检验。–对于两个变量的相关分析采用Pearson相关分析或Spearman相关分析•考虑多因素的影响,对于应变量(反应变量)为计量资料,一般可以考虑应用多重线性回归模型进行多因素分析。3数据分析的背景•单因素的分类资料统计分析,一般采用Pearson2进行统计检验,用OddsRatio及其95%可信区间评价关联程度。•考虑多因素的影响,对于反应变量为分类变量时,用线性回归模型P=a+bx就不合适了,应选用Logistic回归模型进行统计分析。4Logistic回归模型•按研究设计分类–非配对设计:非条件Logistic回归模型–配对的病例对照:条件Logistic回归模型•按反应变量分类–二分类Logistic回归模型(常用)–多分类无序Logistic回归模型–多分类有序Logistic回归模型5基础知识•通过下例引入和复习相关概念•例如:研究患某疾病与饮酒的关联性•患病率P1=a/m1P2=b/m2饮酒(X=1)不饮酒(X=0)合计患病(y=1)abn1未患病(y=0)cdn2合计m1m2N6基础知识•Odds(优势)(1)111111PPOddsPPP1POddsPP越大,则Odds越大;P越小,则Odds越小并且0Odds+7基础知识P与Odds一一对应•对于两个Odds的比较,一般用它们的Ratio,并称为OddsRatio(OR),其定义如下:•其样本估计统计量为1OddsPOdds12OddsOROddsadORbc8基础知识•故比较两个率==•比较OR=1?OR1?OR1?12121PPOddsOddsOR12121PPOddsOddsOR9(二分类)Logistic回归模型•因为0Odds+•所以-ln(Odds)+•对ln(Odds)引入类似多重线性回归的表达式011ln()ln()1mmPOddsxxP10Logistic回归模型•记:•故可以写为•也可以写为log()ln()1PitPP011log()mmitPxx011011exp()1exp()mmmmxxPxx11回归系数的意义•以x1的回归系数1为例•固定其它自变量,比较x1与x1+1的ln(Odds)变化。•对于x1,•对于x1+1,•反对数变换得到1011ln()xmmOddsxx11011ln()(1)xmmOddsxx1111ln()ln()ln()xxOROddsOdds1ORe12研究急性心肌梗塞(AMI)患病与饮酒的关系,采用横断面调查。实例1饮酒(X=1)不饮酒(X=0)合计患病(y=1)5574129未患病(y=0)104663212555317218合计10471821262931734713实例1•饮酒的患病率和Odds分别为155104718P111551104663POddsP274212629P222741211555POddsP不饮酒的患病率和Odds分别为552115551.509416674104663OR14实例1的Logistic回归模型•患病(Y=1)的概率为•x=1表示饮酒,x=0表示不饮酒•回归系数0,1是未知参数,通常用最大似然估计的方法。0101(1|)1xxePYxe15实例1:患病与未患病的概率•饮酒(x=1),患病概率和未患病概率分别为•不饮酒(x=0),患病概率和未患病概率分别为01011ePe0111Pe001ePe011Pe16实例1:最大似然估计•本例的似然函数•选择0和1使似然函数L达到最大,即最大似然估计。0101010005510466374212555111111eLeeeee17实例1:用Logistic模型进行统计分析•以上述实例资料用Stata统计软件对回归系数进行最大似然估计,得到回归系数估计为•即:10.41172320-7.962891ybse(b)zP|z|x.4117232.17807192.310.021_cons-7.962891.1162679-68.490.0002.31()bzseb18Logistic模型的单个回归系数检验•关键是如果=0,意味自变量X与Y无关联性。由于的估计存在抽样误差,即使=0,其估计值b一般不为0,故需检验=0?•H0:=0H1:0•=0.05•检验统计量•可以证明:H0:=0为真时,z近似服从标准正态分布,即:|z|1.96,P0.05,拒绝H0()bzseb19实例1:用Logistic模型进行统计分析•实例1的回归系数估计为•se(b)=0.1780719,z=b/se=2.31,P=0.0210.05拒绝H0,差异有统计学意义,可认为0。•饮酒与患AMI的关联性为•OR的95%可信区间为(1.06,2.14)1ˆ0.41172320ˆ-7.9628910.41172321.509417ORe20应用Logistic模型校正混杂作用•实例2:上例没有考虑吸烟情况,故将吸烟作为分层加入,资料如下:吸烟不吸烟饮酒%不饮酒%饮酒%不饮酒%患病33(0.03)21(0.03)22(0.015)53(0.015)未患病223311421082332198345合计22364142318235419839821实例2:应用Logistic模型校正混杂作用•从分层的资料表述可知:由于吸烟的混杂作用以致饮酒与AMI患病伴随有关联。•用x1=1和0分别表示饮酒和不饮酒,用x2=1和0分别表示吸烟和不吸烟,Logistic模型表示如下0112201122(1)1xxxxePYe22Logistic模型的似然比检验•在多个自变量回归模型中,回归系数检验分为单个回归系数检验和多个回归系数检验。•单个回归系数检验表示其它变量均在模型中的情况下,检验某个回归系数i=0,一般用Wald检验(如实例1)。•多个回归系数检验要用似然比方法(likelihoodratiotest)23Logistic模型的似然比检验•多个回归系数的检验(以实例2为例)•H0:1=2=0H1:1,2不全为0•=0.05•H0为真时,模型为•用最大似然法进行估计,其对数最大似然函数值(似然函数的最大值取对数)记为ln(L0)0()LogitP24Logistic模型的似然比检验•H1为真时,实例2的模型为•用最大似然法进行估计,其对数最大似然函数值记为ln(L1)•记似然比检验统计量为2ln(L)=2(ln(L1)-ln(L0))01122()LogitPxx25Logistic模型的似然比检验•可以证明:H0为真时,2ln(L)近似服从2分布,自由度为需检验的自变量个数,如在实例2中,自由度为2。•如果似然比检验统计量2ln(L)则拒绝H0。•如果对模型中所有的自变量进行检验,则称为模型检验。如实例2,对两个自变量进行检验,故这是模型检验。20.05,df26实例2应用Logistic模型校正混杂作用•应用Stata软件进行最大似然估计,得到模型拟合的主要结果如下•似然函数比为2ln(L)=76.32,df=2,P0.001,因此拒绝H0:1=2=0,可以认为1和2不全为0。27实例2应用Logistic模型校正混杂作用•应用Stata软件进行最大似然估计,得到回归系数估计的主要结果如下•饮酒:yCoef.P|z|[95%Conf.Interval]x1-0.0000211.000-0.36808230.3680403x21.7102720.0001.3412772.079267_cons-8.2274660.000-8.478243-7.976688-0.0000210.999979ORe28多自变量Logistic模型的OR解释•在本例中,对于同为吸烟或不吸烟的对象而言(x2相对固定不变),•饮酒(x1=1)的对数Odds为•不饮酒(x1=0)的对数Odds为110122()xLogOddsx10022()xLogOddsx29多自变量Logistic模型的OR解释•则饮酒的对数OddsRatio为•即:饮酒的•意义:对于同为吸烟的对象或者同为不吸烟的对象,其饮酒的•故称校正吸烟后OR,而前者未考虑吸烟的单因素OR称为crudeOR11101ln()()()xxORLogOddsLogOdds1ORe1ORe30实例2应用Logistic模型校正混杂作用•饮酒:•P=1•校正了吸烟因素的情况下,没有足够的证据推断饮酒与AMI患病有关联性。•吸烟:•P0.001,校正了饮酒的情况下,可以认为吸烟与患AMI的关联性有统计学意义,并且可以认为吸烟者患AMI的风险更大。-0.0000210.999979ORe1.7102725.531ORe31Logistic模型中的交互作用•实例3:采用病例对照设计研究吸烟和家属史与患肺癌的关联性。•用x1=1,0分别表示吸烟和不吸烟;x2=1,0分别表示有无家属史;用y=1,0分别表示患肺癌和未患肺癌。有家属史无家属史患肺癌未患肺癌患肺癌未患肺癌吸烟20050806不吸烟300450270310合计50050035031632实例3:Logistic模型的交互作用•一般而言,吸烟和家属史均是肺癌的重要相关因素,很有可能这两个因素对患肺癌有交互作用,因此采用下列含有交互作用项的Logistic模型。•其中x1和x2的乘积项x1x2称为交互作用项01122312()LogitPxxxx33应用Logistic模型分析实例3•用Stata软件对实例3的资料拟合上述模型,得到下列结果:•3=0.955825,P=0.04,差别有统计学意义,可以认为吸烟和家属史对患肺癌有交互作用。变量回归系数.P[95%Conf.Interval]x11.7917590.0001.4491552.134364x2.24814490.0260.0296830.4666067x12.9558280.0400.04367481.867981_cons-.40546510.000-0.5515522-0.25937834实例3:Logistic模型的交互作用•由于本例模型为•对于无家属史,x2=0代入模型,得到•由回归系数与OR的关系,得到吸烟的:11.7917596ORee01122312()LogitPxxxx011()LogitPx95%CI=(4.3,8.5)P0.00135实例3:Logistic模型的交互作用•由于本例模型为•对于有家属史,x2=1代入模型,得到•有家属史的吸烟OR为131.791759+0.95582815.6ORee01122312()LogitPxxxx02131()()LogitPx36实例3:Logistic模型的交互作用•H0:1+3=0H1:1+30•=0.05(应用Stata软件可进行下列计算)••当H0为真时,检验统计量2服从自由度为1的2分布,由于本例检验统计量2=40.58=3.84,故拒绝H0,可以认为1+30,差别有统计学意义,可以认为吸烟者患肺癌的风险更大。221313()40.58var()20.05,137实例3:Logistic模型的交互作用•同理,为了评价家