1多元Logistic回归分析MultipleLogisticRegressionAnalysis第七章2主要内容Logistic回归分析的基本概念Logistic回归分析的数学模型Logistic回归模型的建立和检验Logistic回归系数的解释配对病例-对照数据的logistic回归分析3回归分析的分类连续型因变量(y)---线性回归分析多个因变量(y1,y2…yk)分类型因变量(y)---Logistic回归分析时间序列因变量(t)---时间序列分析生存时间因变量(t)---生存风险回归分析路径分析结构方程模型分析一个因变量y回忆:4医学研究中经常遇到分类型变量•二分类变量:o生存与死亡o有病与无病o有效与无效o感染与未感染•多分类有序变量:o疾病程度(轻度、中度、重度)o治愈效果(治愈、显效、好转、无效)•多分类无序变量:o手术方法(A、B、C)o就诊医院(甲、乙、丙、丁)5医学研究者经常关心的问题•哪些因素导致了人群中有的人患胃癌而有的人不患胃癌?•哪些因素导致了手术后有的人感染,而有的人不感染?•哪些因素导致了某种治疗方法出现治愈、显效、好转、无效等不同的效果?是回归分析问题:Y=f(x)6如何解决这样的问题?y=f(x)y=1,0x任意存在,且不唯一不能直接分析变量y与x的关系p=p(y=1|x)=f(x)0≤p≤1,x任意Logistic回归模型y取某个值的概率变量p与x的关系71、什么是Logistic回归分析?研究因变量y取某个值的概率变量p与自变量x的依存关系。p=p(y=1|x)=f(x)第一节Logistic回归分析的概念82、Logistic回归分析的分类•按数据的类型:o非条件logistic回归分析(成组数据)o条件logistic回归分析(配对病例-对照数据)•按因变量取值个数:o二值logistic回归分析o多值logistic回归分析•按自变量个数:o一元logistic回归分析o多元logistic回归分析Logistic回归分析9第二节Logistic回归分析的数学模型令y是1,0变量,x是任意变量,p=p(y=1|x),那么,二值变量y关于变量x的一元logistic回归模型是:其中,α和β是未知参数或待估计的回归系数。该模型描述了y取某个值(这里y=1)的概率p与自变量x之间的关系。(1)二值一元logistic回归模型:10令y是1,0变量,x1,x2,…,xk是任意k个变量;p=p(y=1|x1,x2,…,xk),那么,变量y关于变量x1,x2,…,xk的k元logistic回归模型是:(2)二值多元logistic回归模型:注意:对于二值Logistic回归模型,Y=0的模型是:p=p(y=0|x1,…,xk)=1-p(y=1|x1,…,xk)11Logistic回归模型的另外一种形式它给出变量z=logit(p)关于x的线性函数。12(3)多值logistic回归模型:例如,当y取值1,2,3时,logistic回归模型是:P1=P2=P3=p(y≤3|x)=1-P2P1=p(y=1)=P1P2=p(y=2)=P2-P1P3=p(y=3)=1-P2累积概率模型独立概率模型131、估计参数----最大似然法2、检验参数的显著性H0:βj=0vsH1:βj≠03、检验模型的显著性H0:β1=…=βk=0vsH1:βj≠04、解释参数的实际意义第三节Logistic回归分析方法步骤14例1、自变量是二值分类型变量某医院为了研究导致手术切口感染的原因,收集了295例手术者情况,其中,手术时间小于或等于5小时的有242例,感染者13例;手术时间大于5小时的有53例,感染者7例。试建立手术切口感染(y)关于手术时间(x)的logistic回归模型。46530(≤713462295324215dataeg7_1a;inputyxwt@@;cards;1171013014600229;run;proclogisticdescending;modely=x;weightwt;run;SAS程序16TheLOGISTICProcedureDataSet:WORK.EG7_1AResponseVariable:YResponseLevels:2NumberofObservations:4WeightVariable:WTSumofWeights:295LinkFunction:LogitResponseProfileOrderedTotalValueYCountWeight11220.00000202275.0000017ModelFittingInformationandTestingGlobalNullHypothesisBETA=0InterceptInterceptandCriterionOnlyCovariatesChi-SquareforCovariatesAIC148.262146.686.SC147.648145.458.-2LOGL146.262142.6863.576with1DF(p=0.0586)Score..4.224with1DF(p=0.0399)AnalysisofMaximumLikelihoodEstimatesParameterStandardWaldPrStandardizedOddsVariableDFEstimateErrorChi-SquareChi-SquareEstimateRatioINTERCPT1-2.86880.2851101.24080.0001..X10.98600.49593.95420.04682.0695692.68118回归模型:参数估计:a=-2.869(p=0.0001),b=0.986(p=0.0468).模型检验:χ2=3.576,df=1,p=0.0586结果:如何解释系数的实际意义?19第四节Logistic回归模型系数的解释回忆流行病学研究中两个重要概念:在logistic回归模型令x=0和x=1,得到20a)一元logistic回归模型系数β的意义解释:(1)x=1,0变量如果x=1,0,则eb=OR近似表示在x=1条件下的发病率与在x=0条件下发病率之比(相对危险度),或者说,x=1条件下的发病可能性比x=1条件下多或少(OR-1)*100%。21Logistic回归模型:从b=0.986,得到RR≈OR=eb=2.681。所以,手术时间大于5小时的感染率是手术时间小于或等于5小时的感染率的2.681倍,即感染的可能性增加了186.1%。0(≤7134622953242例如,手术感染问题22a)一元logistic回归模型系数β的意义解释:(2)如果x是连续变量对于任意x1和x2,x1x2如果x是连续变量,则OR=eb近似表示在x的相邻两个单位上的相对危险度。即x每增加一个单位,相对危险增加或减少(OR-1)*100%。23例2、自变量是连续型数值变量为了分析新生儿出生时体重(birthwt)与支气管肺的发育不良病(BPD)的关系,调查了223名新生儿。调查的数据列在下表中。24dataeg7_2;dobirthwt=750,1150,1550;dobpd=1,0;inputwt@@;output;end;end;cards;49191862966run;proclogisticdata=eg2descending;modelbpd=birthwt;weightwt;run;SAS程序25ResponseProfileOrderedValueBPDCount117620147ModelFittingInformationandTestingGlobalNullHypothesisBETA=0InterceptInterceptandCriterionOnlyCovariatesChi-SquareforCovariatesAIC288.140229.166.SC291.547235.980.-2LOGL286.140225.16660.974with1DF(p=0.0001)Score..56.008with1DF(p=0.0001)AnalysisofMaximumLikelihoodEstimatesParameterStandardWaldPrStandardizedOddsVariableDFEstimateErrorChi-SquareChi-SquareEstimateRatioINTERCPT13.71800.638733.88530.0001..BIRTHWT1-0.003970.00058845.60920.0001-0.7024800.996SAS输出结果261、因变量bpd对自变量birthwt的logistic回归模型是:2、自变量birthwt的回归系数在统计意义上不等于0(p=0.0001),因此,OR=0.996在统计意义上不等于1。OR=0.996说明新生儿出生体重每增加一个单位(g),患BPD病的机会就会减少大约0.4%。即患bpd病的概率随新生儿出生体重的增加而下降。3、根据上述回归模型可以预测新生儿出生时可能患BPD病的概率。27a)一元logistic回归模型系数β的意义解释:(3)如果x是分类变量如果x是分类型变量,特别是名义型变量,则需要将x转化为哑变量,再进行Logistic回归分析。如果x是g个分类的分类型变量,则要将x的g-1个哑变量放入模型,每一个哑变量的OR值表示该组与参照组的相对危险度。28什么是哑变量?一个含有g个类的分类型变量可以构造g个哑变量。29如何用SAS程序构造哑变量?datad2;setd1;arraya{3}studentteacherworker;doi=1to3;a{i}=(x1=i);end;run;datad2;setd1;arraya{3}studentteacherworker;doi=1to3;ifx1=ithena{i}=1;elsea{i}=0;end;run;30如何对哑变量进行分析?(1)将g-1个哑变量放入模型进行分析,留一个哑变量作为参照变量;(2)每一个哑变量的OR值表示该哑变量组与参照变量组的相对危险度。31例3、自变量是分类型变量为了了解冠心病与种族的关系,某研究所调查了100个样本,数据列在下表中。试估计各种族间患冠心病的相对危险度。设y=1表示患冠心病,y=0表示未患冠心病。令x=1表示黑人,x=2表示白人,x=3表示其它种族。将变量x转化为哑变量,变量名是:black、white和other。32dataeg7_3;doy=1,0;dox=1to3;inputwt@@;output;end;end;cards;20525102020run;dataeg7_3;seteg7_3;arraya{3}blackwhiteother;doi=1to3;a{i}=(x=i);end;run;proclogisticdescending;modely=blackother;weightwt;run;White作为参照组33TheLOGISTICProcedureResponseProfileOrderedTotalValueYCountWeight11350.00000020350.000000ModelFittingInformationandTestingGlobalNullHypothesisBETA=0WithoutWithCriterionCovariatesCovariatesChi-SquareforCovariatesAIC138.629131.038.SC138.629130.413.-2LOGL138.629125.03813.592with3DF(p=0.0035)Score..12.889with3DF(p=0.0049)AnalysisofMaximumLikelihoodEstimatesParameterStandardWaldPrStandar