Logistic回归分析汕大医学院预防医学教研室Logisticregression:是研究分类变量统计分析的一种重要方法。研究两水平或多水平反应变量与其影响因子间关系的回归分析(线性回归分析:应变量为连续计量资料)。Logistic回归模型是一种概率模型,通常以疾病,死亡等结果发生的概率为因变量,影响疾病发生的因素为自变量建立回归模型。第一节Logistic回归目的:作出以多个自变量(危险因素)估计应变量(结果因素)的logistic回归方程。属于概率型非线性回归。资料:1.应变量为反映某现象发生与不发生的二值变量或多分类变量;2.自变量宜全部或大部分为分类变量,可有少数数值变量。分类变量要数量化。医学研究中常碰到应变量的可能取值仅有两个(即二分类变量),如发病与未发病、阳性与阴性、死亡与生存、治愈与未治愈、暴露与未暴露等,也有多分类的应变量,如疗效分级,血压等级等。试验者术前检查了53例前列腺癌患者,拟用年龄(AGE)、酸性磷酸酯酶(ACID)两个连续型的变量,X射线(X-RAY)、术前探针活检病理分级(GRADE)、直肠指检肿瘤的大小与位置(STAGE)三个分类变量与手术探查结果变量NODES(1、0分别表示癌症的淋巴结转移与未转移)建立淋巴结转移的预报模型。实例53例接受手术的前列腺癌患者情况26例冠心病病人和28例对照者进行病例对照研究26例冠心病病人和28例对照者进行病例对照研究•Logistic回归的分类Logistic回归二分类多分类非条件:成组资料1:1配对资料条件Logistic回归1:m配对资料m:n配对资料根据研究设计不同•要求:•(1)各观察对象的独立性•(2)所需样本量大小与自变量的个数一、Logistic回归方程Logistic回归的logit模型112211221122P=LogitPln[P/(1-P)]logit(P)=ln[P/(1-P)]=nnnnnnxxxxxxxxx变换转换为•(1)取值问题•(2)曲线关联•反应变量与自变量的关系通常不是直线关系,而是S型曲线。曲线回归时,往往采用变量变换,使得曲线直线化,再进行直线回归方程的拟合。能否考虑对所预测的因变量加以变换。1970年,COX引入了用于人口学领域的Logit变换。概率P是以0.5为对称点,分布在0~1的范围内的,而相应的Logit(P)的大小为P=0Logit(P)=Ln(0/1)=-无穷大P=0.5Logit(P)=Ln(0.5/0.5)=0P=1Logit(P)=Ln(1/0)=+无穷大Logit(P)取值范围扩展为(-,+-)Z-5-4-3-2-10123450.2.4.6.81P1122nnZxxx•Logit变换也称对数单位转换logitP=ln1PP01122ln=1mmPXXXPlogitP常数项表示暴露剂量为0时个体发病与不发病概率之比的自然对数。回归系数表示自变量改变一个单位时logitP的改变量。0),,2,1(mjj),,2,1(mjj112211221122()()()1111nnnnnnxxxxxxxxxePePe其中,为常数项,为偏回归系数。比数(优势)Odds=P/(1-P)优势比(比值比)OR(oddsratio)设P表示暴露因素X时个体发病的概率,则发病的概率P与未发病的概率1-P之比为优势(odds),logitP就是odds的对数值。两个比值之比称为比值比(OddsRatio),简称OR。式中1P和0P分别表示在jX取值为1c及0c时的发病概率,jOR称作多变量调整后的优势比,表示扣除了其他自变量影响后危险因素的作用。参数解释1100/(1)/(1)jPPORPP0,1exp,0,10,1jjjjjjOROROROR无作用危险因保子护因子则有101,1,0jccX暴非若暴露露由于jOR值与模型中的常数项0无关,0在危险因素分析中通常视其为无效参数。1100/(1)1,/(1)PPPORRRPP当则有10exp[()]jjORcc即回归系数的解释•建立Logistic回归方程就是求和i•意义:常数项是当各种暴露因素为0时,个体发病与不发病概率之比的自然对数值。•i意义•偏回归系数,表示在其它自变量固定的•条件下,第i个自变量每改变一个单位时logit的改变量。它与比数比(优势比)(oddsratio)有对应关系。是对自变量Xi作用大小的一种度量。•Logistic回归中的常数项(b0)表示,在不接触任何潜在危险/保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。•Logistic回归中的回归系数(bi)表示,某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即OR的对数值。Logistic回归系数的意义•分析因素xi为二分类变量时,存在(暴露)xi=1,不存在(未暴露)xi=0,则Logistic回归中xi的系数bi就是暴露与非暴露优势比的对数值。即OR=exp(bi)=e(bi)•哑变量•自变量为多分类变量,与应变量之间通常不存在线性关系,须用哑变量方式分析。若K为该变量的水平数,则系统将自动产生K-1个哑变量。Categorical子对话框用于此设置。•多分类无序自变量•多分类有序自变量,要求其等级分组与LogitP呈线性关系,如不满足条件,则将等级变量当作无序变量,用哑变量进行分析。•实际是依次将反应变量按不同的取值水平分割呈两个等级,对这两个等级建立反应变量为二分类的Logistic回归模型。•常数项改变了,偏回归系数不变。OR值是自变量每改变一个单位,反应变量提高一个及一个以上等级的比数比。SPSS中Categorical按钮实现Indicator:指标对比,参照水平注意:有实际意义;参照水平有一定频数保证。为了便于解释,对二项分类变量一般按0、1编码,一般以0表示阴性或较轻情况,而1表示阳性或较严重情况。西、中西、中三种疗法哑变量化X1=1西X2=1中西0其它0其它•分析因素xi为多分类变量时,为方便起见,常用1,2,…,k分别表示k个不同的类别。进行Logistic回归分析前需将该变量转换成k-1个指示变量或哑变量(design/dummyvariable),这样指示变量都是一个二分变量,每一个指示变量均有一个估计系数,即回归系数,其解释同前。•分析因素xi为等级变量时,如果每个等级的作用相同,可按计量资料处理:如以最小或最大等级作参考组,并按等级顺序依次取为0,1,2,…。此时,e(bi)表示xi增加一个等级时的优势比,e(k*bi)表示xi增加k个等级时的优势比。如果每个等级的作用不相同,则应按多分类资料处理。•分析因素xi为连续性变量时,e(bi)表示xi增加一个计量单位时的优势比。多因素Logistic回归分析时,对回归系数的解释都是指在其它所有自变量固定的情况下的优势比。存在因素间交互作用时,Logistic回归系数的解释变得更为复杂,应特别小心。回归系数与OR的关系•logistic回归中的系数,与OR有关!•一个暴露因素时,当暴露为1,非暴露为0时,=ln(OR)/()ln()ln/()lnln()()=PPORPPPPPP11000110111110•一个暴露因素时,当暴露为c1,非暴露为c0时,/()ln()ln/()lnln()()=()PPORPPPPPPcccc1100011010101111传统方法与logistic回归•四格表资料(病例对照)与logistic的关系•分层四格表资料与logistic的关系四格表资料探讨妇女使用雌激素与患子宫内膜癌的病例-对照研究雌激素使用过未使用过病例55(a)128(b)对照19(c)164(d)7089.31281916455)1()1(0011bcadPPPPOR5616.6~0964.2164119112815511.96exp3.7089:%95CI四格表资料的logistic回归•X=1表示使用过雌激素•X=0表示未使用过雌激素xP1.3107+0.2478-=logitxPP1.3107+0.2478-=-1ln四格表资料与logistic回归•X=1时•X=0时3107.11ln1ln)1/()1/(ln)ln(00110011PPPPPPPPOR11ln=-0.24781.31071-PP00ln=-0.24781-PP1100(1)(1)PPORPP1.31073.7089ORe•单因素病例对照研究的OR,与logistic回归等价;•分层病例对照研究的ORMH,与logistic回归结果近似。•logistic回归是传统方法的扩展。•混杂因素的控制•控制某混杂因素,实际上就是将该因素纳入模型。•在解释暴露因素的影响时,该混杂因素实际上是控制了。•比分检验(scoretest)以未包含某个或几个变量的模型为基础,保留模型中参数的估计值,并假设新增加的参数为零,计算似然函数的一价偏导数(又称有效比分)及信息距阵,两者相乘便得比分检验的统计量S。样本量较大时,S近似服从自由度为待检验因素个数的2分布。根据最大似然原理,似然函数L应取最大值。对似然函数取对数形式:1ln[ln(1)ln(1)]niiiiiLYPYP式中为对数似然函数,对其取一阶导数求解参数。对于参数j(1,2,,jm),令lnL的一阶导数为0,即ln0jL,用Newton-Raphson迭代方法解方程组,得出参数j的估计值jb和jb的渐进标准误jbS。三、参数估计参数估计)](exp[ˆ01ccbROjj若自变量jX只有暴露和非暴露两个水平,则优势比jOR的1可信区间估计公式为)exp(2/jbjSub优势比估计可反映某一因素两个不同水平(c1,c0)的优势比。回归系数的区间估计ibiSub例16-1表16-1是一个研究吸烟、饮酒与食道癌关系的病例-对照资料,试作logistic回归分析。12101010XXY吸烟不吸烟饮酒不饮酒病例对照确定各变量编码分层吸烟饮酒观察例数阳性数阴性数gX1X2ngdgngdg10019963136201170631073101014457411416265151表16-1吸烟与食道癌关系的病例-对照调查资料经logistic回归计算后得0b=-0.9099,0bS=0.1358;1b=0.8856,1bS=0.1500;2b=0.5261,2bS=0.1572吸烟与不吸烟的优势比:11ˆexpexp0.8856=2.42ORb1OR的95可信区间:110.05/2exp[]exp(0.88561.960.1500)(1.81,3.25)bbuS饮酒与不饮酒的优势比:22ˆexpexp0.52611.69ORb2OR的95可信区间:22exp(1.96)exp(0.52611.960.1572)(1.24,2.30)bbS经logistic回归计算后得:经logistic回归计算后得0b=-0.9099,0bS=0.1358;1b=0.8856,1bS=0.1500;2b=0.5261,2bS=0.1572吸烟与不吸烟的优势比:11ˆexpexp0.8856=2.42ORb1OR的95可信区间:110.05/2exp[]exp(0.8856