Logistic回归分析攻略冯国双什么是logistic回归常见的几种回归模型:因变量为连续资料——线性回归因变量为分类资料——Logistic回归因变量为计数资料——Poisson回归因变量为生存资料——Cox回归…………什么是Logistic回归线性回归模型:Logit变换:p表示事件发生的概率,1-p为事件不发生的概率当p=1时,logit(p)=+∞,当p=0.5时,logit(p)=0,当p=0时,logit(p)=-∞故logit(p)的取值范围是(-∞,+∞)mmxbxbxbay2211ˆ)1(lnlogitPPP什么是Logistic回归Logit变换:式中等号右边的分数[p/(1-p)]是流行病学常用的描述疾病发生强度的统计指标,称为优势(odds)。当疾病发生的概率p与不发生的概率q相等皆为0.5时,odds=1,否则odds大于或小于1。)1(lnlogitPPP什么是Logistic回归Logistic回归模型:βi表示自变量xi改变一个单位时,logit(p)的改变量。其它形式:mmxxxppp22110)1ln()(itlogeemmmmxxxxxxp......22110221101emmxxxp)...(221011什么是Logistic回归Logistic回归的主要用途:(1)寻找某现象发生的影响因素。(2)校正混杂因素。(3)确定不同因素对疾病发生影响的相对重要性。(4)预测。eexypp10101)1|1(1eexypp001)0|1(2eeep101010111-1-11eeep000111-1-12结局y暴露因素x结局y暴露因素x10101ab1p1p20cd01-p11-p2合计a+cb+d合计11logistic回归参数估计logistic回归参数估计最大似然估计(maximumlikelihoodestimation,MLE)最大似然法就是选取使总体参数落在样本观察值领域里的概率达到最大时的值作为参数的估计值。故上述问题的最大似然函数是:两边取对数,变为dcbaeeeeeeL)11()11(11010001010)()()1ln()1ln()1ln()1ln()()ln(010010010eeeedcbbaaLQlogistic回归参数估计对Q分别求关于β0和β1的一阶偏导数,并令一阶偏导数等于0,得到两个关于β0和β1的二元一次方程,解该方程组,便得到回归系数β0和β1的最大似然估计值:ˆ0ln(db)ˆ1ln(ca)-ln(db)=ln(bcad)logistic回归参数估计暴露人群的优势为p1/(1-p1)非暴露人群的优势为p2/(1-p2)二者之比,称为优势比(oddsratio,OR)对OR求对数,得OR=bcadpppp)1/()1/(2211ln(OR)=ln(bcad)=ˆ1或OR=e1logistic回归分析思路1、分析前准备——是否可以用logistic回归:研究目的:寻找某现象的危险因素吗?预测?多因素分析?因变量类型:是分类变量吗?二分类或多分类均可logistic回归分析思路2、分析前准备——自变量形式审查:(1)暴露因素(自变量)x是二分类变量时:直接纳入模型通常赋值为:暴露时x=1,非暴露时x=0此时logistic回归模型中的系数是1(暴露)与0(非暴露)相比的优势比的对数值。此时eβ表示1(暴露)与0(非暴露)相比,事件发生的危险,即OR值logistic回归分析思路(2)暴露因素(自变量)x是多分类变量时:常用1,2,3,…,k分别表示k个不同的类别。进行logistic回归分析时,将变量转换为k-1个虚拟变量或哑变量(dummyvariable),每个虚拟变量都是一个二分类变量,通常用0和1表示。每个虚拟变量各有一个回归系数,其意义表示1与0相比的优势比的对数值logistic回归分析思路例如,血型x为A、B、AB、O四个值,以1、2、3、4来表示,该数字只是一个代码,并非是一个等级变量。在logistic回归分析时,需将变量x转换为3个虚拟变量。若以A型血为参照组,3个虚拟变量分别为x1、x2、x3。在分析时,将3个虚拟变量x1、x2、x3同时纳入logistic回归模型,可得3个回归系数β1、β2、β3,其中,β1为B型血与A型血相比患白血病的优势比的对数值;β2为AB型血与A型血相比患白血病的优势比的对数值;β3为O型血与A型血相比患白血病的优势比的对数值。logistic回归分析思路为什么多分类自变量要用虚拟变量的形式?-0.3-0.2-0.100.10.20.30.401234妊娠次数logitPlogistic回归分析思路(3)暴露因素(自变量)x是连续变量时,最好将其转化为分类变量为什么?logistic回归分析思路分析年龄与高血压发生与否的关系:age2是原始的年龄数据,age1是年龄分组数据(分为50、50-59、=60三个年龄组)Hypertensionage1age0140014001400141014101410142014201421143logistic回归分析思路直接用连续变量age分析,结果如下:提示年龄无统计学意义logistic回归分析思路用分类变量age1分析,结果如下:年龄50-59与50相比,有统计学意义。logistic回归分析思路仔细看一下二者关系,可以发现,年龄和高血压发生是二次项关系,中间高,两头低,如果直接纳入模型,作为线性关系,便无统计学意义logistic回归分析思路3、正式分析——单因素分析和多因素分析:必须进行单因素分析吗?并无一致结论。但一般建议可通过大致了解各自变量的作用,同时探索各自变量与因变量的关系多因素分析策略:理清多个自变量之间的关系最适合新手的简易方法:逐步回归logistic回归分析思路4、正式分析——参数估计和检验:利用统计软件,求出参数估计值参数估计方法最大似然法(maximumlikelihood,ML)参数检验方法似然比检验(likelihoodratiotest)、得分检验(scoretest)、Waldχ2检验logistic回归分析思路Waldχ2检验:参数估计值与标准误之比的平方似然比检验:比较两个嵌套模型的对数似然值,如模型A中含a、b两个变量,模型B中含a一个变量,如果两个模型有差异,提示b可能有统计学意义。Score检验(也称拉格朗日乘数检验、求导检验):检验无效假设成立时对数似然函数的效率22)ˆ(ˆWaldjjselogistic回归分析思路5、建立初步模型:根据参数估计值,建立初步模型mmxxxppp22110)1ln()(itloglogistic回归分析思路6、善后工作——模型评价:(1)Pearsonχ2——比较预测值和观测值的差别oj和ej分别为第j类交叉组合中的观测频数和预测频数若χ2值很小,意味着观测频数和预测频数无“显著差别”,模型很好地拟合了数据。Jjjjjeeo12logistic回归分析思路(2)Deviance——比较饱和模型和现有模型的差别饱和模型包含了所有的变量,其模型估计值与观测值完全相等,反映一种理想状态。Deviance值越小,现有模型与饱和模型的偏差越小,拟合效果越好。)ln(ln2fsLLDlogistic回归分析思路(3)HL指标——用于模型中含有连续自变量的情形HL统计量根据预测概率值大小将所有数据排序,大致分为规模相同的10组,比较观测值与预测值的差异χ2检验不显著表示拟合较好,反之表示拟合不好。GgggggggppnpnyHL1)ˆ1(ˆ)ˆ(logistic回归分析思路(4)AIC、SC——用于多个模型之间的拟合优度比较AIC=(-2lnL)+2(q+s)AIC指标通常不用于单个模型的评价,而是用于两个或多个模型拟合优度的比较。较小的AIC值表示拟合模型较好。SC(SchwartzCriterion)标准是对AIC指标的一种修正:SC=(-2lnL)+2(q+s)*ln(n)SC与AIC一样,都是值越小表示模型拟合越好,均可用于嵌套或非嵌套的模型比较。logistic回归分析思路(5)广义确定系数R2——自变量对因变量的解释能力,值越大,表示自变量对因变量的解释能力越强。当自变量与因变量完全无关时,其值近于0;当拟合模型能够完美预报时,其值趋近于1。校正SAS中,R2显示为“RSquare”,校正后的R2显示为“Max-rescaledRSquare”R2=1-nLL2)ˆ()0(max222ˆRRRlogistic回归分析思路7、善后工作——模型诊断:(1)多重共线性(multi-collinearity),即自变量之间高度相关常用评价指标:容忍度(tolerance):小于0.1时,可能存在共线性方差扩大因子(varianceinflationfactor,VIF):大于10时,可能存在共线性logistic回归分析思路(2)异常点诊断离群点(outliers):因变量预测值与实际值差别较大。常用诊断指标为Pearson残差和Deviance残差。如果这两个指标绝对值大于2,说明相应观测可能拟合较差,常诊断为离群值。杠杆点(highleveragepoints):自变量远离其它值。常用诊断指标为杠杆值hi。若模型中有m个自变量,所有杠杆值的合计等于m+1,平均值为(m+1)/n。当hi2(m+1)/n时,第个观测可看作高杠杆点。logistic回归分析思路(2)异常点诊断强影响点(influentialpoints):对模型估计影响较大。常用诊断指标为Cook距离(Cook’sDistance)。如果第i个观测的Cook距离远大于其他观测的Cook距离,意味着该点可能既是离群点,又是高杠杆点,因此很可能是一个强影响点。logistic回归分析思路(3)其它问题空单元(zerocellcount):自变量各水平的交叉列联表中有些单元(格子)的观测频数为0完全分离(completeseparation):若自变量存在一临界值c,当xi≥c时,事件发生,而xic时,则事件不发生。过离散(overdispersion):测量方差大于期望方差,原因:重要变量未纳入、异常值、变量相关等logistic回归分析思路8、建立最终模型——模型解释与应用βi表示自变量xi改变一个单位时,logit(p)的改变量。而系数β的实际含义取决于自变量x改变“一个单位”的专业意义。OR=eβ,反映了暴露与非暴露相比结局发生的风险有多高。mmxxxppp22110)1ln()(itlogLogistic回归的SAS过程proclogistic选项;class自变量/选项;model因变量=自变量/选项;freq变量;roc‘标签’变量;roccontrastreference(‘标签’)/选项;outputout=数据集名关键词1=变量1关键词2=变量2…;run;Logistic回归的SAS过程【proclogistic】语句的2个关键选项:descending也可缩写为desc。该选项将默认的较小值与较大值比较改为较大值与较小值比较,如果我们把事件发生赋值为1(即y=1),事件未发生赋值为0(即y=0)时,需要用到这一选项plots(on