手把手教你SPSS二分类Logistic回归分析本教程手把手教您用SPSS做Logistic回归分析,目录如下:一、数据格式二、对数据的分析理解三、SPSS做Logistic回归分析操作步骤3.1线性关系检验假设3.2多重共线检验假设3.3离群值、杠杆点和强影响点的识别3.4Logistic回归分析四、SPSS计算结果的解释五、结果结论的撰写一、数据格式某研究者想了解年龄、性别、BMI和总胆固醇(TC)预测患心脏病(CVD)的能力,招募了100例研究对象,记录了年龄(age)、性别(gender)、BMI,测量血中总胆固醇水平(TC),并评估研究对象目前是否患有心脏病(CVD)。部分数据如图1。二、对问题分析使用Logistic模型前,需判断是否满足以下7项假设。假设1:因变量(结局)是二分类变量。假设2:有至少1个自变量,自变量可以是连续变量,也可以是分类变量。假设3:每条观测间相互独立。分类变量(包括因变量和自变量)的分类必须全面且每一个分类间互斥。假设4:最小样本量要求为自变量数目的15倍,但一些研究者认为样本量应达到自变量数目的50倍。假设5:连续的自变量与因变量的logit转换值之间存在线性关系。假设6:自变量之间无多重共线性。假设7:没有明显的离群点、杠杆点和强影响点。假设1-4取决于研究设计和数据类型,本研究数据满足假设1-4。那么应该如何检验假设5-7,并进行Logistic回归呢?三、SPSS操作3.1检验假设5:连续的自变量与因变量的logit转换值之间存在线性关系。连续的自变量与因变量的logit转换值之间是否存在线性关系,可以通过多种方法检验。这里主要介绍Box-Tidwell方法,即将连续自变量与其自然对数值的交互项纳入回归方程。本研究中,连续的自变量包括age、BMI、TC。使用Box-Tidwell方法时,需要先计算age、BMI、TC的自然对数值,并命名为ln_age、ln_BMI、ln_TC。(1)计算连续自变量的自然对数值以age为例,计算age的自然对数值ln_age的SPSS操作如下。在主界面点击Transform→ComputeVariable,出现ComputeVariable对话框。在TargetVariable框中输入即将生成自然对数值的变量名称(如输入ln_age表示age的自然对数值)。选择Functiongroup菜单下的Arithmetic,选择Functionsandspecialvariables菜单下的Ln,双击Ln将该公式选入NumericExpression框中,最后双击age将该变量选入“LN()”公式中。点击OK生成新变量ln_age(即age的自然对数值)。如图2。此时新变量会同时出现在VariableView和DataView窗口中。在DataView窗口中,新生成的ln_age变量如图3。重复以上过程,将本研究中的所有连续自变量的自然对数值全部生成。在DataView中,新生成的ln_age,ln_BMI,ln_TC变量如图4。(2)Box-Tidwell法Box-Tidwell法检验连续的自变量与因变量的logit转换值之间是否存在线性关系的SPSS操作如下。在主界面中点击Analyze→Regression→BinaryLogistic。在LogisticRegression对话框中将变量CVD选入Dependent框中,将变量age、gender、BMI和TC选入Covariates框中。Methods选项选择默认值,即Enter。如果目前未选择Enter,应修改为Enter。如图5。点击Categorical,在LogisticRegression:DefineCategoricalVariables对话框中,将gender选入CategoricalCovariates框中。在ChangeContrast区域,将ReferenceCategory从Last改为First后,点击Change→Continue。如图6。对于二分类变量(如本研究的gender),也可以不通过Categorical选项指定参照,SPSS将默认以赋值较低的变量为参照。Categorical选项可将多分类变量(包括有序多分类和无序多分类)变换成哑变量,指定某一分类为参照。比如,某研究中COPD是多分类变量(分为无COPD病史、轻/中度、重度),如果指定“无COPD病史”的研究对象为参照组,可以分别比较“轻/中度”和“重度”组相对于参照组发生结局的风险。Contrast右侧的下拉菜单中(该下拉菜单内的选项是几种与参照比较的方式),Indicator方式最常用,其比较方法为:第一类或最后一类为参照类,每一类与参照类比较)。在ReferenceCategory的右侧选择First,表示本研究以女性(赋值为0)为对照组。回到LogisticRegression对话框后,可见gender已显示为gender(Cat)。分类变量后显示“(Cat)”说明已正确定义分类变量。如图7。设置好分类自变量后,开始生成交互项。以age和ln_age为例,同时选中age和ln_age(使用Ctrl键+鼠标点击),点击“a*b”键,将age*ln_age交互项选入Covariates框中。如图8。重复以上过程,将所有交互项都选入Covariates框中,点击OK。如图9。(3)假设5的检验结果查看VariablesintheEquation表格中,有交互作用的行及行内“Sig”值,本研究中为agebyln_age、BMIbyln_BMI和TCbyln_TC所在的行及行内“Sig”值。如图10。如果交互作用有统计学意义(P0.05),则说明对应的连续自变量与因变量logit转换值间没有线性关系(即不符合假设5)。尽管解释回归结果时通常不进行多重校正,但在检验线性假设时建议对纳入分析的所有项(包括截距项)进行Bonferroni法校正。本研究中,共有8项纳入模型分析,包括三个连续自变量age、BMI、TC,分类自变量gender,三个交互作用项age*ln_age、BMI*ln_BMI、TC*ln_TC和截距项(Constant)。因此本研究中,建议选择显著性水平应为α=0.00625(即0.05÷8)。根据该显著性水平,本研究所有交互项的P值均高于0.00625,因此所有连续自变量与因变量logit转换值之间存在线性关系。假设5检验完之后,有两种情况:①所有连续自变量与因变量的logit转换值间存在线性关系,则直接进行下一步;②如果一个及以上连续自变量与因变量的logit转换值间不存在线性关系,建议将该变量转换为有序分类变量。3.2检验假设6:自变量之间无多重共线性与线性回归一样,Logistic回归模型也需要检验自变量之间是否存在多重共线性。自变量之间的简单相关或多重相关都会产生多重共线性。容忍度(Tolerance)或方差膨胀因子(VIF)可以用来诊断自变量之间的多重共线性。遗憾的是,SPSS的BinaryLogistic模块并不能提供容忍度或方差膨胀因子,但是我们可以通过线性回归来获得。由于我们关心的是自变量之间的关系,因此容忍度或方差膨胀因子与模型中因变量的函数形式无关。也就是说,我们可以将Logistic回归的因变量(二分类变量)、自变量(二分类、多分类或连续变量)直接带入线性回归模型,从而获得容忍度或方差膨胀因子。在主界面点击Analyze→Regression→Linear,将变量CVD选入Dependent,将age、gender、BMI和TC选入Independent(s),如图11。点击Statistics,出现LinearRegression:Statistics对话框,点击Collinearitydiagnostics→Continue→OK,如图12。结果如图13。如果容忍度(Tolerance)小于0.1或方差膨胀因子(VIF)大于10,则表示有共线性存在。本例中,容忍度均远大于0.1,方差膨胀因子均小于10,所以不存在多重共线性。如果数据存在多重共线性,则需要用复杂的方法进行处理,其中最简单的方法是剔除引起共线性的因素之一,剔除哪一个因素可以基于理论依据。3.3检验假设7:没有明显的离群点、杠杆点和强影响点该假设的SPSS操作见下述3.4部分,此处仅展示如何解读结果。结果中CasewiseList表格显示学生化残差大于2倍标准差的观测。学生化残差大于2.5倍标准差的观测需要研究者进一步观察决定这些观测是否是离群点,如有必要甚至可以从分析中剔除这些观测。本例中,第15、55、65、78和99个观测(CaseNumber)的学生化残差绝对值均大于2.0,符合上述判断可能是离群点的标准。如图14。需要注意的是:①如果所有观测的学生化残差小于2倍标准差,SPSS不会输出CasewiseList表格。如果已经剔除离群点,则第一次分析得到的CasewiseDiagnostics表格不会再显示。②观测数(CaseNumber)指SPSS系统内自动编码(DataView窗口中最左侧蓝色一列中的编码),而非研究者赋值的编码。③研究者需要查看该观测为离群点的原因,决定是否删除该观测并报告。本研究暂考虑不删除离群点,并在结果中报告。3.4Logistic回归在主界面点击Analyze→Regression→BinaryLogistic,在LogisticRegression对话框中,将CVD选入Dependent,将age、gender、BMI和TC选入Covariates。并按照3.1第2部分的操作,通过Categorical将gender变换为哑变量。如图15。注意:如果按本文中指导逐步分析,此时LogisticRegression对话框下为因变量CVD,Covariates框中为4个自变量age、gender(Cat)、BMI、TC和3个交互项age*ln_age、BMI*ln_BMI、TC*ln_TC。此时仅需要将交互项age*ln_age、BMI*ln_BMI、TC*ln_TC从Covariates框中删除即可。对于自变量筛选的方法(Method对话框),SPSS提供了7种选择,使用各种方法的结果略有不同,读者可相互印证。各种方法之间的差别在于变量筛选方法不同,其中Forward:LR法(基于最大似然估计的向前逐步回归法)的结果相对可靠,但最终模型的选择还需要获得专业理论的支持。本文以Enter法为例进行展示(其它方法得到的结果,解释方法一样)。这里使用Enter法。点击Options,在LogisticRegression:Options对话框中,选中Classificationplots,Hosmer-Lemeshowgoodnessof-fit,Casewiselistingofresiduals和CIforexp(B)这4个选项。在Display区域,选中Atlaststep选项。点击Continue→OK。如图16。四、结果解释4.1检查变量和数据首先检查是否存在缺失观测,纳入分析的观测数是否和数据库中观测数一致。CaseProcessingSummary表格如图17。确认因变量的编码是否正确。DependentVariableEncoding表格如图18。观察分类自变量是否存在某一类观测数过少的情况,如果某项分类较少,可能不利于二项Logistic回归分析。本研究中,定义的分类自变量只有gender,因此CategoricalVariablesCodings表格只给出了gender的信息。如图19。4.2基本分析此部分结果的标题为“Block0:BeginningBlock”,指的是所有自变量不纳入模型、只包括常数项时的结果。此部分可以跳过。4.3Logistic回归此部分结果的标题为“Block1:Method=Enter”(Enter指3.4部分所述的自变量筛选方法)。(1)模型整体评价OmnibusTestsofModelCoefficien