研究生地理数学方法(实习)Part2统计分析软件SPSS1第8章利用SPSS进行Logistic回归分析现实中的很多现象可以划分为两种可能,或者归结为两种状态,这两种状态分别用0和1表示。如果我们采用多个因素对0-1表示的某种现象进行因果关系解释,就可能应用到logistic回归。Logistic回归分为二值logistic回归和多值logistic回归两类。首先用实例讲述二值logistic回归,然后进一步说明多值logistic回归。在阅读这部分内容之前,昀好先看看有关SPSS软件操作技术的教科书。§8.1二值logistic回归8.1.1数据准备和选项设置我们研究2005年影响中国各地区城市化水平的经济地理因素。城市化水平用城镇人口比重表征,影响因素包括人均GDP、第二产业产值比重、第三产业产值比重以及地理位置。地理位置为名义变量,中国各地区被分别划分到三大地带:东部地带、中部地带和西部地带。我们用各地区的地带分类代表地理位置。第一步:整理原始数据。这些数据不妨录入Excel中。数据整理内容包括两个方面:一是对各地区按照三大地带的分类结果赋值,用0、1表示,二是将城镇人口比重转换逻辑值,变量名称为“城市化”。以各地区2005年城镇人口比重的平均值45.41%为临界值,凡是城镇人口比重大于等于45.41%的地区,逻辑值用Yes表示,否则用No表示(图8-1-1)。图8-1-1原始数据(Excel中,局部)将数据拷贝或者导入SPSS的数据窗口(DataView)中(图8-1-2)。研究生地理数学方法(实习)Part2统计分析软件SPSS2图8-1-2中国31个地区的数据(SPSS中,局部)第二步:打开“聚类分析”对话框。沿着主菜单的“Analyze→Regression→BinaryLogisticK”的路径(图8-1-3)打开二值Logistic回归分析选项框(图8-1-4)。图8-1-3打开二值Logistic回归分析对话框的路径对数据进行多次拟合试验,结果表明,像二产比重、三产比重等对城市化水平影响不显研究生地理数学方法(实习)Part2统计分析软件SPSS3著。至于反映地区位置的分类变量,不宜一次性的全部引入,至多引入两个,比方说东部和中部。通过尝试,发现引入中部地带为变量比较合适。因此,为了实例的典型性,我们采用两个变量作为自变量:一是数值变量人均GDP,二是分类变量中部地带。图8-1-4Logistic回归分析选项框第三步:选项设置。首先,在源变量框中选中需要进行分析的变量,点击右边的箭头符号,将需要的变量调入Dependent(因变量)和Covariates(协变量)列表框中(图8-1-5)。在本例中,将名义变量“城市化”调入Dependent(因变量)列表框,将“人均GDP”和“中部”调入Covariates(协变量)列表框中。在Method(方法)一栏有七个选项。采用第一种方法,即系统默认的强迫回归方法(Enter)。研究生地理数学方法(实习)Part2统计分析软件SPSS4图8-1-5Logistic回归分析的初步设置接下来进行如下4项设置:⒈设置Categorical(分类)选项:定义分类变量(图8-1-6)。将中部调入CategoricalCovariates(分类协变量)列表框,其余选项取默认值即可。完成后,点击Continue继续。图8-1-6定义分类变量选项⒉设置Save(保存)选项:决定保存到DataView的计算结果(图8-1-7)。选中Leveragevalues、DfBeta(s)、Standardized和Deviance四项。完成后,点击Continue继续。研究生地理数学方法(实习)Part2统计分析软件SPSS5图8-1-7Logistic回归分析的存储选项⒊设置Options:有三个选项区(图8-1-5)。第一个是StatisticsandPlots(统计和画图)选项,包括六种可以兼容的选择(复选项)。选中Classificationplots、Hosmer-Lemeshowgoodness-of-fit和CIforexp(B)三个选项。第二个是Display(显示)选项,选择Atlaststep(昀后一步),这样,输出结果将仅仅给出昀终结果,而省略每一步的计算过程。由于我们采用强迫回归,ProbabilityforStepwise(逐步回归概率)选项可以不管。研究生地理数学方法(实习)Part2统计分析软件SPSS6图8-1-8Logistic回归分析的选项设置此外还有一个选项需要说明。一是Classificationcutoff(分类临界值),默认值为0.5,即按四舍五入的原则将概率预测值化为0或者1。如果将数值改为0.6,则大于等于0.6的概率值才表示为1,否则为0。其情况余依此类推。二是MaximumIterations(昀大迭代值),规定系统运算的迭代次数,默认值为20次,为安全起见,我们将迭代次数增加到50。原因是,有时迭代次数太少,计算结果不能真正收敛。三是Includeconstantinmodel(模型中包括常数项),即模型中保留截距。除了迭代次数之外,其余两个选项均采用系统默认值。完成后,点击Continue继续。8.1.2结果解读全部选项设置完毕以后,点击如图8-1-5所示的OK按钮确定,即可得到Logistic回归分析结果。输出结果可以分为三大部分,下面逐一说明。1.CaseProcessingSummary(样品处理摘要)。在输出结果中,首先给出样品处理摘要报告,包括如下信息:选择了多少样品,没有选择的有多少样品;在选择的样品里,分析多少样品,缺失了多少样品——缺失样品一般是因为数据中存在缺失值;选择的样品总数以及全体样品总数(图8-1-9)。用N表示各类样品数目,Percent表示各类样品的百分比。在正常情况下,这些信息对我们的分析没有什么用处。但是,如果样本很大并且构成很复杂,涉及到样品的取舍或者数据缺失的时候,这些信息就很重要,会为后面的分析提供很大方便。CaseProcessingSummary31100.00.031100.00.031100.0UnweightedCasesaIncludedinAnalysisMissingCasesTotalSelectedCasesUnselectedCasesTotalNPercentIfweightisineffect,seeclassificationtableforthetotalnumberofcases.a.研究生地理数学方法(实习)Part2统计分析软件SPSS7图8-1-9样品处理摘要2.DependentVariableEncoding(因变量编码)。这是很重要的信息,告诉我们对不同城市化水平地区的分类编码结果(图8-1-10)。我们开始根据全国各地区的平均结果45.41分为两类:大于等于45.41的地区用Yes表示,否则用No表示。现在,图8-1-10显示,Yes用0表示,No用1表示。也就是说,在这次SPSS分析过程中,0代表城市化水平高于平均值的状态,1代表城市化水平低于平均值的状态。记住这个分类。DependentVariableEncoding01OriginalValueYesNoInternalValue图8-1-10因变量编码3.CategoricalVariablesCodings(分类变量编码)。我们的自变量中涉及到代表不同地域类型的名义变量(图8-1-11)。在我们开始的分类中,属于中部用1表示,否则用0表示。但是,SPSS改变了这种编码,原来的0改用1表示,原来的1改用0表示。也就是说,在这次SPSS分析过程中,0代表属于中部的地区,1代表不属于中部的地区。记住这个分类对后面开展预测分析非常重要。CategoricalVariablesCodings221.0009.00001中部Frequency(1)Paramete图8-1-11分类变量编码4.ClassificationTable(初始分类表)。Logistic建模如同其他很多种建模方式一样,首先对模型参数赋予初始值,然后借助迭代计算寻找昀佳值。以误差昀小为原则,或者以昀大似然为原则,促使迭代过程收敛。当参数收敛到稳定值之后,就给出了我们需要的比较理想的参数值。下面是用初始值给出的预测和分类结果(图8-1-12)。这个结果主要用于对比,比较模型参数收敛前后的效果。ClassificationTablea,b011.0020100.064.5ObservedYesNo城市化OverallPercentageStep0YesNo城市化PercentageCorrectPredictedConstantisincludedinthemodel.a.Thecutvalueis.500b.图8-1-12初始预测分类表研究生地理数学方法(实习)Part2统计分析软件SPSS85.VariableintheEquation(初始方程中的变量)。从这个表中可以看到系统对模型的昀初赋值方式(图8-1-13)。昀开始仅仅对常数项赋值,结果为B=0.598(复制到Excel可以看来,更精确的数值为0.597837),标准误差为S.E.=0.375(复制到Excel可以看来,更精确的数值为0.375379),于是Wald值为536.2375379.0597837.0..22=⎟⎠⎞⎜⎝⎛=⎟⎠⎞⎜⎝⎛=ESBWald.后面的df为自由度,即df=1;Sig.为P值,Sig.=0.111。注意Sig.值越低越好,一般要求小于0.05。当然,对于Sig.值,我们关注的是昀终模型的显示结果。Exp(E)是B还原之后数值,显然818.1)(597837.0===eeBExpB.在Excel里,利用指数函数exp很容易对B值进行还原。VariablesintheEquation.598.3752.5361.1111.818ConstantStep0BS.E.WalddfSig.Exp(B)图8-1-13初始方程中的变量6.VariablenotintheEquation(不在初始方程中的变量)。人均GDP和代表地理位置的中部地带的系数初始值设为0,这相当于,在初始模型中不考虑这两个变量(图8-1-14)。表中给出了Score检验值及其对应的自由度df和P值,即Sig.值。Score检验是一种初始检验,在建模之初根据变量之间的结构关系判断自变量与因变量之间的密切程度。Score检验值的计算公式为∑∑==−−−=niiniiijxxyyyyxScore121)()1(])([.因变量为0、1值,根据图8-1-10所示的编码原则,令所有的Yes为0,所有的No为1,容易算出228928.0)645161.01(645161.0)1(=−=−yy.人均GDP已知,中部的编码法则已知,于是不难算出103.3595636978)(3112=−∑=iiGDPGDP,387097.6)(3112=−∑=ii中部中部,835.81274739707])([2311=−∑=iiiyyGDP,研究生地理数学方法(实习)Part2统计分析软件SPSS9037461.0])([2311=−∑=iiiyy中部.将上面的结果代入Score检验值计算公式,立即得到486.15=GDPScore,026.0=中部Score.可以看到,人均GDP的Score检验值满足一般的要求,而中部地带这个变量的数值偏低。VariablesnotintheEquationa15.4861.000.0261.873人均GDP中部(1)VariablesStep0ScoredfSig.ResidualChi-Squaresarenotcomputedbecauseofredundancies.a.图8-1-14不在初始方程中的变量7.OmnibusTestsofModelCoefficients(模型系数的混合检验)。主要是针对步骤、模块和模型开展模型系数的综合性检验(图8