SPSS实验8-二项Logistic回归分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

SPSS作业8:二项Logistic回归分析为研究和预测某商品消费特点和趋势,收集到以往胡消费数据。数据项包括是否购买,性别,年龄和收入水平。这里采用Logistic回归的方法,是否购买作为被解释变量(0/1二值变量),其余各变量为解释变量,且其中性别和收入水平为品质变量,年龄为定距变量。变量选择采用Enter方法,性别以男为参照类,收入以低收入为参照类。(一)基本操作:(1)选择菜单Analyze-Regression-BinaryLogistic;(2)选择是否购买作为被解释变量到Dependent框中,选其余各变量为解释变量到Covariates框中,采用Enter方法,结果如下:消费的二项Logistic分析结果(一)(强制进入策略)CategoricalVariablesCodingsFrequencyParametercoding(1)(2)收入低收入132.000.000中收入1441.000.000高收入155.0001.000性别男191.000女2401.000分析:上表显示了对品质变量产生虚拟变量的情况,产生的虚拟变量命名为原变量名(编码)。可以看到,对收入生成了两个虚拟变量名为Income(1)和Income(2),分别表示是否中收入和是否高收入,两变量均为0时表示低收入;对性别生成了一个虚拟变量名为Gedder(1),表示是否女,取值为0时表示为男。消费的二项Logistic分析结果(二)(强制进入策略)Block0:BeginningBlockClassificationTablea,bObservedPredicted是否购买PercentageCorrect不购买购买Step0是否购买不购买2690100.0购买1620.0OverallPercentage62.4a.Constantisincludedinthemodel.b.Thecutvalueis.500分析:上表显示了Logistic分析初始阶段(第零步)方程中只有常数项时的错判矩阵。可以看到:269人中实际没购买且模型预测正确,正确率为100%;162人中实际购买了但模型均预测错误,正确率为0%。模型总的预测正确率为62.4%。消费的二项Logistic分析结果(三)(强制进入策略)VariablesintheEquationBS.E.WalddfSig.Exp(B)VariablesintheEquationBS.E.WalddfSig.Exp(B)Step0Constant-.507.09926.0021.000.602分析:上表显示了方程中只有常数项时的回归系数方面的指标,各数据项的含义依次为回归系数,回归系数标准误差,Wald检验统计量的观测值,自由度,Wald检验统计量的概率p值,发生比。由于此时模型中未包含任何解释变量,因此该表没有实际意义。消费的二项Logistic分析结果(四)(强制进入策略)VariablesnotintheEquationScoredfSig.Step0Variablesage1.2681.260gender(1)4.6671.031income10.6402.005income(1)2.9351.087income(2)10.6401.001OverallStatistics18.2734.001分析:上表显示了待进入方程的各个变量的情况,各数据项的含义依次为Score检验统计量的观测值,自由度和概率p值。可以看到,如果下一步Age进入方程,则Score检验统计量的观测值为1.268,概率p值为0.26。如果显著性水平a为0.05,由于Age的概率p值大于显著性水平a,所以是不能进入方程的。但在这里,由于解释变量的筛选策略为Enter,所以这些变量也被强行进入方程。消费的二项Logistic分析结果(五)(强制进入策略)Block1:Method=EnterOmnibusTestsofModelCoefficientsChi-squaredfSig.Step1Step18.4414.001Block18.4414.001Model18.4414.001分析:上表显示了Logistic分析第一步时回归方程显著性检验的总体情况,各数据项的含义依次为似然比卡方的观测值,自由度和概率p值。可以看到,在本步所选变量均进入方程(Method=Enter)。与前一步相比,似然比卡方检验的观测值18.441,概率p值为0.001。如果显著性水平a为0.05,由于概率p值小于显著性水平a,应拒绝零假设,认为所有回归系数不同时为0,解释变量的全体与LogitP之间的线性关系显著,采用该模型是合理的。在这里分别输出了三行似然比卡方值。其中,Step行是本步与前一步相比的似然卡方比;Block行是本块(Block)与前一块相比的似然卡方比;Model行是本模型与前一模型相比的似然卡方比。在本例中,由于没有设置解释变量块,且解释变量是一次性强制进入模型,所以三行结果都相同。消费的二项Logistic分析结果(六)(强制进入策略)ModelSummaryStep-2LoglikelihoodCox&SnellRSquareNagelkerkeRSquare1552.208a.042.057a.Estimationterminatedatiterationnumber4becauseparameterestimateschangedbylessthan.001.分析:上表显示了当前模型拟合优度方面的指标,各数据项的含义依次为-2倍的对数似然函数值,Cox&SnellR^2。-2倍的对数似然函数值越小则模型的拟合优度越高。这里该值较大,所以模型的拟合优度并不理想。从NagelkerkeR^2也可以看到其值接近零,因此拟合优度比较低。消费的二项Logistic分析结果(七)(强制进入策略)ClassificationTableaObservedPredicted是否购买PercentageCorrect不购买购买Step1是否购买不购买2363387.7购买1313119.1OverallPercentage61.9a.Thecutvalueis.500分析:上表显示了当前所得模型的错判矩阵。可以看到,脚注中的TheCutvalueis.500意味着:如果预测概率值大于0.5,则认为被解释变量的分类预测值为1,如果小于0.5,则认为被解释变量的分类预测值为0.;在实际没购买的269人中,模型正确识别了236人,识别错误了131人,正确率为19.1%。模型总的预测正确率为61.9%。与前一步相比,对未购买的预测准确度下降了,对购买的预测准确度上升了,但总体预测精度仍下降了。因此模型预测效果并不十分理想。消费的二项Logistic分析结果(八)(强制进入策略)VariablesintheEquationBS.E.WalddfSig.Exp(B)Step1aage.025.0181.9741.1601.026gender(1).511.2095.9541.0151.667income12.3052.002income(1).101.263.1461.7031.106income(2).787.2539.6761.0022.196Constant-2.112.7547.8431.005.121a.Variable(s)enteredonstep1:age,gender,income.分析:上表显示了当前所得模型中各个回归系数方面的指标。可以看出,如果显著性水平a为0.05,由于Age的Wald检验概率p值大于显著性水平a,不应拒绝零假设,认为该回归系数与0无显著差异,它与LogitP的线性关系是不显著的,不应保留在方程中。由于方程中包含了不显著的解释变量,因此该模型是不可用的,应重新建模。下面是对模型做进一步分析,解释变量的筛选采用基于极大似然估计的逐步筛选策略(Forward:LR),分析的具体操作以及结果如下:(二)基本操作:(1)选择菜单Analyze-Regression-BinaryLogistic;(2)选择是否购买作为被解释变量到Dependent框中,选其余各变量为解释变量到Covariates框中,采用Forward:LR方法,在Option框中对模型做近一步分析,结果如下:消费的二项Logistic分析结果(一)(逐步筛选策略)Block1:Method=ForwardStepwise(LikelihoodRatio)OmnibusTestsofModelCoefficientsChi-squaredfSig.Step1Step10.5432.005Block10.5432.005Model10.5432.005Step2Step5.9171.015Block16.4593.001Model16.4593.001消费的二项Logistic分析结果(二)(逐步筛选策略)ModelifTermRemovedVariableModelLogLikelihoodChangein-2LogLikelihooddfSig.oftheChangeStep1income-285.32510.5432.005Step2gender-280.0535.9171.015income-282.97611.7612.003分析:上面第一个表显示了变量逐步筛选过程中对数似然比卡方检验的结果,用于回归方程的显著性检验。这里略去了第零步分析的结果。结果上面的两个表共同分析。在Step1中,模型中包含常数项和INCOME。如果此时剔除INCOME将使-2LL减少10.543,即10.543是INCOME进入模型引起的,-285.325即为零模型的对数似然比;在Step2中,模型中包含常数项,INCOME,GENDER。此时剔除GENDER,即-2LL将减少5.917,即5.917是在Step1基础上GENDER所引起的,-280.053即为Step1模型的对数似然比,此时-2*285.325+2*280.053=10.543,即INCOME引起的。其他同理。可以看到,如果显著性水平a为0.05,由于各步的概率p值均小于显著性水平a,因此此时模型中的解释变量全体与LogitP的线性关系是显著,模型合理。消费的二项Logistic分析结果(三)(逐步筛选策略)VariablesintheEquationBS.E.WalddfSig.Exp(B)95.0%C.I.forEXP(B)LowerUpperStep1aincome10.5122.005income(1).006.259.0011.9821.006.6061.670income(2).672.2477.4241.0061.9581.2083.174Constant-.762.18716.6341.000.467Step2bgender(1).504.2095.8241.0161.6561.0992.493income11.6692.003income(1).096.263.1341.7141.101.6581.843income(2).761.2519.1471.0022.1391.3073.502Constant-1.113.24021.4321.000.329a.Variable(s)enteredonstep1:income.b.Variable(s)enteredonstep2:gender.分析:上表显示了解释变量筛选的过程和各解释变量的回归系数检验结果。可以看到,最终的模型(第二步)中包含了性别和收入变量,各自回归系数显著性检验的Wald观测值对应的概率p值都小于显著性水平a,因此均拒绝零假设,意味它们与LogitP的线性关系是显著,应保留在方程中。表中的第七,第八列分别是发生比的95%的置信区间。最终年龄变量没有引入方程,因为如果引入则相应的Score检验的概率p值大于显著性水平a,不应拒绝零假设,它与LogitP的线性关系不显著,不应进入方程。具体结果如下:消费的

1 / 23
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功