SPSS二项Logistic回归

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

SPSS二项Logistic回归当被解释变量是0/1二值品质变量时,通常应采用Logistic回归;Logistic回归模型:iiPPxPLogit01ln案例分析:消费行为的logistic回归分析背景:为研究和预测某商品消费特点和趋势,收集到以往的消费数据。数据项包括:是否购买(PURCHASE)、性别(Gender)、年龄(Age)和收入水平(Income)。现依据性别(Gender)、年龄(Age)和收入水平(Income)预测判断消费者行为。注意:1、本例中性别属于品质型变量。品质型变量应将其转化虚拟变量后再参与回归分析。2、虚拟变量的设置是将品质变量的各个类别分别以0/1二值变量的形式重新编码,1表示属于该类,0表示不属于该类;3、对于n个分类的品质变量,当确定了参照类后,只需设置n-1个虚拟变量即可。如:性别可需只设置变量x1表示‘是否男’,取1表示男,取0表示非男即‘女’,此时‘女’类作为参照类。基本操作:选择分析(analyze)--回归(regression)--二元Logistic回归被解释变量的选择解释变量的选择条件变量的选择,只有满足条件变量值的样本才参与回归分析选择解释变量的筛选策略选择解释变量的筛选策略(1)进入(enter):表示解释变量全部强行进入模型;(2)向前:条件(forward:conditional)表示向前筛选变量且变量进入模型的依据是比分检验统计量,剔除出模型的依据是条件参数估计原则下的似然率卡方(首选选择使变化量变化最小的解释变量剔除出模型);(3)向前:LR(forward:LR)表示向前筛选变量且变量进入模型的依据是比分检验统计量,剔除出模型的依据是极大似然估计原则下的似然比卡方;(4)向后:条件(backward:conditional)表示向后筛选变量且变量剔除出模型的依据是条件参数估计原则下的似然比卡方;(5)向后:LR(backward:LR)表示向后筛选变量且变量剔除出模型的依据是极大似然估计原则下的似然比卡方;(6)向后:Wald(backward:Wald)表示向后筛选变量且变量剔除出模型的依据是wald统计量;解释变量是品质变量时,点击‘分类’按钮指定如何生成虚拟变量。分类变量的选择。•‘更改对比(changecontrast)’框中‘对比(contrast)’中选择参照类,并点击‘更改’。•其中:指示符(indicator)表示以某个特定的类为参照类;这个类可以是品质变量最大值对应的类(即:参考类别(reference)中的‘最后一个(last)’);也可以是品质变量最小值对应的类(即:参考类别(reference)中的‘第一个(first)’)绘制被解释变量实际值和预测分类值的关系图。输出Hosmer-Lemeshow拟合优度指标。(当解释变量较多且多为定距型变量时使用)输出各样本数据的非标准化残差和标准化残差等指标。输出风险比默认95%的置信区间。只输出最终的模型结果。输出模型建立过程中每一步的结果。指定解释变量进入或剔除出模型的显著性水平。设置概率分界值。预测概率值大于0.5时认为被解释变量的分类预测值为1,小于0.5时认为分类预测值为0.根据需要对预测精度的要求修改该参数。设置极大似然估计的最大迭代次数。保存被解释变量取值为1的概率值。保存分类预测值。保存残差。对被解释变量y中异常值的探测。标准化残差:根据3σ准则,认为标准化残差绝对值大于3对应的观察值为异常值。学生化残差:适用于存在‘异方差’现象时的异常值判断。一般认为:学生化残差大于3对应的观察值为异常值。一般库克距离大于1,就可认为对应的观察值为强影响点。杠杆值是指反映了解释变量x的第i个值与x的平均值之间的差异;一般第i个样本的杠杆值较高(大于2倍或3倍的中心化杠杆值)意味着对应的x是一个强影响点。剔除第i个样本后,观察标准化回归系数前后变化。标准化回归系数变化的绝对值大于2/时,可认为第i个样本可能是强影响点。n利用残差分析探测样本中的异常值和强影响点。通常异常值和强影响点是指那些远离均值的样本数据点,对回归方程的参数估计有较大影响,应尽量找出并加以剔除。OmnibusTestsofModelCoefficientsChi-square(似然比卡方)Df(自由度)Sig.(显著性水平)Step1Step18.4414.001Block18.4414.001Model18.4414.001回归模型的显著性检验上表中step行是本步与前一步相比的似然比卡方;Block行是本块与前一块相比的似然比卡方;Model行是本模型与前一模型相比的似然比卡方。本例中没有设置解释变量块且解释变量是一次性强制进入,所以三行结果相同。模型显著性检验的零假设:各回归系数同时为0,解释变量全体与logitP的线性关系不显著;备择假设:·······。如果显著性水平为0.05,因为概率P值0.001小于0.05,应拒绝零假设,认为‘所有回归系数不同时为0,解释变量全体与LogitP之间的关系显著,采用该模型是合理的’。强制进入策略下的回归结果:ModelSummaryStep-2LoglikelihoodCox&SnellRSquareNagelkerkeRSquare1552.208a.042.057a.Estimationterminatedatiterationnumber4becauseparameterestimateschangedbylessthan.001.回归模型的拟合优度检验判断规则:-2倍的对上似然函数值越小则模型的拟合优度越高;Cox&SnellR2相当于一般线性回归分析中的R2,NagelkerkeR2是修正的Cox&SnellR2,其值越接近0,模型的拟合优度越低;越接近1,模型的拟合优度越高。从上表中可知,-2倍的对上似然函数值较高;Cox&SnellR2和NagelkerkeR2的值均接近0,说明模型的拟合优度较低。VariablesintheEquationBS.E.WalddfSig.Exp(B)Step1aage.025.0181.9741.1601.026gender(1).511.2095.9541.0151.667income12.3052.002income(1).101.263.1461.7031.106income(2).787.2539.6761.0022.196Constant-2.112.7547.8431.005.121a.Variable(s)enteredonstep1:age,gender,income.回归系数及显著性检验)2(787.0)1(101.0)1(511.0025.0112.2incomeincomegenderagePLogitlogistic回归模型回归系数显著性检验的零假设:βi=0,即某回归系数与零无差异,相应的及时变量与LogitP之间的线性关系不显著。从表中可知,如果在5%的显著性水平下,年龄Age和收入(1)的概率P值大于0.05,其回归系数与0无差异。模型中有不显著解释变量,应考虑重新建模。ClassificationTableaObservedPredicted是否购买不购买购买PercentageCorrectStep1是否购买不购买2363387.7购买1313119.1OverallPercentage61.9a.Thecutvalueis.500(注:如果预测概率值大于0.5则认为被解释变量的分类预测值为1;若小于0.5则认为被解释变量的分类预测值为0)错判矩阵表中可看出,实际不购买的269人中,预测正确的有236人,错判33人,正确率为87.7%;实际购买的162人中,正判有11人,错判131人,正判率为19.1%;总的正判率为61.9%。向前LR筛选策略下的回归结果:逐步筛选回归模型的显著性检验上表中第二步与第一步相比的似然比卡方为5.917,概率为0.015小于显著水平0.05,此时的模型解释变量(即引入的性别变量)与logitP的线性关系显著;当前模型与第零步相比的对数似然比卡方为16.459,概率为0.001,说明当前模型中的解释变量全体与logitP的线性关系显著。OmnibusTestsofModelCoefficientsChi-squaredfSig.Step1Step10.5432.005Block10.5432.005Model10.5432.005Step2Step5.9171.015Block16.4593.001Model16.4593.001ModelSummaryStep-2LoglikelihoodCox&SnellRSquareNagelkerkeRSquare1560.107a.024.0332554.190b.037.051a.Estimationterminatedatiterationnumber3becauseparameterestimateschangedbylessthan.001.b.Estimationterminatedatiterationnumber4becauseparameterestimateschangedbylessthan.001.逐步回归模型的拟合优度检验从上表中可知,-2倍的对上似然函数值较高;Cox&SnellR2和NagelkerkeR2的值均接近0,说明模型的拟合优度较低。逐步回归系数及显著性检验从表中可知,第二步回归后最终模型只包含了性别和收入。VariablesintheEquationBS.E.WalddfSig.Exp(B)(发生比)Step1aincome10.5122.005income(1).006.259.0011.9821.006income(2).672.2477.4241.0061.958Constant-.762.18716.6341.000.467Step2bgender(1).504.2095.8241.0161.656income11.6692.003income(1).096.263.1341.7141.101income(2).761.2519.1471.0022.139Constant-1.113.24021.4321.000.329a.Variable(s)enteredonstep1:income.b.Variable(s)enteredonstep2:gender.)1(504.0113.1genderPLogit)1(096.0)1(504.0113.1incomegenderPLogit)2(761.0)1(504.0113.1incomegenderPLogit从模型(1)可以看出女性和男性在购买上的差异。女性较男性使LogitP平均增长0.504个单位;结合发生比,女性的购买发生比是男性的1.656倍,女性更倾向购买该商品;从模型(2)可看出女性顾客群中中收入较低收入群能使LogitP平均增长0.096个单位;结合发生比可看出中等收入的购买发生比是低收入的1.101倍;从模型(3)可看出女性顾客群中高收入较低收入群能使LogitP平均增长0.761个单位;结合发生比可看出中等收入的购买发生比是低收入的2.139倍;错判矩阵表中可看出,实际不购买的269人中,预测正确的有225人,错判44人,正确率为83.4%;实际购买的162人中,正判有36人,错判126人,正判率为22.2%;总的正判率为60.6%。相较于第一步结果和强制进入模型的预测精度都低,但在购买这一类的正判率得到提升,应用性相较增强。ClassificationTableaObservedPredicted是否购买不购买购买PercentageCorrectStep1是否购买不购买2690100.0购买1620.0OverallPercentage62.4Step2是否购买不购买2254483.6购买12636

1 / 16
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功