SPSS-Logistic回归分析及其应用-图文

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

Logistic回归分析及其应用iData数据分析工作室QQ:3030566369概述一般概念•一元直线回归y=a+bx•多元直线回归y=a+b1x1+b2x2+…+bkxk•(曲线估计)-4.00-2.000.002.004.00X:自变量0.000.250.500.751.00F(y):因变量的logit值如果一定要进行直线回归也可以做出结果,但此时效果不佳。当自变量取一定值时,因变量的预测值可能为负数。Logistic回归曲线一般直线回归难以解决的问题•因变量为分类变量,分类变量间的差距是不等距的•如果因变量表示事件发生的概率,通常与自变量之间不存在线性关系•不能保证在自变量的各种组合下,因变量的取值仍限制在0~1内寻找合适的模型•进行logit变换:ppxbxbbp110其中:p为因变量取值为1(y=1)的概率,p/(1-p)称为发生比(OR)ppxbxbbppp110)1ln()(logitppxbxbbp110)(logit•最终可得p值:zxbxbbeepppp1101ppppxbxbbxbxbbzzeeeep11011011概述小结•logistic回归对因变量的发生比的对数值(logit值)建立模型•因变量的logit值的改变与多个自变量的加权和呈线性关系•因变量呈二项分布Logistic回归模型的估计方法•最大似然估计法(Maximumlikelihoodestimation,MLE)。最大似然估计法通过最大化对数似然值(loglikelihood)估计参数。(对应于最小二乘法OLS)•最大似然估计法是一种迭代算法,它以一个预测估计值作为参数的初始值,根据算法确定能增大对数似然值的参数的方向和变动。估计了该初始函数后,对残差进行检验并用改进的函数进行重新估计,直到收敛为止(即对数似然不再显著变化)。理解“似然”•似然(likelihood)即概率,特别是由自变量观测值预测因变量观测值的概率。与任何概率一样,似然的取值范围在0、1之间。对数似然值(loglikelihood,LL)是它的自然对数形式,由于取值范围在[0,1]之间的数的对数值负数,所以对数似然值的取值范围在0至-∞之间。对数似然值通过最大似然估计的迭代算法计算而得。Logistic回归模型的检验•-2logL(似然比检验,OmnibusTest):检验全部自变量的作用是否显著。较为可靠。适用于含连续性变量的情况。模型拟合好,值大,P值小。•Hosmer-Lemeshow检验:评价估计概率和观察概率接近的程度。适用于含连续性变量的情况。模型好,值小,P值大。•Goodness-of-fit:模型好,P值小。(只有当每个协变量模式含有大量的观测量时,才能使用该统计量。)模型中回归系数的含义•回归系数表示当其他自变量取值保持不变时,该自变量取值增加一个单位引起发生比(OR)自然对数值的变化量•用发生比(OR=p/(1-p))测量自变量xi变化对发生概率的影响程度分析的一般步骤•变量的编码•哑变量的设置和引入(设置参照类)•各个自变量的单因素分析•变量的筛选•交互作用的引入•建立多个模型•选择较优的模型•模型应用条件的评价•输出结果的解释Logistic回归的分类•二项Logistic回归(BinaryRegression)•多分变量Logistic回归(MultinominalRegression)二项Logistic回归•因变量只取两个值,表示一种决策、一种结果的两种可能性。例如,某个人能否拥有房子,受到多种因素的影响,如家庭情况、工龄、收入情况等,但最终的可能性只有两个,要么拥有住房,要么没有住房。我们把y=1定义为拥有住房,y=0定义为其它情况,即y=1拥有住房0其它情况•从模型角度出发,不妨把事件发生的情况定义为y=1,事件未发生的情况定义为y=0,这样取值为0、1的因变量可以写为下式:•线性函数对x的变化在p=0或p=1的附近是不敏感的、缓慢的,且非线性的程度较高。于是我们寻找一个p的函数,使得它在p=0或p=1附近时变化幅度较大,而函数的形式又不是很复杂。因此,我们引入p的logit变换。y=1事件发生0事件未发生•ppxbxbbpppit110)1ln()(logppppxbxbbxbxbbzzeeeep11011011xbbpp10)1ln(建立回归模型:其中,p=p(y=1)y=1拥有住房0其它情况打开二项Logistic命令二项Logistic过程主对话框选项对话框OmnibusTestsofModelCoefficients32.3791.00032.3791.00032.3791.000StepBlockModelStep1Chi-squaredfSig.ModelSummary36.856a.477.636Step1-2LoglikelihoodCox&SnellRSquareNagelkerkeRSquareEstimationterminatedatiterationnumber6becauseparameterestimateschangedbylessthan.001.a.HosmerandLemeshowTest11.2667.127Step1Chi-squaredfSig.起始模型卡方检验表最终模型的拟合优度检验Hosmer-Lemeshow检验表ContingencyTableforHosmerandLemeshowTest54.9090.091545.5482.452654.2810.719564.40601.594621.81622.184401.31353.687511.01154.98961.53755.46360.17976.8217123456789Step1ObservedExpected住房Y=0ObservedExpected住房Y=1TotalClassificationTablea21387.532388.588.0Observed01住房YOverallPercentageStep101住房YPercentageCorrectPredictedThecutvalueis.500a.VariablesintheEquation.563.14515.0051.0001.757-7.9812.12914.0461.000.000XConstantStep1aBS.E.WalddfSig.Exp(B)Variable(s)enteredonstep1:X.a.Hosmer-Lemeshow检验的列联表最终观测量分类表最终模型统计量•预测方程xxzzeeeep563.0981.7563.0981.711依据预测概率的观测量分组表多分变量Logistic回归•如果因变量y有J个值(即y有J类),以其中一个类别作为参考类别(baselinecategory),其他类别都同它相比较可生成J-1个非冗余(nonredundant)的logit变换模型。例如以y=J作为参考类别,则对于y=i,其logit模型为:•而对于参考类别,其模型中的所有系数均为0。pipiiiixbxbxbbJypiypg22110))()(ln(•最后,求得第i类的概率值:•另:参数估计表(ParameterEstimates)中的Exp(B)表示某因素(自变量)内该类别是其相应参考类别具有某种倾向性的倍数。Jkkiiggyp1)exp()exp()(•以99年某地区中小学视力监测结果为例,视力低下程度分轻、中、重三类。在SPSS数据文件内,建立三个变量:“低下程度”、“性别”、“年龄”。•“低下程度”中的1代表轻度,2代表中度,3代表重度;•“性别”中,1代表男性,2代表女性;•“年龄”为定距变量。•根据所建模型中的系数可估计出一个学生某种视力低下程度的可能性大小。•AnalyzeRegressionMultinomialLogisticRegression▲Dependent:低下程度▲Factor(s):性别(分类变量)▲Covariate(s):年龄(连续性变量)Model⊙Maineffect(默认)Statistics√Likelihoodratiotest•可见性别与视力低下程度有关系(p=0.034),而年龄与视力低下程度似无关(p=0.362),但这有可能是因为两者呈非线性关系而引起的,而非真的没有关系。•解决方案:将年龄(连续性变量)分为几个水平,并产生一个分类变量“学习阶段”:0=小学,1=初中,2=高中。删掉“年龄”变量,将变量“性别”和“学习阶段”都选入Factor(s)中,其他过程同上,得表2.•由表2可见,学习阶段与视力低下程度的关系有显著性意义(p0.001)。•引入全模型:Model⊙Fullfactorial(包括交互作用的全因素模型)Statistics√Likelihoodratiotest得表3。可见性别和学习阶段间无交互作用(p=0.612),因此下面的分析仍然只考虑主效应(MainEffect)。•由√Parameterestimates(默认)项可得表4。•表4中共有两套Logistic回归系数,分别针对轻度和中度视力低下。重度作为因变量中的参考类别,其所有系数都是0。“性别=2”和“学习阶段=2”分别作为其相应自变量中的参考类别,因而其系数也均为0。•由sig一栏可见,两套系数中,“性别=1”与“性别=2”相比均有显著性差异(p0.001);“学习阶段=0”与“学习阶段=2”相比在轻度中有显著性差异,p=0.002,在中度中无显著性差异p=0.202,“学习阶段=1”与“学习阶段=2”在两种程度中均有有显著性差异,p值分别为0.029和0.006。•由表4中的系数,我们可估计出某个学生视力低下程度的概率。例如对一个初中男生来说,其“性别=1”,“学习阶段=1”,根据表4中的系数B:•对于轻度,•对于中度,•由于重度是因变量中的参考组,其所有系数均为0,所以g3=0。077.0424.0458.0805.0)()(ln1=重度轻度ppg624.0804.0760.0188.2)()(ln2=重度中度ppg•根据公式,得Jkkiiggyp1)exp()exp()(因此,该初中男生轻度视力低下的概率为0.413,中度视力低下的概率为0.205,重度视力低下的概率为0.382。•表4中的exp(B)表示某因素(自变量)内该类别是其相应参考类别具有某种倾向性的倍数,如exp(B)=1.581指对于视力低下为轻度而不是重度这种情况,男性是女性的1.581倍;exp(B)=2.233指对于视力低下为中度而不是重度这种情况,初中生是高中生的2.233倍。•可见,多分类Logistic回归分析不仅可同时分析所有的影响因素,还能对各因素的影响程度进行一定的量化。•在对话框中选择Statistics√CellProbabilities可得表5。(经过整理,表5中只列出了初中男生的情形。)•表中的PearsonResidual可用于评估模型拟和的优劣,其值的绝对值大于2时,说明模型拟合不佳,则应考虑是否有其他原因影响了模型的拟和。分析的一般步骤•变量的编码•哑变量的设置和引入(设置参照类)•各个自变量的单因素分析•变量的筛选•交互作用的引入•建立多个模型•选择较优的模型•模型应用条件的评价•输出结果的解释1.变量的编码•变量的编码要易于识别•注意编码的等级关系•改变分类变量的编码,其分析的意义并不改变。•牢记编码•使用变量数值标识(valuelabels)•记录编码内容变量的编码•变量名变量标签变量值值标识SEX性别1男2女EDU教育程度0文盲1小学2初中及以上2.哑变量的设置和引入•哑变量,又称指示变量或设计矩阵。•有利于检验等级变量各个等级间的变化是否相同。•一个k分类的分类变量,可以用k-1个哑变

1 / 63
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功