SPSS学习系列28二元Logistic回归

fasa203
2 ℃
2020-01-10

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

28.二元Logistic回归二元或多元线性回归的因变量都是连续型变量，若因变量是分类变量（例如：患病与不患病；不重要、重要、非常重要），就需要用Logistic回归。Logistic回归分析可以从统计意义上估计出在其它自变量固定不变的情况下，每个自变量对因变量取某个值的概率的数值影响大小。Logistic回归模型有“条件”与“非条件”之分，前者适用于配对病例对照资料的分析，后者适用于队列研究或非配对的病例-对照研究成组资料的分析。对于二分类因变量，y=1表示事件发生；y=0表示事件不发生。事件发生的条件概率P{y=1|xi}与xi之间是非线性关系，通常是单调的，即随着xi的增加/减少，P{y=1|xi}也增加/减少。Logistic函数F(x)=11+𝑒−𝑥，图形如下图所示：该函数值域在(0,1)之间，x趋于-∞时，F(x)趋于0；x趋于+∞时，F(x)趋于1.正好适合描述概率P{y=1|xi}.例如，某因素x导致患病与否：x在某一水平段内变化时，对患病概率的影响较大；而在x较低或较高时对患病概率影响都不大。记事件发生的条件概率P{y=1|xi}=pi，则pi=11+𝑒−(𝛼+β𝑥𝑖)=𝑒𝛼+β𝑥𝑖1+𝑒𝛼+β𝑥𝑖记事件不发生的条件概率为1-pi=11+𝑒𝛼+β𝑥𝑖则在条件xi下，事件发生概率与事件不发生概率之比为𝑝𝑖1−𝑝𝑖=𝑒𝛼+β𝑥𝑖称为事件的发生比，简记为odds.对odds取自然对数得到ln(𝑝𝑖1−𝑝𝑖)=𝛼+β𝑥𝑖上式左边（对数发生比）记为Logit(y),称为y的Logit变换。可见变换之后的Logit(y)就可以用线性回归，计算出回归系数α和β值。若分类因变量y与多个自变量xi有关，则变换后Logit(y)可由多元线性回归：11logit()ln()1kkppxxp或111()1(1|,,)1kkkxxpyxxe一、简单的二元Logistic回归出现某种结果的概率与不出现的概率之比，称为优势比OR.问题1：研究“低体重出生儿”与“孕妇是否吸烟”之间的关系有数据文件：因变量low：是否“低体重出生儿”（0=正常，1=低体重）；自变量smoke：是否吸烟（0=不吸烟，1=吸烟）【分析】——【回归】——【二元Logistic】，打开“Logistic回归”窗口，将变量“low”选入【因变量】框，变量“smoke”选入【协变量】框；点【确定】，得到因变量编码初始值内部值正常0低出生体重1块0:起始块分类表a,b已观测已预测低出生体重儿百分比校正正常低出生体重步骤0低出生体重儿正常1300100.0低出生体重590.0总计百分比68.8a.模型中包括常量。b.切割值为.500若模型只含常数项，预测正确率为68.8%（=130/189）；方程中的变量BS.E,WalsdfSig.Exp(B)步骤0常量-.790.15725.3271.000.454B=-0.79为模型常数项估计值，S.E为B的标准误；Wals为Wald卡方检验，原假设H0：回归系数=0；Exp(B)=0.454（表示患病率与未患病率之比：(1-68.8%)/68.8%）；不在方程中的变量得分dfSig.步骤0变量smoke4.9241.026总统计量4.9241.026引入变量后的得分，以及该变量的回归系数是否为0的检验，原假设H0：回归系数=0；（主要针对逐步引进多个变量时的变量筛选）块1:方法=输入模型系数的综合检验卡方dfSig.步骤1步骤4.8671.027块4.8671.027模型4.8671.027似然比卡方值，上一模型（常数项模型）与当前模型似然比值之差，检验两个模型有无差异，原假设H0：无差异。模型汇总步骤-2对数似然值Cox&SnellR方NagelkerkeR方1229.805a.025.036a.因为参数估计的更改范围小于.001，所以估计在迭代次数4处终止。当前模型的对数似然比值=229.805，两个R方从不同角度反映了当前模型自变量解释因变量的变异占因变量总变异的比例。分类表a已观测已预测低出生体重儿百分比校正正常低出生体重步骤1低出生体重儿正常1300100.0低出生体重590.0总计百分比68.8a.切割值为.500分类表，概率值0.5判定为患病；与常数项模型结果相同，预测正确率仍为68.8%方程中的变量BS.E,WalsdfSig.Exp(B)步骤1asmoke.704.3204.8521.0282.022常量-1.087.21525.6271.000.337a.在步骤1中输入的变量:smoke.自变量的偏回归系数及标准误、Wald卡方、自由度、P值、OR值Exp(B).从而得到Logistic回归模型：Logit(P)=-1.087+0.704*smoke模型结果解释：产妇在妊娠期间是否吸烟*低出生体重儿交叉制表低出生体重儿合计正常低出生体重产妇在妊娠期间是否吸烟不吸烟计数8629115产妇在妊娠期间是否吸烟中的%74.8%25.2%100.0%吸烟计数443074产妇在妊娠期间是否吸烟中的%59.5%40.5%100.0%合计计数13059189产妇在妊娠期间是否吸烟中的%68.8%31.2%100.0%常数项：为自变量都取0时，优势比（P{Y=1}/P{Y=0}）的自然对数值，即不吸烟组的低体重儿概率与正常儿概率之比的对数值：β0=ln[25.2%/(1-25.2%)]=ln(29/86)=-1.087即exp(β0)表示不吸烟组的低体重儿概率与正常儿概率之比。回归系数：βi表示自变量xi每改变一个单位，优势比的自然对数值的改变量；exp(βi)即优势比OR值，表示自变量xi每改变一个单位，阳性结果出现的概率与不出现的概率的比值是改变前相应比值的exp(βi)倍。例如，本例中β1=ln[(30/44)/(29/86)]=0.704相应的OR值=exp(0.704)=2.02,表示吸烟状况增加一个单位，即从不吸烟改为吸烟时，“吸烟组的低体重儿概率与正常儿概率之比”是“不吸烟组的低体重儿概率与正常儿概率之比”的2.02倍。注意：OR值反映的不是阳性结果出现概率的变化倍数（相对危险度RR）。二、将多分类自变量设置为哑变量对于问题1，若将自变量【“race种族”，1=白人、2=黑人、3=其它种族】引入模型。注意，这里的1、2、3并不表示种族之间的次序关系，即说“该自变量每增加1个单位”是错误的。此时，就需要将其设置为哑变量（只代表若干级别间的差异），这样的回归结果才有明确合理的实际意义。对于有n个水平值的分类自变量xi，默认生成n-1个哑变量：xi(1),…,xi(n-1).本例中，对变量“race”有3个水平值，race(1)=“是否为白人：1=是，0=不是”;race(2)=“是否为黑人：1=是，0=不是”其它种族作为参照水平（race(1)、race(2)都取0）.从而白人、黑人、其它种族分别编码如下：分类变量编码频率参数编码(1)(2)种族白人961.000.000黑人26.0001.000其他种族67.000.000在“Logistic回归窗口”将变量“race”选入【协变量】框，点【分类】，打开“定义分类变量”子窗口，将变量“race”选入【分类协变量】框，点【继续】；注：【更改对比】框，可选择“对比方式”：①指示：指定某一分类水平作为参照水平，可选第一或最后一个水平值；②简单：可计算该分类变量的各水平与参照水平相比的βi值；③差值：用于有序分类变量，分类变量某个水平与其前面的所有水平平均值进行比较；④Helmert：与“差值”相反，用于有序分类变量，分类变量某个水平与其后面的所有水平平均值进行比较；⑤重复：分类变量的各水平与其前面相邻的水平相比较；⑥多项式：仅用于数值型分类变量，各水平值和logitP间可能是多项式关系，则依次用一个哑变量代表一个“次方”项，并分别给出检验结果（原假设H0：各水平是等距离的）；⑦偏差：除所规定的参照水平外，其余每个水平均与总体水平相比，此时每个水平的回归系数都是相对于总体水平而言的改变量（参照水平可以用其它水平回归系数计算）。注：这里的方式选择与【方差分析】的“contrast”选择是相同的。下面以“race”为例计算出的各种方式的系数转化关系如下：注意：（1）参照水平最好有实际意义，否则就失去比较的目标，不建议用“其它”作为参照水平；参照水平组应有一定的频数做保证（不少于30或50）；（2）对有序自变量，若从专业来看：不同等级对因变量的影响程度是一致的，可将该变量作为连续型变量处理；否则，需要分别以哑变量和连续型变量方式引入模型，观察各哑变量的回归系数间是欧服存在等级关系，以及对两个模型进行似然比检验，若无统计学意义，且各哑变量的回归系数间存在等级关系，可以将该自变量作为连续型变量，否则最好是用哑变量方式，引入模型。三、自变量的筛选与逐步回归回归模型应该尽量引入对因变量有影响作用的变量，将没有影响或影响较小的变量排除。用到的假设检验方法有：Walds检验（最差，未考虑各因素的综合作用）、似然比检验（最可靠，基于整个模型的拟合情况）、比分检验（最常用于筛选变量，一般与似然比检验结果一致）。SPSS提供了6种筛选变量的方法（选入自变量时均采用比分检验，剔除自变量的标准不同）：向前（条件）、向前（LR）、向前（Wald）、向后（条件）、向后（LR）、向后（Wald）。问题2：用逐步回归法对“低体重出生儿”做二元Logistic分析。1.【分析】——【回归】——【二元Logistic】，打开“Logistic回归”窗口，将变量“low”选入【因变量】框，变量“age,lwt,race,smoke,ptl,ht,ui,ftv”选入【协变量】框；2.点【分类】，打开“定义分类变量”子窗口，将变量“race”选入【分类协变量】框，【更改对比】选“指示符”，勾选“第一个”，点【更改】，点【继续】；3.原窗口【方法】框选择“向前LR”，表示向前似然比法，点【确定】得到因变量编码初始值内部值正常0低出生体重1分类变量编码频率参数编码(1)(2)种族白人96.000.000黑人261.000.000其他种族67.0001.000块0:起始块（模型0，只有常数项）分类表a,b已观测已预测低出生体重儿百分比校正正常低出生体重步骤0低出生体重儿正常1300100.0低出生体重590.0总计百分比68.8a.模型中包括常量。b.切割值为.500方程中的变量BS.E,WalsdfSig.Exp(B)步骤0常量-.790.15725.3271.000.454不在方程中的变量得分dfSig.步骤0变量age2.4071.121lwt4.6161.032race5.0052.082race(1)1.7271.189race(2)1.7971.180smoke4.9241.026ptl7.2671.007ht4.3881.036ui4.2051.040ftv.9341.334总统计量29.1409.001所有变量的比分检验结果，race产生2个哑变量，故自由度为2；变量“ptl妊娠前早产次数”的得分最大为7.267，其P值=0.0070.05,故下一步将它首先选入模型。块1:方法=向前步进（似然比）（模型1）模型系数的综合检验卡方dfSig.步骤1步骤6.7791.009块6.7791.009模型6.7791.009步骤2步骤4.3091.038块11.0892.004模型11.0892.004步骤3步骤6.3631.012块17.4523.001模型17.4523.001每一步引入变量后，整个模型中是否所有回归系数均为0的似然比检验表。模型汇总步骤-2对数似然值Cox&SnellR方NagelkerkeR方1227.893a.035.0502223.583b.057.0803217.220b.088.124a.因为参数估计的更改范围小于.001，所以估计在迭代次数3处终止。b.因为参数估计的更