特殊工种名录

longtao627
2 ℃
2020-02-24

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

SPSS软件在医学科研中的应用计算机实习（SPSS10.0）何平平北大医学部流行病与卫生统计学系Tel：82801619Logistic回归分析实习六（一）Logistic回归分析的任务影响因素分析在流行病学研究中，logistic回归常用于疾病的危险因素分析，logistic回归分析可以提供一个重要的指标：OR。（二）Logistic回归分析的基本原理1.变量特点因变量：二分类变量，若令因变量为y，则常用y＝1表示“发病”，y＝0表示“不发病”（在病例对照研究中，分别表示病例组和对照组）。自变量：可以为分类变量，也可以为连续变量。2.Logistic模型01122......1mmPLogxxxPββββ=++++−P=P(y=1|x)，为发病概率；1-P=P(y=0|x)，为不发病概率。β0为常数项，β1，β2…..βm分别为m个自变量的回归系数。模型估计方法：最大似然法（MaximumLikelihoodMethod）。构造似然函数（Likelihoodfunction）L=∏P(y=1|x)P(y=0|x)，通过迭代法估计一组参数（β0，β1，β2…..βm）使L达到最大。3.自变量的相对重要性分析衡量变量相对重要性的指标（1）Wald值：(βi/SE(βi))2，近似χ2分布，用于检验自变量的显著性。（2）对自变量作显著性检验的概率P值。当Wald值越大，P值越小时，自变量的影响就越大。4.自变量的筛选与多元线性回归分析类似，有Forward法（实际上是逐步向前法）、Backward法（默认方法为Enter，即所有自变量一次全部进入方程）。5.模型拟合的优良性指标（1）拟合分类表（ClassificationTable）根据Logistic回归模型，对样本重新判别分类，符合率越高，模型拟合越好。注意：Logistic回归用于判别分类很粗劣，此法仅作参考。（2）最大似然函数值L。SPSS提供了-2LogLikelihood，此值越小越好（L→1）。6.OR与RRLogistic回归模型中，OR=EXP(β)。当某种疾病的发病率或死亡率很低时，OR≈RR（三）Logistic回归分析的适用条件1.经典的Logistic回归分析，要求因变量为二分类变量。但是其因变量也可以为多分类变量（SPSS中MultinomialLogistic菜单）。2.样本不能完全线性可分（完全线性可分是指L=1，此时模型有无限多组解，回归系数的估计是不确定的）3.样本量不能太小。有研究表明，样本量不应小于200。否则回归系数的估计是有偏性的。例：比较新疗法与旧疗法治疗某种疾病的疗效。现对40例患者随机分组，分别接受新疗法和旧疗法治疗。根据专业知识，患者的病情严重程度、年龄对疗效也有影响。如何评价新旧疗法的疗效（见数据文件logistic.sav）？（注：作为举例，本例样本量仅为40例，由于样本量太小，Logistic回归的结论仅作为参考）变量说明：Y：治愈情况，1=治愈；0=未治愈；；X1：病情严重程度，0=不严重，1=严重；X2：年龄。X3：治疗方法，0=新疗法，1=旧疗法。二值Logistic回归因变量协变量(自变量)注：此处将X1、X3看作为连续变量；采用Enter法。OR的95%置信区间对模型的检验-2Loglikelihood=40.597经统计学检验，模型χ2=13.951，P=0.003，Logistic回归模型有显著性。符合率为70.0%拟合分类表回归系数标准误Wald值P值OROR置信区间131.5952.2731PLogxxP=−−−Logistic回归模型为：根据模型，病情严重程度与治疗方法对患者的治愈情况有影响；其中病情严重组相对于不严重组，OR＝0.203（病情严重的患者，其治愈的概率是病情不严重的患者的0.203倍），95%置信区间为(0.038，1.092)（此区间包括1，缺乏实际意义）；旧疗法组相对于新疗法组，OR＝0.103，（接受旧疗法的患者，其治愈的概率是接受新疗法的患者的0.103倍），95%置信区间为(0.019，0.553)另法：将X1、X3指定为分类变量。注：变量编码发生了变化：0→0.5，1→-0.5与前述结果相比，X1与X3的回归系数符号发生了变化，结果解释有所不同：病情不严重组相对于严重组，OR＝4.928（病情不严重的患者，其治愈的概率是病情严重的患者的4.928倍）；新疗法组相对于旧疗法组，OR＝9.707，（接受新疗法的患者，其治愈的概率是接受旧疗法的患者的9.707倍）。另法：将X1、X3指定为分类变量。注：对于二分类变量，可以当作连续变量处理，也可以指定为分类变量，但要注意结果解释。后退法筛选变量每步的模型检验、-2Loglikelihood及拟合分类表后退法筛选变量不在模型中的变量131.3581.8322.1401PLogxxP=−−−Logistic回归模型为：后退法筛选变量逐步前进法筛选变量不在模型中的变量131.3581.8322.1401PLogxxP=−−−Logistic回归模型为：逐步前进法筛选变量应用Logistic回归分析时的注意事项1.Logistic回归是乘法模型，这一点，在结果解释时需要慎重。对于自变量（X1，X2），OR12=EXP(β1+β2)=OR1×OR2例：某研究调查胃癌发病的危险因素，得到“有不良饮食习惯”相对于“无不良饮食习惯”的OR=2.6，“喜吃卤食和盐渍食物”相对于“不吃卤食和盐渍食物”的OR=2.4。那么根据Logistic回归，“有不良饮食习惯且喜吃卤食和盐渍食物”相对于“无不良饮食习惯且不吃卤食和盐渍食物”的OR=2.6×2.4=6.24，得出此结论时需要考虑：从专业知识上是否合理？2.通常情况下，自变量为二分类变量时，可以当作连续变量进入模型（常用0、1或者1、2赋值），也可以通过“categorical”来指定哑变量。但是，对多分类变量应该通过“categorical”来指定哑变量，而不宜直接作为连续变量处理。多元线性回归分析与Logistic回归分析都是实际工作中常用的方法，用于影响因素分析时，多元线性回归的因变量是连续变量，而Logistic回归的因变量是分类变量；两种方法的自变量可为连续变量或分类变量，当为分类变量时，均需相应的哑变量（二分类变量例外）。3.Logistic回归模型中，连续变量的OR值通常缺乏实际意义。为方便结果解释，通常将连续变量转换为分类变量，再解释相应的OR。附录：Logistic回归分析的其他应用假设检验的目的推断多个总体率是否相等当P≤0.05，拒绝H0时，总的说来各组有差别，但并不意味着任何两组都有差别：可能是任何两者间都有差别，也可能其中某两者间有差别，而其它组间无差别。目前尚无公认的进一步两两比较的方法（可考虑采用Logistic回归）。结果解释回顾：分类变量的假设检验——完全随机设计的多个样本比较例：某省从3个水中氟含量不同的地区随机抽取10～12岁儿童，进行第一恒齿患病率的调查（见数据文件p231.sav），问3个地区儿童第一恒齿患病率是否不同？变量说明：group:组别，1=高氟区，2=干预区，3＝低氟区；effect:1=患龋，2=未患龋；freq：频数。经χ2检验，χ2=10.489，P=0.005，可以认为：总的来说三个地区患龋情况有差别。Pearson卡方值P值患龋率如何进一步判断哪两个地区有差别？二值Logistic回归在进行Logistic回归分析之前，需要用freq变量进行加权以低氟区为参照，其他两个地区与低氟区进行比较。Categorical对话框Options对话框OR的95%置信区间对模型的检验结论：经统计学检验，χ2=11.852，P=0.003，Logistic模型有显著性。高氟区、干预区与低氟区相比，患病率均有差异（P0.05）。