第十六章--Logistic回归

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第十六章logistic回归分析(LogisticRegressionAnalysis)(LRM)多元线性回归模型的应用条件:1.线性趋势(linear):自变量与因变量的关系是线性的,即Y与Xi间具有线性关系2.独立性(independence):应变量Y的取值相互独立,Cov(ei,ej)=03.正态性(normality):对任意一组自变量取值,因变量Y服从正态分布,ei~N(0,σ2),4.方差齐性(homogeneity):对任意一组自变量取值,因变量y的方差相同,Var(ei)=σ2后两个条件等价于:残差ε服从均数为0、方差为σ2的正态分布这些条件缩写为LINE,是线性回归方程的核心。多元线性回归分析复习1.根据样本数据求得多元线性回归方程2.对多元线性回归方程的假设检验及其对方程的拟和效果进行评价(1)方差分析法:(2)决定系数(3)复相关系数3.各自变量的假设检验与对各自变量的作用大小作出评价(1)偏回归平方和(2)t检验法(3)标准化回归系数4.自变量的选择方法(1)全局择优法:校正决定系数、Cp准则(2)逐步选择法:前进法、后退法、逐步回归法多元线性回归分析复习回归分析的分类多个因变量(y1,y2,…yk)路径分析结构方程模型分析一个因变量y连续型因变量(y)---线性回归分析分类型因变量(y)---Logistic回归分析时间序列因变量(t)---时间序列分析生存时间因变量(t)---生存风险回归分析发表论文•265例成人白血病危险因素的多元Logistic回归分析•食管癌术前淋巴结转移危险因素Logistic回归分析•潍坊市儿童伤害发生及其影响因素的非条件Logistic回归分析•急性胆囊炎危险因素的病例对照研究及配对资料Logistic回归分析•高血压危险因素logistic回归与分类树分析•股骨粗隆间骨折DHS内固定失败的Logistic回归分析•累积比数logistic回归在医学研究中的应用•Logistic回归分析的判别猜测功能及其应用•糖尿病患者心理健康状况的多因素Logistic回归分析•食管病变影响因素的多项式Logistic回归分析•多项式logistic回归分析在患者就诊行为影响因素研究中的应用•主成分logistic回归在筛选妊娠期糖尿病危险因素中的应用•ROC曲线及Logistic回归评价肿瘤标志物在胃结肠肿瘤的诊断价值•大学生病理性互联网使用影响因素的Logistic回归分析•脂肪肝危险因素Logistic回归分析•精神分裂症发病影响因素的条件Logistic回归分析•154例原发性肝癌临床症状多元Logistic回归分析•大学生蠕形螨感染危险因素logistic回归分析•应用LOGISTIC回归法分析四川省中学生吸烟状况影响因素•儿童学习困难危险因素的Logistic回归分析在医学研究中经常遇到应变量为二项分类的资料,如治愈与未治愈、生存与死亡、发病与未发病等,可以概括为阳性与阴性两种互斥结果,同时存在可能对分类结果发生概率影响的因素即自变量。这类资料由于d(Y)是二项分布,适宜用Logistic回归分析进行。•logistic回归:是研究因变量为二分类或多分类观察结果与影响因素(自变量)之间关系的一种多变量分析方法,属概率型非线性回归。•在流行病学研究中,常需要分析疾病与各种危险因素间的定量关系,同时需要控制混杂因素的影响。(1)Mantel-Haenszel(曼特尔-享塞尔)分层分析:适用于样本量大、分析因素较少的情况。当分层较多时,由于要求各格子中例数不能太少,所需样本较大,往往难以做到;当混杂因素较多时,分层数也呈几何倍数增长,这将导致部分层中某个格子的频数为零,无法利用其信息。用χ2检验的局限性:只能研究1个危险因素;只能得出定性结论。(2)线性回归分析:由于因变量是分类变量,不能满足其正态性要求;有些自变量对因变量的影响并非线性。•队列研究(cohortstudy):也称前瞻性研究、随访研究等。是一种由因及果的研究,在研究开始时,根据以往有无暴露经历,将研究人群分为暴露人群和非暴露人群,在一定时期内,随访观察和比较两组人群的发病率或死亡率。如果两组人群发病率或死亡率差别有统计学意义,则认为暴露和疾病间存在联系。队列研究验证的暴露因素在研究开始前已存在,研究者知道每个研究对象的暴露情况。研究人群+-++--调查方向:追踪收集资料比较疾病人数暴露abcda/(a+b)c/(c+d)队列研究原理示意图病例非病例合计发病率暴露组abn1=a+ba/n1非暴露组cdn0=c+dc/n0相对危险度(relativerisk,RR)也称危险比(riskratio)或率比(rateratio)。010//ncnaIIRReRR(相对危险度relativerisk):表示暴露组与非暴露组发病率(或死亡率)的比值。也称为危险比(riskratio)。反映了暴露与疾病发生的关联强度。RR表明暴露组发病或死亡的危险是非暴露组的多少倍。•病例对照研究(case-controlstudies):一种由果及因的回顾性研究,先按疾病状态确定调查对象,分为病例(case)和对照(control)两组,然后利用已有的记录、采用询问、填写调查表等方式,了解其发病前的暴露情况,并进行比较,推测疾病与暴露间的关系。+-病例+-对照调查方向:收集回顾性资料abcda/(a+b)c/(c+d)比较人数暴露疾病病例对照原理示意图组别暴露未暴露合计病例组aba+b(n1)对照组cdc+d(n2)合计a+cb+dn比数比(oddsratio、OR):病例对照研究中表示疾病与暴露间联系强度的指标,也称比值比。比值(odds):某事物发生的可能性与不发生的可能性之比。病例组暴露的比值)/()/(babbaa、对照组暴露的比值)/()/(dcddcc该暴露因素的优势比:OR=/()/()/()/()aabccdbabdcdadbc相对危险度RR的本质是暴露组与非暴露组发病率之比或发病概率之比。但病例对照研究不能计算发病率,只能计算比值比OR值。OR与RR的含义是相同的,也是指暴露组的疾病危险性为非暴露组的多少倍。当疾病发病率小于5%时,OR是RR的极好近似值。OR1,说明该因素是疾病的危险性增加,为危险因素;OR1,说明该因素是疾病的危险性减小,为保护因素;暴露疾病.病例对照合计+aba+b=n1-cdc+d=n0合计a+c=m1b+d=m0t暴露疾病.病例非病例合计+aba+b=n1-cdc+d=n0合计a+c=m1b+d=m0tbcaddbcadbddbbcaccaaOR//)/()/()/()/()/()/(dccbaaRROR与RR之关系病例对照研究资料队列研究资料病例对照研究的类型(一)病例与对照不匹配---非条件logistic回归在设计所规定的病例和对照人群中,分别抽取一定量的研究对象,一般对照应等于或多于病例数,此外无其他任何限制。(二)病例与对照匹配---条件logistic回归匹配或称配比(matching),即要求对照在某些因素或特征上与病例保持一致,目的是对两组比较时排除混杂因素的干扰。匹配分为成组匹配和个体匹配。(二)病例与对照匹配---条件logistic回归1.成组匹配(categorymatching):匹配的因素所占的比例,在对照组和在病例组一致。如病例组中男女各半,65岁以上者占1/3,则对照组也是如此。2.个体匹配(individualmatching):以病例和对照的个体为单位进行匹配叫个体匹配。1:1匹配又叫配对(pairmatching),1:2,┅,1:m匹配时称为匹配。匹配的特征必须是已知的混杂因子,或者有充分的理由怀疑其为混杂因子,否则不应匹配。(三)巢式病例对照研究也称为队列内的病例对照研究,是将队列研究和病例对照研究相结合的方法。Content•Logisticregression•Conditionallogisticregression•Applicationlogistic回归分析概述Logistic回归的定义:属于概率型非线性回归,是研究二分类或多分类观察结果与一些影响因素之间关系的一种多变量分析方法。它是以疾病发生概率为应变量,影响疾病发生的因子为自变量,分析疾病与致病因子之间联系的一种回归分析法。目的:作出以多个自变量(危险因素)估计应变量(结果因素)的logistic回归方程。资料:1.应变量为反映某现象发生与不发生的二值变量;多项分类的资料或有序分类2.自变量宜全部或大部分为分类变量,可有少数数值变量。分类变量要数量化。logistic回归分析概述根据研究设计的类型分为:(1)非条件logistic回归(2)条件logistic回归根据应变量的类型分为:(1)二分类资料logistic回归:可用非条件logistic回归和条件logistic回归进行分析。非条件logistic回归多用于非配比病例-对照研究或队列研究资料,条件logistic回归多用于配对或配比资料。(2)多分类无序logistic回归(3)多分类有序logistic回归logistic回归的分类第一节logistic回归(非条件logistic回归)一、基本概念1.模型结构:是指一名观察对象在一组自变量即X1,X2,…,XP作用下出现结果(应变量)d,当出现阳性结果时赋值d=1,否则赋值d=0。即出现阳性结果的概率为P(d=1/X)或记为P,出现阴性结果的概率为Q(d=0/X)或记为Q,根据概率原理有P+Q=1。一、基本概念12,,,mXXX自变量在m个自变量的作用下阳性结果发生的概率记作:PP1P012(1|,,,)mYXXX1(0(Y阳性结果发病、有效、死亡等)阴性结果未发病、无效、存活等)二分类变量等式左边变化范围P发病概率0≤P≤11-P不发病概率0≤P≤1p/1-p比数(ratio)0≤p/1-p+∞ln(p/1-p)对数比(ratio)-∞ln(p/1-p)+∞2.Logistic回归模型为:定义:logit(P)=ln[P/(1-P)]为Logit变换,Logistic回归模型为:0Pln()X1P011logit()ppPXX当p=0或1时,logit(P)=ln[P/(1-P)]此式失效Logistic回归模型实际上普通多元线性回归模型的推广Logit是“Logistic概率单位”,英文Logisticprobabilityunit存头取尾的缩写。Logit(P)即“Logistic概率单位”,简称LogitP。Logit变换使得P在(0~1)范围内→(-∞,+∞)………(3)LRM的基本数学表达式以对比数的成败比例为因变量的简单线性回归模型xPP01ln取反对数:求倒数:xePP011xePP01xeP0111xeP0111xxxeeeP00011xxeeP0011xxeeP001经数学变换可得:或exp是指数函数(exponent),exp(x)=ex011pp011ppXXXXexpp1exp011pp(XX)1p1exp011logit()ppPXX若令:回归模型11ZPemmXXXZ221100112211exp[()]mmPXXX其中0为常数项,m,,,21为回归系数。设mmXXXZ22110,则Z与P之间关系的logistic曲线如下图所示。可看出:当Z趋于时,P值渐进于1;当Z趋于时,P值渐进于0;P值的变化在0~1之间,并且随Z值的变化以点(0,0.5)为中心成对称S形变化。模型参数的流行病学意义01122010logitln=100mmmPPXXXP

1 / 128
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功