Logistic回归筛选影响因素校正混杂效应进行疾病预测医学研究线性回归因变量—连续定量变量自变量与应变量为线性关系Logistic回归因变量为分类变量自变量与因变量为非线性关系目的:作出以多个自变量(危险因素)估计应变量(结果因素)的logistic回归方程。属于概率型非线性回归。Logistic回归适用范围资料:1.应变量为反映某现象发生与不发生的二值变量;2.自变量宜全部或大部分为分类变量,可有少数数值变量。分类变量要数量化。Logistic回归适用范围用途:研究某种疾病或现象发生和多个危险因素(或保护因子)的数量关系。用检验(或u检验)的局限性:1.只能研究1个危险因素;2.只能得出定性结论。2分类Logistic回归多分类资料logistic回归:因变量—多分类变量二分类资料logistic回归:因变量—二分类变量多项分类logistic回归模型或有序分类logistic回归模型非条件logistic回归----非配比病例-对照研究或队列研究条件logistic回归----配对或配比资料统计学概念队列研究相对危险度(RR)病例对照研究危险度比数比或优势比(OR)队列研究也称前瞻性研究、随访研究等。是一种由因及果的研究,在研究开始时,根据以往有无暴露经历,将研究人群分为暴露人群和非暴露人群,在一定时期内,随访观察和比较两组人群的发病率或死亡率。如果两组人群发病率或死亡率差别有统计学意义,则认为暴露和疾病间存在联系。Logistic回归研究人群+-++--比较疾病人数暴露abcda/(a+b)c/(c+d)相对危险度Logistic回归病例非病例合计发病率暴露组abn1=a+ba/n1非暴露组cdn0=c+dc/n0相对危险度(relativerisk,RR)也称危险比(riskratio)或率比(rateratio)。010//ncnaIIRRe、1/naIe、20/ncIRR(相对危险度relativerisk):表示暴露组与非暴露组发病率(或死亡率)的比值。也称为危险比(riskratio)。反映了暴露与疾病发生的关联强度。RR表明暴露组发病或死亡的危险是非暴露组的多少倍。相对危险度Logistic回归RR>1:表示该因素为危险因素,使发病危险度增大RR<1:表示该因素为保护因素,使发病危险度减小RR=1:表示该因素对疾病的发病无影响。病例对照研究Logistic回归一种由果及因的回顾性研究,先按疾病状态确定调查对象,分为病例和对照两组,然后利用已有的记录、或采用询问、填写调查表等方式,了解其发病前的暴露情况,并进行比较,推测疾病与暴露间的关系。+-病例+-对照abcda/(a+b)c/(c+d)比较人数暴露疾病比数比Logistic回归是否暴露病例对照合计暴露组aba+b(n1)未暴露组cdc+d(n2)合计a+cb+dn比数比(oddsratio、OR):病例对照研究中表示疾病与暴露间联系强度的指标,也称比值比。比数(odds):发生率与未发生率之比。即阳性率/阴性率。暴露组发病的比值)/()/(babbaa、未暴露组发病的比值)/()/(dcddcc该暴露因素的优势比:OR=/()/()/()/()aabccdbabdcdadbc比数比Logistic回归相对危险度RR的本质是暴露组与非暴露组发病率之比或发病概率之比。但病例对照研究不能计算发病率,只能计算比值比OR值。OR与RR的含义是相同的,也是指暴露组的疾病危险性为非暴露组的多少倍。当疾病发病率小于5%时,OR是RR的极好近似值。OR1,说明该因素是疾病的危险性增加,为危险因素;OR1,说明该因素是疾病的危险性减小,为保护因素;举例Logistic回归例:为了探讨冠心病发生的有关危险因素,对26例冠心病病人和28例对照者进行病例对照研究,调查记录了8个可能的危险因素,试用Logistic逐步回归分析方法筛选危险因素,并分析各自变量的作用大小。举例Logistic回归冠心病8个可能的危险因素与编码说明举例Logistic回归冠心病危险因素病例对照研究原始数据模型Logistic回归)1ln()(PPPLogit10Y发生应变量未发生12,,,mXXX自变量在m个自变量的作用下阳性结果发生的概率记作:),,,|1(21mXXXYPP1P0)(PLogitLogit变换举例Logistic回归mmXXXPPPLogit2211)1ln()(Logistic模型还有另一种线性化表达形式,称为Logit模型:若记mmXXXZ2211则Z与P之间关系的Logistic曲线为Z设有一个应变量Y取值为1或0,在一组自变量mXXX,,,21作用下阳性结果发生的概率为),,,|1(21mXXXYPP,简记为P,则Logistic回归模型可表示为:)(exp112211mmXXXP其中,为常数项,m,,,21称为回归系数。模型Logistic回归常数项:α表示暴露剂量为0时个体发病与不发病概率之比的自然对数。回归系数:表示自变量改变一个单位时Logitic(P)的改变量。),,2,1(mjjjXjX比数比(OR)Logistic回归流行病学衡量危险因素作用大小的比数比指标。计算公式为:1100/(1)/(1)jPPORPP式中1P和0P分别表示在jX取值为1c及0c时的发病概率,jOR称作多变量调整后的优势比,表示扣除了其他自变量影响后危险因素的作用。OR与Logitic(P)的关系Logistic回归111000010010/(1)lnlnlogitlogit/(1)()()()jmmjttjtttjtjjPPORPPPPcXcXcc对比某一危险因素两个不同暴露水平1cXj与0cXj的发病情况(假定其它因素的水平相同),其优势比的自然对数为:βj表示ORj的自然对数值。10exp[()]jjORcc即模型意义Logistic回归0,1exp,0,10,1jjjjjjOROROROR无作用危险因保子护因子则有101,1,0jccX暴非若暴露露10exp[()]jjORcc即模型意义Logistic回归对于发病率很低的慢性疾病如心脑血管病、恶性肿瘤等,优势比可作为相对危险度(relativerisk,RR)的近似估计。即111000(1)(1)PPPORRRPPP假设检验Logistic回归检验假设为:H0:所有H1:pii,,2,1,0,00i常用的检验方法有以下三种:似然比检验Wald检验记分检验似然比检验Logistic回归原理:最大似然(likelihood)估计-2lnL近似服从分布G=2(lnL1-lnL0)=2ln(L1/L0)ν=p-l2自变量X引入回归方程——L0、L1若L0/L1=1,则接受H1,拒绝H0.似然比检验Logistic回归具体方法是:①先拟合不包含待检验因素的logistic模型,求对数似然函数值;②再拟合包含待检验因素的logistic模型,求另一个对数似然函数值;③比较两个对数似然函数值差别的大小2d2lndGDD不包含此变量的模型-包含此变量的模型不含此变量的似然函数=-含此变量的似然函数Wald检验Logistic回归原理:将各参数的估计值jb与0比较,而用它的标准误jbS作为参照,检验统计量为2,1jjjjbbbbuSS2或记分检验Logistic回归以未包含某个或几个变量的模型计算保留模型中参数的估计值,并假设新增参数为零,计算似然函数的一价偏导数及信息距阵,两者相乘便得比分检验的统计量S。n较大时,S近似服从自由度为待检因素个数的2分布。比较Logistic回归以上三种方法中,在多数情况下,似然比检验是最有效的检验,记分检验一般与它相一致。但两者计算量均较大;Wald检验主要用于对单个回归系数的检验,但是Wald检验未考虑各因素间的综合作用,比较保守,在因素间有共线性存在时,结果不像其它两者可靠。一般过程Logistic回归变量的选择建立logistic回归模型时,要求进入模型的自变量应对反应变量有解释能力。通常研究者根据专业知识和研究的问题,首先确定要研究的反应变量和自变量单因素分析(变量的粗略选择)用单因素分析对自变量进行筛选:卡方检验、t检验或单因素的logistic回归一般过程Logistic回归Logistic逐步回归变量筛选的过程与线性逐步回归变量筛选的过程极为相似,但其中所用的检验统计量不再是F统计量,而是似然比统计量、Wald统计量等。例如使用似然比统计量,即利用()()102[lnln]llGLL,在进行到第l步时,通过比较含有jX和不含jX的模型,决定jX是否引入模型。与多元线性回归类似,标准化偏回归系数可以比较各因素作用的相对重要性。为计算方便,通常向前选取变量用似然比或比分检验,而向后剔除变量常用Wald检验。条件logistic回归Logistic回归病例与对照匹配即要求对照在某些因素或特征上与病例保持一致,目的是对两组比较时排除混杂因素的干扰。匹配分为成组匹配和个体匹配。条件logistic回归Logistic回归1、成组匹配(categorymatching):匹配的因素所占的比例,在对照组和在病例组一致。如病例组中男女各半,65岁以上者占1/3,则对照组也是如此。2、个体匹配(individualmatching):以病例和对照的个体为单位进行匹配叫个体匹配,每一个病例与M个与它条件相一致的对照形成一个匹配组。1:1匹配又叫配对(pairmatching),1:2,┅,1:m匹配时称为匹配。匹配的特征必须是已知的混杂因子,或者有充分的理由怀疑其为混杂因子,否则不应匹配。条件logistic回归Logistic回归匹配组组内编号*应变量危险因素itYX1X2…Xm101X101X102…X10m10X111X112…X11m20X121X122…X12mM0X1M1X1M2…X1Mmn01Xn01Xn02…Xn0m10Xn11Xn12…Xn1m20Xn21Xn22…Xn2mM0XnM1XnM2…XnMm应用Logistic回归矫正混杂因素筛选影响因素疾病预测和预后ROC曲线涵义与起源ROC曲线ROC【receiver(relative)operatingcharacteristic的缩写,译为“接受者工作特征”】ROC曲线研究历史1950’s雷达信号观测能力评价1960’s中期实验心理学、心理物理学1970’s末与1980’s初诊断医学诊断试验评价四格表ROC曲线待评价的诊断方法标准诊断方法合计有病(阳性)无病(阴性)有病(阳性)a(真阳性)b(假阳性)a+b无病(阴性)c(假阳性)d(真阴性)c+d合计a+cb+dn(=a+b+c+d)灵敏度:真阳性率,表示实际患病者且被待评价的诊断方法诊断为患者的概率,反映了待评价的诊断方法检出患者能力——Se=a/(a+c)特异度:真阴性率,表示实际未患病患者且被待评价的诊断方法诊断为非患者的概率,反映了待评价的诊断方法检出非患者的能力——Sp=d/(b+d)ROC曲线ROC曲线完美诊断试验0.00.20.40.60.81.00.00.20.40.60.81.0FPRTPR1-特异度灵敏度完美诊断试验0.00.20.40.60.81.00.00.20.40.60.81.0FPRTPR无用诊断试验0.00.20.40.60.81.00.00.20.40.60.81.0FPRTPRROC曲线分析中将不同诊断分界点下的灵敏度和(1-特异度)确定为曲线上的一个操作点,灵敏度为纵坐标,(1-特异度)为横坐标。曲线下面积ROC曲线ROC曲线下面积(AUC):