第十五章logistic回归分析LogisticRegressionAnalysis山东大学公共卫生学院回归分析的分类多个因变量(y1,y2,…yk)路径分析结构方程模型分析一个因变量y连续型因变量(y)---线性回归分析分类型因变量(y)---Logistic回归分析时间序列因变量(t)---时间序列分析生存时间因变量(t)---生存风险回归分析•logistic回归(logisticregression)是研究因变量为二分类或多分类观察结果与影响因素(自变量)之间关系的一种多变量分析方法,属概率型非线性回归。•在流行病学研究中,常需要分析疾病与各种危险因素间的定量关系,同时为了能真实反映暴露因素与观察结果间的关系,需要控制混杂因素的影响。(1)Mantel-Haenszel分层分析:适用于样本量大、分析因素较少的情况。当分层较多时,由于要求各格子中例数不能太少,所需样本较大,往往难以做到;当混杂因素较多时,分层数也呈几何倍数增长,这将导致部分层中某个格子的频数为零,无法利用其信息。(2)线性回归分析:由于因变量是分类变量,不能满足其正态性要求;有些自变量对因变量的影响并非线性。logistic回归:不仅适用于病因学分析,也可用于其他方面的研究,研究某个二分类(或无序及有序多分类)目标变量与有关因素的关系。logistic回归的分类:(1)二分类资料logistic回归:因变量为两分类变量的资料,可用非条件logistic回归和条件logistic回归进行分析。非条件logistic回归多用于非配比病例-对照研究或队列研究资料,条件logistic回归多用于配对或配比资料。(2)多分类资料logistic回归:因变量为多项分类的资料,可用多项分类logistic回归模型或有序分类logistic回归模型进行分析。•队列研究(cohortstudy):也称前瞻性研究、随访研究等。是一种由因及果的研究,在研究开始时,根据以往有无暴露经历,将研究人群分为暴露人群和非暴露人群,在一定时期内,随访观察和比较两组人群的发病率或死亡率。如果两组人群发病率或死亡率差别有统计学意义,则认为暴露和疾病间存在联系。队列研究验证的暴露因素在研究开始前已存在,研究者知道每个研究对象的暴露情况。研究人群+-++--调查方向:追踪收集资料比较疾病人数暴露abcda/(a+b)c/(c+d)队列研究原理示意图病例非病例合计发病率暴露组abn1=a+ba/n1非暴露组cdn0=c+dc/n0相对危险度(relativerisk,RR)也称危险比(riskratio)或率比(rateratio)。010//ncnaIIRRe、1/naIe、20/ncIRR(相对危险度relativerisk):表示暴露组与非暴露组发病率(或死亡率)的比值。也称为危险比(riskratio)。反映了暴露与疾病发生的关联强度。RR表明暴露组发病或死亡的危险是非暴露组的多少倍。•病例对照研究(case-controlstudies):一种由果及因的回顾性研究,先按疾病状态确定调查对象,分为病例(case)和对照(control)两组,然后利用已有的记录、或采用询问、填写调查表等方式,了解其发病前的暴露情况,并进行比较,推测疾病与暴露间的关系。+-病例+-对照调查方向:收集回顾性资料abcda/(a+b)c/(c+d)比较人数暴露疾病病例对照原理示意图是否暴露病例对照合计暴露组aba+b(n1)未暴露组cdc+d(n2)合计a+cb+dn比数比(oddsratio、OR):病例对照研究中表示疾病与暴露间联系强度的指标,也称比值比。比值(odds):某事物发生的可能性与不发生的可能性之比。病例组暴露的比值)/()/(babbaa、对照组暴露的比值)/()/(dcddcc该暴露因素的优势比:OR=/()/()/()/()aabccdbabdcdadbc相对危险度RR的本质是暴露组与非暴露组发病率之比或发病概率之比。但病例对照研究不能计算发病率,只能计算比值比OR值。OR与RR的含义是相同的,也是指暴露组的疾病危险性为非暴露组的多少倍。当疾病发病率小于5%时,OR是RR的极好近似值。OR1,说明该因素是疾病的危险性增加,为危险因素;OR1,说明该因素是疾病的危险性减小,为保护因素;病例对照研究的类型(一)病例与对照不匹配---非条件logistic回归在设计所规定的病例和对照人群中,分别抽取一定量的研究对象,一般对照应等于或多于病例数,此外无其他任何限制。(二)病例与对照匹配---条件logistic回归匹配或称配比(matching),即要求对照在某些因素或特征上与病例保持一致,目的是对两组比较时排除混杂因素的干扰。匹配分为成组匹配和个体匹配。(二)病例与对照匹配---条件logistic回归1、成组匹配(categorymatching):匹配的因素所占的比例,在对照组和在病例组一致。如病例组中男女各半,65岁以上者占1/3,则对照组也是如此。2、个体匹配(individualmatching):以病例和对照的个体为单位进行匹配叫个体匹配。1:1匹配又叫配对(pairmatching),1:2,┅,1:m匹配时称为匹配。匹配的特征必须是已知的混杂因子,或者有充分的理由怀疑其为混杂因子,否则不应匹配。(三)巢式病例对照研究也称为队列内的病例对照研究,是将队列研究和病例对照研究相结合的方法。第一节logistic回归logistic回归模型:设因变量Y是一个二分类变量,其取值为Y=1和Y=0。影响Y取值的m个自变量分别为mXXX,,,21。在m个自变量(即暴露因素)作用下阳性结果发生的条件概率为),,,1(21mXXXYPP,则logistic回归模型可表示为:)exp(1)exp(2211022110mmmmXXXXXXP(15.1)其中,0为常数项,m,,,21为偏回归系数。设mmXXXZ22110,则Z与P之间关系的logistic曲线如下图所示。可看出:当Z趋于时,P值渐进于1;当Z趋于时,P值渐进于0;P值的变化在0~1之间,并且随Z值的变化以点(0,0.5)为中心成对称S形变化。logit变换:logitP=PP1ln为P的logit变换,通过logit变换之后,就可将10P的资料转换为)(logPit的资料。作logit变换后,logistic回归模型可以表示成如下的线性形式:01122011220112201122exp()1exp()ln()ln[]exp()111exp()mmmmmmmmXXXXXXPXXXPXXX01122ln[exp()]mmXXX01122mmXXX(15.2)模型参数的流行病学含义当各种暴露因素为0时:01122010ln()100mmmPXXXP可看出:常数项0是当各种暴露因素为0时,个体发病与不发病概率之比的自然对数值。偏回归系数j(mj,,2,1)表示在其它自变量固定的条件下,第j个自变量每改变一个单位时logit)(P的改变量。它与比数比(优势比)OR(oddsratio)有对应关系。在其它影响因素相同的情况下,某危险因素jX两个不同暴露水平1c和0c发病优势比的自然对数为:)1()1(lnln0011PPPPORj=)1ln()1ln(0011PPPP=)(01ccj则该因素的优势比:)](exp[01ccORjj式中1P和0P分别表示在jX取值为1c和0c时的发病概率,jOR为调整后优势比(adjustedoddsratio),表示扣除了其它自变量影响后危险因素jX的作用。设jX为两分类变量:1c=1为暴露,0c=0为非暴露,则暴露组和非暴露组发病的优势比为:jjORexp当j=0时,jOR=1,表示因素jX对疾病的发生不起作用;j0时,jOR1,表示jX是一个危险因素;j0时,jOR1,表示jX是一个保护因素。由于jOR值与模型中的常数项0无关,因此0在危险因素分析中常常被视为无效参数。对于发病率很低的慢性疾病如心脑血管病、恶性肿瘤等,优势比可作为相对危险度(relativerisk,RR)的近似估计。即111000(1)(1)PPPORRRPPP二、logistic回归模型的参数估计logistic回归模型的参数估计常采用最大似然估计。其基本思想是先建立似然函数与对数似然函数,求使对数似然函数最大时的参数值,其估计值即为最大似然估计值。建立样本似然函数:11(1)iinYYiiiLPP(1,2,,in)(15.6)其中,iP表示第i例观察对象处于暴露条件下时阳性结果发生的概率。阳性结果时,1iY;阴性结果时,0iY。根据最大似然原理,似然函数L应取最大值。对似然函数取对数形式:1ln[ln(1)ln(1)]niiiiiLYPYP(15.7)式中为对数似然函数,对其取一阶导数求解参数。对于参数j(1,2,,jm),令lnL的一阶导数为0,即ln0jL,用Newton-Raphson迭代方法解方程组,得出参数j的估计值jb和jb的渐进标准误jbS。优势比估计自变量jX不同水平1c和0c优势比的估计值:10ˆexp[()]jjORbcc当样本含量n较大时,jb的抽样分布近似服从正态分布,若jX只有暴露和非暴露2个水平,则优势比jOR的100(1)%可信区间为:2exp()jjbbuS表15-1为吸烟、饮酒与食管癌关系的病例-对照研究调查资料,试进行logistic回归分析。表15-1吸烟、饮酒与食管癌关系的病例-对照研究资料分层g吸烟1X饮酒2X总例数gn阳性数gd阴性数ggnd10019963136201170631073101014457411416265151首先确定变量的赋值或编码:吸烟饮酒病例110X不吸烟210X不饮酒10Y对照logistic回归分析过程可通过SAS统计软件包中logistic过程步实现例15-1在logistic过程步中加“descending”选项的目的是使SAS过程按阳性率(y=1)拟合模型,得到阳性病例对应于阴性病例的优势比。观察例数OR值OR的95%CI对偏回归系数的假设检验吸烟与不吸烟的优势比:11ˆexpexp0.88562.42ORb,其1OR的95%可信区间:110.052exp[]exp(0.88561.960.1500)(1.81,3.25)bbuS饮酒与不饮酒的优势比:22ˆexpexp0.52611.69ORb,其2OR的95%可信区间:220.052exp[]exp(0.52611.960.1572)(1.24,2.30)bbuS由结果可看出,吸烟和饮酒均为食管癌发病的危险因素,吸烟人群发生食管癌的可能性是不吸烟人群的2.42倍,饮酒人群发生食管癌的可能性是不饮酒人群的1.69倍。三、logistic回归模型的假设检验常用的检验方法有似然比检验(likelihoodratiotest)和Wald检验。1.似然比检验基本思想是比较2种不同假设条件下的对数似然函数值差别的大小。具体方法是:①先拟合不包含待检验因素的logistic模型,求对数似然函数值0lnL;②再拟合包含待检验因素的logistic模型,求另一个对数似然函数值1lnL;③比较两个对数似然函数值差别的大小若2个模型分别包含l个自变量和p个自变量,似然比统计量G的计算公式为:2(lnln)plGLL当样本含量n较大时,在0H成立的条件下,G统计量近似服从自由度dpl的2分布。如果只对一个回归系数(或一个自变量)进行检验,则