第一节Logistic回归分析一、基本概念Logistic回归模型/回归方程Logistic函数图形Logistic回归方程的特点二、Logistic回归模型的配合Logistic回归模型/回归方程应变量Y是一个二值变量,取值为1出现阳性结果(发病、有效、死亡等)Y=0出现阴性结果(未发病、无效、存活等)表示在m个自变量的作用下Y阳性结果发生的概率为:P=P(Y=1|X1,X2,…,Xm)模型为:)]...(exp[1122110XXXmmPP的logit变换式中β0表示暴露剂量为0时个体发病与不发病概率之比的自然对数βi,回归系数,表示自变量xi改变一个单位时,logitP的改变量XXXmmPP...)1ln(22110Logistic函数图形111exp()1ZpZeZPLogistic回归模型/方程的特点自变量任意取值,应变量P的变化范围为0~1;回归系数与优势比(比数比)有直接的联系;表示在两个暴露水平Xj=C1相对于Xj=C0的风险比值情况)](exp[01ccORjj二、Logistic回归模型的配合非条件Logistic回归模型:主要设计类型(完全随机设计case-controlstudy,cross-sectionalstudy)条件Logistic回归模型:主要设计类型(配比设计case-controlstudy,非条件Logistic回归模型研究中收集资料的格式表14-1Logistic回归模型研究收集资料的格式序号YX1X2X3Xp1Y1X11X12X13X1p2Y2X21X22X23X2pnYnXn1Xn2Xn3Xnp(一)应变量为二分类的Logistic回归模型应变量为两分类变量自变量可以是无序分类变量、有序分类变量,也可以是数值变量,注意非数值变量值要数量化。例题例14-1.为研究病情x1(0表示不严重,1表示严重)、年龄x2(岁)及不同治疗方法x3(0表示传统疗法,1表示新疗法)对某病疗效的影响,某研究者随机抽取40名某病的患者,其中有20名患者采用传统疗法,另20名患者采用新疗法,经过一段治疗后记录下康复的情况y(0表示未康复,1表示康复),结果如下表:表14-240名某病患者康复情况YX1X2X3YX1X2X310200003401023000300103200038010380003701125001240102010125010241012901028101320103010134010321013701038101400112610140011291003311134100361113310124111381013411140101321002200136100260013810029000391病情(x1)、年龄(x2)及不同治疗方法(x3)对某病疗效影响的单因素分析结果表1病情轻重、年龄及疗法与治疗结果关系的单因素分析因素治疗结果χ2或t值P值OR及95%CI未康复(%)康复病情轻重不严重10(50.0)100.92070.33730.54(0.15-1.92)严重13(65.0)7治疗方法传统疗法15(75.0)5新疗法8(40.0)125.0130.02524.50(1.17-17.37)年龄(xsd)32.6±5.530.0±6.41.3600.1828单因素分析的缺陷由于受到混杂因素的影响,有时单因素估计暴露与结局之间的关系不能真实地反映两者之间的联系,可能是一种虚假的联系;所以在统计分析策略上,如果混杂因子较少,可以用Mantel-Haenszel分层分析的方法(其缺点是最多调整2层)procfreq;tablesx1*x3*y/chisqcmh;run;(调整x1)OR=5.29(95%CI:1.26~22.25)引入多因素Logistic回归分析方法可克服Mantel-Haenszel分层分析方法的缺点也就是说,如果调整了其它混杂因素后,主研究因素仍有统计学意义,说明某因素与结局之间关联是独立的。Logistic回归模型参数估计方法最大似然函数估计法(maximumlikelihoodestimate)SAS软件采用迭代重加权最小二乘法(Iterativelyreweightedleastsquaresalgorithm)对式(14-11)求极大值,解得各回归系数值、估计值的方差、标准误、OR值及95%CI等,并进行各种假设检验。标准回归系数可在程序过程语句中加入选择项“STB”获得,用来比较各因素的相对重要性Logistic回归模型的相关假设检验整个模型的检验:AIC检验法(AkaikeInformationCriterion)、SC检验法、(SchwarteCriterion)似然比检验法(最可靠)、计分检验法(Score)和Wald检验法各个回归系数的检验:Wald-χ2检验法拟合优度检验(Goodnessoffitstatistics)HosmerandLemeshow法程序说明proclogisticdescendingsimple;modely=x1-x3/stblackfit;run;模型中默认以应变量的低值为反应变量,如果加Descending,则以高值为反应变量。结果解释Logistic逐步回归proclogisticdescendingsimple;modely=x1-x3/selection=stepwisesle=0.1sls=0.1detailsstblackfit;unitsx2=-5;run;(二)应变量为有序分类变量的Logistic回归模型分析各种因素自变量对有序分类变量(k2)的影响设应变量Y为k个等级的有序分类变量,取值为1、2、…、k,对Y取值小于等于j的概率即Y取前j个值的累积概率用jp来表示,则有)/1(1)/1()/()/1()/(ZkypZjyPZjypZypZjyppj当kjkjj121式中Z是由下式对jp作Logit变换:ZxppLnmiiijjj101则有:)exp(1)exp(1010miiijmiiijjxxpj=1,2,3,…,k)exp(1)exp(1010miiijmiiijjxxpj=1,2,3,…,k此处假设在应变量Y取不同值时回归系数是相同的,不同的仅是常数项,也就是说各回归曲线之间是平行的。这样对k个Y的取值可求得k-1个Logistic回归模型关系式。例如对k=3时有:)exp(1)exp()/1(1011011miiimiiixxZypp)exp(1)exp()/2(1021022miiimiiixxZypp因而应变量Y取值1、2、3的概率为:21211)3()2()1(ppppppp例14-2某医院外科采用两种不同绷带(X1=0为第一种绷带,X1=1为第二种绷带)和两种不同的包扎方式(X2=0为第一种包扎方式,X2=1为第二种包扎方式)进行腿部溃疡处理。治疗效果分为三个等级:不愈、有效、痊愈(Y=0为不愈,Y=1为有效、Y=2为痊愈)。治疗结果如表14-3所示。试分析不同的治疗方式对治疗效果的影响。表14-3腿部溃疡不同的治疗方式的治疗效果治疗方式治疗效果(Y)绷带种类(X1)包扎方式(X2)人数(f)0001910042002010911082106001211013201201110111102115程序运行结果及解释表1预测概率表x1绷带种类x2包扎方式效应P1(痊愈的概率)P2(痊愈+有效的概率)1-P2(无效的概率)1ee2112111ee2122121e2121110ee11111ee12121e12111ee21211ee22221e221100ee111ee221e211表2基于3分类有序Logistic回归模型比值(odds)表x1绷带种类x2包扎方式OddsP1/(1-P1)P2/(1-P2)1e211e21210e11e121e21e2200e1e2(三)应变量为无序多分类变量的Logistic回归模型应变量的水平数大于2,各水平之间又不存在等级大小次序先后的关系Andeson1972年提出了多分类变量的logistic回归模型,是通过拟合广义Logit模型的方法进行的。若应变量有K个水平,其中有一个水平为对照水平,可以用其它K-1个水平与对照水平相比较,拟合出K-1个广义Logit函数CATMOD(CATegoricaldataMODeling)过程模块进行分析第二节条件Logistic回归在研究设计阶段,为控制混杂干扰因素常按干扰因素的不同取值设置相匹配的配比组,病例与对照之比为1:1或1:M。在统计分析阶段应把这种配对的对子或匹配的配比组看成一个整体进行处理与分析。表14-41:M的匹配设计收集资料的格式匹配组号i组内编号j反应变量YX1X2X3Xp(k=1,2,,p)10(病例)1X101X102X103X10p1(对照)0X111X112X113X11p2(对照)0X121X122X123X12pM(对照)0X1M1X1M2X1M3X1Mpn0(病例)1Xn01Xn02Xn03Xn0p1(对照)0Xn11Xn12Xn13Xn1p2(对照)0Xn21Xn22Xn23Xn2pM(对照)0XnM1XnM2XnM3XnMp假设在各配比组中自变量对应变量的作用是相同的,即自变量的回归系数与配比组无关,则对第i个配比组可建立Logistic回归模型:ppiiiixxPPLnitP110)1(logi=1,2,…,n(14-30)各配比组间只有i0是不同的。对参数的估计是建立在条件概率的基础上,所以配比设计的Logistic回归又称为条件Logistic回归。它不同于一般的Logistic回归是用一般的似然函数法,而是构造“条件似然函数”。一、1:1的配对设计的条件Logistic回归模型对于1:1的配对设计的条件似然函数为:niipippiiiixxxxxxL1)0()1()0(2)1(22)0(1)1(11)]}()()([exp{11式中)1(ijx表示在第i个配对中Y=1的自变量的观测值,)0(ijx表示在第i个配对中Y=0的自变量的观测值。该式不含常数项,而是把每一配对中的自变量的差值当作自变量。这样可以使用SAS软件中的Logistic回归过程模块加入选择项“noint”指定不含常数项,采用Newton-Raphson迭代法使条件似然函数取自然对数后达最大来求得各参数。例14-3Breslow和Days(1980)收集了63对有关子宫内膜癌的数据,因变量Y为是否患子宫内膜癌(Y=0为对照,Y=1为病例),考察的自变量因素为胆囊有无病变Gall(gall=0为无病变,gall=1为有病变)和有无高血压Hyper(hyper=0为无,hyper=1为有).试分析在控制血压的条件下胆囊有无病变所引起的相对风险。观测数据列于表14-5。表14-5子宫内膜癌研究的观测数据配对编号IDYGallHyper1100100021002000…………62101620006311063000程序及结果解释drop:在数据中最后不保留id1,gall1,hyper1;Retain:初始值为0,如变量值以后改变,将保持改变后的值直至再改变条件logistic回归,差值为病例-对照,则反应变量为病例用phreg过程拟合1:1条件logis