医学研究中的logistic模型精讲冯国双Logistic分布与logistic模型Logistic分布首先由比利时数学家Verhulst于1838年提出最初主要用于研究人口的增长趋势很多物种都符合logistic分布,呈现“S”型的发展趋势Logistic模型在医学研究中的地位线性回归是非常经典的回归模型,但不适用于因变量为分类变量的情况考虑选择一个在(0,1)之间有S型曲线的分布,如probit分布、logistic分布等Logistic分布是最流行的一种分布形成了我们今天熟悉的logistic回归模型Logistic模型在医学研究中的地位logistic回归模型在医学中的主要用途:探索疾病发生的危险因素验证某危险因素对疾病的效果,校正其它混杂因素的影响预测某疾病发生的概率评价不同因素水平下的发病风险logistic曲线常用于描述:初期增长速度越来越快后期增长速度越来越慢最终趋于一个上限值反映事物发生、发展、成熟、饱和的整个过程例如:人口增长趋势、企业成长模式、物种种群数量的增加、细胞的增长、药物浓度在体内的变化等logistic曲线最简单的logistic曲线:-xey11logistic曲线常见的logistic曲线(三参数logistic曲线):式中,K、a、b为待估参数K代表曲线的上限值a反映了增长速度b表示拐点,在这一点增长速度最快,这一点对应的y值为K/2)(bxeKya-1logistic曲线四参数logistic曲线:式中,D、C、a、b为待估参数D代表曲线的上限值C代表曲线的下限值a反映了增长速度b表示拐点,在这一点增长速度最快)(bxeCDya-1logistic曲线二参数logistic曲线:式中,a、b为待估参数a反映了增长速度b表示拐点,在这一点增长速度最快)(bxeya-11Logistic回归模型Logistic回归模型(单因素logistic回归模型):p为阳性率,如疾病发生率、死亡率等β0和β1为待估参数,分别表示模型的截距和斜率epx)(1011Logistic回归模型Logistic回归模型(多因素logistic回归模型):p为阳性率,如疾病发生率、死亡率等β0为待估参数,表示模型的截距β1、β1、……βm为待估参数,分别表示各自变量的斜率emmxxxp)...(221011用logistic曲线拟合剂量反应关系剂量反应关系:某药物的生理反应强度对给药量的函数随着药量增加,反应强度增大,但不会无限增大,而是有一个上限值不少剂量反应关系都呈S型曲线,可用logistic曲线来描述用logistic曲线拟合剂量反应关系例1:某实验室进行小鼠的药物毒性实验,下面数据为不同剂量下的小鼠死亡率。剂量(mg/kg)死亡率30.7038.40.2480.35600.8750.95用logistic曲线拟合剂量反应关系该实验的结果为死亡率,因此最高为1可以考虑二参数logistic曲线拟合用logistic曲线拟合剂量反应关系用logistic曲线拟合剂量反应关系用logistic曲线拟合剂量反应关系拟合模型:死亡率以0.14的速率增长剂量在51.26时死亡率的增长速度达到高峰,以后死亡率增长速度开始下降半数致死剂量为51.26(95%CI:48.96-53.56)).(26510.14-11xey用logistic曲线拟合剂量反应关系反推:在什么剂量下死亡率达到50%?用logistic曲线拟合剂量反应关系Logistic曲线与直线拟合的比较logistic曲线直线拟合用logistic曲线拟合SARS发展趋势例2:2003年SARS在香港的感染人数,t=0表示2003年3月17日。天数病例数09552221247019800261108331358401527471621541674611710681724751739811750871755用logistic曲线拟合SARS发展趋势感染人数无上限,但有下限(0),考虑三参数模型用logistic曲线拟合SARS发展趋势拟合模型:感染人数以0.11的速度增长在第21天时感染速率最高,从21以后感染速度放慢最高感染人数约为1732人).(08210.11-11732xey用logistic曲线拟合SARS发展趋势Logistic曲线与指数曲线拟合的比较logistic曲线指数曲线用logistic曲线拟合SARS发展趋势预测模拟(预测刻画器)用logistic曲线拟合SARS发展趋势反推预测:根据logistic曲线拟合结果,什么时候病例突破1000?用logistic回归探索疾病危险因素探索疾病的危险因素是logistic回归的一个重要作用病因研究一般可分为探索性研究和证实性研究探索性研究主要用于对疾病发生的影响因素不确定,作为疾病危险的初步探索,如病例对照研究证实性研究在探索性研究的基础上,初步确定某因素可能是疾病的影响因素,用于进一步证实。如队列研究用logistic回归探索疾病危险因素病例对照研究在医院中应用非常广泛,具有很多优点:收集数据快,符合医院特点,可以利用病史快速收集到病例及对照的数据研究时间短,可以很快发现一些疾病的危险因素病例对照研究是回顾性的,很大的一个问题是调查对象的回忆是否准确。如果这一点能避免,其效率还是很高的用logistic回归探索疾病危险因素病例对照研究最关键的就是选择病例和对照,然后收集他们的相关数据选择病例:最好的是从自然人群中选择病例,但实施困难。在医院中选择病例非常方便,但有时容易出现选择性偏倚,如果可能,最好从多家医院选择选择对照:从医院中选择对照,可以是未患有研究疾病的其他患者。但需要注意,不能患有与病例具有相同病因的疾病。用logistic回归探索疾病危险因素例3:某妇幼保健院采用病例对照研究,欲分析巨大儿的危险因素。该研究设计如下:1、选择某年在该院确诊的巨大儿,作为病例2、选择同期正常儿200名,作为对照3、病例和对照均采用同样的问卷,由医务人员询问调查相关的危险因素,如孕次、产次、出产年龄等4、收集资料,录入数据,统计分析用logistic回归探索疾病危险因素数据(部分)编号孕次产次孕周体重(kg)巨大儿1113842021138480311384904213839051139410611394507113947081139500用logistic回归探索疾病危险因素变量赋值情况变量变量命名赋值巨大儿y1=是,0=否孕次yc1=1次,2=2次,3=3次产次chc1=1次,2=2次孕周yzh1=38-39周,2=40周,3=41周孕前体重wt1=≤50,2=51-60,3=60用logistic回归探索疾病危险因素第1步:探索各自变量与因变量的关系proclogisticdescplots(only)=(effect(linkjoin=yes));classyc;modely=yc;run;proclogisticdescplots(only)=(effect(linkjoin=yes));classyzh;modely=yzh;run;proclogisticdescplots(only)=(effect(linkjoin=yes));classwt;modely=wt;run;用logistic回归探索疾病危险因素孕次、孕周、孕前体重与logit(p)的关系图用logistic回归探索疾病危险因素孕次2次与3次的logit(p)值非常接近,可以考虑将2次和3次合并为一类。体重的logit(p)值基本呈一直线趋势,可考虑直接将其纳入模型。孕周38周与39周的logit(p)值也非常接近,可以考虑将这两类合并,将孕周简化为三分类变量,采用虚拟变量的形式纳入模型。用logistic回归探索疾病危险因素第2步:单因素分析proclogisticdesc;modely=yc;proclogisticdesc;modely=chc;proclogisticdesc;classyzh(param=referenceref=first);/*class语句表明将yzh作为虚拟变量,以第一类为参照组*/modely=yzh;proclogisticdesc;modely=wt;run;用logistic回归探索疾病危险因素单因素分析结果(经整理后):ParameterDFEstimateErrorChi-SquarePrChiSqyc10.97910.41205.64610.0175chc113.3772260.30.00260.9590yzh211.00760.44975.02130.0250yzh311.54660.85903.24160.0718wt10.92960.32658.10530.0044OddsRatioEstimatesPoint95%WaldEffectEstimateConfidenceLimitsyc2.6621.1875.969chc999.9990.001999.999yzh2vs12.7391.1356.613yzh3vs14.6960.87225.287wt2.5341.3364.805用logistic回归探索疾病危险因素将产次与是否巨大儿列成四格表,可以发现,其中一个格子为空单元(zerocellcount),产次2次的人群均发生巨大儿。正常体重儿巨大儿产次1次5042产次2次08用logistic回归探索疾病危险因素出现空单元时,导致估计无效,此时可考虑确切logistic回归(exactlogistic)proclogisticdesc;modely=chc;exactchc/estimate=both;/*estimate=both选项表明同时给出参数估计和OR值结果*/run;用logistic回归探索疾病危险因素确切logistic回归估计结果ExactParameterEstimatesStandard95%ConfidenceParameterEstimateErrorLimitsp-Valuechc2.5409*.0.6312Infinity0.0058NOTE:*indicatesamedianunbiasedestimate.ExactOddsRatios95%ConfidenceParameterEstimateLimitsp-Valuechc12.691*1.880Infinity0.0058NOTE:*indicatesamedianunbiasedestimate.用logistic回归探索疾病危险因素第3步:多因素分析proclogisticdesc;classyzh(param=referenceref=first);/*class语句表明将yzh作为虚拟变量,以第一类为参照组*/modely=ycchcyzhwt;exactchc/estimate=both;/*estimate=both选项表明同时给出参数估计和OR值结果,注意精确检验的变量必须在model语句中出现*/run;用logistic回归探索疾病危险因素多因素分析结果:AnalysisofMaximumLikelihoodEstimatesStandardWaldParameterDFEstimateErrorChi-SquarePrChiSqIntercept1-16.5653405.30.00170.9674yc10.52070.46821.23690.2661chc114.2374405.30.00120.9720yzh210.95010.50243.57610.0586yzh311.50770.88892.877