logistic回归probit回归与poission回归

ma46510000
13 ℃
2020-01-10

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

•Logistic回归（因变量为二分变量/二项分布）•probit回归•Poisson（因变量为poisson分布）第三章：横截面数据：因变量为分类变量及因变量为频数（计数）变量的情况•Logistic回归（因变量为二分变量/二项分布）•probit回归•Poisson（因变量为poisson分布）第三章：横截面数据：因变量为分类变量及因变量为频数（计数）变量的情况概念logistic回归是研究因变量为二分类或多分类观察结果与影响因素（自变量）之间关系的一种多变量分析方法，属概率型非线性回归。最常用的是二值型logistic，即因变量的取值只包含两个类别例如：好、坏；发生、不发生；常用Y=1或Y=0表示。自变量X称为危险因素或暴露因素，可为连续变量、等级变量、分类变量，可有m个自变量X1，X2，…Xm。P表示Y=1的概率，是其他变量的一个函数。【p（Y=1|X）表示在X的条件下Y=1的概率】logistic回归的数学表达式为：ln1TpXplogistic回归的分类：（1）二分类资料logistic回归：因变量为两分类变量的资料，可用非条件logistic回归和条件logistic回归进行分析。非条件logistic回归多用于非配比病例-对照研究或队列研究资料，条件logistic回归多用于配对或配比资料。（2）多分类资料logistic回归：因变量为多项分类的资料，可用多项分类logistic回归模型或有序分类logistic回归模型进行分析。也可以分为logistic回归和条件logistic回归1.令因变量两个水平对应的值为0、1，概率为1-p、p，则显然我们也可以用多重回归进行分析？为什么要用logistic回归分析？2.logistic回归回归系数、模型评估、参数估计、假设检验等与之前的回归分析有何不同？3.因变量为二分变量时既可以用logistics回归也可以用probit回归，那么probit回归及其与logistic回归的异同之处问题问题1：00(1)1xxePye）未发病、无效、存活等出现阴性结果发病、有效、死亡等）出现阳性结果(0(1Yp（y=1）表示某暴露因素状态下，结果y=1的概率（P）模型。01(1)1exp[()]pyx或模型描述了应变量p与x的关系P概率10.5Z值0123-1-2-3图1Logistic回归函数的几何图形)](exp[11)1(0xypxz10可看出：当Z趋于时，P值渐进于1；当Z趋于时，P值渐进于0；P值的变化在0~1之间，并且随Z值的变化以点（0,0.5）为中心成对称S形变化。线性回归在处理有上限和下限的因变量时面临着一个问题：X上同样的变化对Y产生的影响不同，由图1也可以直观的看出这里并不适合进行线性回归。虽然有很多非线性的函数可以呈现S形，但由于Logit转化比较简易，所以更受欢迎。Logit转化:设因变量Y是一个二分类变量，其取值为Y=1和Y=0。影响Y取值的m个自变量分别为mXXX,,,21。在m个自变量（即暴露因素）作用下阳性结果发生的条件概率为),,,1(21mXXXYPP，则logistic回归模型可表示为：)exp(1)exp(2211022110mmmmXXXXXXP其中，0为常数项，m,,,21为偏回归系数。logitP=PP1ln为P的logit变换，通过logit变换之后，就可将10P的转换为)(logPit。作logit变换后，logistic回归模型可以表示成如下的线性形式：01122011220112201122exp()1exp()ln()ln[]exp()111exp()mmmmmmmmXXXXXXPXXXPXXX01122ln[exp()]mmXXX01122mmXXXLogit与概率不同，它没有上下限。比数去除了概率的上限，比数的对数去除了概率的下限；且是以0,5为中点对称的，概率大于0.5产生正的logit,logit距离0的距离反映了概率距离0.5的距离；概率上相同的改变与在logits上产生的改变是不同的，logit转化拉直了X与最初的概率之间的非线性关系。回归系数的意义：•Logistic回归中的回归系数表示，某一因素改变一个单位时，效应指标发生与不发生事件的概率之比的对数变化值，即OR的对数值。•Logistic回归中的常数项表示，在不接触任何潜在危险／保护因素条件下，效应指标发生与不发生事件的概率之比的对数值。i0单纯从数学上讲，与多元线性回归分析中回归系数的解释并无不同。问题2：模型评估（1）Ｈosmer-Lemeshowz指标HL统计量的原假设Ho是预测值和观测值之间无显著差异，因此HL指标的P-Value的值越大，越不能拒绝原假设，即说明模型很好的拟合了数据。（2）AIC和SC指标即池雷准则和施瓦茨准则与线性回归类似AIC和SC越小说明模型拟合的越好（3）似然比卡方出从整体上看解释变量对因变量有无解释作用相当于多元回归中的F检验在logistic回归中可以通过似然比（likelihoodratiotest）进行检验（4）RSQUARE（R^2）和C统计量解释变量解释在多大程度上解释了因变量与线性回归中的R^2作用类似在logistic回归中可以通过R^2和Ｃ统计量进行度量统计量趋势拟合作用备注AIC、SC越小越好类似于多元回归中的残差平方和似然比卡方越大越好类似于多元回归中的回归平方和P值越小越好RSQUARE越大越好类似于多元回归中的Ｒ＾２Ｃ统计量越大越好度量观测值和条件预测的相对一致性ＨＬ统计量越小越好度量观测值和预测值总体的一致性P值越大越好说明：在实践中，对以上统计量最为关注的是C统计量，其次是似然比卡方，最后才是ＨＬ统计量。AIC和SQUARE极少关注，这一点和多元线性回归有很大的区别。根本原因就是多元线性回归模型是一个预测模型，目标变量的值具有实际意义；而logistic是一个分类模型，目标变量只是一个分类标识，因此更关注预测值和预测值之间的相对一致性而不是绝对一致性。参数估计logistic回归模型的参数估计常采用最大似然估计(与多元线性回归中的类似)。其基本思想是先建立似然函数与对数似然函数，求使对数似然函数最大时的参数值，其估计值即为最大似然估计值。建立样本似然函数：11(1)iinYYiiiLPP（1,2,,in）(15.6)其中，iP表示第i例观察对象处于暴露条件下时阳性结果发生的概率。阳性结果时，1iY；阴性结果时，0iY。根据最大似然原理，似然函数L应取最大值。对似然函数取对数形式：1ln[ln(1)ln(1)]niiiiiLYPYP（15.7）式中为对数似然函数，对其取一阶导数求解参数。对于参数j（1,2,,jm），令lnL的一阶导数为0，即ln0jL，用Newton-Raphson迭代方法解方程组，得出参数j的估计值jb和jb的渐进标准误jbS。自变量jX不同水平1c和0c优势比的估计值：10ˆexp[()]jjORbcc当样本含量n较大时，jb的抽样分布近似服从正态分布，若jX只有暴露和非暴露2个水平，则优势比jOR的100(1)%可信区间为：2exp()jjbbuS除此以外，logistic回归还可以用优势比估计：表1为吸烟、饮酒与食管癌关系的病例-对照研究调查资料，试进行logistic回归分析。表1吸烟、饮酒与食管癌关系的病例-对照研究资料分层g吸烟1X饮酒2X总例数gn阳性数gd阴性数ggnd10019963136201170631073101014457411416265151首先确定变量的赋值或编码：吸烟饮酒病例110X不吸烟210X不饮酒10Y对照案例：在logistic过程步中加“descending”选项的目的是使SAS过程按阳性率（y=1）拟合模型，得到阳性病例对应于阴性病例的优势比。观察例数OR值OR的95%CI对偏回归系数的假设检验吸烟与不吸烟的优势比：11ˆexpexp0.88562.42ORb，其1OR的95%可信区间：110.052exp[]exp(0.88561.960.1500)(1.81,3.25)bbuS饮酒与不饮酒的优势比：22ˆexpexp0.52611.69ORb，其2OR的95%可信区间：220.052exp[]exp(0.52611.960.1572)(1.24,2.30)bbuS由结果可看出，吸烟和饮酒均为食管癌发病的危险因素，吸烟人群发生食管癌的可能性是不吸烟人群的2.42倍，饮酒人群发生食管癌的可能性是不饮酒人群的1.69倍。logistic回归模型的假设检验1.似然比检验基本思想是比较2种不同假设条件下的对数似然函数值差别的大小。具体方法是：①先拟合不包含待检验因素的logistic模型，求对数似然函数值0lnL；②再拟合包含待检验因素的logistic模型，求另一个对数似然函数值1lnL；③比较两个对数似然函数值差别的大小若2个模型分别包含l个自变量和p个自变量，似然比统计量G的计算公式为：2(lnln)plGLL当样本含量n较大时，在0H成立的条件下，G统计量近似服从自由度dpl的2分布。如果只对一个回归系数（或一个自变量）进行检验，则1。2.Wald检验用u检验或2检验来检验各参数j是否为0。jjbubS22jjbbSjbS为偏回归系数的标准误。3.比分检验（scoretest）以未包含某个或几个变量的模型为基础，保留模型中参数的估计值，并假设新增加的参数为零，计算似然函数的一价偏导数（又称有效比分）及信息距阵，两者相乘便得比分检验的统计量S。样本量较大时，S近似服从自由度为待检验因素个数的２分布。上述三种方法中，似然比检验（与之前的类似）最可靠，比分检验（logistic回归模型特有）一般与它相一致，但两者均要求较大的计算量；而Wald检验（相当于广义的t检验）未考虑各因素间的综合作用，在因素间有共线性时结果不如其它两者可靠。概率p值均小于0.05，说明方程有意义。对所拟合模型的假设检验：变量筛选Logistic逐步回归变量筛选的过程与线性逐步回归变量筛选的过程极为相似，但其中所用的检验统计量不再是F统计量，而是似然比统计量、Wald统计量等。例如使用似然比统计量，即利用()()102[lnln]llGLL，在进行到第l步时，通过比较含有jX和不含jX的模型，决定jX是否引入模型。与多元线性回归类似，标准化偏回归系数可以比较各因素作用的相对重要性。•例某工作者在探讨肾细胞癌转移的有关临床病理因素研究中，收集了一批行根治性肾切除术患者的肾癌标本资料，现从中抽取26例。试用logistic回归分析筛选出于癌细胞转移有关的危险因素（变量选入和剔除水平均为0.10）。表15-4与肾细胞癌转移有关的因素及说明符号说明1X确诊时患者年龄(岁)2X肾细胞癌血管内皮生长因子(VEGF)，阳性表述由低到高共3级3X肾细胞癌组织内微血管数(MVC)4X肾癌细胞核组织学分级，由低到高共4级5X肾细胞癌分期，由低到高共4期Y肾细胞癌转移情况(有转移Y=1;无转移Y=0)用逐步回归法拟合模型,变量选入和剔除水平均为0.10指定选项“des”是为了按照y=1（有转移）的概率拟合模型。如果不加此选择项，则软件会按照y=0（无转移）的概率拟合模型，此时，应变量的排序水平发生颠倒，且所有参数估计的符号相反，OR值为原来的倒数。logistic逐步回归分析筛选出两个有统计学意义的变量为x2和x4，回归系数分别为2.4134和2.0963，比数比分别为11.172和8.136。结果中还给出了标准化偏回归系数，肾癌细胞核组织学分级（x4）在