2020/5/13主编:费宇1主编:费宇中国人民大学出版社2020/5/13主编:费宇2第3章广义线性模型•3.1广义线性模型概述•3.2Logistic模型•3.3对数线性模型2020/5/13主编:费宇33.1广义线性模型概述•第2章我们研究了多元线性模型,该模型的一个重要假定是因变量是连续型的变量(通常假定服从正态分布),但在许多情况下,这种假定并不合理,例如下面这两种情况.•(1)结果变量可能是类型变量.二值分类变量和多分类变量.(比如:是/否,差/一般/良好/优秀等)显然都不是连续型变量.2020/5/13主编:费宇43.1广义线性模型概述•(2)结果变量可能是计数型变量(比如:一周交通事故的数目)这类变量都是非负的有限值,而且它们的均值和方差通常是相关的(一般线性模型假定因变量是正态变量,而且相互独立).•普通线性回归模型(2.3)假定因变量y服从正态分布,其均值满足关系式:μ=Xβ,这表明因变量的条件均值是自变量的线性组合.•本章介绍两种常见的广义线性模型:Logistic模型与对数线性模型.2020/5/13主编:费宇53.1广义线性模型概述1.广义线性模型的定义:(1)随机成分:设y1,y2,…,yn是来自于指数分布族的随机样本,即yi的密度函数为•其中ai(.),b(.),ci(.)是已知函数,参数αi是典则参数,ϕ是散度参数.()(,,)exp(,)(3.1)()iiiiiiiybfycya2020/5/13主编:费宇61.广义线性模型的定义:•(2)联结函数:设yi的均值为μi而函数m(.)是单调可微的联接函数,使得•其中是协变量,是未知参数向量.()(1,,)(3.2)Tiimxin1(1,,,)Tiiikxxx01(,,,)Tk指数分布族•正态分布•二项分布•泊松分布2020/5/13主编:费宇72020/5/13主编:费宇82.正态线性回归模型•正态分布属于指数分布族,其密度函数为与(3.1)对照可知22222222211(,,)exp()22/21exp[ln(2)](3.3)2iiiifyyyy2222221,,(),()(,)[ln(2)]2iiiiyabcy,22020/5/13主编:费宇92.正态线性回归模型•只要取联结函数为,则正态线性回归模型满足广义线性模型的定义.•类似的,容易验证,二项分布和泊松分布都属于指数分布族.•下面介绍实际中应用广泛的两种广义线性模型:Logistic模型和对数线性模型.()(1,,)Tiiimxin2020/5/13主编:费宇103.2Logistic模型•1.模型定义设yi服从参数为pi的二项分布,则μi=E(yi)=pi采用逻辑联结函数,即这个广义线性模型称为Logistic模型.()logit()log1Tiiiiipmpxp2020/5/13主编:费宇11例3.1(数据文件为eg3.1)表3.1某地区45个家庭的调查数据年收入年收入年收入(万元)(万元)(万元)15125112020112015110010090121151808070100301221221607024116116190221181100361211181707030124190606060130110201231181161100是否有车是否有车是否有车2020/5/13主编:费宇122.模型的参数估计和检验•采用R软件中的广义线性模型过程glm()可以完成回归系数的估计,以及模型回归系数的显著性检验.程序如下:#eg3.1广义线性模型:Logistic模型#打开数据文件eg3.1.xls,选取A1:B46区域,然后复制data3.1-read.table(clipboard,header=T)#将eg3.1.xls数据读入到data3.1中glm.logit-glm(y~x,family=binomial,data=data3.1)#建立y关于x的logistic回归#模型,数据为data3.1summary(glm.logit)#模型汇总,给出模型回归系数的估计和显著性检验等yp-predict(glm.logit,data.frame(x=15))p.fit-exp(yp)/(1+exp(yp));p.fit#估计x=15时y=1的概率2020/5/13主编:费宇13运行以上程序可得如下结果:Call:glm(formula=y~x,family=binomial,data=data3.1)DevianceResiduals:Min1QMedian3QMax-1.21054-0.054980.000000.004331.87356Coefficients:EstimateStd.ErrorzvaluePr(|z|)(Intercept)-21.280210.5203-2.0230.0431*x1.64290.83311.9720.0486*Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1(Dispersionparameterforbinomialfamilytakentobe1)Nulldeviance:62.3610on44degreesoffreedomResidualdeviance:6.1486on43degreesoffreedomAIC:10.149NumberofFisherScoringiterations:92020/5/13主编:费宇142.模型的参数估计和检验yp-predict(glm.logit,data.frame(x=15))p.fit-exp(yp)/(1+exp(yp));p.fit#估计x=15时y=1的概率10.9665418容易看出:回归模型的回归系数在5%水平上显著,于是得回归模型为当x=15时,估计y=1的概率约为0.97,即年收入为15万元的家庭有私家车的可能性约为97%.ˆln21.281.64ˆ1pxp2020/5/13主编:费宇153.3对数线性模型•1.模型的定义•设y服从参数λ为的泊松分布,则μ=E(y)=λ,采用对数联结函数,即这个广义线性模型称为泊松对数线性模型.011()ln()kkmxx2020/5/13主编:费宇16例3.2(数据文件为eg3.2)表3.4Breslow癫痫数据NoNo1113101431192017211300143210301133625011331918119483601334242411156622055353130174255530014355163211526940065622261512710190105725211628472205358133610297618142591237110x1yx1yx2x3x2x3..............................2020/5/13主编:费宇17例3.2(数据文件为eg3.2)•这个数据是robust包中的Breslow癫痫数据(Breslow,1993).我们讨论在治疗初期的八周内,癫痫药物对癫痫发病数的影响,响应变量为八周内癫痫发病数(y),预测变量为前八周内的基础发病次数(x1),年龄(x2)和治疗条件(x3),其中治疗条件是二值变量,x3=0表示服用安慰剂,x3=1表示服用药物.根据这个数据建立泊松对数线性模型并对模型的系数进行显著性检验.表3.2Breslow癫痫数据Nox1x2x3yNox1x2x3y1113101431192017211300143210301133625011331918119483601334242411156622055353130174…………………………284722053581336102976181425912371103038321282020/5/13主编:费宇182020/5/13主编:费宇192.模型的参数估计和检验•采用R软件中的广义线性模型过程glm()来建立泊松对数线性模型并对模型的系数进行显著性检验.程序如下:#eg3.2广义线性模型:泊松对数线性模型#打开数据文件eg3.2.xls,选取A1:E60区域,然后复制data3.2-read.table(“clipboard”,header=T)#将eg3.2.xls数据读入到data3.2中glm.ln-glm(y~x1+x2+x3,family=poisson(link=log),data=data3.2)#建立y关于#x1,x2,x3的泊松对数线性模型summary(glm.ln)#模型汇总,给出模型回归系数的估计和显著性检验等2020/5/13主编:费宇20运行以上程序可得如下结果:Call:glm(formula=y~x1+x2+x3,family=poisson(link=log),data=data3.2)DevianceResiduals:Min1QMedian3QMax-6.0569-2.0433-0.93970.792911.0061Coefficients:EstimateStd.ErrorzvaluePr(|z|)(Intercept)1.94882590.135619114.3702e-16***x10.02265170.000509344.4762e-16***x20.02274010.00402405.6511.59e-08***x3-0.15270090.0478051-3.1940.0014**Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1(Dispersionparameterforpoissonfamilytakentobe1)Nulldeviance:2122.73on58degreesoffreedomResidualdeviance:559.44on55degreesoffreedomAIC:850.71NumberofFisherScoringiterations:52020/5/13主编:费宇212.模型的参数估计和检验•于是得回归模型:•从检验结果可以看出:x1和x2的系数都显著,说明基础发病次数(x1),年龄(x2)和治疗条件(x3)对八周内癫痫发病数(y)重要影响.年龄(x2)的回归系数为0.0227,表明保持其他预测变量不变,年龄增加1岁,癫痫发病数的对数均值将相应的增加0.0227.123ˆln1.94880.02270.02270.1527yxxx2020/5/13主编:费宇222.模型的参数估计和检验•在因变量的初始尺度(癫痫发病数,而不是癫痫发病数的对数)上解释回归系数比较容易,因此,指数化系数:•可以看出:保持其他预测变量不变,年龄增加1岁,癫痫发病数将乘以1.023;治疗条件变化一个单位(即从安慰剂到药物),癫痫发病数将乘以0.86,换言之,保持基础癫痫发病数和年龄不变,服药相对于安慰剂组癫痫发病数降低了14%.exp(coef(glm.ln))(Intercept)x1x2x37.02044031.02291021.02300070.85838642020/5/13主编:费宇