连续型因变量.

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

鞠咪、刘素、白昊龙中国人民大学统计学院教材:孟生旺,《回归模型》,中国人民大学出版社,2015主要内容广义线性模型假设因变量服从指数分布族。在指数分布族中,既有连续分布,也有离散分布。本章讨论因变量服从连续分布的广义线性模型。指数分布族中的连续分布主要包括正态分布、伽马分布和逆高斯分布,相应地,与它们对应的广义线性模型称作正态回归模型、伽马回归模型和逆高斯回归模型.3.1正态回归模型在正态分布假设下,广义线性模型等价于普通的线性回归模型。在广义线性模型的框架下讨论线性回归模型。模型设定正态分布也称作高斯分布,是定义在上的连续分布。如果因变量服从正态分布,则其密度函数可以表示为:(3.1)式中,是均值参数;是标准差参数,也称为尺度参数。指数分布族的密度函数可以表示为下述一般形式:(3.2),22222)(exp21),;(yyf);()(exp),;(ycwbyyfu对式(3.1)变形,正态分布的密度函数也可以表示为指数分布族的形式,即)2ln(2122/exp)2ln(212)(exp2)(exp21),;(222222222222yuyuuyyyf对比式(3.2)和(3.3)可知(3.4)在广义线性模型中,正则连接函数是使得成立的函数。在正态分布假设下,,所以相应的正则连接函数就是恒等连接函数,即。2/)(22b)(gug)(由式(3.4)可得正态分布的均值为:(3.5)正态分布的方差函数为:(3.6)广义线性模型的残差偏差(简称为偏差)定义为:(3.7)式中,表示当前模型的对数似然函数;表示饱和模型的对数似然函数。在饱和模型的对数似然函数中,用观察值代替了当前模型的拟合值。bbb)('1)()()(bbv)};,();,({222yyyD);,(2y);,(2yyy在正态回归模型中,当前模型的对数似然函数为:(3.8)饱和模型的对数似然函数为:(3.9)niiiiiyuuyy1222222)2ln(2122/);,(niniiiiyyyyy1212222222)2ln(21)2ln(2122/);,(因此,正态回归模型的偏差为:(3.10)21122221222221222)(222)2ln(2122/)2ln(212)};,();,({2iininiiiiiniiiiiniuyuuyyyuuyyyyD可见,正态回归模型的残差偏差就是线性回归中的残差平方和。换言之,最小化残差平方和等价于最小化偏差。广义线性模型的统计量定义为:(3.11)由于正态分布的方差函数等于1,所以,正态回归模型的统计量与偏差相同,即niiiiuvuy122)()(Duyniii1221)(3.1.2迭代加权最小二乘估计在广义线性模型中,参数的迭代加权最小二乘估计公式为:(3.12)式中(3.13)(3.14))1()1()()1(mmTmmTzWXXWX)(2)()(nniiigvwdiagW1)()(niiiigyz正则连接函数是使得成立的连接函数。在正态分布假设下,式(3.4)表明,,所以正态回归模型的正则连接函数就是恒等连接函数,即。在正态分布假设下,如果使用正则连接函数,则有,故式(3.13)和(3.14)可以简化为:相应地,式(3.12)可以简化为:)(g1)(gyzdiagW21yXXXTT1)(3.1.3其他连接函数对数连接函数下的正态回归模型适用于对大于零的连续因变量建模。在广义线性模型提出之前,对于大于零的因变量,通常进行对数变换,然后以因变量的对数为新的因变量建立普通的线性回归模型(即本节所谓的正态回归模型)。对数连接函数下的正态回归模型是对模型的均值进行对数变换,并把变换后的均值表示为线性预测项,即。对数连接函数下的正态回归模型可以用极大似然法进行估计,但需要用对数连接函数下的均值代替恒等连接函数下的均值。Tiix)ln()exp(Tix由式(3.3)可知,在对数连接函数下正态回归模型的对数似然函数可以写成:在对数连接函数下,正态回归模型的参数也可以使用迭代加权最小二乘法进行估计,此时,均值参数可以表示为在正态分布假设下,还可以使用其他连接函数,如倒数连接函数,即令倒数连接函数可以用于比例型因变量的建模,根据实际需要,还可以使用更加一般的幂连接函数,即令。niTiTiTiiixxxyy1222222)2ln(212)exp(2/)exp()exp();,()exp(TiixTiiixg/1)(。Tipiixg)(3.1.4模拟数据分析为了说明正态回归模型可能存在的问题,本节首先用伽马分布模拟右偏的因变量,然后用正态回归模型进行拟合。假设因变量y服从伽马分布,受4个解释变量的影响,其中,是连续型解释变量,是分类解释变量。模拟数据时使用了6个参数,最后一个参数是和的交互效应,即模拟因变量的均值为:模拟的因变量服从均值为,标准差为的伽马分布。21,xx43,xx)25.02.05.08.08.07exp(324321xxxxxx5.0本例的因变量实际上服从右偏的伽马分布,模型mod1的因变量是y,使用正态分布假设和恒等连接函数,等价于普通线性回归模型。该模型与模拟数据的机理相去甚远,拟合值与观察值之间的差异很大,出现了负的拟合值,如图所示。模型mod2的因变量是log(y),使用了正态分布假设和恒等连接函数,相当对因变量行对数变换以后建立普通线性回归模型。该模型的参数估计值与模拟数据的真实值比较接近,模型的拟合值与观察值也比较接近,如图所示。模型mod2的结果表明,虽然因变量实际上服从伽马分布,但对其做对数变换以后将比较接近正态分布,所以基于log(y)的普通线性回归模型的参数估计值更加接近参数的真实值。模型mod3的因变量是y,使用了正态分布假设和对数连接函数,属于广义线性模型之一.该模型的拟合值与观察值比较接近,如图所示,但参数估计值与真实参数相差较大,这是因为该模型使用了错误的分布假设。绘图比较观察值与模型的拟合值3.2伽马回归模型常见的伽马分布有两个参数:形状参数和尺度参数,其密度函数可以表示为:(3.17)上述伽马分布的均值为,方差为。广义线性模型是对均值参数建立回归模型,所以需要把上述伽马分布的均值设定为一个参数。在式(3.17)中,若令,,则伽马分布的均值可以表示为,方差可以表示为,相应地,伽马分布的密度函数可以表示为:(3.18)/1)(1),;(yeyyf2/12)exp()/1(1),;(/1yyyyf式中,是伽马分布的均值参数;称作离散参数。在均值给定的情况下,离散参数越大,伽马分布的离散程度越大,如图3-2所示,三个密度函数的均值都是100,离散参数分别为0.3,0.5和0.8.将式(3.18)的密度函数变形,可以将其表示为一般形式的指数分布族的密度函数:(3.19)上式表明,指数分布族的参数与伽马分布的参数具有如下关系:(3.20)指数分布族的均值与方差是的函数。由式(3.20)可知(3.21)所以,伽马分布的均值为,方差为。)1(lnlnln1ln/exp),;(yyyf/1)ln()(b22')()()(11)(bbbb)(b2容易求得伽马分布的对数似然函数,从而可以求得伽马回归模型的残差偏差为:(3.22)niiiiiiniiiiiyyyyyyyD11)ln(2)ln(/ln12)};();({23.2.2迭代加权最小二乘估计对大于零的因变量建立伽马回归模型时,较常使用对数连接函数,即,故有。由式(3.20)和(3.21)可知,伽马分布的方差函数为,且有,将它们代入式(3.13)可得(3.23)(3.24)离散参数的取值不影响回归参数的估计值,可以令式(3.23)中的,此时,对数连接函数下估计伽马回归参数的迭代加权最小二乘算法如表3-1所示。其中均值的初始值设定为,可以避免在迭代运算中分母上出现零值。)ln()(g/1)(g2v)(annnniiidiggvwdiagW]/1[)()()(211]/)([)()(niiiiniiiiygyz12/)(ymeany3.2.3模拟数据分析本节使用前面的模拟数据建立伽马回归模型,可以分别应用选代加权最小二乘法和glm函数对伽马回归模型中的参数进行估计。两者的估计结果完全相同。伽马回归模型与模拟数据使用的模型完全相同,所以参数估计值与真实值非常接近。输出残差图(27)3.3逆高斯回归模型适用于对大于零的因变量建模与伽马分布相比,逆高斯分布具有尖峰厚尾特征(28)代码在均值相等(均为100)、方差相等(均为2500)的条件下对伽马分布(GA)和逆高斯分布(IA)的密度函数进行了比较(29)模型设定常见的逆高斯分布的密度函数如下:表述为下述指数分布族的形式:2232222111(y;,)expln222yfyy222321()(;,)exp{}2()2yfyyy(30)逆高斯分布与指数分布的一般形式对比:逆高斯分布的均值及方差函数:均值是,方差为221()12b'32''''31()()()()()bbbbb23(31)残差偏差逆高斯分布假设下的对数似然函数:逆高斯回归模型的残差偏差:232221/(2)1/11ln(2)22niiiiiylyy222222221212212{(,;)(,;)}/(2)1//(2)1/221()niiiiiiiniiiiiniiiiiDlyylyyyyyyyyy(32)3.3.2迭代加权最小二乘估计逆高斯回归模型通常使用对数连接函数:迭代加权最小二乘算法:()ln()g22()'(1)(1)1/()()()()()()/iinniinniiiiiiiinnWdiagdiagvgzygy(33)迭代加权最小二乘估计算法(34)模拟数据分析生成模拟数据:(35)参数估计Glm函数:迭代加权最小二乘估计:(36)参数估计输出Glm函数:迭代加权最小二乘估计:(37)残差分析图(38)3.4基于R的应用在R中有两个函数可以建立广义线性模型:基础包中的glm函数:专门用于建立广义线性模型gamlss程序包中的gamlss函数:可以建立更加一般意义上的回归模型(39)补充:GeneralizedAdditiveModelsforLocati

1 / 89
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功