广义线性模型Generalizedlinearmodel2010-4-15山东大学公共卫生学院:刘静2明确两个概念:线性模型(linearmodel),也称经典线性模型(classicallinearmodel)或一般线性模型(generallinearmodel,GLM)。广义线性模型(generalizedlinearmodel,GENMOD)是一般线性模型的直接推广,由Nelder&Wedderburn(1972)首先提出。2010-4-15山东大学公共卫生学院:刘静3SAS软件中的PROCGLM:PROCGLManalyzesdatawithintheframeworkofgenerallinearmodels.PROCGLMhandlesmodelsrelatingoneorseveralcontinuousdependentvariablestooneorseveralindependentvariables.Theindependentvariablesmaybeeitherclassificationvariablesorcontinuousvariables.Thus,theGLMprocedurecanbeusedformanydifferentanalyses,includingsimpleregressionmultipleregressionanalysisofvariance(ANOVA),especiallyforunbalanceddataanalysisofcovarianceresponse-surfacemodels(响应面模型)weightedregressionpolynomialregression(多项式回归)partialcorrelationmultivariateanalysisofvariance(MANOVA)repeatedmeasuresanalysisofvariance2010-4-15山东大学公共卫生学院:刘静4TheGENMODProcedureTheGENMODprocedurefitsgeneralizedlinearmodels.Theclassofgeneralizedlinearmodelsisanextensionoftraditionallinearmodelsthatallowsthemeanofapopulationtodependonalinearpredictorthroughanonlinearlinkfunctionandallowstheresponseprobabilitydistributiontobeanymemberofanexponentialfamilyofdistributions.Manywidelyusedstatisticalmodelsaregeneralizedlinearmodels.Theseincludeclassicallinearmodelswithnormalerrors,logisticandprobitmodelsforbinarydata,andlog-linearmodelsformultinomialdata.Manyotherusefulstatisticalmodelscanbeformulatedasgeneralizedlinearmodelsbytheselectionofanappropriatelinkfunctionandresponseprobabilitydistribution.SAS软件中的PROCGENMOD:2010-4-15山东大学公共卫生学院:刘静5一、何为“广义线性模型”?广义线性模型(generalizedlinearmodel)由Nelder&Wedderburn(1972)首先提出,是一般线性模型的直接推广,它使因变量的总体均值通过一个非线性连接函数(linkfunction)而依赖于线性预测值,同时还允许响应概率分布为指数分布族中的任何一员。许多广泛应用的统计模型均属于广义线性模型,如logistic回归模型、Probit回归模型、Poisson回归模型、负二项回归模型等。2010-4-15山东大学公共卫生学院:刘静6指数分布族的概率密度(概率函数)可表示为:),()(exp)(ycabyyf其中,和为两个参数,称为自然参数,为离散参数;a、b、c为函数。'byE''byVar2010-4-15山东大学公共卫生学院:刘静7各种常见的指数型分布及其主要参数分布b'byE''byVar正态分布2/222逆高斯分布212/122123伽玛分布1ln112二项分布pp1lne1ln1eep1pp1Poisson分布lne1e负二项分布lneke2k2010-4-15山东大学公共卫生学院:刘静8一个广义线性模型包括以下三个组成部分:(1)线性成分(linearcomponent):(2)随机成分(randomcomponent):(3)连接函数(linkfunction):连接函数为一单调可微(连续且充分光滑)的函数。mimiiixxx22110)(iig何为“广义线性模型”?(续)iiiY2010-4-15山东大学公共卫生学院:刘静9因变量常见分布及其常用的连接函数分布概率密度(概率函数)及其主要参数连接函数正态分布Identity(恒等函数)逆高斯分布Inversesquared(平方的倒数)2伽玛分布Inverse(倒数)1二项分布①Logit:1ln②probit:)(1Poisson分布Log(对数))log(负二项分布Log(对数))log(多项分布2010-4-15山东大学公共卫生学院:刘静10DIST=DistributionDefaultLinkFunctionBINOMIAL|BIN|BbinomiallogitGAMMA|GAM|Ggammainverse(power(-1))IGAUSSIAN|IGinverseGaussianinversesquared(power(-2))MULTINOMIAL|MULTmultinomialcumulativelogitNEGBIN|NBnegativebinomiallogNORMAL|NOR|NnormalidentityPOISSON|POI|PPoissonlogSAS9.0GENMOD过程中所整合的响应变量分布类型2010-4-15山东大学公共卫生学院:刘静11广义线性模型在两个方面对经典线性模型进行了推广:(1)一般线性模型中要求因变量是连续的且服从正态分布,在广义线性模型中,因变量的分布可扩展到非连续的资料,如二项分布、Poisson分布、负二项分布等。(2)一般线性模型中,自变量的线性预测值就是因变量的估计值,而广义线性模型中,自变量的线性预测值是因变量的函数估计值。何为“广义线性模型”?(续)2010-4-15山东大学公共卫生学院:刘静12imimiiixxxg22110)(包括:多元线性回归模型logistic回归模型Probit回归模型Poisson回归模型负二项回归模型广义线性模型的一般形式:何为“广义线性模型”?(续)2010-4-15山东大学公共卫生学院:刘静13Generalizedlinearmodels(广义线性模型)FamilyofregressionmodelsOutcomevariabledetermineschoiceofmodelUsesControlofconfoundingModelbuilding,riskpredictionOutcomeModelContinuousLinearregressionBinomialLogisticregressionSurvivalCoxmodelCountsPoissonregression2010-4-15山东大学公共卫生学院:刘静14二、广义线性模型的参数估计广义线性模型的参数估计一般不能用最小二乘估计,常用加权最小二乘法(weightedleastsquared,WLS)或最大似然法(maximumlikelihood)估计。各回归系数需用迭代方法求解。求得后,用下式估计:ˆniiiVypn12ˆˆ1ˆ2010-4-15山东大学公共卫生学院:刘静15各种分布因变量广义线性模型的对数似然函数表达式分布类型对数似然函数正态分布逆高斯分布伽玛分布二项分布Poisson分布负二项分布多项分布二、广义线性模型的参数估计(续)2010-4-15山东大学公共卫生学院:刘静16Log-likelihoodfunctions2010-4-15山东大学公共卫生学院:刘静17Log-likelihoodfunctions2010-4-15山东大学公共卫生学院:刘静18Log-likelihoodfunctions2010-4-15山东大学公共卫生学院:刘静19Log-likelihoodfunctions2010-4-15山东大学公共卫生学院:刘静20三、广义线性模型的假设检验广义线性模型的检验一般用似然比检验、Wald检验和记分检验。模型的比较用似然比检验。(1)似然比检验:似然比检验是通过比较两个相嵌套模型(如模型P嵌套于模型K内)的对数似然函数来进行的,其统计量G为:KPllG2其中,模型P中的自变量是模型K中自变量的一部分,另一部分就是要检验的变量。这里G服从自由度为K-P的2分布。模型P的对数似然函数模型K的对数似然函数2010-4-15山东大学公共卫生学院:刘静21Likelihoodratiostatistic(似然比统计量)Comparestwonestedmodelsg()=+1x1+2x2+3x3+4x4(model1)g()=+1x1+2x2(model2)LRstatistic-2log(likelihoodmodel2/likelihoodmodel1)=[-2log(likelihoodmodel2)]-[-2log(likelihoodmodel1)]LRstatisticisa2withDF=numberofextraparametersinmodel三、广义线性模型的假设检验(1)似然比检验(续)2010-4-15山东大学公共卫生学院:刘静22三、广义线性模型的假设检验(续)(2)回归系数的Wald检验:Wald检验是通过比较估计系数与0的差别来进行的,其检验统计量为:或)ˆ(0ˆSEz这里,z为标准正态变量。参数的可信区间如下计算:)ˆ(96.1ˆ~)ˆ(96.1ˆSESEˆˆ22Var2010-4-15山东大学公共卫生学院:刘静23三、广义线性模型的假设检验(续)(3)比分(Score)检验:以未包含某个或某几个变量的模型为基础,保留模型中参数的估计值,并假设新增加的参数之系数为0,计算似然函数的一阶偏导数(又称有效比分)及信息矩阵,两者相乘即为比分检验统计量S。当样本含量较大时,S的分布近似服从2分布,自由度为检验的参数个数。2010-4-15山东大学公共卫生学院:刘静24对于广义线性模型,通常用下面两种统计量度量模型的拟合优度。(1)偏差统计量(Deviance)(2)广义Pearson2统计量(Pearson’schi-squarestatistic)(3)伪R2统计量(Pseudo-R2)(4)AIC、AICC、BIC、CAIC四、广义线性模型的拟合优度