1对数线性模型分析Log-linearModelAnalysis流行病与卫生统计学系2分类变量的主要统计分析方法卡方分析Logistic回归分析对数线性模型分析3变量的模型分析比较多元线性回归分析:Y是数值型变量X是任意变量Logistic回归分析:Y是分类型变量X是任意变量对数线性模型分析:Y是分类型变量X是分类型变量4第一节对数线性模型的基本概念一、频数分布:1、列联表(contingencytable)2、维数(dimension)3、行(row)、列(column)、层(layer)变量4、网格频数(cellfrequency)5二维对数线性模型:Mij为第i行第j列网格频数Xij的理论值或期望频数值(expectedferquency)总均值主效应A主效应B交互效应AB第二节对数线性模型6限制条件:71、一阶交互效应模型2、完全独立模型二维对数线性模型的分类:8三维对数线性模型:Mijk为第i行第j列第k层网格频数Xijk的理论值或期望频数值。总均值主效应A,B,C,交互效应AB,AC,BC,ABC9三维对数线性模型的分类:1、二阶交互效应模型---(9-8)2、无二阶交互效应模型---(9-22)3、条件独立模型---(9-23)4、联合独立模型---(9-24)5、完全独立模型---(9-25)10什么是对数线性模型分析?对数线性模型分析是把列联表资料的网格频数的对数表示为各变量及其交互效应的线性模型,然后运用类似方差分析的基本思想检验各变量及其交互效应的作用大小。11模型的独立参数和自由度:独立参数的个数=分类数-限制条件数数据提供的信息量=列联表中网格的数目模型的自由度=信息量-独立参数个数12饱和模型和非饱和模型饱和模型:独立参数的个数=列联表的网格数非饱和模型:独立参数的个数列联表的网格数分层模型如果一个高阶效应出现在模型中,那么组成这个高阶效应的所有低阶效应也必须出现在模型中。13第三节对数线性模型分析的方法步骤一、参数的估计和假设检验二、模型的拟和优度检验三、模型参数的意义解释14第四节对数线性模型的选择原则:1、应当包含尽可能少的参数;每个参数要有显著意义(p0.05);2、模型总体拟和度高(p0.05)。15第五节对数线性模型在医学中的应用比较三种分析方法的优缺点:1、卡方检验:简单易学,不需要确定因变量和自变量。但是,卡方检验对三维和三维以上列联表资料的分析有一定困难,即对混杂变量的控制较难。162、Logistic回归分析:解决了对混杂变量的控制的问题,而且,它能将因变量与自变量的关系用模型表示出来,清晰易理解。但是,当模型中自变量较多,特别是名义变量较多,或名义变量的类别较多时,分析自变量之间的交互效应就很繁杂,可能需要建立很多哑变量。173、对数线性模型:可以直接分析各种类型的分类变量,对于名义变量,也不需要事先建立哑变量,可以直接分析变量的主效应和交互效应。对数线性模型不仅可以解决卡方分析中常遇到的高维列联表的“压缩”问题,又可以解决logistic回归分析中多个自变量的交互效应问题。18【例9-2】为研究产前护理量多少对婴儿死亡率的影响,收集了甲乙两个诊所的资料,数据列在下表中。试用卡方检验,对数线性模型分析和logistic回归分析来分析这组数据。孕妇在两个诊所接受产前护理量与婴儿的存活情19解:1)先用卡方检验分别分析两个诊所中产前护理量多少对婴儿死亡率的影响。2)把这两个诊所的资料合并起来,消除护理地点这个变量。203)用对数线性模型来分析这组数据。A:护理地点B:护理量C:婴儿存活情况214)用Logistic回归模型来分析这组数据。A:护理地点(自变量)B:护理量(自变量)C:婴儿存活情况(因变量)22对数线性模型的缺点:1)对数线性模型更强调的是变量之间的交互效应,它不能直接将因变量用自变量的函数表示出来。2)对数线性模型抽象复杂,特别是高维模型,不如线性回归模型易理解。23建议:1)在变量类别较少,特别是二类的情况下,建议还是用logistic回归分析。2)在变量较多或变量水平较多的情况下,可以先用对数线性模型分析主效应和交互效应,对没有统计意义的变量或水平作适当的维数或水平的压缩,将数据简化后再用logistic回归分析拟和模型。24【例9-3】四家医院对同一病症采用四种不同手术,手术后病人出现并发症,其严重性分成三级。数据例在下表中。25其中,变量HP表示医院(hospital:1,2,3,4),变量TRT表示手术处理方法(treatment:A,B,C,D),变量SEV表示术后并发症的严重程度(severity:0=没有,1=轻度,2=中度),变量WT表示频数。26【SAS程序】dataeg9_3;inputhptrt$sevwt@@;cards;1A0231A171A22……4D0134D164D24run;proccatmod;weightwt;modelhp*trt*sev=_response_/oneway;loglinhp|trthp|sevtrt|sev;run;27【SAS主要输出结果】CATMODPROCEDURE①ONE-WAYFREQUENCIESVariableValueFrequency--------------------------HP11482115374490TRTA96B107C113D111SEV0240112925828②MAXIMUM-LIKELIHOODANALYSIS-OF-VARIANCETABLESourceDFChi-SquareProb--------------------------------------------------HP316.630.0008TRT35.030.1694HP*TRT91.100.9992SEV293.620.0000HP*SEV64.900.5563TRT*SEV612.580.0502LIKELIHOODRATIO1813.430.7651--------------------------------------------------29【结果解释】①所有分类变量的一维频数分布表,它包含了各变量的类别数以及类别的排列顺序。②最大似然估计法的主要分析结果,包括参数的自由度,Wald-卡方值和p-值,以及似然比统计量,它用来检验模型的拟和优度。即,比较特定的模型和无限制模型(unrestrictedmodel),即,仅含常数的模型。p-值越大,模型拟越好。从②可以得知,该模型拟和数据较好(p=0.7651)。并且可以得出结论:采用不同手术是导致术后并发症不同严重程度的根本原因(TRT*SEV:p=0.0502),至于病人在哪家医院接受手术与术后并发症的严重程度并无关系(HP*SEV:p=0.5563)。30总结•Logistic回归分析和卡方分析的优缺点是什么?•对数线性模型分析的优缺点是什么?•什么是条件独立模型、联合独立模型和完全独立模型?•在什么情况下可以压缩变量?31结束