多层统计分析模型

宝宝的baby
3 ℃
2020-03-17

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

多层统计分析模型陶庄中国CDC卫生统计研究室绪论青蛙与池塘（“Frog-pondtheory”）青蛙—学生个体；池塘—学校环境；学生的成绩好坏不仅受到个体本身的影响，也受到学校环境的影响！多层数据低一层（低水平）单位（个体）的数据嵌套（nested）于高一层（高水平）的单位（组群）之中。结局变量，个体解释变量，场景变量（contextualvariables）组内观察相关（within-groupobservationdependence）同一组内的个体，较不同组的个体而言，在观念、行为等很多方面更为接近或相似；即便不是刻意分组，也是如此。组内同质（within-grouphomogeneity），组间异质（between-groupheterogeneity）很小的相关将导致很大的I类错误。多层数据的常见来源复杂抽样；多中心临床试验；纵向研究（longitudinalstudies）与重复测量（repeatedmeasures）；“高低搭配”；Meta分析；……多层统计模型的研究内容哪些个体解释变量会影响结局变量；哪些场景变量会影响结局变量；个体解释变量对结局变量的影响是否会受到场景变量的影响。多层统计模型出现前对多层数据进行分析的探索探索（1）—分别估计在个体水平和组群水平分别进行分析；试图用单一的个体水平模型的分析结果来推论另一水平的统计结果。jjjijijijxylevelxylevel1010:2:1探索（2）—传统回归用传统的固定效应回归模型中一般的交互项理解多层数据中的跨层（cross-level）交互作用。ijjijjijijzxzxy3210探索（3）—两步模型（two-stagemodel）第一步模型，对各组分别进行同一回归模型估计，获得一系列的系数；对这些系数的恒定性进行检验；如果不恒定，则进行第二步模型，以组变量为因变量，系数为自变量进行回归。探索（3）—两步模型的问题无论哪一步均使用OLS，并不适用；当组群过多，则十分麻烦；某些组内样本量很少时，进行回归不稳定；将每个组群认为是不相关的，忽略了其为从一大样本中抽取的事实。多层统计模型的出现研究的学者很多；系统的主要为两；研究的理论没有根本上的分歧；双方研究成果的发布时间基本相同（上世纪80年代末90年代初）；分别有各自分析的成熟的软件；目前，大家基本上接受两组人分别独立开发出同一模型的结果。S.Raudenbush与A.Bryk模型称为：hierarchicallinearmodel；软件为：HLMH.Goldstein模型称为：multilevelmodels；软件为：MLwiN（早期版本称ML3，MLn）多层统计模型的名称multilevelmodelshierarchicallinearmodelrandom-effectmodelrandomcoefficientmodelvariouscomponentmodelmixed-effectmodelempiricalBayesmodel多层统计模型的优点同时分析组效应和个体效应；不需有独立性假设；对稀疏（sparse）数据，即每组样本很少的数据，特别有效；特别适合对发展模型（GM）的分析。多层统计模型的局限性（1）模型复杂，不够简约；需较大样本以保证稳定性；组群数量较少，会出现偏倚；高水平单位并非严格抽样获得；某些场景变量通常是各组个体的聚集性测量，而不是总体内个体的聚集性测量；多层统计模型的局限性（2）研究对象一般具有流动性，即受到群组影响的程度不同，虽可用出入时间进行控制，但此信息一般不可知；依然存在自变量带有测量误差的问题，必需借助于结构方程模型（SEM）；完全嵌套假设，即每一个低水平单位嵌套、且仅嵌套于一个高水平单位。用于多层统计模型的软件专门软件：HLM；MLwiN；SuperMIX；aML；EGRET；LISREL；Mplus等。通用统计学软件：SAS；SPSS；stata；S-plus/R等。线性多层统计模型基础知识组内相关系数（Intra-ClassCorrelationCoefficient,ICC）222bwbICC组间方差占总方差的比例。可使用对“空模型”的拟合获得；值域在0到1之间，越接近1，说明相关越明显；对ICC的检验是是否选择多层模型的依据。两水平模型的公式表达空模型（又称截距模型）ijjijjjijjijeuytotaluleveleylevel00000000::2:1两个水平1自变量、一个水平2自变量ijijjjijjijijjijjjjjjjijijjijjijezuuzwzxwytotaluwuwlevelezxylevel110111111011101001111101010100011110::2:1一般模型ijqjQqqijjqijQqMmmjqmQqqijqPppijpMmmjmijQjMmmjQmQQjjMmmjmjjMmmjmjijQqqijqjPppijpjijeuzuzwzxwytotaluwuwuwlevelezxylevel1011101100010111101010000110::2:1SAS中的公式表达eZXY模型假设0,,0,00~,0~102120120120102jijjijuuuujjijueCovueCovNuuNe模型假设—SAS的表达IRNGRGeuVareuEuuuuuuuuu2222122022122120120220120000~000固定和随机回归系数Level2variationIntakeachievementExamScore012345600.51模型估计方法最大似然法（ML）包括普通最大似然法（ML）和限制性最大似然法（REML）；两者用于估计的残差基础不同，后者的残差包括所有的随机变异；REML是SAS的MIXED过程和HLM的默认算法；REML通常用于组数量较少的模型；ML可以用于模型比较，而REML不行；REML估计较优，而ML较快。最小二乘法（LS）包括迭代广义最小二乘法（IGLS）和限制性迭代广义最小二乘法（RIGLS）都以普通最小二乘估计（OLS）为初始值进行迭代；地位及相对关系大致等同于ML和REML；是MLwiN使用的算法。经验Bayes方法（EB）“收缩估计（shrinkageestimator）”以可靠性权重确定最后的估计值；对于某些样本量很小的组，则更多的使用总样本的信息，进行“借力（borrowstrength）”000*0ˆ1ˆˆjjjj空模型的可靠性权重ICCnICCnnjjjuuj11/220200对模型拟合的评价SAS给出：-2LL，AIC，AICC，BIC等统计量，其值越小越好；但只在比较模型时有用；模型收敛的速度可以说明拟合的好坏。假设检验全局检验：F检验；局部检验：对方差-协方差估计使用WaldZ检验；对系数使用t检验；单测检验，P值需除2；其它可使用LR等。模型比较对于嵌套模型，使用LR检验；对于非嵌套模型，使用AIC，AICC和BIC检验；无论何种，均需使用ML进行估计。对变异的解释程度（RB）20202020202222221ˆˆ1ˆˆˆˆˆ1ˆˆˆ零模型所设模型零模型所设模型零模型零模型所设模型零模型所设模型零模型uuuuullRBRB对变异的解释程度（SB）nSBSBululllllllllllll22022220212222222222221212121211ˆ,ˆˆˆ1ˆˆˆˆˆ1ˆˆˆ总总总总总总总总总总总总零模型所设模型零模型所设模型零模型零模型所设模型零模型所设模型零模型示例与SAS实现例1：对医生满意度调查Patid：病人编号；Phys：医生编号；Age：病人年龄；Sat：满意度分数；Practice：执业时间；空模型ijjijjjijjijeuSatueSat00000000空模型2步迭代完成；所有随机系数的检验均高于检验水准；ICC=0.00292/（0.00292+1.291）=0.23%不用进一步拟合多水平模型例2：SNA角度测量值id：观察对象编号；occa：每次观察编号；Age：病人年龄；SNA：角度；agg：场景变量；空模型3步迭代完成；所有随机系数的检验部分低于检验水准；ICC=0.4296/（0.4296+0.5629）=43.28%应进一步拟合多水平模型空模型加入场景变量ijjjijjjjijjijeuaggSnauaggeSna01010001010000空模型加入场景变量3步迭代完成，随机截距有意义；所有随机系数的检验部分低于检验水准；该模型-2LL=345.8，空模型-2LL=352.2，则LRχ2=6.4，p=0.0114；RB=1-0.3330/0.4296=0.2248;加入水平1变量（固定效应）ijjijjijjjjijijjijeuageaggSnauaggeageSna0110100010100010加入水平1变量（固定效应）3步迭代完成，随机截距有意义；所有随机系数的检验部分低于检验水准；该模型-2LL=199.1，前模型-2LL=345.8，则LRχ2=146.7，p=0.000；检验水平1的随机性ijijjjijjijjjjjjijijjjijeageuuageaggSnauuaggeageSna1010101001101010100010检验水平1的随机性4步迭代完成，2个随机系数均有意义；所有随机系数的检验部分低于检验水准；该模型-2LL=185.6，前模型-2LL=199.1，则LRχ2=3.5，p=0.1738；跨层交互作用评估ijijjjijjijjijjjjjjjijijjjijeageuuageaggageaggSnauagguaggeageSna1011110101001111101010100010跨层交互作用评估5步迭代完成，随机截距有意义，但交互项没意义；-2LL等都对前模型有所增加；跨层交互作用不显著。建模一般步骤运行空模型以获得ICC，判断是否进行多层模型拟合；加入水平2解释变量；加入水平1解释变量；检验水平1随机斜率；检验跨水平交互作用（全模型）。发展模型传统纵向数据分析方法的局限性重复测量的方差分析；假设残差方差在各时间点上相等；或，假设任何时点之间的残差方差的差异相等（即所谓“球面（sphericity）”假设或称“环形（circularity）”假设）；要求完整均衡数据，即等时距，无缺失。发展模型的优点可处理缺失和不完整数据；可处理不等时距问题；不要求对象内独立即其它的限制性假设；可以容易的加入时间依赖自变量。发展模型与一般多层模型的区别ijijjjijety10SAS程序procmixedcovtestic