多水平统计模型简介(研究生版)论述

bcde
1 ℃
2019-12-07

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

多水平统计模型简介ABriefIntroductiontoMultilevelStatisticalModels概述层次结构数据的普遍性经典方法及其局限性基本多水平模型多水平模型的应用概述80年代中后期，英、美等国教育统计学家开始探讨分析层次结构数据(hierarchicallystructureddata)的统计方法，并相继提出不同的模型理论和算法。多水平模型(multilevelmodels)最先应用于教育学领域，后用于心理学、社会学、经济学、组织行为与管理科学等领域，逐步应用到医学及公共卫生等领域。HarveyGoldstein,UK,UniversityofLondon,InstituteofEducation《MultilevelModelsinEducationalandSocialResearch》1987AnthonyBryk,UniversityofChicagoStephenRaudenbush,MichiganStateUniversity,DepartmentofEducationalPsychology《HierarchicalLinearModels：ApplicationsandDataAnalysisMethods》1992NicholasLongford,PrincetonUniversity,EducationTestingService《RandomCoefficientModels》1993多水平主成分分析多水平因子分析多水平判别分析多水平logistic回归多水平Cox模型多水平Poisson回归多水平时间序列分析多元多水平模型多水平结构方程模型ML3(1994)/MLN(1996)/MLwiN(1999)HLM(HierarchicalLinearModel)SAS(Mixed)SPSSSTATA两水平层次结构数据水平2水平1层次结构数据的普遍性“水平”(level)：指数据层次结构中的某一层次。例如，子女为低水平即水平1，家庭为高水平即水平2。“单位”(unit)：指数据层次结构中某水平上的一个实体。例如，每个子女是一个水平1单位，每个家庭是一个水平2单位。临床试验和动物实验的重复测量多中心临床试验研究纵向观测如儿童生长发育研究流行病学现场调查如整群抽样调查遗传学家系调查资料meta分析资料层次结构数据为一种非独立数据，即某观察值在观察单位间或同一观察单位的各次观察间不独立或不完全独立，其大小常用组内相关(intra-classcorrelation，ICC)度量。例如，来自同一家庭的子女，其生理和心理特征较从一般总体中随机抽取的个体趋向于更为相似，即子女特征在家庭中具有相似性或聚集性(clustering)，数据是非独立的(nonindependent)。非独立数据不满足经典方法的独立性条件，采用经典方法可能失去参数估计的有效性并导致不合理的推断结论。但非独立数据的组内相关结构各异，理论上，不同的结构应采用相应的统计方法。如纵向观测数据常用广义估计方程(GEE)，但有两个局限性：一是对误差方差的分解仅局限于2水平的情形，二是没有考虑解释变量对误差方差的影响。当应变量的协差阵为分块对角阵时，一般采用多水平模型。经典方法框架下的分析策略经典的线性模型只对某一层数据的问题进行分析，而不能将涉及两层或多层数据的问题进行综合分析。但有时某个现象既受到水平1变量的影响，又受到水平2变量的影响，还受到两个水平变量的交互影响(cross-levelinteraction)。个体的某事件既受到其自身特征的影响，也受到其生活环境的影响，即既有个体效应，也有环境或背景效应(contexteffect)。例如，个体发生某种牙病的危险可能与个体的遗传倾向、个体所属的社会阶层(如饮食文化和口腔卫生习惯)、环境因素(如饮水中氟浓度)等有关。分解(disaggregation)聚合(aggregation)分解：不满足模型独立性假定，回归系数及其标准误的估计无效，且未能有效区分个体效应与背景效应。另一种分析策略是用哑变量拟合高水平单位的固定效应。聚合：损失大量水平1单位的信息，更严重的是可能导致“生态学谬误”(ecologicalfallacy)。多水平分析的概念为人们提供了这样一个框架，即可将个体的结局联系到个体特征以及个体所在环境或背景特征进行分析，从而实现研究的事物与其所在背景的统一。经典模型的基本假定是单一水平和单一的随机误差项，并假定随机误差项独立、服从方差为常量的正态分布，代表不能用模型解释的残留的随机成份。基本的多水平模型当数据存在层次结构时，随机误差项则不满足独立常方差的假定。模型的误差项不仅包含了模型不能解释的应变量的残差成份，也包含了高水平单位自身对应变量的效应成份。多水平模型将单一的随机误差项分解到与数据层次结构相应的各水平上，具有多个随机误差项并估计相应的残差方差及协方差。构建与数据层次结构相适应的复杂误差结构，这是多水平模型区别于经典模型的根本特征。多水平模型由固定与随机两部分构成，与一般的混合效应模型的不同之处在于，其随机部分可以包含解释变量，故又称为随机系数模型(randomcoefficientmodel)，其组内相关也可为解释变量的函数。换言之，多水平模型可对不同水平上的误差方差进行深入和精细的分析。1.方差成份模型(VarianceComponentModel)假定一个两水平的层次结构数据，医院为水平2单位，患者为水平1单位，医院为相应总体的随机样本，模型中仅有一个解释变量x。和分别为第j个医院中第i个患者应变量观测值和解释变量观测值，和为参数估计,为通常的随机误差项。ijijjijexy010ijyijxj01ije0mj,...,2,1jni,...,2,1示水平2单位示水平1单位与经典模型的区别在于。经典模型中的估计为，仅一个估计值，表示固定的截距，而在方差成份模型中表示j个截距值，即当x取0时，第j个医院在基线水平时y的平均估计值。00j0j000jju为平均截距，反映与的平均关系，即当x取0时，所有y的总平均估计值。为随机变量，表示第j个医院y之平均估计值与总均数的离差值，反映了第j个医院对y的随机效应。0ijyijxuj0表示协变量x的固定效应估计值。即y与协变量x的关系在各医院间是相同的，换言之，医院间y的变异与协变量x的变化无关。1方差成份模型拟合j条平行的回归线，截距不同()，斜率相同()。0j1对医院水平残差的假定对患者水平残差的假定与传统模型一致水平1上的残差与水平2上的残差相互独立0)(0ijeE200)(eijeVar，0)(0juE200)(ujuVar，0),(00ijjeuCov反应变量可表达为固定部分与随机部分之和。模型具有两个残差项，这是多水平模型区别于经典模型的关键部分。即水平2残差，随机效应、又称潜变量(latentvariable)ijjijijeuxy0010ijx10ijjeu000ju此模型需估计4个参数，除两个固定系数和，还需估计两个随机参数和。其中即为医院水平的方差成份，为患者水平的方差成份。u02e0201u02e02组内相关的度量方差成份模型中，应变量方差为2200eu0000()()(,)jijjijVaruVareCovue)(,,|0010ijjijijeuVarxyVar此即水平2和水平1方差之和。同一医院中两个患者(用i1，i2表示)间的协方差为：2000000021,,ujjjijjijuuCoveueuCov组内相关(intra-classcorrelation,ICC)222000euu测量了医院间方差占总方差的比例，实际上它反映了医院内个体间相关，即水平1单位(患者)在水平2单位(医院)中的聚集性或相似性。由于模型不止一个残差项，就产生了非零的组内相关。若为0，表明数据不具层次结构，可忽略医院的存在，即简化为传统的单水平模型；反之，若存在非零的，则不能忽略医院的存在。u02水平2单位中的水平1单位间存在相关，通常的“普通最小二乘法”(OrdinaryLeastSquaresOLS)进行参数估计是不适宜的。进一步，如数据具有三个水平的层次结构，如医院、医生和患者三个水平，则将有两个这样的相关系数，即医院内相关和医生内相关。随机系数模型是指协变量的系数估计不是固定的而是随机的，即协变量对反应变量的效应在不同的水平2单位间是不同的。仍以医院与患者两水平数据结构说明随机系数模型基本结构与假设。随机系数模型(RandomCoefficientModel)ijijjjijexy010与方差成份模型的区别在于。1j方差成份模型中协变量的系数估计为固定的，示协变量对反应变量的效应是固定不变的。在随机系数模型中协变量的系数估计为，示每个医院都有其自身的斜率估计，表明协变量对反应变量的效应在各个医院间是不同的。ijx1ijxijxijx1j11)(jE211)(ujVar0j的假定及其含义与方差成份模型一致。现为随机变量，假定：1j表示第j个医院的y随x变化的斜率；表示全部医院的y随x变化的斜率的平均值(平均斜率)。是指各医院的y随x变化的斜率的方差。1j121u示第j个医院的斜率与平均斜率的离差值，指上述截距离差值与斜率离差值的协方差，反映了它们之间的相关关系。111jju0)()(10jjuEuEVaruju()121Covuujju(,)010101uju1ijijjjijijexuuxy01010即表达为固定部分与随机部分之和。其中，固定效应用均数描述，它决定了全部医院的平均回归线，这条直线的截距即平均截距，直线的斜率即平均斜率。为随机系数。将模型改记为：011ju随机效应用方差描述，它反映了各医院之间y的变异与协变量x的关系。模型随机部分具多个残差项，需估计4个随机参数，即方差、和以及协方差。20u21u20e01u模型的反应变量方差为：表明各医院间y的变异与协变量x有关，即每条回归线不仅截距不同，且斜率也不同。当x取0时每个医院y的平均估计值不同，且每个医院y随x变化的斜率不同。2222010102eijuijuuxxijijjjijijexuuVarxyVar01010,,|0j1j组内相关与解释变量有关001100110222222222uuijuijuuijuijexxxx值得指出，模型随机部分的解释变量常为其固定部分的一个子集，但亦可以不是。换言之，可以在模型的固定部分或随机部分纳入任何水平上测量的解释变量。反应变量向量的协方差结构从最基本的两水平数据结构来考察反应变量向量的协方差结构，即只包括随机参数和。对应于方差成份模型，反应变量方差为水平1和水平2方差之和：)(,,|0010ijjijijeuVarxyVar2200euu02e02同一个医院所诊疗的两个患者(用，表示)间的协方差为：i1i22000000021,,ujjjijjijuuCoveueuCov因此，同一医院所诊疗的三名患者的协差阵为ueuuuueuuuue000000000000222222222222对两个医院而言，若一个医院诊疗了三名患者，另一个医院诊疗了两个患者，则具有2个水平2单位的反应变量向量Y总的协差阵可表达为：ueuuuueuuuueueuuue000000000000000000222222222222222222矩阵的这种分块对角结构表达了不同医院所诊疗的患者间的协方