多水平统计模型简介ABriefIntroductiontoMultilevelStatisticalModels巫秀美2013/5/20•概述•层次结构数据的普遍性•经典方法及其局限性•基本多水平模型•多水平模型的应用概述•80年代中后期,英、美等国教育统计学家开始探讨分析层次结构数据(hierarchicallystructureddata)的统计方法,并相继提出不同的模型理论和算法。•多水平模型(multilevelmodels)最先应用于教育学领域,后用于心理学、社会学、经济学、组织行为与管理科学等领域,逐步应用到医学及公共卫生等领域。概述•多层线性模型在不同的学科领域有不同的名称:–多水平线性模型(multilevellinearmodel)–混合效应模型(mixed-effectsmodel)–随机效应模型(random-effectmodel)–随机系数回归模型(random-coefficientregressionmodel)–协方差成分模型(covariancecomponentsmodel)概述•多层线性模型这一术语最早是由Lindley和Smith于1972年提出,在很长一段时间,它的应用受到了计算技术的限制。•1977年,Dempster、Laird和Rubin等人提出了EM算法,1981年,Dempster等人将EM算法(Expectation-MaximizationAlgorithm)应用于解决多层线性模型的参数估计,使得这一方法的应用成为可能。1983年,Strenio、Weisberg和Bryk等相继将这一方法应用于社会学的研究。•1986年Goldstein应用迭代加权广义最小二乘法(iterativelyreweightedgeneralizedleastsquares)估计参数。•1987年,Longford应用费歇得分算法(Fisherscoringalgorithm)对模型参数进行了估计。•随着参数估计问题的解决和算法的程序化,相继出现了一些相应的软件,目前较常用的有HLM,Mlwin和VARCL。层次结构数据的参数估计•迭代广义最小二乘法(iterativegeneralizedleastsquared,IGLS),这种方法的基本步骤是迭代,通常从“合理”的参数估计值开始(一般来自初始的二乘估计(OLS)),用广义最小二乘法,然后逐步迭代估计参数。•迭代广义最小二乘法和极大似然估计法没有考虑固定参数的抽样变动,所以对随机参数产生有偏估计。•在正态分布的假设下,收敛时的估计与极大似然估计结果相同。•在小样本中偏度较大,可用限制性极大似然估计法(restrictedmaximumlikelihood,REML)来修正以获得无偏估计。IGLS算法依据限制性极大似然估计的原理,进行进一步修正,产生所谓的限制性的广义最小二乘估计(RIGLS),可以得到参数的无偏估计。层次结构数据的参数估计•近年来随着马尔科夫链蒙特卡罗(MarkovChainMonteCarlo,MCMC)方法,尤其是吉布斯抽样的发展,完全贝叶斯技术在计算上变得可行,由于这种方法考虑了与随机参数有关的不确定性,在小样本分析中用这一方法更为合理有效。•多层分析软件Mlwin采用了三种估计方法(IGLS、RIGLS和MCMC)。•除了上述几种参数估计的方法,还有期望最小二乘法(EGLS),广义估计方程法(GEE),经验贝叶斯估计等。这些方法在正态性假设成立,样本容量较大时,得到参数的一致有效的估计。HarveyGoldstein,UK,UniversityofLondon,InstituteofEducation《MultilevelModelsinEducationalandSocialResearch》1987(1999年出版网络版)AnthonyBryk,UniversityofChicagoStephenRaudenbush,MichiganStateUniversity,DepartmentofEducationalPsychology《HierarchicalLinearModels:ApplicationsandDataAnalysisMethods》1992NicholasLongford,PrincetonUniversity,EducationTestingService《RandomCoefficientModels》1993ML3(1994)/MLN(1996)/MLwiN(1999)HLM(HierarchicalLinearModel)SAS(Mixed)SPSS(mixed)STATA(paneldata)•多水平主成分分析•多水平因子分析•多水平判别分析•多水平logistic回归•多水平Cox模型•多水平Poisson回归•多水平时间序列分析•多元多水平模型•多水平结构方程模型Goldstein提出的多水平模型应用两水平层次结构数据水平2水平1层次结构数据的普遍性•“水平”(level):指数据层次结构中的某一层次。例如,子女为低水平即水平1,家庭为高水平即水平2。•“单位”(unit):指数据层次结构中某水平上的一个实体。例如,每个子女是一个水平1单位,每个家庭是一个水平2单位。临床试验和动物实验的重复测量多中心临床试验研究纵向观测如儿童生长发育研究流行病学现场调查如整群抽样调查遗传学家系调查资料meta分析资料层次结构数据的普遍性层次结构数据的特性•层次结构数据为一种非独立数据,即某观察值在观察单位间或同一观察单位的各次观察间不独立或不完全独立,其大小常用组内相关(intra-classcorrelation,ICC)度量。•例如,来自同一家庭的子女,其生理和心理特征较从一般总体中随机抽取的个体趋向于更为相似,即子女特征在家庭中具有相似性或聚集性(clustering),数据是非独立的(nonindependent)非独立数据不满足经典方法的独立性条件,采用经典方法可能失去参数估计的有效性并导致不合理的推断结论。但非独立数据的组内相关结构各异,理论上,不同的结构应采用相应的统计方法。如纵向观测数据常用广义估计方程(GEE),但有两个局限性:一是对误差方差的分解仅局限于2水平的情形,二是没有考虑解释变量对误差方差的影响。当应变量的协差阵为分块对角阵时,一般采用多水平模型。经典方法框架下的分析策略经典的线性模型只对某一层数据的问题进行分析,而不能将涉及两层或多层数据的问题进行综合分析。有时某个现象既受到水平1变量的影响,又受到水平2变量的影响,还受到两个水平变量的交互影响(cross-levelinteraction)。个体的某事件既受到其自身特征的影响,也受到其生活环境的影响,即既有个体效应,也有环境或背景效应(contexteffect)。例如,个体发生某种牙病的危险可能与个体的遗传倾向、个体所属的社会阶层(如饮食文化和口腔卫生习惯)、环境因素(如饮水中氟浓度)等有关。传统多元统计方法•分解(disaggregation)–不满足模型独立性假定,回归系数及其标准误的估计无效,且未能有效区分个体效应与背景效应。另一种分析策略是用哑变量拟合高水平单位的固定效应,繁琐、样本量大。•聚合(aggregation)–损失大量水平1单位的信息,更严重的是可能导致“生态学谬误”(ecologicalfallacy)。生态谬误•Ecologicalfallacy,又称区群谬误,层次谬误,是一种在分析统计资料时常犯的错误。•和以偏概全相反,区群谬误是一种以全概偏,如果仅基于群体的统计数据就对其下属的个体性质作出推论,就是犯上区群谬误。•这谬误假设了群体中的所有个体都有群体的性质(因此塑型(Sterotypes)也可能犯上区群谬误)。•WilliamS.Robinson分析了1930年美国人口普查结果中48个州的识字率以及新移民人口比例的关系。他发现两者之间的相关系数为0.53,即代表若一个州的新移民比率愈高,平均来说这个州的识字率便愈高。但当分析个体资料时,便发现相关系数便是-0.11,即平均来说新移民比本地人的识字率低。出现这种看似矛盾的结果,其实是因为新移民都倾向在识字率较高的州份定居。Robinson因此提出在处理群体数据,或区群数据时,必须注意到数据对个体的适用性。多水平分析的概念为人们提供了这样一个框架,即可将个体的结局联系到个体特征以及个体所在环境或背景特征进行分析,从而实现研究的事物与其所在背景的统一。基本的多水平模型•经典模型的基本假定是单一水平和单一的随机误差项,并假定随机误差项独立、服从方差为常量的正态分布,代表不能用模型解释的残留的随机成份。•当数据存在层次结构时,随机误差项则不满足独立常方差的假定。模型的误差项不仅包含了模型不能解释的应变量的残差成份,也包含了高水平单位自身对应变量的效应成份。基本的多水平模型•多水平模型将单一的随机误差项分解到与数据层次结构相应的各水平上,具有多个随机误差项并估计相应的残差方差及协方差。构建与数据层次结构相适应的复杂误差结构,这是多水平模型区别于经典模型的根本特征。•多水平模型由固定与随机两部分构成,与一般的混合效应模型的不同之处在于,其随机部分可以包含解释变量,故又称为随机系数模型(randomcoefficientmodel),其组内相关也可为解释变量的函数。换言之,多水平模型可对不同水平上的误差方差进行深入和精细的分析。1.方差成份模型(VarianceComponentModel)假定一个两水平的层次结构数据,医院为水平2单位,患者为水平1单位,医院为相应总体的随机样本,模型中仅有一个解释变量x。和分别为第j个医院中第i个患者应变量观测值和解释变量观测值,和为参数估计,为通常的随机误差项。ijijjijexy010ijyijxj01ije0mj,...,2,1jni,...,2,1示水平2单位示水平1单位与经典模型的区别在于。经典模型中的估计为,仅一个估计值,表示固定的截距;而在方差成份模型中表示j个截距值,即当x取0时,第j个医院在基线水平时y的平均估计值。00j0jijijjijexy010000jju为平均截距,反映与的平均关系,即当x取0时,所有y的总平均估计值。为随机变量,表示第j个医院y之平均估计值与总均数的离差值,反映了第j个医院对y的随机效应。0ijyijxuj0表示协变量x的固定效应估计值。即y与协变量x的关系在各医院间是相同的,换言之,医院间y的变异与协变量x的变化无关。1ijijjijexy010方差成份模型拟合j条平行的回归线,截距不同(),斜率相同()。0j1对医院水平残差的假定水平1上的残差与水平2上的残差相互独立对患者水平残差的假定与传统模型一致0)(0ijeE200)(eijeVar,0)(0juE200)(ujuVar,0),(00ijjeuCov反应变量可表达为固定部分与随机部分之和。模型具有两个残差项,这是多水平模型区别于经典模型的关键部分。即水平2残差,随机效应、又称潜变量(latentvariable)。ijjijijeuxy0010ijx10ijjeu000ju000jju此模型需估计4个参数,除两个固定系数和,还需估计两个随机参数和。其中即为医院水平的方差成份,为患者水平的方差成份。u02e0201u02e02组内相关的度量方差成份模型中,应变量方差为2200eu0000()()(,)jijjijVaruVareCovue)(,,|0010ijjijijeuVarxyVar此即水平2和水平1方差之和。同一医院中两个患者(用i1,i2表示)间的协方差为:2000000021,,ujjjijjijuuCoveueuCov组内相关(intra-classcorrelation,ICC)222000eu