多层线性模型简介王鹏在许多研究中,取样往往来自不同层级和单位,这种数据带来了很多跨级(多层)的研究问题,解决这些问题的一种新的数据分析方法——多层模型分析技术。这一方法的开创及发展的主要贡献者之一是英国伦敦大学的HarveyGoldstein教授及研究者把这种方法称作“多层分析”。另一主要开拓者美国密歇根大学的StephenW.Raudenbush教授和同行把它称为“分层线性模型结构”。在此,我们按照张雷等人的叫法称其为“多层线性模型”或“多层模型”。主要内容一、多层线性模型简介二、多层线性模型基本原理三、多层线性模型HLM软件的应用多层线性模型简介1、多层数据结构的普遍性多层(多水平)数据指的是观测数据在单位上具有嵌套的关系。(1)教育研究领域EG:学生镶嵌于班级,班级镶嵌于学校,或者学生简单地镶嵌于学校,这时学生代表了数据结构的第一层,而班级或学校代表的是数据结构的第二层;如果数据是学生镶嵌于班级,而班级又是镶嵌于学校,那么就是三层数据结构。多层线性模型简介(2)组织心理学研究领域Eg:雇员镶嵌于不同的组织、工厂(3)发展心理学领域Eg:纵向研究、重复研究在一段时间内对儿童进行多次观察,那么不同时间的观测数据形成了数据结构的第一层,而儿童之间的个体差异则形成了数据结构的第二层。这样,就可以探索个体在其发展趋势或发展曲线上的差异。多层线性模型简介2、多层数据的传统分析方法多层数据一直困扰着研究者大概半个世纪之久。由于个体的行为既受个体自身特征的影响,也受到其所处环境的影响,所以研究者一直试图将个体效应与组效应(背景效应或环境效应)区分开来。个体效应:由个体自身特征所造成的变异。组效应:由个体所处环境所造成的变异。多层线性模型简介(1)只关注个体效应,而忽视组效应只在个体这一层数据上考虑变量间的关系,那么导致所观测到的效应既包含个体效应,又包含组效应,从而增大了犯一类错误的概率,夸大了变量间的关系。(2)在组水平上进行分析把数据集中起来,使其仅在第二层的组间发挥作用,从而丢失了重要的个体信息。多层线性模型简介(3)组内分析组间分析对相同的数据进行三次计算:一是在组内的个体层上进行的分析,称为组内效应二是通过平均或整合第一层中的个体数据,得到第二层的组间数据,称为组间效应三是忽视组的特性而对所有的数据进行分析,称为总效应。在此基础上,计算组内效应和组间效应在总效应的比例,从而确定变异来自于组间还是组内。组内分析组间分析的方法较前两种方法更多的考虑到了第一层数据及第二层数据对变异产生的影响,但并无法对组内效应和组间效应做出具体的解释,也就无法解释为什么在不同的组变量间的关系存在差异。多层线性模型简介3、多层线性模型分析方法回归的回归方法Eg:学生成绩(X)学习动机(Y)班级教师教学水平(W)(1)求各个班级学生成绩对学习动机的回归01ijjjijijYXr多层线性模型简介(2)求教师教学水平对β0j和β1j的回归方程jjjjjjWW111101001000多层线性模型简介4、多层线性模型的优点(1)使用收缩估计的参数估计方法,使得估计结果更为稳定、精确收缩估计:使用两个估计的加权综合作为最后的估计。其一是来自第一层数据的OLS估计,另一个是来自第二层数据的加权最小二乘法估计,最后的估计是对以上两个估计的加权。(2)可以处理样本不等的数据eg:当某些第二层单位在第一层的取样甚少时,可以借助于其他二层单位和二层预测变量,对取样较少的一层单位进行回归分析。第一层单位3个及以上。多层线性模型简介5、多层线性模型的应用范围(1)组织和管理研究(2)对个体进行追踪、多次观测的发展研究(3)教育研究(4)元分析研究多层线性模型基本原理1、多层线性模型的基本形式水平1(如:学生)水平2(如:学校)ijijjjijeXY10jju0000Yij---第j个学校的第i个学生jju1101指固定成分随机成分多层线性模型基本原理为固定成分,指第二层单位间β0j和β1j的平均值为随机成分,指第二层单位β0j和β1j的变异0001和01jj和000var()j111var()j0110cov(,)jj多层线性模型基本原理把第一层和第二层方程整合如下:误差项间是相关的:同一第二层单位的个体有相同的误差项间方差不等:相同第二层单位内的个体间相似性比不同单位内个体相似性高误差项与自变量有关:残差项包含000101ijijjjijijYxxe残差项01jj和ijx多层线性模型基本原理因此,多层数据并不满足传统OLS回归分析关于残差项的诸多假设。而多层线性模型将残差项进行了分解,更符合实际情况,所以对于多层数据使用多层线性模型进行分析更为合理。多层线性模型基本模型2、多层线性模型的基本模型零模型(TheNullModel)第一层和第二层均没有预测变量,只是将方程分解为由个体差异造成的部分及由组差异造成的部分,这种方法为方差成分分析。多层线性模型——零模型第一层:第二层:合并模型:ijjijeY0jju00002var()ije000var()jijojijeuY00多层线性模型——零模型指第j个二层单位Y的平均值指第j个二层单位Y的变异指所有二层单位的Y的总体平均数指第二层方程的残差(随机项)跨级相关:指Y的总体变异中有多大比例是由第二层的变异引起的。0jije000j20000/多层线性模型——完整模型完整模型(TheFullModel)既包含了第一层的预测变量,又包含了第二层的预测变量,可通过理论建构来说明解释Y的总体变异是怎样受第一层和第二层因素的影响。第一层:ijijjjijeXY102var()ije多层线性模型——完整模型第二层:000var()jjjjuW001000jjjuW111101111var()j0110cov(,)jj多层线性模型——完整模型在第一层方程中,0代表截据,1代表斜率在第二层方程中,第一个下标代表第一层参数的类型;第二个下标代表第二层参数的类型。β0j和β1j的预测变量可以相同,也可以不同。多层线性模型——协方差模型在零模型与完整模型之间,可通过向各层方程中增加不同的变量,设定不同的随机成分与固定成分来建构各种分析模型。协方差模型(ANCOVAModel)第一层:第二层:_01ijjjijijYxxe1010000jjju多层线性模型——协方差模型第一层方程中,预测变量采用总体平均数为参照的离差,与传统协方差分析的区别是β0j被进一步分解为和β1j没有随机项,反映了协方差分析的一个重要前提,协变量对因变量的回归系数的组间一致性。检验这种假设的方法是把纳入到方程中,并检验是否成立。000j1j110多层线性模型——随机效应回归模型随机效应回归模型(RadomEeffectRegressionModel)第一层:第二层:ijijjjijeXY10jju0000jju1101多层线性模型——随机效应回归模型此模型与完整模型的区别在于第二层没有预测变量;与传统OLS回归区别在于第一层的β0j和β1j是随机的而非固定的,其目的是寻找第一层的截据、斜率在第二层单位上的变异。多层线性模型——发展模型发展模型发展模型是把多次观测结果作为时间的某种数学函数来建构模型。它多用于发展研究、纵向研究或者追踪研究。在这种模型中,第一层数据为不同时间的观察结果,第二层数据为个体的特征。多层线性模型——发展模型第一层:线性发展模型Time:一般用编码的形式来反映增量Eg:0、1、2、3、4、5-5、-4、-3、-2、-1、0线性发展模型的第一层方程并不一定为线性方程,也可以为非线性方程。Eg:01ijjjijYTIMEe2012ijjjjijYTIMETIMEe多层线性模型——发展模型“确定发展变异”的第二层:jju0000jju11010110cov(,)jj000var()j111var()j时间变量编码为0时Y的总体平均数线性发展斜率的总体平均值指个体j与平均发展斜率的离差指个体j与平均截据的离差多层线性模型——发展模型“预测发展变异”的第二层:0110cov(,)jj000var()j111var()jjjjuW001000jjjuW111101考虑第二层的预测变量W后第一层的截据和第一层的斜率在第二层单位间的残差方差代表第二层的变量W对第一层截据的效应多层线性模型——三层模型三层模型是二层模型的直接扩展,我们也可以根据需要选择零模型与完整模型之间的任何模型。模型1:零模型第一层:第二层:第三层:0ijkjkijkYe2var()ijke0000jkkjk000var()jk0000000kke0000var()ke多层线性模型——三层模型第一个下标表示第一层方程中的参数;第二个下标表示第二层方程中的参数;第三个下标表示第三层方程中的参数。表示第二层单位之间的变异,表示第三层单位之间的变异跨级相关:第一层的方差和总方差之比:第二层的方差和总方差之比:第三层的方差和总方差之比:2210000/22000000/23000000/多层线性模型——三层模型模型2:完整模型第一层:第二层:01ijkjkjkjkijkYxe0000110jkkkjkjkw1101111jkkkjkjkw2var()ijke000var()jk111var()jk0110cov(,)jkjk多层线性模型——三层模型第三层:000000010000kkkze010100110101kkkze101001011010kkkze111101111111kkkze