(完整版)多层线性模型介绍

bxf3276
3 ℃
2020-06-29

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

多层线性模型：HLM（hierarchicallinearmodel）计量模型，为解决传统统计方法如回归分析在处理多层嵌套数据时的局限而产生的，是目前国际上较前沿的一套社会科学数据分析的理论和方法，优势体现两个方面：一是解决了数据嵌套问题；二是为追踪研究或重复测量研究引入了新方法。传统的线性模型，例如，ANOVA或者回归分析，只能对涉及某一层数据的问题进行分析，而不能将涉及两层或多层数据的问题进行综合分析，而多层线性模型对解决这些问题提供了有效的统计方法。多层线性模型的参数估计方法与进行两次回归的方法在概念上是相似的,但二者的统计估计和验证方法却是不同的,并且多层线性模型的参数估计方法更为稳定。因此多层模型的应用范围也相当广泛，与传统的用于处理多元重复测量数据的方法相比，该模型具有对数据资料要求低、能够明确表示个体在第一层次的变化情况、可以通过定义第一层次和第二层次的随机变异解释个体随时间的复杂变化情况、可以考虑更高一层次的变量对于个体增长的影响等特点。多层线性模型(multilevelmodel)由Lindley等于1972年提出，是用于分析具有嵌套结构数据的一种统计分析技术。作为传统方差分析模型的有效扩展Korendijk等和Duncan等众多的研究者对多层线性模型进行了广泛研究。20多年来，该方法在社会科学领域获得了广泛应用。近年来，有研究者提出使用多层线性模型进行面板研究，并且已在社会科学领域取得较大进展。面板研究中多层线性模型的应用优势：由上述分析可知，在面板研究中，传统的数据分析方法会遇到很多难以克服的困难，而多层线性模型可以很好地处理上述问题。近年来，越来越多的面板研究开始采用多层线性模型的分析方法，显示出多层线性模型在面板研究中的独特优势。首先，多层线性模型通过考察个体水平在不同时间点的差异，明确表达出个体在层次一的变化情况，因而对于数据的解释（个体随时间的增长趋势）是在个体与重复观测交互作用基础上的解释，即不仅包含不同观测时点的差异，也包含个体之间存在的差异。其次，多层线性模型可在最大似然或限制性最大似然估计的基础上处理缺失值，因此对原始数据的要求相对较低，不需要去除那些带有缺失值的研究对象，也不需要弥补缺失的观测值。另外，多层线性模型既能处理各研究对象重复观测次数不等的问题，也能处理重复观测间隔时间不等的问题。再次，多层线性模型可以定义重复观测变量之间的复杂协方差结构，对不同协方差结构进行显著性检验，通过定义数据不同层次的随机差异解释个体随时间变化的复杂情况。例如就个体间差异而言，模型假设研究对象在不同时间的观测值相关是由于非测量因素产生的个体间异质性引起的，因此在模型中设定随机回归系数，如用随机截距反映个体结果测量值的不同初始水平，用时间变量的随机斜率反映个体结果观测随时间的不同变化率，从而引入个体特定效应来处理个体间异质性问题。从个体内差异角度出发，则可以在构建模型之初通过设定一个适当的残差方差/协方差结构来处理数据的序列相关问题。最后，多层线性模型既不要求研究对象个体内的观测值相互独立，也不受某些限制性假设的制约。跨层次研究模型的构建在处理不同层次变量之间关系时，传统采用散记和合计的方法，但会产生两个问题:违反回归的独立性假设、产生合计误差。多层线性回归模型（HLM）是专门用于分析不同层次变量之间关系的工具，其可以估计各层次的效果，以及各层次所能够解释的变异量，同时可以解决散记和合计过程中造成的误差问题。本研究中涉及区域和企业两个层面的变量，构建了多层回归模型。第一个层次是企业层面的变量，包括R&D投入、创新绩效等;第二个层次是区域层面的变量，包括基础设施环境、制度环境、文化环境、人力资源环境。顾乃华计量模型和经验分析结果检验前面的假说涉及省和市两个层面的数据，而且市是嵌套在省之中。对于多层嵌套数据，传统的回归方法通常有两种处理方法：一是将省、市变量看做是同一水平的变量，直接在市层面对数据进行分析。这种方法的问题是：假设同一省份内的城市间相互独立是不合理的，对不同省份的城市样本和同一省份的城市样本作同一假设也是不合理的。另一种处理方法是将市层面的数据直接合并为省层面的数据，然后在省层面进行分析。这样做的缺陷在于丢失了省内城市个体间差异的信息，而在实际中，这一部分的变异有可能占总变异中很大的一部分。上述两种方法有可能得到不同的结果，对结果的解释也可能不一致，但它们都没有考虑到数据间分层的特点。这种忽略有可能对数据结果做出不合理的甚至是错误的解释，这是传统回归分析方法在分析具有分层特点数据时的必然局限（张雷等，2003）。传统的线性回归模型假设变量间存在直线关系，变量总体上服从正态分布、方差齐性、个体间随机误差相互独立。前两个假设对于分层数据较易保证，但方差齐性尤其是个体间随机误差相互独立的假设却很难满足。就本文而言，即不同省份的城市数据可以假设相互独立，但是同一省份的城市由于受到相同省层面变量的影响，很难保证相互独立。为了克服传统回归方法处理多层嵌套数据的局限，本文选择多层线性模型进行假设检验。多层线性模型在回归省、市两层嵌套数据时，假设地级市个体间的测量误差相互独立，省层面带来的误差在不同省份之间相互独立，进而将误差分解为两部分：一部分是地级市个体间差异带来的误差；另一是因隶属不同的省而带来的误差。结合本文的研究主题，应用多层线性模型较传统的回归方法至少有如下三个方面优势：第一，可形成和检验关于跨水平效应的假设，也就是省级层面的变量如何对市层面的城市化与服务业发展之间的关系产生影响；第二，它能够借助在其他省中存在的相似的估计，改善对市级层面城市化作用于服务业发展回归模型的估计结果；第三，可以分离各水平内的方差和协方差成分，如把市层面一系列变量的相关成分分解为省层面的组内和组间成分。当然由于多层线性模型本身以及对应处理软件的局限，它不能像其他计量经济模型那样提供非常多样化的稳健性检验指标，为克服这一局限，本文在量化指标时，尽量选择样本期的均值，从而克服因使用特定年度数据产生的偏差。计量模型和变量定义根据假设检验需要，我们选择两层次模型。使用的样本数据包括中国大陆23个省份（剔除4个直辖市以及所辖市较少的海南、青海、西藏和新疆）、252个地级市（缺少部分样本是因为数据缺失）。第一层（L1）为地级市样本数据，被解释变量为服务业发展。