第四讲-多层模型

donkey10
2 ℃
2020-05-22

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第四讲多层模型(Multilevelmodeling)主要内容•数据的结构•介绍多层模型在社会科学领域中的应用•通过实例和比较多层模型的分析结果与传统线性模型的分析结果，加深对多层模型的了解–回顾多层结构数据及统计学的几个最基本的假定，并解释违反了基本假定可能给数据分析结果带来的偏差–介绍多层模型的优势与适应性–讲解多层线性和非线性模型的基本原理–利用Stata软件，通过对数据的分析，演示模型的应用数据结构的类型•横向数据：横截面数据、截面数据；cross-sectionaldata；合并横截面数据（pooledcross-sectionaldata）•纵向数据：面板数据；paneldata;longitudinaldata•时间序列数据：time-seriesdata•配对数据：matchingorpairingdata横向数据的特点•定义–在某一时点、多个（或单个）空间收集的多个调查对象的静态数据–横断面的、平行关系的、并列关系的数据，是一种单维结构的数据集合（one-dimensionaldataset）•特点–静态性：反映某一时点上的某些现象，突出特定时点研究对象的现状、特点以及不同对象之间的差异–离散性：体现个体的个性，突出个体的差异，主要用于比较不同对象之间的差异横向数据的优势与局限•优势：–简明性–易得性•局限–无法判断因果关系–不能考察动态变化–难以应对异质性问题横向数据的类型•单个时点数据，一个对象只有一个观察值•因其包含的信息不同，分为两个或多个层次数据学生年龄性别标准成绩姊妹数量父母教育1010101100370016101010211136011610102011213393910102021213322121010203110351212单层次数据示例两个层次数据学生年龄性别标准成绩姊妹数量父母教育班级101010110037001611010102111360116110102011213393921010202121332212210102031103512122多个层次数据学生年龄性别标准成绩姊妹数量父母教育班级学校101010110037001611011010102111360116110110102011213393921011010202121332212210110102031103512122101•“中国健康与营养调查”（ChinaHealthandNutritionSurvey，简称CHNS）有四个层次数据：省区、社区、家庭、个体，后三个层次的编码规律分别是：–个人编码=省份编码×10000+社区原始码×1000+家庭户原始码×100+个人行号–家庭编码=省份编码×1000+社区原始码×100+家庭户原始码–社区编码=省份编码×100+社区原始码多个层次的横向数据学校2班1班学生1010102学生1010201学生1010101学生1010203学生1010202第三层第二层第一层ID由三个变量构成：学校编码×10000＋班级代码×100＋行号多层次的横向数据•数据结构可以包含更多的层级，向上和向下都可以继续扩展；社区、家庭、对象•通过其他途径获高层次数据，以弥以补高层单位数据的缺失•在Stata软件中，merge命令•在Stata软件中，egen命令•横向数据只能考察现状，不能显示变化纵向数据的特点•定义：面板数据、“时空数据”–在多个时点、单一或多个地点对同一对象反复调查或观察获得的数据；也可以通过日历方法获得纵向数据–有长、宽、高三个维度；“长”和“宽”=横向数据，“高”=时序数据，合起来就是面板数据–若一个调查在不同时间追踪同一对象、询问类似信息，则该调查所获得的数据属于纵向数据•特点–动态性：同一对象的同一特点在不同时间的变化趋势–相关性：群内关联；个体自相关(静态性和离散性)纵向数据的优势与局限•优势–提供更合理的因果关系–考察研究对象的动态变化–控制研究对象未观察到的异质性，应对遗漏变量问题–更丰富信息，增加自由度，减少共线性，改进估计效能•局限–样本的流失–选择性问题：自选择；非应答–研究设计重点的前后变化–测量误差的扭曲纵向数据的类型•纵向数据主要分为三类：–纵向追踪数据（paneldata；prospectivedata）–事件史数据（retrospectivedata）–时间序列截面数据（Time-Series–Cross-Section）•追踪数据与时序数据的差异–追踪数据：大截面(即大N)，但调查时点少(即小T)–TSCS数据：多调查时点，但每个时点的对象却较少•纵向数据也是多层结构数据中的一种•人口普查数据是横向数据还是纵向数据？纵向数据结构：单个观察值1－6年级的标准成绩学生一年级(2003)二年级(2004)三年级(2005)四年级(2006)五年级(2007)六年级(2008)10101013503553603663693701010102332343350351351360101020136035635535034033910102023213223203253243321010203360380400420430351纵向数据结构：多个观察值序号学生年级年份标准成绩序号学生年级年份标准成绩11010101一年级2003350161010201四年级200635021010101二年级2004355171010201五年级200734031010101三年级2005360181010201六年级200833941010101四年级2006366191010202一年级200332151010101五年级2007369201010202二年级200432261010101六年级2008370211010202三年级200532071010102一年级2003332221010202四年级200632581010102二年级2004343231010202五年级200732491010102三年级2005350241010202六年级2008332101010102四年级2006351251010203一年级2003360111010102五年级2007351261010203二年级2004380121010102六年级2008360271010203三年级2005400131010201一年级2003360281010203四年级2006420141010201二年级2004356291010203五年级2007430151010201三年级2005355301010203六年级2008351学校班级1班级学生1010102学生1010201学生1010101学生1010203学生1010202一年级特点一年级特点一年级特点一年级特点一年级特点二年级特点1010102二年级特点1010201二年级特点二年级特点1010203二年级特点1010202四年级特点1010102四年级特点1010201四年级特点四年级特点1010203四年级特点1010202三年级特点1010102三年级特点1010201三年级特点三年级特点1010203三年级特点1010202五年级特点1010102五年级特点1010201五年级特点五年级特点1010203五年级特点1010202六年级特点1010102六年级特点1010201六年级特点六年级特点1010203六年级特点1010202第四层第三层第二层第一层多层模型•介绍多层模型（MLM）在包括人口学在内的社会科学领域的应用–为什么使用多层模型–模型的技术优势–应用原理–使用方法–应用举例•比较MLM和常规的分析结果线性回归的理论模型•一元线性回归模型，描述因变量y如何依赖于自变量x和误差项e而异。在该模型中，y是x的线性函数加上误差项e•：模型的未知参数，分别为回归常数、系数；反映了由于x的变化而引起的y的变化，即边际变化（当变量x变化一个单位时，变量y改变的数量）•e是误差项的随机变量，代表因主观和客观原因而不可观测的随机误差，反映了除x和y之间的线性关系之外的随机因素对y的影响，是不能由x和y的线性关系揭示的变异性xy10x1010、x10线性回归模型的基本假定•零均值，即。误差项是期望值=0的随机变量–在自变量取一定值的条件下，其总体各误差项的条件平均值为0；即在等式（1）中，由于β0和β1都是常数或系数，故有–对于一个给定的x值，y的期望值为•等方差，即对于所有的x值，e的方差σ2都相同•误差项服从正态分布，且相互独立，即0)(E00)(E11)(ExyE10)(),0(~2N对于一个特定的x值，它所对应的与其他x值对应的不相关对于一个特定的x值，它所对应的y与其他x对应的y不相关为什么使用MLM•社会科学数据的多层结构–同一群体的样本具有相似性，不相独立–同样的样本，但提供的信息量少–常规模型可能低估标准误差–样本间的关联度越大，参数估计的误差越大–增加犯I类错误的可能性•多层模型：纠正标准误差，得出更为精确的结论多层模型•多层模型（multilevelmodels）•等级模型（hierarchicalmodels）•随机系数模型（randomcoefficientmodels）•随机效果模型（randomeffectsmodels）•变异成分模型（variancecomponentmodels）•情境效果模型（contextualeffectsmodels）多层模型与生态谬误（EcologicalFallacy）•多层模型解决社会科学研究领域的生态谬误•生态谬误、生态学谬误、层次谬误、区群谬误•Robinson（1950）利用1930年美国人口普查数据，分析48个州的识字率与新移民人口比例的关系–当以州为分析单位时，二者之间的相关系数为0.53–当以个体资料为分析单位时，二者的相关系数仅为-0.11–群体资料可能会掩盖群体内个体之间的差异•生态谬误≠简化论/还原论：“以偏概全”(个体--群体)vs.群体--个体MLM的技术优势与局限•优势：与普通模型相比，MLM（GuoandZhao2000）：–纠正参数估计误差–改善置信区间（confidenceintervals）和显著性检验（significancetests）；降低犯I类错误的可能性（TeachmanandCrowder2002）–系统地区分不同层次自变量对因变量影响的大小•局限–分析较复杂–难以处理两个关系：一是变量之间间接的影响关系；二是复杂的实测变量和潜在变量之间的关系MLM的适用性•可用于横向数据分析和纵向数据分析•可用于线形因变量分析和非线性因变量分析•两种情况下不适用（Hox1998）–高层次的随机变量对因变量的变异缺乏显著重要性–同一群体（cluster）内每个单元的样本量很少•MLM对样本量的要求因研究兴趣和目的而异：–如果研究兴趣在于固定参数：30：30–如果研究兴趣在于不同层次因素的互动：50：20–如果研究兴趣在于随机因素（即方差和协方差成分）：100：10MLM的基本原理（I）•MLM分解因变量中的变异（variance）：–寓于同一群体的个体差异：“群内变异”（within-groupvariance）–不同群体之间的个体差异：“群间差异”（between-groupvariance）•通过分解变异，多层模型区分群体效果和个体效果•方差分析总方差=群间方差+群内方差（Totalvariance=between-subjectvariances+within-subjectvariances）•群内方差(Proportionoftotalvarianceduetosubjects))var()(ijjijyVarMLM的理论原理（II）•每个层次都可以通过一个次模型来表示。次模型：–表达同一层次变量之间的关系–描述某个高层变量对其它层次变量的影响–揭示高层单位（群体）自变量与低层单位（个体）自变量之间的关系•其基本原