路径分析与结构方程模型pathanalysisandstructuralequationmodeling路径分析的发展•20世纪初流行Pearson原理。其中的一个基本内容是相关关系是现实生活中最基本的关系,而因果关系仅仅是完全相关的理论极限。该理论认为没有必要寻找变量之间的因果关系,只需要计算相关系数。•相关分析的局限:仅仅反映变量之间的线性关系;所反映的变量关系是对称的;只有在正态假设下,相关思想才是有效的。•遗传学家SewallWright于1918-1921年提出pathanalysis,用于分析变量间的因果关系。•现代的路径分析由生物遗传学家、心理测验学家、计量经济学家以及社会学家的推动,引入latentvariable,并允许变量间有测量误差,同时极大似然估计代替了最小二乘法,成为路径系数的主流估计方法。•然而,习惯上把基于最小二乘的传统路径分析称做路径分析,而把基于极大似然的路径分析称做结构方程模型(structuralequationmodeling)路径分析与多元回归•多元回归模型是一种比较简单的因果关系模型,其所假设的因果关系不存在多环节的因果结构,假设各自变量与因变量的关系都是并列的。回归系数表示在控制其它自变量的条件下,每个自变量对于因变量单独的净作用•变量之间的因果关系可能是更复杂的传递过程,一个变量对某个变量可能是原因变量,但对于另外一个变量则可能是结果变量。此类情况就不能简单地以因变量或自变量的概念来划分变量类型,但可以用结构方程组或相应的路径图来表示。•多元回归优于简单回归:如果将简单回归看作是一个变量对另一个变量的毛测量,多元回归则是净测量;•路径分析则是进一步将毛测量与净测量之间的差值测量出来。实际上是将简单回归系数进行分解的过程x1yx2z2z1z3多元回归模型的因果关系路径模型的因果关系by21by12p31p21p32一、基本概念和理论•路径图:单箭头表示因果关系、双箭头表示相关关系;可观测变量用矩形框表示,不可观测变量用椭园表示;•模型中不受其它变量影响的变量是外生变量(exogenousvariable),受其它变量影响的则是内生变量(endogenousvariable);路径图中不影响其他变量的内生变量被称为结果变量(ultimateresponsevariable)•Directeffect,Indirecteffect,mediatorvariable手机顾客忠诚度的路径图耐用性使用的简单性通话效果价格e5e6感知价值顾客忠诚间接作用的检验•中间变量的前提是要有理论依据,然后再验证它的中间影响是否显著;•Barron&Kenny提出间接作用检验的步骤:1、用结果变量对中间变量做回归2、用中间变量对外生变量进行回归;3、用结果变量对第一步中的四个自变量进行回归;4、用结果变量对第一步中的自变量以及中间变量进行回归。•Agarwal&Teas(1997)的工作提出的判断法则是:如果第一步和第二步的估计中,解释变量统计显著;在第三步的估计中解释变量统计显著;在第四步的估计中中间变量统计显著,则说明中间变量的间接作用显著。区分nomediation,partialmediation,fullmediation.第二步:中间变量对外生变量第三步:结果变量对外生变量第四步:结果变量对外生变量及中间变量结论外生变量显著显著中间变量显著及外生变量显著部分间接作用外生变量显著显著中间变量显著,外生变量不显著完全间接作用不显著显著显著显著显著不显著无间接作用无间接作用在第一步自变量显著的前提下递归(recursive)模型与非递归模型一个模型中如果存在以下四种情况,就是非递归模型:1、模型中任何可个变量之间存在直接反馈作用;AB2、某变量存在自身反馈作用;ABC3、变量之间虽然没有直接反馈,但存在间接反馈作用;ABC4、内生变量的误差项与其它项相关。ABCee•递归模型可以直接用最小二乘法求解。传统的路径分析在对递归模型的处理时,要求各变量均为可观测变量,并且各变量的测量不能存在误差。•SEM技术通过发展了一套成熟的处理潜变量和测量误差的技术解决了这一问题。路径模型的调试与检验•路径模型的可识别性:不可识别(under-identified):模型中的信息不足以估计模型的参数。如非递归模型,其路径系数多于相关系数。可识别(identified):just-identified:信息正好能够完全估计模型中的所有参数。over-identified:模型中的相关系数多于路径系数。模型的调试(递归模型)•往往从饱和模型开始,对模型中的路径做一些删减。•饱和模型是指所有变量之间都有表示因果关系的单向箭头或表示相关关系的双向箭头联结。但饱和模型必须建立在一定的理论基础之上,因果关系要有逻辑关系和时间顺序。否则可以从非饱和模型开始,但是这个非饱和模型和我们所关注的模型应当有嵌套(nested)关系。删减的原则:理论依据与统计方法相结合1、具有足够理论依据的因果联系,如果其统计不显著,仍然应当加以仔细考虑。原因很可能是数据测量的问题或是多重共线性问题;2、对于一个理论依据很弱,或非研究焦点的路径,即使路径系数显著,如果非标准化的偏回归系数很小,也可将该路径删除。(小于0.05)对过度识别的路径模型的整体检验方法•路径模型的检验是指比较调试后的模型与原模型。•检验的方法是比较原模型与调试后模型的判定系数。•计算公式为(实例)2222(1)(2)(m)22222c(1)(2)(m)mmR,R,,R,R1-RR=1-(1-R)(1-R)(1-R),(generalizedvariance)对于有个内生变量例子,可建立个方程,设其回归后的判定系数分别为每个代表相应内生变量的方差中由回归方程所解释的比例。则表示回归方程末能解释的比例。定义整个路径模型的拟合指数为:被称为路径模型已经解释的广义方差占需要解释方差的比例。路径分析实例操作22cc222222t(1)(2)(n)tc2c2t2c2t1=1-(1-R)(1-R)(1-R),nm,1,QW11Wn-dlnQ=-(n-d)ln(),1ndRRRRRRQQRRR一般将基准模型的称为基准解释指数,被称为基准残差指数。相应的,可计算被基准模型嵌套的非饱和模型的相应指数其中而且。可得统计量的分布难以求出,可以根据构造统计量,=-()其中,为样本大小;为两模型的路2c2WdR径数之差,为基准解释指数;大样本情况下,渐近遵从自由度为的分布。案例路径图受教育水平年龄工作类别初始工资以前工作经验已工作时间当前工资e6e5e4e3e711111注意事项•注意1:事先没有明确理论假设的模型,即使通过很好的检验,也只能说明其对现有数据拟合得很好。•注意2:卡方检验的一个特点是受样本规模的影响较大,因此样本规模不能过大,也不能过小。可能结合Q值的大小来判断W检验是否受到了样本量的影响。结构方程模型概念及重要性•SEM:用测量变量的协方差矩阵来分析变量之间关系的一种统计方法,亦称协方差结构分析。•Measurementequation:描述latentvariable与indicator之间的关系;•Structuralequation:描述变量之间的关系SEM的优点•同时处理多个因变量;•容许自变量和因变量含有测量误差;•同时估计因子结构和因子关系;•容许更大弹性的测量模型:如英语书写的数学试题,其测量得分既从属于数学因子,也从属于英语因子;•可估计整个模型的拟合程度。SEM的软件包•AMOS:JamesArbuckle设计,SPSS代理();AnalysisofMomentStructure•EQS:PeterM.Bentler设计,MultivariateSoftware代理()•LISREL:KarlJoreskog&DagSorbom设计,ScientificSoftwareInternational.Inc代理();LInearStructuralRELationship•Mplus:BengtMuthen&LindaMuthen设计及代理()SEM的样本量要求•根据JamesStevens的理论,一个好的经验法则是在OLSRegression中每个因子有15个样本。SEM也应当满足这个要求。•Bentler&Chou(1987)指出,每个参数估计需要5个样本。一般而言,一个测量变量在分析中至少有一个典型的路径系数与其它变量相关,加上一个残差项或方差估计,每个因子15个样本是合适的。•当数据是非正态分布或有缺陷时(缺失值或异常点)时,对样本量的要求会更大。模型的识别•输入的数据点大于等于需要估计的参数,模型即可识别。•模型1中的3个输入[Q(Q+1)/2],4个需要估计的参数(一个因子方差,二个误项方差和一个因子载荷),模型2中有多少?模型的设定•由于latentvariable和误差项都没有单位,不设定单位将无法估算。有两类做法:1。固定方差法(fixvariance):将因子的方差固定为1(或其它常数)2。固定载荷法(fixloading):在每个因子中选择一个载荷固定为1(或其它常数项)。一般选择载荷较大的item.模型评价•模型的评价标准1、绝对拟合检验:卡方检验:不显著。卡方值与自由度之比小于2;Goodness-of-fitindex(GFI);AdjustedGFI(AGFI);最好大于0.9。绝对拟合指数对样本量和输入变量的正态性非常敏感。因此经常用相对拟合指数。2、相对拟合检验:TLI(塔克-刘易斯指数,应大于0.95),normedfitindex(NFI);Comparativefitindex(CFI);最好大于0.93、Rootmeansquareerrorofapproximation(RMSEA):近似误差的均方根取值为0.05及以下,而且其90%的置信区间的上限在0.08及以下,认为模型拟合很好;同时,其置信度检验也很重要,P值要大于0.05,才不能够拒绝原假设。AMOS中的报告:notesformodel,Fitmeasures,模型修正•Modificationindices左边是修正指数,右边是相关系数例题:模型描述•研究高中成就,性别是否对学生上重点院校及高校一年级的表现有影响。高中成就性别是否上重点院校大一成就例题2