SEM简介路径分析验证性因子分析SEM线性因果关系SEM的产生与发展SEM的基本形式因果推断方法AMOS简介本讲内容SewallWright(1921,1934)提出路径分析路径图1960年代以前,路径分析基本处于休眠状态OtisDuncan(1966)以及其他学者将其引入社会学研究1930年代凯恩斯创立了联立方程模型模型识别SEM的产生与发展SEM的产生与发展(续1)Jöreskog(1966,1967)开发了验证性因子分析(CFA)Jöreskog提出卡方检验,用来比较可测变量的观测相关结构与假定模型所隐含的相关结构,从而否定(或暂时验证)假设模型,是SEM发展的里程碑Exploratorydataanalysisisdetectiveincharacter.Confirmatorydataanalysisisjudicialorquasi-judicialincharacter…Unlessthedetectivefindstheclues,judgeorjuryhasnothingtoconsider.Unlessexploratorydataanalysisuncoversindications,usuallyquantitativeones,thereislikelytobenothingforconfirmatorydataanalysistoconsider.(Tukey,1977)SEM的产生与发展(续2)将Wright的路径分析与Jöreskog的CFA融合在一起,从而诞生了SEM路径分析研究可测变量之间的关系SEM研究可测变量与潜变量之间的关系以及潜变量之间的关系CAF研究可测变量与潜变量之间的关系SEM的产生与发展(续3)基本假定所涉变量路径分析可测变量潜变量与可测变量CFASEM潜变量无关潜变量与可测变量可测变量可以有测量误差潜变量可以相关变量没有测量误差SEM的产生与发展(续4)1970年代,LISREL的诞生极大地促进了SEM的研究与应用1994年,创立了专门的杂志StructuralEquationModeling20世纪末,计算科学家和科学哲学家进一步发展了线性因果关系理论与算法,使得SEM在线性因果关系建模中的应用在理论、统计以及计算方面都得以深化和推广其他SEM分析软件EQS,Amos,EZPath,SEPath,COSAN,MxR中的SEM,SAS中的CALISFamilyTreeofSEMT-testANOVAMulti-wayANOVARepeatedMeasureDesignsGrowthCurveAnalysisBivariateCorrelationMultipleRegressionPathAnalysisStructuralEquationModelingFactorAnalysisExploratoryFactorAnalysisConfirmatoryFactorAnalysisLatentGrowthCurveAnalysisSEM的优势与局限优势(与多元回归相比)moreflexibleassumptions(particularlyallowinginterpretationeveninthefaceofmulticollinearity)useofconfirmatoryfactoranalysistoreducemeasurementerrorbyhavingmultipleindicatorsperlatentvariabletheattractionofSEM'sgraphicalmodelinginterfacethedesirabilityoftestingmodelsoverallratherthancoefficientsindividuallytheabilitytotestmodelswithmultipledependentstheabilitytomodelmediatingvariablesratherthanberestrictedtoanadditivemodeltheabilitytomodelerrortermstheabilitytotestcoefficientsacrossmultiplebetween-subjectsgroupsabilitytohandledifficultdata(timeserieswithautocorrelatederror,non-normaldata,incompletedatawhereregressionishighlysusceptibletoerrorofinterpretationbymisspecification,theSEMstrategyofcomparingalternativemodelstoassessrelativemodelfitmakesitmorerobust局限:SEMcannotitselfdrawcausalarrowsinmodelsorresolvecausalambiguities.Theoreticalinsightandjudgmentbytheresearcherisstillofutmostimportance.SEM的基本形式:结构模型潜变量(Latent/unobservedvariables)之间的因果关系外生变量(Exogenousvariables):ξ外生变量(Endogenousvariables):η()()(1)(1)(1)(1)()()()0(),()mmmnmmnmEEEEEnnmm无关SEM的基本形式:测量模型反映潜变量与可测变量(Observed/measuredvariables)之间的关系(1)(1)(1)()(1)(1)(1)()()()0(),()XxqqnqnYyppmpmEEEE因子载荷(loadings)无关结构方程图ObservedVariableLatentVariable.15:Loading.10:R2ObservedVariablesLatentVariables0.15Loadings图例ErrorVar.SEM示例:stabilityofalienation结构方程测量方程测量方程因果推断理论三个主要的因果模型潜在结果模型(Neyman,1923;Rubin,1974)事先假定变量间的因果关系评价一个变量对另一个变量的因果作用不能用于发现变量间的因果关系因果网络图(Spites,2000;Pearl,1995)利用有向非循环图描述多变量之间的因果网络关系根据数据学习因果网络的结构和网络的参数试图发现变量间的因果关系Granger因果模型(Granger,1969)图的几个基本术语图:点集合和边集合的二元组顶点/节点(vertex/node)~变量边(edge)~依存性无向边/有向边有向图(directedgraph):所有的边都是有向边箭头:原因变量→结果变量路径(path):从节点Xi开始,中间不重复经过节点到节点Xj的连续连接的边集合,不管边的方向有向路径:路径上所有的边的方向都是朝向Xj有向环:从Xi到Xi的有向路径有向图示例X1X1X3X4X5变量的Markov链有向图X1Y2Y5Y3Y4Y1有分支和扰动的树形图有向图的类型有向有环图(directedcyclicgraph):有有向环的图也称为非递归模型(nonrecursivemodel)有向无环图(directedacyclicgraph,DAG):没有有向环的图也称为递归模型(recursivemodel)X1Y2Y1无环图X1Y2Y1有环图哪种图所示的条件分布可以推导出变量的联合分布?DAG的几个术语父节点(parents):结果变量的直接原因子节点(child/daughter):原因变量的直接结果祖节点(ancestor):与某变量间有直接路径的所有变量后裔节点(descendent):从某变量出发的直接路径上的所有变量X2Y1Y2Y3Y4X1X3所有的父节点都是祖节点所有的子节点都是后裔节点DAG描述的概率分布对于一个DAG,总可以将所有节点排序,使得每个节点Xj的父节点都排在该节点之前DAG描述的概率分布为:(,,,)(,,,)121211nPxxxPxxxxnjjjDAG与因果机制如果DAG的有向边表示因果关系的话,则称其为一个因果网络一个因果网络可以被视为一个数据生成机制由网络的无父节点的变量开始产生数据然后产生下一代逐步进行,直至产生了所有变量的数据()xfujjj问题仅仅根据一个时点的观察数据能否找出变量间的因果关系?利用条件独立性是否可能判断因与果?Markov条件令PAj表示节点Xj的父节点的集合,一个DAG描述的概率分布具有如下的条件独立假定TheMarkovconditionimpliesthatvariableswillbeunconditionallydependentontheirparentsbutconditionallyindependentofallothernondescendentvariables,conditionalonparents.定理:令X、Y和Z为互不相交的节点集,则当且仅当X和Y被Z有向分离(d-separated)(,,,)()121PxxxxPxPAjjjjXYZ有向分离准则Apathissaidtobed-separated(orblocked)byasetofnodesZifandonlyifpcontainsachaini→m→joraforki←m→jsuchthatthemiddlenodemisinsetZ,orpcontainsaninvertedfork(orcollider)i→m←jsuchthatthemiddlenodemisnotinsetZandsuchthatnodescendentofmisinZ如果一个路径不是有向分离的,称为有向连接的(d-connected)AsetZofvariablescorrespondingtonodesintheDAGissaidtobed-separateasetofvariablesXfromYifandonlyifZblockseverypathfromanodeinXtoanodeinY.可用来推断:起初相关的变量何时变得独立起初独立的变量如何变得相关在给定原因条件下,其多个结果之间,如果没有因果关系的话,是相互独立的作为原因的多个因素,即使它们之间是相互独立的,但是给定结果后,这些原因可能变得相关了很难想象,两个原因相关,给定结果后,这两个原因因素变得相互独立了例:判断一个人是否吸烟吸烟(a)慢性支气管炎(c)饮用水含氟高(b)牙齿黄(d)被发现牙齿黄(e)()0.15Pa()0.01Pb()0.60()0.05PcaPca(,)0.99(,)0.90(,)0.97(,)0.03PdabPdabPdabPdab()0.70()0.01PedPed给定“牙齿黄”这一证据“吸烟”和“被发现牙齿黄”之间相关吗?给定“牙齿黄”这一证据“吸烟”和“饮用水含氟高”之间相关吗?给定“被发现牙齿黄”这一证据“吸烟”和“饮用水含氟高”之间相关吗?DAG的估计两个问题估计问题:给定一个DAG,G,和来自分布f的数据V,如何估计f模型选择问题:给定数据V,如何估计G估计问题:极大似然估计模型选择问题:利用极大似然估计来估计每个可能的DAG,并用AIC或其他准则来选择一个DAG111()(;)(;)nnmiijjjiijLfVfxPA干预与因果关系判断考虑一