结构方程模型与偏最小二乘法报告人:宁禄乔吴兵福何涛主要内容结构方程模型简介结构方程模型原理因子模型路径模型结构方程模型与偏最小二乘法基于两个潜变量的偏最小二乘法基于多个潜变量的偏最小二乘法偏最小二乘法的几何意义结构方程模型简介结构方程模型(StructuralEquationModel,SEM)协方差结构模型(CovarianceStructureModeling,CSM)线性结构方程模型LISREL(LInearStructuralRELationship)基于变量的协方差(相关系数)矩阵来分析变量之间关系的一种统计方法应用于社会学、教育学、心理学等为何要用结构方程模型很多社会、心理研究中涉及的变量,都不能准确、直接地测量,这种变量称为潜变量(Latentvariable),如智力、学习动机、家庭社会经济地位等等。我们只好退而求其次,用一些外显指标(observableindicators),去间接测量这些潜变量。例如:以学生父母教育程度、父母职业及其收入(共6个变量),作为学生家庭社会经济地位(潜变量)的指标;以学生语文、数学、英语三科成绩(外显变量),作为学业成就(潜变量)的指标。为何要用结构方程模型回归分析虽然容许因变量含测量误差,但需要假设自变量是没有误差的。当自变量和因变量都不能准确测量时,理论上来说,线性回归方程是不能用来估计变量之间的关系。结构方程分析经常用来比较不同的模型。例如,被测试学生接收多个科目(语文,数学,英语,生物,化学,物理,地理,历史等)的测验,我们提出不同模型去解释各种能力之间的关系。这包括:(1)所有能力可用一个一般能力(类似心理学上一般智力)来表达;(2)各种能力可分为文、理两类;(3)其他。结构方程分析将同一组数据用不同的模型去拟合,看看哪一个模型拟合得更好,从而推测学生各科目能力的结构。一种量化研究方法定性研究-定量研究(演绎)例如:顾客满意度与顾客忠诚智商,情商与成就……定量研究-定性研究(归纳)调查问卷-数据挖掘结构方程分析纯粹验证(strictlyconfirmatory):只有一个模型去拟合一个样本数据,分析目的是决定接受还是拒绝这个模型选择模型(alternativemodel):提出数个不同的可能模型,从各模型拟合样本数据的优劣,决定哪个模型最为可取。模型产生(modelgenerating):先提出一个或多个基本模型,检查这些模型是否拟合样本数据,基于理论或样本数据,分析找出模型中拟合欠佳的部分,修改模型,并通过同一数据或其他样本,检查修正模型的拟合程度,整个分析过程的目的在于产生一个最佳模型。学科12345678911.0020.121.0030.080.081.0040.500.110.081.0050.480.030.120.451.0060.070.460.150.080.111.0070.050.440.150.120.120.441.0080.140.170.530.140.080.100.061.0090.160.050.430.100.060.080.100.541.00模型学科可分为三组(即三个因子):学科1,4,5为一组;学科2,6,7为一组;学科3,8,9为一组;这三组成绩可能相互关联。0.730.690.650.190.680.680.220.650.220.650.810.66学科1学科4学科5学科2学科6学科7学科3学科8学科9第一组第二组第三组模型路径图11x12x13x31x32x13321x22x23x24x结构方程分析原理结构方程模型是验证性因子模型和(潜变量)因果模型的结合。因子分析算法原理因子模型x1,x2,x3是潜变量1的指标(indicator),x4,x5是潜变量2的指标测量方程(measurementequation),反映了因子(潜变量)与其测量指标之间的关系5252542424313132121211111,,,,xxxxx测量方程模型假设误差项的均值为零,即E(i)=0,i=1…5;误差项与因子之间不相关,即cov(i,j)=0,i=1,2,j=1,2,…5;误差项之间不相关,即cov(i,j)=0,i≠j。矩阵形式x=x+5432121524231211154321,,00000,xxxxxxx)var(),cov(),cov(),cov(),cov()var(),cov(),cov(),cov()var(),cov(),cov()var(),cov()var(5453525154342414323132121xxxxxxxxxxxxxxxxxxxxxxxxx55222522242522131522121522111524422242213142212142211142331123111213111113122112211111211111211)(学科12345678911.0020.121.0030.080.081.0040.500.110.081.0050.480.030.120.451.0060.070.460.150.080.111.0070.050.440.150.120.120.441.0080.140.170.530.140.080.100.061.0090.160.050.430.100.060.080.100.541.00学科12345678911.0020.101.0030.110.101.0040.500.090.101.0050.480.090.090.451.0060.100.460.100.090.091.0070.090.440.090.090.080.441.0080.130.120.530.120.120.120.111.0090.110.100.430.100.100.100.090.541.000.730.690.650.190.680.680.220.650.220.650.810.66学科1学科4学科5学科2学科6学科7学科3学科8学科9第一组第二组第三组模型路径参数与再生矩阵的关系cov(1,9)=0.73*0.22*0.66=0.11即学科1与学科9的相关系数=学科1负荷×两因子间相关系数×学科9负荷51),var(),,cov(),var(),var(1221222111iiii)var(),cov()var()var(),cov(),cov()var(),cov()var(5552225245224252444222423331123123112131131111221222112211211112111111211xxxxxxxxxxxxx路径分析算法原理例子:研究小学生受同学喜欢的程度,这个变量受到该生的学习成绩、欺负行为的影响,还会受到班主任对他的喜欢程度的影响,而班主任对他的喜欢程度也受到该生的学习成绩、欺负行为的影响。学习成绩(x1);欺负行为(x2);班主任的喜欢程度(y1);受同学喜欢的程度(y2)。2222121121212121111xxyyxxy术语在路径(因果)模型中,将回归方程称为结构方程(structuralequation),将标准化的回归系数称为路径系数(pathcoefficient)对整个模型,变量可分为外源(exogenous)变量和内生(endogenous)变量。外源变量是那些只起自变量作用的变量,内生变量是那些起因变量作用的变量12321313ezzz23432421414ezzzz路径图路径系数协方差的线性性质Z1和Z3的协方差),cov(,cov11yxayxaiikiiiki),cov(),cov(),cov(),cov(),cov(11123211311123213113zezzzzzezzzz21323131rr路径系数(续)32123132rr),cov(),cov(),cov(),cov(),cov(),cov(121343124211411234324214114zezzzzzzzezzzzz213243314321414141rrr3243314342124142rr433242123142213241314143rrrr结构方程分析原理结构方程模型是验证性因子模型和(潜变量)因果模型的结合。包含:因子模型部分称为测量模型(measurementmodel),其中的方程称为测量方程(measurementequation),描述了潜变量与指标之间的关系。结构方程模型包含的因果模型部分称为潜变量模型(latentvariablemodel),也称为结构模型,其中的方程称为结构方程(structuralequation),描述了潜变量之间的关系。结构方程模型测量方程结构方程xyxy方程说明y是由p个内生指标组成的p×1向量是由m个内生潜变量(因子)组成的m×1向量y是y在上的p×m因子负荷矩阵是p个测量误差组成的p×1向量x是由q个外源指标组成的q×1向量是由n个外源潜变量(因子)组成的n×1向量x是x在上的q×n因子负荷矩阵是q个测量误差组成的q×1向量方程说明(续)B是m×m系数矩阵,描述了内生潜变量之间的彼此影响是m×n系数矩阵,描述了外源潜变量对内生潜变量的影响是m×1残差向量模型假设测量方程误差项、的均值为零结构方程残差项的均值为零误差项、与因子、之间不相关,与不相关残差项与、、之间不相关参数矩阵一个完整的结构方程模型包含如下8个参数矩阵:y,x,B,,,,和y,x,B,在测量方程或结构方程中出现为潜变量的协方差矩阵为残差项的协方差矩阵和分别是和的协方差矩阵结构方程模型求解ΘΛΦΛΛBΓΦΛΛΦΓBΛΛBΨΓΦΓBΛxxyxxyyyxxxx~~~)(~)()()()()(θΣθΣθΣθΣθΣyyyy结构方程分析步骤模型建构(modelspecification)模型拟合(modelfitting)模型评价(modelassessment)模型修正(modelmodification)模型建构观测变量(即指标)与潜变量(即因子)的关系;各潜变量之间的相互关系(指定哪些因子之间有相关关系或直接效应);在复杂的模型中,可以限制因子负荷或因子相关系数等参数的数值或关系;模型拟合建立模型,设法求出模型的解,主要的是模型参数的估计(模型拟合)。在结构方程模型分析中,我们的目标是求参数使得模型隐含的协方差矩阵(即再生矩阵)与样本协方差矩阵的差距最小。如何定义差距,产生不同的模型拟合方法及相应的参数估计。常用的估计方法如下:工具变量(instrumentalvariable)两阶段最小二乘(twostageleastsquares)无加权最小二乘(unweightedleastsquares)最大似然(maximumlikelihoo