结构方程模型的偏最小二乘算法

糸色望先生
2 ℃
2020-01-29

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

:2005-06-11.:国家自然科学基金资助项目(70472064).:刘金兰(1964-),女,教授,博士生导师,研究方向:系统工程.刘金兰,何涛,宁禄乔,吴兵福(,300072):对含两个潜变量结构方程模型的偏最小二乘(PLS)建模技术进行了研究,给出了相应的路径图模型设定步骤和求解算法,指出该方法本质上是一种迭代收敛算法.通过引入一种新的算符,给出了PLS算法命令图.并且基于命令图详细讨论了该算法在多维向量空间中的几何意义,在此基础上分析了不同权重关系(A型与B型)对算法的影响,得到了与其对应的各种几何图形.最后指出在算法已收敛与尚未收敛两种情况下,潜变量估计值的投影位置是不同的.:结构方程模型(SEM);偏最小二乘法(PLS);命令图;算法;几何意义:O123:A:1672-0946(2005)06-0776-05StudyonpartialleastsquaresalgorithmandgeometricmeaningofstructuralequationmodelsLIUJin-lan,HETao,NINGLu-qiao,WUBing-fu(InstituteofSystemsEngineering,TianjinUniversity,Tianjin300072,China)Abstract:Aimedatthestructuralequationmodelswithtwolatentvariablesandtwoblocksofin-dicators,acorrespondingpartialleastsquares(PLS)estimationalgorithmwaspresentedinthispaper.Basedonthearrowscheme,afurtherresearchontheiterativeprocessofPLSalgorithmwasmade.Inordertogetthecommanddiagram,anewfunctorwasadoptedinthePLSalgo-rithm.Moreover,basedonthecommanddiagram,thegeometricmeaningofPLSalgorithmhasbeendemonstrated.Thedifferentweightrelations(modeAandmodeB)wereanalyzedandsomeusefulgeometricdiagramswerederivedout.AndtherelationshipsbetweendifferentprojectionsandconvergenceofthePLSalgorithmhavebeengiven.Keywords:structuralequationmodeling(SEM);partialleastsquares(PLS);commanddia-gram;algorithm;geometricmeaning结构方程模型(StructuralEquationModeling,简称SEM)是由瑞典统计学家KarlG#Joreskog于20世纪70年代中期提出来的一种线性统计建模技术.近年来结构方程模型已被广泛应用于经济学金融学心理学行为科学等领域的研究.其主要原因为上述研究中所涉及的很多变量并不能直接准确地测量,这些变量称为潜变量(LatentVariable,简称LV).人们可以找到一些可观测的变量将其作为这些潜变量的/指标0(Indicators),进而间接研究潜变量的性质[1,2].传统的统计分析方法通常不能有效处理这些含潜变量的问题,而结构方程模型正是用来检验观测变量和潜变量潜变量和潜变量之间关系的一种多元统计方法.目前,主要有两大类估计技术来求解结构方程模型.)种是基于最大似然估计(ML)的协方差结构分析方法,该方法被称为/硬模型0(HardMode-l第21卷第6期2005年12月哈尔滨商业大学学报(自然科学版)JournalofHarbinUniversityofCommerce(NaturalSciencesEdition)Vol.21No.6Dec.2005ing),以LISREL方法为代表[3,4];另一种则是基于偏最小二乘(PLS)的分析方法,被称为/软模型0(SoftModeling),以PLS方法为代表[5,6].国内关于前者的讨论已有很多,但对后者的研究却较少.实际上,用PLS方法来求解结构方程模型相对于LIS-REL方法有诸多优点,例如PLS方法可以明确求出潜变量估计值,利用PLS方法求解时不需要预先假定总体数据服从某种分布等等[7].本文主要研究含两个潜变量结构方程模型的PLS算法(PLS-SEM)及其在多维向量空间中的几何意义.1结构方程路径图利用结构方程模型来研究具体问题时,通常首先要在已掌握的先验信息以及综合考虑具体环境的基础上画出结构方程路径图[8],以此作为进一步分析的依据.由于本文主要讨论通用的建模技术,并不打算涉及某个具体实际问题,因此直接给出一般的含两个潜变量结构方程路径图,见图1.1图1中F1F2分别为潜自变量和潜因变量,它们的PLS估计值分别记为LXLY.x1x2x3x4为F1的指标,y1y2y3为F2的指标.路径图左边部分称为X块(X-block),右边部分称为Y块(Y-block).2含两个潜变量PLS-SEM算法分析首先,需要依据画出的路径图对模型进行设定,具体模型如下:1)块结构(BlockStructure)xh=Ph0+PhF1+Th,h=1,2,3,4,(1a)yk=Pk0+PkF2+Tk,k=1,2,3.(1b)式(1a)中系数Ph称为指标xh的载荷(Loading),相应地,式(1b)中系数Pk为指标yk的载荷.ThTk为残差,Ph0Pk0为截距值.上述结构在PLS-SEM算法中被假定满足以下关系:¹期望关系E(xh|F1)=Ph0+PhF1,E(yk|F2)=Pk0+PkF2.º潜变量方差单位化var(F1)=1,var(F2)=1.»非相关性r(Th,F1)=r(Th,F2)=r(Tk,F1)=r(Tk,F2)=r(Th,Tk)=0.2)内部关系(InnerRelation)F2=B0+B1F1+E,同样假定满足以下关系E(F2|F1)=B0+B1F1,r(E,F1)=0.模型设定完成以后,就可以利用PLS算法来估计模型中各个参数,进而求解出整个结构方程模型.这里取样本容量为N,指标xhyk的样本观测值分别记为xhnykn,其中n=1,N并且所有数据都已经标准化.PLS算法主要分三步第一步:通过反复迭代得到潜变量估计值,具体步骤如下.令LXn=f1Eh(Xhxhn),(2a)LYn=f2Ek(Xkyhn),(2b)这里f1f2是标准化算子,因此有f1=?1NEnEh(Xhxhn)2-12.f2同理可得.根据选取的权重关系,又有LYn=Eh(Xhxhn)+dn,(3a)Ykn=XkLXn+dkn,k=1,2,3.(3b)接下来开始迭代:¹取初始权值X(1)k=1,当时k=k0,X(1)k=0,当kXk0时,这里1[k0[3.º将X(1)k代入式(2b),得L(2)Yn.»将L(2)Yn代入式(3a),得X(2)h.¼将X(2)h代入式(2a),得L(2)Xn.½将L(2)Xn代入式(3b),得X(2)k,若满足循环终止条件,则停止,否则转到第二步继续迭代.通常设定循环终止条件如下[8]:|X(n)-X(n+1)|10-5或|(X(n)-X(n+1))/X(n)|10-5.第二步:将由第一步得出的潜变量估计值#777#第6期刘金兰,等:结构方程模型的偏最小二乘算法及其几何意义LXnLYn分别与对应的指标观测值回归,得到xhn=phLXn+Lhn,(4a)ykn=pkLYn+Lkn.(4b)式中L为残差,p为回归系数.LXn与LYn之间的回归式如下:LYn=b1LXn+e,(5)式中e为残差,b1为回归系数.第三步:求出均值,给出最初的关系式.由于LXn=f1Eh(Xhxh),LYn=f2Eh(Xkyk),所以式(4)式(5)中的截距项分别为Ph0=xh-phLXn,Pk0=yk-pkLYn,b0=LYnh-b1LXn,至此,整个模型求解完成.3含两个潜变量PLS-SEM算法的几何意义311首先,为了简便地表述算法公式及其算法流程,引入一个算符Opt(即Optimize,优化的意思).例如,算符OptB(X;LY)就表示一个利用潜变量估计值LY和指标xh求解潜变量估计值LX的函数.算符Opt的右下标AB表示运算时所选取的权重关系的类型,后面将进一步对此进行解释.利用引入的算符Opt,就可以将前面的PLS-SEM算法更简洁地表示,见图2.2PLS-SEM图2称之为算法命令图.从图2可以很直观地刻画整个PLS-SEM算法流程,可以方便地判断出一次循环包含多少步,每步的输入输出是什么以及所选用的权重关系类型.例如,从图2中可知含两个潜变量PLS-SEM算法的流程如下.¹首先设定初始权重并求出权重之和LY.º执行算子OptB(X;LY)得到LX.»执行算子OptA(Y;LX)得到LcY.¼判断是否满足循环终止条件,若是,循环终止,若不是,用LcY替换LY继续迭代.显然上述步骤与前面介绍的算法是吻合的,因此可以利用算符Opt及其组成的命令图工具来简化分析.312根据向量分析的知识可知,统计学中的回归运算通常可以表示为在多维向量空间中某一点向某个超平面(Hyperplane)作垂直投影以及向量求和[9].从该点出发可以把PLS-SEM算法各步骤对应表示在一个多维向量空间中,由此得到相应的几何图形及其意义.首先定义两个基本图形,如图3所示.如无特别说明,以下讨论中提到的空间都是指多维向量空间.(a)(b)3结构方程模型中的某个指标可以用空间中过零点的一条直线来表示.如图3(a)就表示指标x1.这里需要强调一点,空间中所有直线以及超平面都在且仅在零点处相交.在图3(a)的基础上,用空间中过零点的一个超平面来表示某个块(Block).图3(b)就表示由指标x1x2x3x4所扩展出来的一个表示X块的超平面.为了直观描述,只画出多个指标中的最初两个所在的直线,如图3(b),但是实际上该超平面并非只由最初两个指标而是由全部指标共同扩展出来的.在图3(b)的基础上可以进一步画出含潜变量估计值的图形LX,见图4.4LX图4中Lx也落在超平面上,因为由公式(2a)可知LXn实际上是指标xhn的线性组合.根据以上的讨论,就可以进一步研究算符Opt的几何意义.前面已经说过,算符Opt右下标字母#778#哈尔滨商业大学学报(自然科学版)第21卷表示运算中所选取的权重关系类型.在PLS-SEM算法中,可以选用的权重关系通常分为2种形式,即A型权重关系(一组单元回归式)和B型权重关系(一个多元回归式),也记为modeAmodeB.究竟选取哪一种,应当结合所研究的具体问题进行考虑.一般情况下,建议对于潜自变量取modeB,对潜因变量取modeA.前面给出的算法也体现了这一点,见公式(3a)和(3b).不难看出,算符OptA(Y;LX)就对应于公式(3b)和(2b).所以,将它们与基本图形对应起来综合考虑,就可以得到算符OptA(Y;LX)的几何意义,见图5.5OptA(Y;Lx)为使图形简化,图5中代表X块的超平面画为一条线段,但是实际上这个超平面也是过零点的.图5清楚地表明公式(3b)对应于图中的垂直投影,而公式(2b)对应于图中的向量求和.因此,将算符OptA(Y;LX)所包含的运算步骤用/几何语言0描述出来就是:首先将潜变量估计值LX分别对Y块中的各个指标y1y2y3作垂直投影,然后将各个投影求和,便得到对应于Y块的潜变量估计值LY,这里LY=OptA(Y;LX).因此,图5从几何上直观地反映了算符OptA(Y;LX)的意义,有助于对PLS-SEM算法的理解.同理,可以得到算符OptB(X;LY)的几何意