通径分析PathAnalysis̶基于SPSS统计分析软件Contents目录通径系数通径模型通径分析应用案例国内外研究现状通径分析概述PartOne通径分析概述01在多元回归分析中,特别是对影响因素的分析,但由于只考察变量之间的直接作用,而实际上变量之间的相关关系往往是一个复杂的传递过程,因此需要一种可以全面地考察变量间的相互作用,包括直接作用和间接作用的方法。爷爷奶奶外公外婆妈妈爸爸自己通径分析是美国数量遗传学家SewallWright(休厄尔·赖特)于1921年提出来的一种多元统计技术。它已经被广泛应用在生物学、心理学、社会学、计量经济学等领域。1889-1988当自变量数目比较多,且自变量间相互关系比较复杂(如:有些自变量间的关系是相关关系,有些自变量间则可能是因果关系)或者某些自变量是通过其他的自变量间接地对因变量产生影响,这时可以采用通径分析。通径分析是进行相关系数分解的一种统计方法。它的意义不仅在于揭示了在多个自变量x1,x2,…,xm,y的相关分析中,xi对y的直接影响力和间接影响力,而且还可以在x1,x2,…,xm,y间的复杂相关关系中,从某个自变量与其他自变量的“协调”关系中得到对y的最佳影响的路径信息,即从复杂的自变量相关网中,得到某个自变量决定y的最佳路径,具有决策的意义。X1yX2X3PartTwo国内外研究现状02国内国际国内国际PartThree通径系数03AXYBe1e2paxpbypbxpaype1rxype2通径图中的单箭头线称为直接通径(path),简称通径,表示因果关系,方向由原因指向结果。表示“通径”相对重要程度和性质的数量叫通径系数(pax)。双箭头线称为相关线(correlationline),表示变量间互为因果,是平行关系。表示“相关线”相对重要程度和性质的数量叫相关系数(rxy)。箭头表明变量间的关系是线性的。计算相关系数的方法,即:若二相关变量x1、x2有n组观测值,则x1与x2的相关系数r12的计算公式为:下面给出通径系数的确切定义与数学表达式。设y与x1、x2间存在线性关系x1回归方程:=b0+b1x1+b2x2y或y=b0+b1x1+b2x2+e(2-1)x2e其中。表示这三个相关变量间关系的通径图见右图2222112211)()(/))((/212121xxxxxxxxSSSSSPrxxxxxxyˆ0,0,ˆeeyye且由于b1、b2带有单位,不便于由b1、b2比较x1、x2对y影响的重要程度。现将y,x1,x2,e用标准差标准化,变为不带单位的相对数,再研究标准化变量的线性关系。由(9-1)得(9-2)(2-1)式-(2-2)式(9-3)(9-3)÷σ0①:记yˊ、x1ˊ、x2ˊ、eˊ为y、x1、x2、x3、e的标准化得或22110xbxbby)()(222111exxbxxbyy02220221110110exxbxxbyyeeexxxxxxyyy,,,222211110exbxbye02022101120221011ˆxbxbyPartFour通径模型04AXYBe1e2paxpbypbxpaype1rxype2通径模型是由一组线性方程组成的,反映自变量、中间变量、潜变量和因变量之间相互关系的模型,是以多元线性回归方程为基础的模型。X=paxA+pbxB+pbxrxyBY+payrxyAY+pe1e1Y=payA+pbyB+paxrxyAX+pbxrxyBX+pe2e2通径分析的理论已证明,任一自变量xi与因变量y之间的简单相关系数(riy)=xi与y之间的直接通径系数(Piy)+所有xi与y的间接通径系数,任一自变量xi对y的间接通径系数=相关系数(rij)×通径系数(Pjy)。在通径分析过程中,一般认为最难计算的就是通径系数。事实上,通过软件进行线性回归计算,计算结果给出的线性回归方程的标准系数(StandardizedCoefficients)也就是我们需要的通径系数,再乘以相关系数就可以获得间接通径系数。AXYBe1e2paxpbypbxpaype1rxype2外生变量内生变量通径分析中只受到模型之外的其他因素影响的变量称为外生变量。通径分析中受到模型中某些变量影响的变量称为内生变量。通径图可以直观的表现各个变量之间的相互关系。最终结果变量递归模型内因果关系结构中全部为单向链条关系、无反馈作用。无反馈作用意味着,各内生变量与其原因变量的误差之间或任意两个内生变量的误差项之间相互独立。非递归模型中任何两个变量之间存在双向因果关系,即有直接反馈作用;某个变量存在自身反馈;存在间接反馈;内生变量的误差项与其他项目相关。通径分析采用传统的教学方法,不仅步骤繁琐,学生不容易掌握,而且容易计算出错,因此限制了通径分析的教学和使用。PartFive通径分析应用案例05下面我们对某公司所有员工的人事工资资料进行通径分析。根据时间和逻辑顺序,我们假设确定此模型,很显然,此模型为递归的通径模型,各外生变量不存在测量误差,假设各通径的因果关系均为线性、可加,并进一步假设各内生变量之间不存在相关关系。当前工资根据通径模型,我们需要考察6个内生变量的通径系数,分别以这6个变量为因变量,以强制进入法将与之相关的所有变量作自变量进行多元回归分析,取标准化回归系数为通径系数。当前工资1、以目前工资为因变量以受教育水平、初始工资、是否少数民族、职位类别、性别、工作经验、以工作时间为自变量。2、以受教育水平为因变量以是否少数民族、性别、年龄为自变量。3、以职位类别为因变量以受教育水平、性别、工作经验为自变量。4、以工作经验为因变量以性别、年龄为自变量。5、以初始工资为因变量以受教育水平、是否少数民族、职位类别、性别、工作经验为自变量。6、以工作时间为因变量以年龄为自变量。是否少数民族性别年龄已工作时间当前工资工作经验职位类别受教育水平初始工资以上6次回归结果输出的标准系数即是通径系数(直接效果)受教育水平:R2=0.212,se=1−R2=0.888初始工资:R2=0.677,se=1−R2=0.568职位类别:R2=0.329,se=1−R2=0.819当前工资:R2=0.844,se=1−R2=0.359以前工作经验:R2=0.687,se=1−R2=0.559已工作时间:R2=0.003,se=1−R2=0.998误差估计以性别对当前工资的效果为例,解读结果:直接效果:性别当前工资:0.062间接效果1:性别以前工作经验当前工资:0.208×-0.128=-0.027间接效果2:性别以前工作经验初始工资当前工资:0.208×0.083×0.608=0.010间接效果3:性别以前工作经验职位类别当前工资:0.208×0.520×0.261=0.028间接效果4:性别以前工作经验职位类别初始工资当前工资:0.208×0.157×0.520×0.608=0.010间接效果5:性别职位类别当前工资:0.177×0.261=0.046间接效果6:性别初始工资当前工资:0.133×0.608=0.081间接效果7:性别职位类别初始工资当前工资:0.177×0.520×0.608=0.056间接效果8:性别受教育水平当前工资:0.352×0.079=0.028间接效果9:性别受教育水平初始工资当前工资:0.352×0.331×0.608=0.071间接效果10:性别受教育水平职位类别当前工资:0.352×0.490×0.261=0.083间接效果11:性别受教育水平职位类别初始工资当前工资:0.352×0.490×0.520×0.608=0.055总效果=0.062-0.027+0.010+0.028+0.010+0.046+0.081+0.056+0.028+0.071+0.083=0.5原因变量结果变量直接影响间接影响总影响是否少数民族受教育水平-0.132-0.132初始工资-0.061-0.044-0.105职位类别-0.066-0.606当前工资-0.024-0.151-0.175性别受教育水平0.3520.352初始工资0.1330.2090.342职位类别0.1770.2050.382以前工作经验0.208当前工资0.0620.4380.500年龄受教育水平-0.248-0.248初始工资-0.0140.014职位类别以前工作经验0.8130.813以工作时间0.0540.054当前工资-0.018-0.018对于各变量的效果分析摘要见左表,结果显示性别对当前工资的影响比年龄和是否少数民族更大,不仅具有直接效果(0.062),也具有多重间接效果,间接效果的总和达0.438,总效果为0.500。如果与原来观察相关(0.450)相比,总效果与观察相关数值非常接近,但是如果没有考虑间接效果,仅用直接效果来说明性别与当前工资的关系,会出现明显的低估的现象。思考谢谢Thanks