探索性因素分析及SPSS应用因子分析的定义SPSS中实现过程因子分析是将现实生活中众多相关、重叠的信息进行合并和综合,将原始的多个变量和指标变成较少的几个综合变量和综合指标,以利于分析判定。因子分析的核心作用:探索结构、简化数据因素分析的的作用英国统计学家MoserScott在1961年对英国157个城镇发展水平进行调查时,原始测量的变量有57个,而通过因子分析发现,只需要用5个新的综合变量(它们是原始变量的线性组合),就可以解释95%的原始信息。对问题的研究从57维度降低到5个维度,因此可以进行更容易的分析。因子分析的一个降维例子因子分析有两个核心问题:一是如何构造因子变量;二是如何对因子变量进行命名解释。(1)确定待分析的原有若干变量是否适合于因子分析。(2)求解初始因子解(3)利用旋转使得因子变量更具有可解释性。(4)计算因子变量的得分。因子分析的4个基本步骤因子分析是从众多的原始变量中构造出少数几个具有代表意义的因子变量,这里面有一个潜在的要求,即原有变量之间要具有比较强的相关性。如果原有变量之间不存在较强的相关关系,那么就无法从中综合出能反映某些变量共同特性的少数公共因子变量来。因此,在因子分析时,需要对原有变量作相关分析。因子分析前的准备工作最简单的方法就是计算变量之间的相关系数矩阵。如果相关系数矩阵在进行统计检验中,大部分相关系数都小于0.3,并且未通过统计检验,那么这些变量就不适合于进行因子分析。1.巴特利特球形检验(BartlettTestofSphericity)(单位矩阵的零假设)2.反映像相关矩阵检验(Anti-imagecorrelationmatrix)(偏相关系数)3.KMO(Kaiser-Meyer-Olkin)检验(0.6)是变量间相关系数的平方和除以变量间相关系数与偏相关系数平方和样本数据适当性考察•Bartlett球度检验(Bartlett’stestofsphericity):近似χ2检验,Ho:“相关矩阵是单位阵”,显然,其显著性水平要至少小于0.05,才能拒绝Ho,说明各个变量间存在相关,适宜进行因素分析。•反映像相关矩阵(Anti-imagecorrelationmatrix):其元素等于偏相关系数的负数。公因子存在时,偏相关系数实际上是特殊因子间的相关系数估计,应当接近于零。•KMO取样适当性度量(Kaiser-Meyer-Olkinmeasureofsamplingadequacy):是变量间相关系数平方和占这两种系数平方和的比率。显然,KMO值越接近1越好。一般规定:0.9以上,极好;0.8以上,较好;0.7以上,一般。同时,每个变量的KMO值恰好为反映像相关矩阵的对角线元素,记为MSA(MeasuresofSamplingAdequacy)。输出因子分析的初始解输出各个变量的基本描述统计量相关系数矩阵变量相关系数矩阵的行列式值反映像相关矩阵因子分析中有多种确定因子变量的方法,如基于主成分模型的主成分分析法和基于因子分析模型的主轴因子法、极大似然法、最小二乘法等。其中基于主成分模型的主成分分析法是使用最多的因子分析方法之一。下面以该方法为对象进行分析。求解初始因子解2.因子解特征值及因子贡献率:因子贡献反映的则是单个因子解释的数据总方差。所有公因子的累计贡献等于所有变量的共同度之和;如果公因子数等于变量数(主成分分析)则也等于原观测变量的总方差。公因子j的贡献记为Vj,等于所有模型/因素负荷矩阵中每列因子负荷的平方和;更常用“贡献率”指标(相等);主成分特征值等于其因子贡献。初始解主成分数等于变量数,三列依次是特征值(解释变异量)、因子贡献率、累计贡献率。应当抽取2个因子各公因子方差贡献可以用因素负荷平方和(Sumsofsquaredloadings),因为它可以由因素负荷矩阵中列元素的平方和求得。碎石图陡阶检验也显示抽取2因子确定公因子数公因子数确定牵涉到很多问题,如变量数、模型拟合度、因子贡献等。•因子数边界•特征值准则:—Kaiser准则,特征值≥1;—Joliffe准则,特征值≥0.7;•Cattell陡阶检验,也称碎石图(ScreePlot)检验,因子特征值中大的陡急坡度与缓慢坡度间的明显转折点;•累计贡献率(建议80%,实际中40%~60%也可做);•在极大似然估计法中,使拟合度显著性水平不再减小;•理论构想及公因子的可解释性也可作为参考218)12(nnm因子的解释和命名——因子旋转•因素分析的目的不仅是求公因子,更要是要知道每个因子的意义。根据主成分法计算的因素模式解释很麻烦,因为大多数因子都和许多变量相关。•因子旋转的目的:通过改变因子轴的位置,重新分配各因子所解释的方差比例,为了获得结构因子模式的“简单结构”(simplestructure):—在各因子上只有少数变量有较高的负荷,其它变量上的负荷(绝对值)很低;—每个变量只在少数因子上有很高的负荷;—任取两因子,每个变量只能在一个因子上有较高负荷。•简言之,就是调整因素负荷矩阵式中的行、列值向0和±1极化,使某些变量的负荷尽可能往某个因子上集中,而另一些变量的负荷尽可能往另一个因子上集中,使得每个因子上仅“负载”几个变量。正交旋转:因子轴之间保持90度角(因子不相关)SPSS提供三种基于“正交极大准则”的正交旋转法:•方差最大法(Varimax):使各因子(列)上与该因子有关的负荷平方的方差最大,即拉开列上各变量的负荷差异,最常用;•四次方最大法(Quartimax):使各变量(行)上因子负荷平方的方差达到最大,即拉开行上的负荷差异,易产生综合因子,大部分变量在该因子上都有较高负荷;•平均正交法(Equamax):上两种方法综合。在Rotation对话框选择Varimax旋转,选中复选框因素负荷图(Loadingplot),在Options对话框选中将负荷较低(0.3)的值隐藏并按负荷大小排列(负荷量为0.3表示因素只解释了该变量方差的10%,忽略)。因子的解释和命名——因子旋转因子的解释和命名——因子旋转典型的简单结构:可以看到变量col1、col2、col3和因子1有较大相关,变量col4、col5、col6和因子2有较大相关,变量对因子的归属一目了然。根据这些因子所解释的变量的含义,我们将因子1、2分别命名因子的解释和命名——正交旋转结果旋转图解:良好的旋转应当使得变量向量尽可能落在坐标轴附近,且各坐标轴附近积聚的变量数或者各因素的累计贡献应大致平均。二维坐标系中,正交旋转只需把坐标轴旋转到尽可能接近变量处即可。多维坐标系将因子空间分解成多个二维平面,分别进行简单结构的旋转,直到得出稳定、一致的结果。因子相关时的旋转——斜交旋转法•斜交旋转中的因素模式和因素结构因素负荷是向坐标轴平行投影;因素结构是向坐标轴的垂直投影;正交模型中,因素模式等于因素结构。•简单模式结构和简单因素结构两种旋转标准,通常前者更方便。•阅读斜交旋转结果的注意点:—区分模式矩阵(patternmatrix)和结构矩阵(structurematrix);—斜角解的因素负荷可能会超过1,计算因子贡献不能再使用负荷平方和办法(通常不给出);—不给因素变换矩阵而代之以因素间相关矩阵。SPSS斜交旋转法:•直接斜交极小法(DirectOblimin):由参数δ(Delta)控制倾斜程度,该参数控制因子轴的倾斜程度,其中δ≤0.8。一般δ取大负值时表示因子间倾斜程度越低,越不相关。•Promax法:Procrustes变换的一种特例,通过扩大初始简单结构中元素的大小差距(2次方或4次方)来取得简单结构。其参数κ(Kappa)即乘方数,κ1。此法比直接斜交旋转法的计算速度快,因此常用于大数据集。因子相关时的旋转——斜交旋转法旋转的评价•对正交旋转的批评:实际研究中,因素间的关系往往很难满足因素正交要求,应考虑使用斜交旋转。斜交旋转因子间的夹角随意,因此理论上说,它对于解释因子更有利。•斜交旋转的“高风险性”:结果受分析者对斜交参数的定义影响,很大程度上取决于分析者的主观经验;同时也不利于研究结果的交流。•替代办法:碰到因子间高度相关的情况,往往代之以减少因子数目或者做高阶因素分析,导致斜交旋转在实际应用中的功用被削弱。在实际分析工作中,主要是通过对载荷矩阵A的值进行分析,得到因子变量和原变量的关系,从而对新的因子变量进行命名。计算因子得分是因子分析的最后一步。因子变量确定以后,对每一样本数据,希望得到它们在不同因子上的具体数据值,这些数值就是因子得分,它和原变量的得分相对应。有了因子得分,在以后的研究中,就可以针对维数少的因子得分来进行。计算因子得分因子值意义及应用•某些情况下还要获得对因子的度量,如根据各因子得分对某个自变量或样本进行分类、评价。•因子得分不能简单地将变量值相加,因为各变量在因子上的负荷不同,所以应当赋予变量不同的权值,称为因子值(factorscore)。求因子值的过程就是求因素分析模型的逆过程,目的是用观测变量的线性组合来表达因子。计算案例i在因子p上的因子值是用该案例每个变量的标准化分数xji乘以相应的因子值系数(component’sscorecoefficients)wpj之和。•对于主成分法未经旋转求得的因子解可以直接得到因子值系数。通常是相应的因素负荷比上该因素的特征值。因此若不计较因素值单位,此时因素负荷就是因素值的估计。其它解法需要估计。SPSS提供的三种因子值或因子值系数的估计方法:都基于最小二乘原理,只是定义误差的方式不同。因子值意义及应用回归法求解使真因子得分和因子得分估计值的误差平方和达到最小的因子值系数,这样得出的因子得分可能相关,是SPSS中默认的方法。Bartlett法的误差是独特因素得分估计值;Anderson-Rubin法在其基础上增加因素间相互正交的条件。将标准化因子值作为新变量保存在当前数据文件中,计算出的因子值均值为0,默认的变量名为FAC1_1、FAC2_1、FAC3_1(分别对应因子1、2、3)等,其中第二个数字表示第一次分析过程。SPSS中实现过程(课后作业)SPSS中实现步骤研究问题表所示为20名大学生关于价值观的9项测验结果,包括合作性、对分配的看法、行为出发点、工作投入程度、对发展机会的看法、社会地位的看法、权力距离、对职位升迁的态度、以及领导风格的偏好。表9-220名大学生的9项测验结果合作性分配出发点工作投入发展机会社会地位权力距离职位升迁领导风格161613181617151616181915161818181719171717141718161616171717161918192019161516161818151616201716171818171918181616201516191417161613181617151616181915161818181719171717141718161616171717161918192019161516161818151616201716171818171918181616201516191417161613181617151616181915161818181719171717141718161616171717161918192019161516161818151616201716171818171918小结因子分析是由CharlesSpearman在1904年首次提出,其在某种程度上可以被看成是主成分分析的推广和扩展。因子分析就是用少量几个因子来描述许多指标或因素之间的联系,以较少的几个因子反应原资料的大部分信息的统计方法。小结因子分析有两个核心问题:一是如何构造变量,二是如何对因子变量命名解释。因子分析的基本步骤有四步:(1)确定带分析的原有若干变量是否适于因子分析;(2)构造因子解;(3)用旋转使得因子变量更具有可解释性;(4)计算因子变量得分。