2004-3-10ExploratoryFactorAnalysis&SPSSApplication1数据简化技术——探索性因素分析及SPSS应用DataReductionTechnique——ExploratoryFactorAnalysis&SPSSApplication2004-3-10ExploratoryFactorAnalysis&SPSSApplication2提纲第一节因素分析原理概述一、因素分析基本原理二、因素分析模型及条件三、SPSS因素分析功能选项第二节因素分析的步骤一、数据适当性考察和因素数确定二、求解因素模式三、因素的解释和命名——因子旋转第三节斜交旋转和因子值应用一、因子相关时的旋转——斜交旋转法二、因子值的意义及应用(可选讲)2004-3-10ExploratoryFactorAnalysis&SPSSApplication3因素分析的主要目的心理学研究中的一些心理特质(如自我、人格、智力等)往往都是一些“潜在变量”,只能通过对一些可观测的“外显变量”的测量间接反应之。用一般的多元统计方法往往使得对数据的分析和描述陷入混乱。不仅如此,变量间的高度相关还会极大地削弱某些统计方法的效果。数据化简技术:主成分分析、对应分析、典型相关分析、多维量表法等。因素分析主要针对等距尺度变量。其主要目的:1.通过寻找或确定几个较少的假想“因子”来反映多个观测变量中蕴含的大部分信息,从而浓缩或化简观测数据。2.浓缩后的因子代表了数据间的基本结构,通过得到的因子估计值使研究者更方便地掌握数据的本质特质以及因子和观测变量之间的关系。“多重共线性”返回2004-3-10ExploratoryFactorAnalysis&SPSSApplication4因素分析的发展历程思想基础:包括启蒙运动(theEnlightenment)在内的思潮对绝对论(absolutism)的批判:任何实体都可能不是它表现出的模样,而是对其潜在现象的反映;符号主义(Symbolism)、表现主义(Expressionism)。19世纪兴起的对机械唯物主义的批判,提倡宏观论。发展历程:•最早由KarlPearson(1901)引入;•最早由CharlesSpearman在创立其智力理论时应用;•Thurstone(1931)发展的“commonfactortheory”是其重要的理论基础,1940’s-1960’s是其发展的辉煌期。返回2004-3-10ExploratoryFactorAnalysis&SPSSApplication5因素分析的发展历程三种主要应用观点:•特质理论(Traittheory):Spearman,Thurstone,Cattell回答:一组观测变量背后潜在的基本特质是什么?•Dustbowlempiricism:GodfreyThompson,HenryKaiser回避了内容和理论,而关注应用•聚类分析(Clusteranalysis):Holzinger,Tyron,&Bailey相信较低水平的观测(如项目)可以被整合成较高水平的具有理论价值的构念。返回2004-3-10ExploratoryFactorAnalysis&SPSSApplication6第一节因素分析原理概述CommonFactorTheory及变异分解题项1:我对我的薪水感到满意;题项2:我对工作中的同事感到满意;题项3:我对工作中的上司感到满意。问题:我测量的是一个东西吗?因素分析假设变量的变异可分解成三个部分:公因子方差:各变量间的公共变异;特殊因子方差:不能由公因子解释的、变量特有的变异;误差方差:变量中不可信的、无法解释的变异;三者间的关系图示:2004-3-10ExploratoryFactorAnalysis&SPSSApplication71-h2指变量的变异中无法被公因子模型解释的部分比例因素分析使用变量间的相关(标准化数据的协方差)系数来估计公因子及连接因子和变量间的结构关系(因素负荷)。一因素分析基本原理公因子方差特殊因子方差误差方差“工作满意度”“上司人格特征”“情绪”可信的变异或“共同度”h2独特变异(1-h2)公因子F1X1X2X3X4l41l31l21l11因子F1“引起”或解释了题项1到4中的公共变异l41指“变量4在因子1上的负荷”返回2004-3-10ExploratoryFactorAnalysis&SPSSApplication8•主成分分析法(principalcomponentanalysis,PCA):一种独立于因素分析的数据化简方法,SPSS默认的分析方法。用以寻找将变量以最优方式结合成少数几个成分,保持总变异,主成分数=变量数,主成分是变异的几何抽象,不一定复合真实情况。信息保留较多。•主因子分析法(commonfactoranalysis,PFAorCFA):假设公因子可以完全解释变量间的相关关系,而不一定能完全解释变量的变异(即不考虑特殊因子),用以确定变量背后的结构并估计因子得分,更符合实际情况。通常在主成分分析的基础上进行,只分析公共变异。常用于对变量方差不了解并不太考虑信息丢失的情况。一因素分析基本原理简化数据探索结构2004-3-10ExploratoryFactorAnalysis&SPSSApplication9一因素分析基本原理将一组相关的观测变量转换成少数几个不相关的公因子,变换不改变变量的总方差,第一个主成分具有最大方差,随后抽取的主成分解释的数据变异量逐渐递减,如图13-1。第一、第二主成分分别是椭圆长轴、短轴;变量的变异用不相关的主成分表示。观测变量X、Y可表示为因子空间f1f2f3中的向量,向量长度即共同度,向量在三个因子轴上的投影称因素负荷,变量间相关系数等于两变量共同度与夹角余弦乘积。各变量的因素负荷、夹角由公因素方差、相关系数决定,所谓的“求因素解”无非是在空间中设置适当的坐标轴2004-3-10ExploratoryFactorAnalysis&SPSSApplication10二因素分析模型及条件公因子理论:p个观测变量,相当于一份问卷中的p个题项,它是一个随机变量;不同被试都将有p个不同的数据;m个公因子,其值称因子值(factorscore);ε代表残差,包括特殊因子和误差,是各变量中不能用公因子解释的部分;系数lij称为因子负荷(factorloading),表示第i个变量在第j个因子上的相对重要性(权数)。正交模型因子间不相关,斜交模型因子间相关。kmkmkkkimimjijiimmflflflxmjkmflflflxkiflflflx221111112121111,,1,,1返回2004-3-10ExploratoryFactorAnalysis&SPSSApplication11•观测变量标准化,变量和因素的均值均为0,方差均为1;•公共因素和独特因素间不相关,各独特因素之间也不相关(尤其在公因子分析法中);•观测变量间线性相关,一般绝大部分应不低于0.3;•正交模型要求公因子之间相互独立,尤其是主成分分析中;•等距型数据,一些特殊情况下等级型数据也可以接受;•最好是多元正态数据,尤其极大似然法;•样本量越小,样本数据的分布和线性关系越需要加以检验,最好是100以上。二因素分析的假设条件返回2004-3-10ExploratoryFactorAnalysis&SPSSApplication12子对话框功能选项Descriptives提供观测变量、初始解及相关矩阵有关统计量①Statistics②CorrelationMatrixExtraction提供因子抽取有关选项①Method②Analyze③Extract④Display⑤MaximumiterationsforconvergenceRotation提供因子旋转有关选项①Method②Display③MaximumiterationsforConvergenceScores提供因子值计算及处理选项①Saveasvariables②Method③DisplayfactorscorecoefficientmatrixOptions提供缺失值处理及显示格式选项①Missingvalues②CoefficientDisplayFormat三SPSS因素分析功能选项返回2004-3-10ExploratoryFactorAnalysis&SPSSApplication13第二节因素分析步骤•筛选观测变量•样本数据适当性考察•确定因子数•求解因素模式•因子旋转返回因素分析适合度检验参数估计正交旋转1.因素抽取主成分法主轴因子法极大似然法……未旋转解共同度特征值2.据碎石图和特征值确定因子数3.因素旋转方差最大法平均正交法斜交旋转……4.据简单结构解释或确定因子的含义5.报告因素模式和因素结构6.据结果调整旋转方法重复该过程至重复抽取过程2004-3-10ExploratoryFactorAnalysis&SPSSApplication14例13-1某研究者收集了100名被试对六种政策的回答数据,其中六个变量col1—col6分别表示“政府应当投入更多的教育经费”、“政府应当投入更多的经费减少失业”、“政府应当控制大企业”、“政府应当通过用校车送孩子上学加速废止种族隔离”、“政府应当增加少数民族的工作配额”和“政府应当扩展领先计划”。例子讲解分析之前,先要将原相关矩阵补齐,然后在相关阵前面增加两列标示变量ROWTYPE_和VARNAME_,取值分别为CORR和6个变量名,再增加第一行数据,ROWTYPE_列取值N,VARNAME_留空,其它6列变量取值100表明样本量。打开数据在SPSS因素分析菜单中按正常模式选择变量及其它选项后将命令粘贴到语句文件中,并将第二行语句改成:/MATRIX=IN(COR=*)2004-3-10ExploratoryFactorAnalysis&SPSSApplication15筛选观测变量筛选观测变量是一个复杂的问题,它涉及到理论构想,编制量表前开放式问卷项目的归纳整理和项目分析等。模型中包含了无关的变量或者剔除了相关的变量可能极大地影响分析的结果。以下观测变量最好不选入模型:1、标准差低,通常表现为观测变量中被试的反应趋同;2、重测信度低(建议0.2);3、最大负荷值lij小(建议0.4);4、共同度hi2小(建议0.16);5、最大负荷值lij与共同度hi2之比小(建议0.5);6、最大两个负荷值lij与共同度hi2之比小(建议0.25);7、取样适当性系数(MSA)过小;8、多极变量,即一个变量在几个因子上的负荷都较大。返回2004-3-10ExploratoryFactorAnalysis&SPSSApplication16样本数据适当性考察•Bartlett球度检验(Bartlett’stestofsphericity):近似χ2检验,Ho:“相关矩阵是单位阵”,显然,其显著性水平要至少小于0.05,才能拒绝Ho,说明各个变量间存在相关,适宜进行因素分析。例子中,近似χ2统计量=135.516,P0.001,拒绝Ho。•反映像相关矩阵(Anti-imagecorrelationmatrix):其元素等于偏相关系数的负数。公因子存在时,偏相关系数实际上是特殊因子间的相关系数估计,应当接近于零。例子中绝大部分远离对角线的元素都小于0.1,可以接受。•KMO取样适当性度量(Kaiser-Meyer-Olkinmeasureofsamplingadequacy):是变量间相关系数平方和占这两种系数平方和的比率。显然,KMO值越接近1越好。一般规定:0.9以上,极好;0.8以上,较好;0.7以上,一般。同时,每个变量的KMO值恰好为反映像相关矩阵的对角线元素,记为MSA(MeasuresofSamplingAdequacy)。例