因子分析—SPSS操作及其原理陶鑫2008-4-231在科学研究中,往往希望尽可能多地收集反映研究对象的多个变量,以期能对问题有比较全面、完整的把握与认识。多变量的大样本虽然能为科学研究提供大量的信息,但是在一定程度上增加了数据采集的工作量,更重要的是在大多数情况下,许多变量之间可能存在相关性,这意味着表面上看来彼此不同的变量并不能从各个侧面反映事物的不同属性,而恰恰是事物同一种属性的不同表现。2如何从众多相关的指标中找出少数几个综合性指标来反映原来指标所包含的主要信息,这就需要进行因子分析(FactorAnalysis),它是用少数几个因子来描述许多指标或因素之间的联系,即:用较少几个因子反映原始数据的大部分信息的统计方法。3在SPSS系统里,实现因子分析的功能是在DataReduction命令菜单中。4统计学原理因子分析的含义因子分析,又叫因素分析,就是通过寻找众多变量的公共因素来简化变量中存在复杂关系的一种统计方法,它将多个变量综合为少数几个“因子”以再现原始变量与“因子”之间的相关关系。5因子分析的主要应用寻找基本结构数据化简6寻找基本结构在多元统计中,经常遇到诸多变量之间存在强相关的问题,它会对分析带来许多困难。通过因子分析,可以找出几个较少的有实际意义的因子,反映出原来数据的基本结构。例如:调查汽车配件的价格中,通过因子分析从20个指标中概括出原材料供应商、配件厂商、新进入者、后市场零部件厂商、整车厂和消费者6个基本指标。从而找出对企业配件价格起决定性作用的几个指标。7数据化简通过因子分析,可以找出少数的几个因子来代替原来的变量做回归分析、聚类分析、判别分析等。8数学模型因子分析可以通过下面的数学模型来表示:独特因子公共因素9因子分析把每个原始变量分解成两部分:一部分是由所有变量共同具有的少数几个因子所构成的,即所谓公共因素部分;另一部分是每个变量独自具有的因素,即所谓独特因子部分。其中叫做公共因子,它们是在各个变量中共同出现的因子。我们可以把它们看作多维空间分布中互相垂直的个坐标轴。表示影响的独特因子,指原有变量不能被因子变量所解释的部分,相当于回归分析中的残差部分。叫做因子负荷(载荷),它是第个变量在第个主因子上的负荷或叫做第个变量在在第个主因子上的权值,它反映了第个变量在第个主因子上的相对重要性。10主成分分析:通过对一组变量的几个线性组合来解释这组变量的方差和协方差结构,以达到数据的压缩和数据的解释的目的。若有一些指标,取综合指标即它们的线性组合F,当然有很多,我们希望线性组合F包含很多的信息,即var(F)最大,这样得到F记为F1,然后再找F2,F1与F2无关,以此类推,我们找到了一组综合变量F1,F2,…,Fm,这组变量基本包含了原来变量的所有信息。主成分分析11主成分分析的数学模型12主成分分析与因子分析的公式上的区别因子分析(mp)主成分分析因子得分11111221221122221122ppppppppppyaxaxaxyaxaxaxyaxaxax1111122112211222221122mmmmppppmmpxafafafxafafafxafafaf11111221221122221122ppppmmmmppfxxxfxxxfxxx13因子分析的基本步骤1.确定因子分析的前提条件因子分析是从众多的原始变量中综合出少数几个具有代表性的因子,这必定有一个前提条件,即原有变量之间具有较强的相关性。如果原有变量之间不存在较强的相关关系,则无法找出其中的公共因子。因此,在因子分析时需要对原有变量做相关分析。通常可采用如下几种方法:14(1)计算相关系数矩阵计算原有变量的简单相关系数矩阵。观察相关系数矩阵,如果相关系数矩阵中的大部分相关系数值小于0.3,则各个变量之间大多为弱相关,这就不适合做因子分析。如果一个变量与其他变量间相关度很低,则在下一分析步骤中可考虑剔除此变量。15(2)进行统计检验在因子分析过程中提供了几种检验方法来判断变量是否适合做因子分析。主要统计方法有如下两种:4阶单位阵1.巴特利球形检验(BarlettTestofSphericity)。它是以变量的相关系数矩阵为出发点,零假设:相关系数矩阵是一个单位阵。如果巴特利球形检验的统计计量数值较大,且对应的相伴概率值小于用户给定的显著性水平,则应该拒绝零假设;反之,则不能拒绝零假设,认为相关系数矩阵可能是一个单位阵,不适合做因子分析。注:单位阵:主对角线上的元素都是1,其余的元素都是零的n阶方阵,叫做n阶单位矩阵162.KMO(Kaiser-Meyer-Olkin)检验。KMO统计量用于检验变量间的偏相关性是否足够小,是简单相关量和偏相关量的一个相对指数,由下式求得:KMO0.9非常适合0.8KMO0.9适合0.7KMO0.8一般0.6KMO0.7不太适合KMO0.5不适合17简单相关系数:相关系数:表示两要素之间的相关程度的统计指标。对于两个要素x与y,如果它们的样本值分别为xi与yi(i=1,2,...,n),它们之间的相关系数:18偏相关系数在多要素构成的系统中,当研究某一个要素对另一个要素的影响或相关程度时,把其它要素的影响视为常数,而单独研究两个要素之间的相互关系的密切程度时,称为偏相关。用以度量偏相关程度的统计量,称为偏相关系数。一级偏相关系数:假设有三个要素x1、x2、x3,它们之间的偏相关系数共有三个,即r12.3,r13.2,r23.1其计算公式分别如下:19r12.3,r13.2,r23.1又称为一级偏相关系数20二级偏相关系数:若有四个要素x1、x2、x3和x4,则有六个偏相关系数,即r12.34,r13.24,r14.23,r23.14,r24.13,r34.12,称为二级偏相关系数,计算公式如下:21222.提取因子决定因子提取的方法(即求初始因子)的方法很多,有“主成分分析法”,“主轴因子法”,“极大似然法”,“最小二乘法”,“Alpha因子提取法”和“映象因子提取法”等等。最常用的是“主成分分析法”和“主轴因子法”,其中又以“主成分分析法”的使用最为普遍。在提取因子的过程中涉及下列名词,现分别说明:23(1)特征值特征值是指每个变量在某一公共因子上的因子负荷的平方总和,又叫特征根。在因子分析的公共因子提取中,特征值最大的公共因子会最先被提取,最后提取特征值最小的公共因子。因子分析的目的就是使因子维度简单化,希望以最小的公共因子能对总变异量作最大的解释,因而提取的因素愈少愈好,而提取因子之累积解释的变异量则愈大愈好。24每个公共因子对原始数据的解释能力,可以用该因子所解释的总方差来衡量,通常称为该因子的贡献率,它等于和该因子有关的因子负荷的平方和,实际中常用相对指标来表示。相对指标体现公共因子的相对重要性,即每个公共因子所解释的方差占所有变量总方差的比例。(2)因子的贡献率253.决定旋转方法旋转法使得因子负荷量更易于解释。在因子提取时通常提取初始因子后,对因子无法作有效的解释。为了更好地解释因子,必须对负荷矩阵进行旋转,旋转目的在于改变每个变量在各因子的负荷量的大小。旋转方法有两种:一种为正交旋转,如“方差极大正交旋转法”,“四次方极大正交旋转法”,“等量方差极大正交旋转法”;另一种为斜交旋转,如“斜交旋转法”,“迫近最大方差斜交旋转法”等。正交旋转时,坐标轴在旋转过程中始终保持垂直,新生成的因子保持不相关性。斜交旋转中坐标轴中的夹角可以是任意度数,新生成的因子之间不能保持不相关性。在使用过程中一般选用正交旋转法(正交旋转可以最大程度的保证新生成的因子之间保持不相关性)。264.因子的命名因子的命名是因子分析的一个核心问题。旋转后可决定因子个数,并对其进行命名。对于新因子变量的命名要根据新因子变量与原变量的关系,即观察旋转后的因子负荷矩阵中某个新因子变量能够同时解释多少原变量的信息。275.计算因子得分计算因子得分是因子分析的最后一步。因子变量确定后,便可计算各因子在每个样本上的具体数值,这些数值就是因子的得分,形成的新变量称为因子变量,它和原变量的得分相对应。有了因子得分,在以后的分析中就可以因子变量代替原有变量进行数据建模,或利用因子变量对样本进行分类或评价等研究,进而实现降维和简化的目标。28因子分析的对话框介绍在FactorAnalysis对话框中,左边较大的矩形框是源变量框,右边“Variables”框为选入分析的变量框29各变量的基本统计量(包括均数,标准差和样本量)因子分析的初始解(包括原变量的公因子方差,与变量数目相同的因子,各因子的特征值及其所占总方差的百分比和累计百分比)相关系数矩阵相关系数矩阵单侧检验的概率值相关系数矩阵的行列式KMO和巴特利球型检验相关系数矩阵的逆矩阵反映象协方差阵和相关阵再生相关阵(给出因子分析后的相关阵及其残差,下三角为再生相关阵,上三角为残差,即再生相关系数与原始相关系数之差)Descriptives按钮30“Analyze”指定提取因子的依据:Correlationmatrix:相关系数矩阵(系统默认,当原有变量存在数量级的差异时,通常选择该选项)Covariancematrix:协方差矩阵“Extract”提取标准:Eigenvalusover:以特征值大于某数值为提取标准Numberoffactors:自定义提取因子的数量(正整数)“Display”输出内容:Unrotatedfactorsolution:未旋转的因子负荷阵Screeplot:碎石图(以特征值大小排列的原始变量序号为横轴,特征值为纵轴的加连线的散点图)MaximumIterationsforConvergence:最大迭代次数(正整数),系统默认25次Extraction按钮31Rotation按钮“Mothod”因子旋转方法:正交法None:不旋转(系统默认)Varimax:最大方差旋转法Quartimax:四次方最大正交旋转法Equamax:平均正交旋转法“Display”输出内容:Rotatedsolution:旋转后的因子负荷矩阵Loadingplot(s):旋转后的因子负荷散点图斜交法DirectOblimin:最大斜交旋转法,选此项,下方的Delta框被激活,可填入小等于0.8的值,系统默认0,即产生最高相关因子。Promax:斜交旋转法,选此项,下方的Kappa框被激活,系统默认4。该法允许因子间相关,远较最大斜交旋转法计算速度快,适于大型数据处理。-----------------------------------------------------------------------32FactorScores按钮“Method”求因子得分方法:Regression:回归法(系统默认)Bartlett:Bartlett法Anderson-Rubin:Anderson-Rubin法Displayfactorscorecoefficientmatrix:输出因子得分系数矩阵33Option按钮“MissingValues”缺失值处理:Excludecaseslistwise:剔除含有缺失值的所有观察单位(系统默认)Excludecasespairwise:剔除各对变量中含有缺失值的观察单位Replacewithmean:用各变量的均值替代缺失值“CoefficientDisplayFormat”因子矩阵的输出格式:Sortedbysize:按因子系数由大到小排列Suppressabsolutevalueslessthan:只列出大于某一数值的因子系数(系统默认0.1)34案例分析案例X1:每万人中等职业教育在校生数X2:每万人中等职业教育招生数X3:每万人中等职业教育毕业生数X4:每万人中等职业教育专任教师数X5:本科以上学校教师占专任教师的比例X6:高级教师占专任教师的比例X7:学校平均在校生人数X8:国家财政预算中等职业教育经