1一、因子分析的定义和数学模型1、统计学上的定义定义:在社会、政治、经济和医学等领域的研究中往往需要对反映事物的多个变量进行大量的观察,收集大量的数据以便进行分析,寻找规律。在大多数情况下,许多变量之间存在一定的相关关系。因此,有可能用较少的综合指标分析存在于各变量中的各类信息,而各综合指标之间彼此是不相关的,代表各类信息的综合指标称为因子。因子分析就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子反映原资料的大部分信息的统计学方法。因子分析的特点为:1)因子变量的数量远少于原有的指标变量的数量,对因子变量的分析能够减少分析中的计算工作量。2)因子变量不是对原有变量的取舍,二是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。3)因子变量之间不存在线性相关关系,对变量的分析比较方便。4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。对多变量的平面数据进厅最佳综合和简化,即在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理。显然,在一个低维空间解释系统,要比在—个高维系统空间容易得多。英国统计学家MoserScottl961年在对英国157个城镇发展水平地行调查时,原始测量的变量有57个,而通过因子分析发现,只需要用5个新的综合变量(它们是原始变量的线性组合),就可以解释95%的原始信息。对问题的研究从57维度降低到5个维度,因此可以进行更容易的分析。2、数学模型因子分析的出发点是用较少的相互独立的因子变量来代替原来变量的大部分信息,可以通过下面的数学模型来表示:其中F为因子变量或公共因子,可将它们理解为在高维空间中互相垂直的m个坐标轴。A为因子载荷矩阵,aij为因子载荷,是第i个原有变量在第j个因子变量上的负荷。如果把变量xi看成是m维因子空间中的一个向量,则aij为xi在坐标轴Fj的投影,相当于多元回归中的标准回归系数。ε为特殊因子,表示了原有变量不能被因子变量所解释的部分,相当于多2元回归分析中的残差部分。因子分析中的几个概念说明如下。(1)因子载荷在各个因子变量不相关情况下,因子载荷的就是第i个原有变量和第j个因子变量的相关系数,即xi在第j个公共因子变量上的相对重要性。因此,aij绝对值越大,则公共因子Fj和原有变量xi关系越强。(2)变量共同度变量共同度,也称为公共方差,反映全部公共因子变量对原有变量xi的总方差解释说明比例。原有变量的xi共同度为因子载荷矩阵A中第i行元素第平方和,即:22221,miijiiijhaxh原有变量的方差可以分成两个部分:和。第一部分2ih,反映公共因子对原有变量的方差解释比例,第二部分2i反映原有变星方差中无法被公共因子表示的部分。因此,第一部分2ih越接近于1(原有变量xi标难化前提下,总方差为1),说明公共因子解释原有变量越多的信息。可以通过该值,掌据该变量的信息有多少被丢失了。如果大部分变量的共同度都高于0.8,则说明提取出的公共因子已经基本反映了各原有变星80%以上的信息,仅有较少的信息丢失,因子分析效果较好。可以说,各个变量的共同度是衡量因子分析效果的一个指标。(3)公共因子jF的方差贡献公共因子jF的方差贡献定义为因子载荷矩阵A中第j列各元素的平方和,即21pjijiSa公共因子jF的方差贡献反映了该因子对所有原始变量总方差的解释能力,其值越高,说明因子重要程度越高。3、因子分析的4个基本步骤因子分析有两个核心问题:一是如何构造因子变量:二是如何对因子变量进行命名解释因子分析有下面4个基本步骤:(1)确定待分析的原有若干变量是否适合于因子分析(2)构造因子变量(3)利用旋转使得因子变量更具有可解释性(4)计算因子变量的得分下面分别进行讲述。4、确定待分析的原有若干变量是否适合于因子分析因子分析是从众多的原始变量中构造出少数几个具有代表意义的因子变量,这里面有一个潜在的要求,即原有变量之间要具有比较强的相关性。如果原有变量之间不存在较强的相关关系,那么就无法从中综合出能反映某些变量共同特性的少数公共因子变量来。因此,在3因子分析时,需要对原有变量作相关分析。最简单的方法就是计算变量之间的相关系数矩阵。如果相关系数矩阵在进行统计检验中,大部分相关系数都小于0.3并且未通过统计检验,那么这些变量就不适合于进行因子分析。SPSS在因子分析过程中还提供了几种检验方法来判断变量是否适于作因子分析。主要的统计检验方法有如下几种:1)巴特利特球形检验(BartlettTestofSphericity)巴特利特球形检验是以变量的相关系数矩阵为出发点的。它的零假设相关系数矩阵是一个单位阵,即相关系数矩阵对角线上的所有元素都为1,所有非对角线上的元素都为零。巴特利特球形检验的统计量是根据相关系数矩阵的行列式得到的。如果该统计量值较大,且其对应的相伴概率值小于用户心中的显著件水平,那么应该拒绝零假设,认为相关系数据矩阵不可能是单位阵,也即原始变量之间存在相关性,适合于作因子分析;相反,如果该统计量比较小,且其对应的相伴概率大于显著件水平,则不能拒绝零假设,认为相关系数矩阵可能是单位阵,不宜于作因子分析。2反映像相关矩阵检验(Anti—imagecorre1ationmatrix)反映像相关矩阵检验以变量的偏相关系数矩阵为出发点,将偏相关系数矩阵的每个元素取反,得到反映像相关矩阵。偏相关系数是在控制了其他变量对两变量影响的条件下计算出来的相关系数,如果变量之间存在较多的重叠影响,那么偏相关系数就会较小。因此,如果反映像相关矩阵中有些元素的绝对值比较大,那么说明这些变量不适合于作因子分析。3.KMO(Kaiser—Meyer—Olkin)检验KMO统计量用于比较变量间简单相关和偏相关系数,计算公式如下:其中:r2ij是变量i和变量j之间的简单相关系数,p2ij是变量i和变量j之间的偏相关系数。KMO的取值范围在0和1之间。如KMO的值越接近于1,则所有变量之间的简单相关系数平方和远大于偏相关系数平方和,因此越适合于作因子分析。如果KMO越小,则越不适合于作因子分析。Kaiser给出了一个KMO的标准;0.9<KMO:非常适合。0.8<KMO<0.9:适合。0.7<KMO<0.8:—般。0.6<KMO<0.7:不太适合。KMO<0.5:不适合。5、构造因子变量因子分析中有多种确定因子变量的方法,如基于主成分模型的主成分分析法和基于因子分析模型的主轴因子法、极大似然法、最小二乘法等。其中基于主成分模型的主成分分析法是使用最多的因子分析方法之一。下面以该方法为对象进行分析。主成分分析通过坐标变换手段,将原有的p个相关变量xi作线性变化,转换为另外一组不相关的变量yi,可以表示为:4y1、y2、y3、…yp、,为原有变量的第一、第二、第三、…、第p个主成分。其中y1在总方差中占的比例最大,综合原有变量的能力也最强,其余主成分在总方差中占的比例逐渐减少,也就是综合原变量的能力依次减弱。主成分分析就是选取前面几个方差最大的主成分,这样达到了因子分析较少变量个数的目的,同时又能以较少的变量反映原有变量的绝大部分信息。主成分分析放在一个多维坐标轴中看,就是对x1、x2,x3…、xp组成的坐标系进行平移变换,使得新的坐标系原点和数据群点的重心重合,新坐标系的第一个轴与数据变化最大方向对应(占的方差最大,解释原有变量的能力也最强),新坐标的第二个轴与第一个轴正交(不相关),并且对应数据变化的第二个方向…·因此称这些新轴为第一主轴u1、第二主轴u2……若经过舍弃少量信息后,原来的p维空间降成m维,仍能够十分有效的表示原数据的变化情况。生成的空间L(u1、u2……um)称为“m维主超平面”。用原样本点在主超平面上的投影近似地表示原来的样本点。主成分分析的步骤如下:(1)数据的标准化处理5确定m有两种万法;—是,根据特征值的大小确定,—般取大于1的特征值。二是,根据因子的累计方差贡献率来确定。—个m维主超平面究竟在多大程度上近似代替原变量系统呢?主成分分析产生的m维主超平面,能使数据信息损失尽可能小。所谓数据信息,主要反映在数据方差上,方差越大,数据中所包含的信息就越多,若一个事物一成不变,则无需对其进行研究。前m个因子的累计方差贡献率计算方法为:6、因子变量的命名解释因子变量的命名解释是因子分析的另外一个核心问题。经过主成分分析得到的yl、y2、y3、…、ym是对原变量的综合,原变量都是有物理含义的变量。对它们进行线性交换后,得到的新综合变量物理含义是什么呢?对于因子变量的解释,可以进一步说明影响原变量系统构成的主要因素和系统特征。在实际分析工作中,主要是通过对载荷矩阵A的值进行分析,得到因子变量和原变量的关系,从而对新的因子变量进行命名。载荷矩阵A中某一行中可能有多个aij比较大,说明某个原有变量xi可能同时与几个因子有比较大的相关关系。载荷矩阵A中某列中也可能有多个aij比较大,说明某个因子变量可能解释多个原变量的信息。但它只能解释某个变量一小部分信息,不是任何一个变量的典型代表。会使某个因子变量的含义模糊不清。在实际分析中,希望对因子变量的含义有比较清楚的认识。这时,可以通过因子矩阵的旋转来进行。旋转的方法有正交旋转、斜交旋转、方差极大法,其中最常用的是方差极大法。7、计算因子得分计算因子得分是因子分析的最后一步。因子变量确定以后,对每—样本点数据,我们希望得到它们在个同因子上的具体数据值,这些数值就是因子得分,它和原变量的得分相对应。有了因子得分,我们在以后的研究中,就可以针对维数少的因子得分来进行。6计算因子得分首先将因子变量表示为原有变量的线性组合,即:估计因子得分的方法有回归法、Bartlette法、Anderson—Rubin法等二、因子分析在SPSS中的实现过程1、实现步骤:步骤1:在“Analyze’菜单“DataReduction’’中选择Factor命令,如图1所示图1步骤2:在弹出的如图2所示FactorAnalysis对话框中,从对话框左侧的变量列表中选择这9个变量,使之添加到Variables框中。图2步骤3:单击Descriptives按钮,弹出FactorAnalysis:Descriptives对话框,如图3所示。7图3Statistics框用于选择输出哪些相关的统计量,其中:Univariatedescriptives:要求输出各变量的均数与标准差。Initialsolution:表示输出初始分析结果。CorrelationMatrix框中提供了几种检验变量是否适合作因子分析的检验方法,其中:Coefficient:要求计算相关系数矩阵。Significancelevels:显著件水平。选择此项给出每个相关系数的单尾假设检验的水平。Determinant:相关系数矩阵的行列式。Inverse:相关系数矩阵的逆矩阵。Anti-image;反映像相关矩阵检验。KMOandBartletttestofsphericity:KMO检验和巴特利特球形检验。步骤4:单去Extraction按钮、弹出FactorAnalysis:Extraction对话框,选择因子提取方法,如图4所示。因子提取方法在Method下拉框中选取,SPSS共提供了7种方法:Principalcomponents:主成分分析法。该方法假定原变量是因子变量的线性组合。第一主成分有最大的方差,后续成分,其可解释的方差越来越少。这是使用最多的因子提取方法。选择Eigenvalues项,在该选项后面可以输入1,指定提取特征值大于1的因子。单击Continue按钮返回FactorAnalysis对话框。图4步骤5:单击FactorAnalysis对话框中的Rotation按钮,弹出FactorAnalysis:Rotation对话框,如图5所示图5Method框用于选择因子载荷旋转方法,Varimax:方差极大法旋转,又称正交旋转。它使得每个因子上的具有最高载荷的变量数目8最小,因此可以简化对因子的解释。步骤6:单击FactorAnalysis