第五章因子分析【教学目的】通过本章教学应使学生了解因子分析模型,理解因子载荷阵的统计意义,了解方差旋转的作用,掌握用因子分析模型分析研究实际问题的能力。【教学重点】本章重点是要使学生了解因子模型及因子载荷阵的统计意义,掌握因子分析的方法。因子分析的概念因子分析是主成分分析的推广和发展,它也是从研究相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。它是多元分析中一种降维和分析、简化数据结构的方法。因子分析的基本思想根据相关性大小把变量分组,使得同组内的变量间相关关系强,不同组的变量间相关性较低,每组变量代表一个基本结构,这个基本结构称为公共因子,可用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一变量。因子分析的前提是观测变量间有较强的相关性。因子分析的数学模型Q型因子分析(对样品作因子分析)X1=a11F1+a12F2+……+a1mFm+ε1X2=a21F1+a22F2+……+a2mFm+ε2…………………………………..Xn=an1F1+an2F2+……+anmFm+εnx1,x2…..xn表示n个样品;R型因子分析(对变量作因子分析)X1=a11F1+a12F2+……+a1mFm+ε1X2=a21F1+a22F2+……+a2mFm+ε2…………………………………………..Xp=ap1F1+ap2F2+……+apmFm+εpX1,x2…..xp表示p个指标。因子模型的假设1m≤p;2模型为线性模型;3特殊因子之间是相互独立的;4公因子与特殊因子之间是相互独立的;5各公因子都是均值为0,方差为1的独立正态随机变量。其协方差矩阵为单位矩阵。因子模型中各统计量的含义因子的含义因子分析法中提到两种因子:公共因子和特殊因子。这两种因子都是指一个(或一组)假设的抽象的变量。公共因子公共因子F1,F2….Fm,指一组假设的抽象的潜在变量,在各个原观测变量的表达式中都共同出现的因子,是相互独立的不可观测的理论变量,可以理解为它们是在高维空间中互相垂直的m个坐标轴。特殊因子特殊因子ε,则指一个假设的抽象的变量,它只能用来解释一个原始的变量,与其它变量完全无关,各特殊因子之间以及特殊因子与所有公共因子之间都是互相独立的。它表示变量X不能被公共因子解释的部分。因子载荷模型中各公共因子的系数aij称为因子载荷,是连接观测变量和公共因子之间的纽带,其统计意义就是第i个变量与第j个公共因子的相关系数,即表示变量xi依赖公共因子Fj的分量,反映了第i个变量在第j个公共因子上的相对重要性。|aij|≤1,aij的绝对值越大,表明xi与Fj的相依程度越大。变量共同度因子载荷矩阵中第i行元素的平方和,称为变量xi的共同度。它反映全部公共因子对变量xi的影响,是全部公共因子对变量xi的方差所做的贡献。此值越接近1,表明该变量的几乎全部原始信息都被所选择的公共因子说明了。此值接近于0,说明公共因子对xi的影响很小,主要由特殊因子来描述。这个指标以观测变量为中心,它的意义在于说明如果用公共因子代替原变量后,原来每个变量的信息被保留的程度。例如,此值等于0.9548,说明公共因子提取了原变量95.48%的信息。公共因子对原变量的贡献因子载荷矩阵中各列元素的平方和,叫做公共因子Fj对x的贡献,它反映每个公共因子对数据的解释能力,是衡量公共因子相对重要性的指标。此值越大,表明公共因子Fj对x的影响和作用越大,计算出所有的指标,按其大小排序,就可以提炼出最有影响的公共因子。模型的特点1模型不受量纲的影响;2因子载荷是不唯一的,这种不唯一性从表面上看是不利的,但通过因子的变换(即因子轴的旋转),可使新的因子更具有鲜明的实际意义。因子载荷矩阵的求解建立因子模型的关键是要求出因子载荷矩阵,估计因子载荷矩阵的方法很多,有主成分法,极大似然法等,其中主成分法的使用较普遍。计算因子载荷阵可以从样本的协方差阵出发,也可以从样本相关阵出发。公共因子与变量个数一样多,且特殊因子方差为0时,因子载荷阵的第j列应该是ej与相应特征值平方根的乘积,而ej恰是第j个主成分的系数,故而得名主成分法。因子模型的旋转在因子分析模型中,公共因子与因子载荷阵的解不是唯一的。因子分析的目的不仅是找出主因子,更重要的是知道每个主因子的意义,以利于对公共因子命名和解释结果,若每个公共因子的涵义不清,难以找到合理的解释,可对因子载荷矩阵实行旋转,使每个变量仅在一个公共因子上有较大的载荷,而在其他公共因子上的载荷较小。求得初始因子模型后,一般来说,载荷矩阵的结构比较复杂,倘若能进一步简化,用公因子来线性表达标准化指标时就更容易作出有实际意义的解释,即使得矩阵中各列元素向0和1两极分化,但保持同一行中各元素平方和(各指标的公因子方差)不变,实现这一目的的变换方法叫因子轴的旋转。经常使用方差最大正交旋转,使得容易对公共因子命名和解释。目前还没有一个准则能帮助使用者选定一种特定的旋转技术,没有可以另人信服的理由能够说某种旋转方法优于其他的方法。因此,旋转方法的选择主要是根据研究问题的需要。因为现实中很少有完全不相关的变量,所以,理论上斜交旋转优于正交旋转,但斜交旋转中因子间的斜交程度受使用者定义的参数的影响,而且斜交旋转中所允许的因子间的相关程度是很小的,因为没有人会接受两个高度相关的公因子,致使斜交旋转优越性大打折扣,正交旋转应用更广泛。最常用的是方差最大正交旋转,它是系统的默认值。因子得分无论是初始因子模型还是旋转后的因子模型,都是将指标表示为公因子的线性组合。在因子分析中,还可以将公因子表示为指标的线性组合,此组合被称为因子得分函数,这样就可以从指标的观测值估计各个公因子的值,这种值叫做因子得分。由于因子得分函数中方程的个数小于变量的个数,因此不能精确的计算出因子得分,只能对因子得分进行估计。估计的方法很多,有加权最小二乘法,回归法等,常用的是汤姆森回归法。计算出因子得分,可将因子得分作为变量来用,进行其他的分析。用因子得分还可以计算因子总分,因子总分F=∑Fj*Fj的方差贡献率根据因子总分F可对样品(变量)进行排序或归类,作为评价的依据。因子分析的任务求出因子模型和因子得分函数中的全部系数,利用旋转后的因子模型并结合具体问题给公因子以恰当的解释,利用因子得分函数样品的因子得分,对样品进行分类或排序。因子分析的计算步骤1将原始数据标准化;2建立变量或样品的相关(似)系数阵R(Q);3求R(Q)的特征值及相应的单位特征向量,根据累计贡献率的要求取前m个特征值及相应的特征向量,写出因子载荷矩阵;4对因子载荷矩阵施行方差最大正交旋转;5计算因子得分,然后将它们用于各种进一步的分析中。主成分分析与因子分析的关系区别:主成分分析只是一般的变量变换,主成分是可观测的原始变量的线性组合,功能在于简化原有的变量群;因子分析则构造一个因子模型,公因子一般不能表示成原始变量的线性组合,因子的功能在于诠释原始变量之间的关系或结构。主成分分析中每个主成分的系数是唯一确定的;因子分析中因子载荷矩阵不是唯一的。联系:因子分析数学模型的特殊因子方差为0的时候,就形成特殊形式的因子分析,即主成分分析。两种方法均可在SPSSFORWINDOWS的因子分析过程FACTOR中实现,但用FACTOR过程实现主成分分析时,产生的因子载荷矩阵表,不能直接依据表的数据,写出各主成分与原变量的线性组合,需对各主成分上的载荷值分别除以相应主成分的特征值的平方根。因子分析的微机实现1因子分析在SPSS中的实现在SPSS主菜单中选择Analyze→DataReduction→Factor,可实现因子分析。2主成分分析在SAS中的实现在SAS/ASSIST模块中没有现成的菜单操作,须通过编程来实现因子分析。SAS/STAT模块中的Factor过程可实现因子分析。SPSS中的FACTOR过程因子分析的前提是观测变量间应该有较强的相关关系,如果变量间的相关程度小,它们不可能共享公因子,所以计算出相关矩阵后,可先对其进行检验,如果其中大部分相关系数都小于0.3,则不适合做因子分析。SPSS软件中提供了三个统计量帮助判断数据是否适合作因子分析:1反映象相关矩阵(Anti-imagecorrelationmatrix)此矩阵中元素等于负的偏相关系数。偏相关是控制其他变量不变,一个自变量对因变量的独特解释作用。如果有公因子存在,则变量之间的偏相关系数应该很小,因为它与其他变量重叠的解释影响被扣除掉了。若反映象相关矩阵中很多元素的值比较大的话(对角线上的元素除外),可能该数据不适合做因子分析。2KMO测度包括整个样本的和每个变量的,是对与普通相关相联系的偏相关小到何种程度的概括,它从比较观测变量之间的简单相关系数和偏相关系数相对大小出发,其值变化范围从0到1。当偏相关系数平方和远小于简单相关系数平方和时,KMO接近于1;KMO较小时,则表明不适合做因子分析。KMO0.5,不能接受。3BARTLETT检验H0:相关矩阵为单位阵,是单位阵则适合做因子分析。因子个数的确定准则特征值准则即取特征值大于等于1的主成分作为初始因子,放弃特征值小于1的主成分。因为每个变量的方差为1,该准则认为每个保留下来的因子至少应该能解释一个变量的方差,否则达不到精简目的。碎石检验准则按照因子被提取的顺序,画出因子的特征值随因子个数变化的散点图,根据图的形状来判断因子的个数。图形由陡变平,曲线开始变平的前一个点被认为是提取的最大因子数累积方差贡献率因子累积解释的方差比例也是确定因子个数时可以参考的指标,一般应达到70%-85%或以上。此外,公共因子与变量数之比为1:3。以上这些准则可结合起来运用。应注意的问题1用FACTOR过程实现主成分分析和因子分析时,应注意指标的同趋势化,即为了评价分析方便,需将逆指标转化为正指标,一般用逆指标的指标值的倒数代替原指标。2用FACTOR过程实现主成分分析时,指定公共因子的个数应与原变量的数目相等,此时因子模型中特殊因子的方差为0,形成特殊的因子分析,即主成分分析。