EquationChapter1Section1《多元统计分析》MultivariateStatisticalAnalysis主讲:统计学院许启发(xuqifa1975@163.com)统计学院应用统计学教研室SchoolofStatistics2004年10月注意电子文档使用范围第页1第五章因子分析【教学目的】1.让学生了解因子分析的背景、基本思想;2.掌握因子分析的基本原理与方法;3.掌握因子分析的操作步骤和基本过程;4.学会应用因子分析解决实际问题。【教学重点】1.因子旋转与因子得分;2.因子分析与主成分分析的联系与区别。§1概述一、引言1.问题提出(研究背景)在上一章,已经介绍了一种简化数据结构的方法——主成分分析法。其基本目的是从尽可能多地占有原始数据的总变差出发来构造少数变量的线性组合变量——综合变量。本章来讨论另外一种简化数据结构的方法——因子分析,它不同于主成分分析,可以看成是其推广形式。在经济学、人口学、社会学、心理学、教育学等领域中,有许多基本特征,例如:“态度”、“认识”、“爱好”、“能力”、“智力”等,实际上是不可直接观测的量。但是这些基本特征常常对事物的结果起着决定性作用。比如学生通过考试得到英语、高等数学、大学物理、计算机、统计学、多元统计、数理统计、经济学等课程的成绩。把每门课的成绩看作一个变量,显然这些变量必定受到一些共同因素的影响,比如全面智力,或者细分一点,如逻辑思维能力,形象思维能力和记忆力等,都是影响这些课程成绩的公共因素。另外,每门课程的成绩还可能受自己特点因素的影响,如英语的语言能力、大学物理的动手实验能力、高等数学的推理能力等。2.因子分析的产生1904年CharlesSpearman发表《对智力测验得分进行统计分析》一文,标志着因子分析方法的产生。因子分析最早用于心理学和教育学方面的研究,目前广泛应用于各领域。3.什么是因子分析因子分析就是要利用少数几个潜在变量或公共因子去解释多个显在变量或可观测变量中存在的复杂关系。换句话说,因子分析是把每个原始(可观测)变量分解为两部分因素,一部分是由所有变量共同具有的少数几个公共因子构成的;另一部分是每个原始变量独自具有的因素,即所谓的特殊因素部分或特殊因子部分。正是特殊因子的存在,才使一原始变量有别于其它原始变量。属于多元统计分析中处理降维的一种统计方法。由此可知,因子分析注重的是因子分析的具体形式,而不考虑各变量的变差贡献大小。例如,某公司对100名招聘人员的知识和能力进行测试,出了50首题的试卷,其内容包括的面较广,但总的来讲可以归纳为六个方面:语言表达能力、逻辑思维能力、判断事物的敏捷和果断程度、思想修养、兴趣爱好、生活常识等,我们将每一个方面称为因子,显然这里所说的因子不同于回归分析中的因素①。现假设100人测试的分数|1,2,,100iXi可以用上述六个因子表述为线性函数:1122661,2,,100iiiiiXaFaFaFi②其中,126,,,FFF表示六个因子,它对所有iX是共有的因子,通常称为公共因子①。它们的系数①因子是一种比较抽象的概念,后者具有极为明确的经济意义。②因子模型与回归模型在形式上相同,在实质上不同:①126,,,FFF是抽象因子,不是变量,其值不可直接观测;②参数的统计意义不一样。第页2126,,,iiiaaa称为因子载荷,它表示第i个应试人员在六因子方面的能力。i是第i个应试人员的能力和知识不能被前六个因子包括的部分,称为特殊因子,通常假定:2~(0,)iiN。因子分析的任务,首先估计出ija和方差2i,然后将这些抽象因子iF赋予实际背景的解释或予以命名。因子分析有两种类型:R型,对变量作因子分析;Q型,对样品作因子分析。二、基本思想因子分析的思想是通过变量(或样品)的相关系数矩阵(相似系数矩阵)内部结构的研究,找出能控制所有变量(或样品)的少数几个随机变量去描述多个变量(或样品)之间相关(相似)关系。这样因子分析一方面可简化观测系统,简化原始变量结构,再现变量之间的内在联系,达到降维的目的;另一方面可对原始变量进行分类,把相关性较高,即联系比较紧密的变量归为同一类,而不同类的变量之间的相关性较低。①公共因素,也称公共因子,是事物的基本特征或本质因子,是不可直接观测的潜在变量。第页3§2因子分析的数学模型实际工作中,我们所掌握的只是搜集到的样本数据资料,例如学生的各科成绩,企业的各项指标等。所以这里我们帖变量出发,通过变量模型,即总体因子分析模型引伸出样本因子分析模型。一、因子模型(正交因子模型)1.总体因子模型①1111122112211222221122mmmmppppmmpXaFaFaFXaFaFaFXaFaFaF用矩阵表示:111121112212222212mmppppmpmXaaaFXaaaFXaaaF简记为:111ppmmpXAF或1miijjijXAF(1,2,,)ip满足条件:①mp;②0EX;③0EF,()mDFI,即12,,,mFFF不相关且方差均为1;④0E,22212()(,,,)pDdiag,即12,,,p不相关且方差不同;⑤(,)0CovF,即F与不相关。模型解释:①模型将原始变量表为m个公共因子的线性组合,即将原始变量置于m个公共因子张成的空间下进行研究,因子分析的实质是将具有错综复杂关系的变量综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系;②12(,,,)mFFFF称为X的公共因子(综合变量),是不可观测的向量,可以理解为在高维空间中互相垂直的m个坐标轴;③ija为因子载荷,是第i个变量在第j个公共因子上的负荷。如果把iX看成m维空间中的一个向量,则ija表示iX在坐标轴jF上的投影。矩阵A被称为因子载荷矩阵;④为X的特殊因子,理论上要求的协方差矩阵为对角阵;⑤12,,,mFFF不相关,若相关,模型称为斜交因子模型;⑥因子分析与主成分分析的联系联系:同属降维技术,求解过程相似,特征向量和因子载荷之间具有联系。区别:因子分析注重模型的具体形式,而不考虑变量变差贡献大小;主成分分析的数学模型实质上是一种变换,而因子分析模型则是用来描述X协差阵结构的一种模型,当mp时,不考虑,因子分析也对应一种变量变换;主成分分析中每个主成分相应系数ijU是唯一确定的,每个因子的相应系数不是唯一的,即因子载荷阵不唯一,这为因子旋转奠定了基础。事实上,不妨设为一mm阶正交矩阵,则因子模型XAF可写①R型因子分析和Q型因子的计算过程完全相同,只不过出发点不同:R型是从相关系数矩阵出发;Q型是从相似系数矩阵出发。第页4成:()()XAF,则F也是公共因子,A是相应的因子载荷矩阵,因为仍满足约束条件:()()mDFDFI,(,)(,)0CovFCovF。2.样本因子模型标准化后的数据为*X,则由总体因子模型可得样本因子模型*XfAE其中A为因子载荷矩阵,含义同前;11121212221212pppnnnpeeeeeeEeeeeee,特殊因子矩阵;11121212221212(,,,)mmmnnnmfffffffffffff,公共因子矩阵;样本因子模型的性质可由总体因子模型得出①:*111201,2,,00(,,,)0jmnpnmpXjpfffIEEEdiagFE111二、因子载荷的统计意义及性质1.因子载荷矩阵的统计意义已知模型:1122iiiimmiXaFaFaF②两端右乘jF并取数学期望得:1122()()()()()ijijijimmjijEXFaEFFaEFFaEFFEF由于在标准化条件下,有:0EF,0E,()1iVar,0iEX,()1iVarX。因此()ijijXFEXFr,()ijijFFEFFr,()ijijFEFr所以上式可以写成1212ijjjjjmjijXFiFFiFFijFFimFFFijrararararra③故因子载荷的统计意义就是第i个变量与第j个公共因子的相关系数即表示iX依赖于jF的份量(比重)。统计学的术语应该叫作权,但由于历史的原因,心理学家将它称作载荷,即表示第i个变量在第j个公共因子上的负荷,它反映了第i个变量在第j个公共因子上的相对重要性。2.因子载荷矩阵的统计意义因子载荷矩阵A中,各行元素的平方和22221111212222221222222212mmppppmhaaahaaahaaa或2211,2,,miijjhaip①这里1(1,1,,1)n1。②这里iX已经标准化。③各因子互不相关,相关系数为0。第页5称为12,,,pXXX的共同度。为说明其统计意义,现在考察1122iiiimmiXaFaFaF的方差。2221122()()()()()iiiimmiVarXaVarFaVarFaVarFVar22222212iiiiimiaaah由于iX已经标准化,所以有221iih即:变量方差=公共因子方差+特殊因子方差这说明iX的方差由两部分组成:第一部分为共同度2ih,它刻划全部公共因子对变量iX的总方差所作的贡献;第二部分2i是特定变量所产生的方差,称为特殊因子方差,仅与变量iX本身的变化有关,它是使iX的方差为1的补充值。易见2ih越接近于1,因子分析越有效。3.公共因子jF的方差贡献及其统计意义因子载荷矩阵A中,各列元素的平方和22221112112222212222222212ppmmmpmgaaagaaagaaa或2211,2,,pjijigajm称为公共因子jF的方差贡献,它是第j个公共因子jF对所有原始变量iX的方差贡献总和。当公共因子jF的方差贡献与p个变量的总方差进行比较时,称jF的方差贡献率22111,2,,pjijigajmpp为第j个公共因子jF的方差贡献率。方差贡献率是衡量公共因子相对重要程度的一个指标。方差贡献率越大,该公共因子就相对地越重要。4.正交因子载荷不具有唯一性因为*XFAE,所以相关系数矩阵为①:**111RXXFAEFAEAFEFAEnnn1111AFFAEEAFFAEEnnnnAA②说明相关系数矩阵可以分解为两部分,但这种分解并不唯一。设U为一正交矩阵*()()XAFEAUUFE**()AFE**FAE这里,令*AAU,*FUR,相当于作一正交变换或正交旋转。前面已经讨论*F满足因子分析的要求所以,有**()RAAAA。NOTE:①若不考虑正交旋转时,因子载荷矩阵是唯一的;②即使在正交旋转情况下,共同度保持不变;③变量*kX与*lX的相关系数(或协方差)为因子载荷矩阵中第k行与第l行对应元素乘积之和,即**11221(,)mklklklkmlmkiliirXXaaaaaaaa。①这时,协方差阵与相关系数阵等价。②其中,122(,,)pdiag。第页6§3因子分析模型求解或估计可以说,因子载荷矩阵A的确立是因子分析中至关重要的一步,求解因子分析模型的过程就是寻找因子载荷矩阵A的过程。实际工作中,求解因子模型的方法很多,这里只介绍两种常用的方法。一、主因子法1.基本思想如果共同度2ih已知,随之特殊因子方差21iih也已知;或者特殊因