•第一节因子分析方法•第二节因子分析模型•第三节因子分析模型的解•第四节方差最大正交旋转•第五节因子得分•推荐阅读第四章因子分析第一节因子分析方法•因子分析概念起源于20世纪初KarlPearson和CharlesSpearmen等人关于智力测验的统计分析。•因子分析是主成分分析的推广和发展,它是将具有错综复杂的关系变量(或样品)综合为较少几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子还可以对变量进行分类,它也是属于多元分析中处理降维的一种统计方法。•因子分析是通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个“抽象”的变量来表示其基本结构。这几个抽象的变量被称为因子,它能反映原来众多变量的主要信息。•因子分析的研究内容十分丰富,常用的因子分析类型是R型因子分析(对变量作因子分析)和Q型因子分析(对样品作因子分析)。例如:某公司对100名招聘人员的知识和能力进行测评,主要测评六个方面的内容:语言表达能力、逻辑思维能力、判断事物的敏捷和果断程度、思想修养、兴趣爱好、生活常识等,我们将每一个方面称为因子,显然这里所说的因子不同于回归分析中的因素,因为前者是比较抽象的一种概念,而后者有着极为明确的实际意义。假设100人测试得分xi可以用上述六个因子表示成线性函数:.06100,,2,1,2621621662211),(~定称为特殊因子。通常假含的部分,识不能被前六个因子包个应试人员的能力和知是第的能力。个应试人员在六个方面载荷,它表示第称为因子,,,们的系数通常称为公共因子,它是共有因子,个因子,它对所有表示,,,其中iiiiiiiiiiiiNiiaaaXFFFiFaFaFaX•因子分析的基本思想是把每个研究变量分解为几个影响因素变量,将每个原始变量分解成两部分因素,一部分是由所有变量共同具有的少数几个公共因子组成的,另一部分是每个变量独自具有的因素,即特殊因子。•Xi=∑aijFj+ei因子分析即是通过变量的相关系数矩阵内部结构的研究,找出能够控制所有变量的少数几个随机变量去描述多个变量之间的相关关系,这里这少数几个随机变量是不可观测的,通常称为因子,然后根据相关性的大小把变量分组,使得同组内的变量之间相关性较高,不同组的变量相关性较低。•R型从相关矩阵出发,Q型从相似系数矩阵出发。第二节因子分析模型•一、因子分析模型•X*:标准化后的数据,F:公共因子,e:特殊因子x1*=a11F1+a12F2+…+a1mFm+e1x2*=a21F1+a22F2+…+a2mFm+e2…xp*=ap1F1+ap2F2+…+apmFm+epX*=AF+e或X*=F'A'+e•其中X*=(x1*,x2*…,xp*)′,F=(F1,F2,…,Fm)′e=(e1,e2,…ep)′a11a12…a1mA=a21a22…a2m…ap1ap2…apm(mp)A称为因子载荷矩阵或因子负荷矩阵,aij是第i个变量在第j个因子上的负荷。•x*、F、e满足下列性质:(1)E(x*)=0E(x)=0(2)E(F)=0,E(e)=0(3)cov(F)=I,即各个公共因子不相关且方差为1。(4)cov(e)=∑=σ2I,即各个特殊因子不相关,方差要求相等。(5)cov(ei,F)=0,即公共因子与特殊因子是不相关的。因子分析的目的就是通过模型X*=AF+e以F代替X*,由于mp,从而达到简化变量维数的目的。因子分析和主成分分析有很多相似之处,在求解过程中,二者都是从一个协方差阵(或相似系数阵)出发,但两种模型是有区别的,主成分分析的数学模型实质上是一种变换,将原来坐标变换到变异程度大的方向上去,相当于从空间上转换观看数据的角度,突出数据变异的方向,归纳重要的信息。在主成分分析中每个主成分相应的系数aij是唯一确定的。而因子分析模型是描述原指标x协方差阵结构的一种模型,是从显在变量去提炼潜在因子的过程,因子的个数m取多大是要通过一定的规则确定的。因此,在因子分析中因子载荷阵不是唯一的。一般来说,作为自变量的因子F1,F2,…,Fm是不可观测的。•二、因子载荷量的统计意义与性质•1、因子载荷aij的统计意义xi*=ai1F1+ai2F2+…+aimFm+eiCov(xi*,Fj)=cov(∑aikFk+ei,Fj)=cov(∑aikFk,Fj)+cov(ei,Fj)=aijr=aijijjijiaFxFxr)var(*)var()*,cov(第i个变量与第j个公共因子的相关系数即可以表示为xi*依赖Fj的份量(比重)。•在各公共因子不相关的前提下,aij是xi*与Fj的相关系数,表示xi*依赖于Fj的程度。反映了第i个原有变量在第j个公共因子上的相对重要性。因此,aij的绝对值越大,则公共因子Fj与原有变量Xi的关系越强。•2、变量共同度及其统计意义•因子载荷阵A中第i行元素的平方和称为xi*的共同度。•h12=a112+a122+…+a1m2•h22=a212+a222+…+a2m2•。。。•hp2=ap12+ap22+…+apm21)var()var()var()var(22221*iiiijijijimjjijihaeFaeFaX因为xi*已经标准化这说明变量xi*的方差由两部分组成:第一部分为共同度hi2,它刻划了全部公共因子对变量xi*的总方差所作的贡献,反映了公共因子对变量xi*的影响程度。第二部分为特殊因子ei对变量xi*的方差所作的贡献。hi2反映了全部公共因子对变量Xi*的影响,是全部公共因子对变量方差所做出的贡献,或者说Xi*对公共因子的共同依赖程度,称为公共因子对变量Xi*的方差贡献。hi2接近于1,表明该变量的原始信息几乎都被选取的公共因子说明了。特殊因子的方差,反映了原有变量方差中无法被公共因子描述的比例。•3、公共因子的方差贡献及其统计意义•因子载荷阵中第j列元素的平方和称为公共因子Fj对xi*的贡献。•g1=a112+a212+…+ap12•g2=a122+a222+…+ap22•…•gm=a1m2+a2m2+…+apm2•gj表示第j个公共因子Fj对于X*的每一分量Xi*所提供的方差贡献的总和。称第j个公共因子的方差贡献。•是衡量某一公共因子相对重要性的指标,gi越大,表明公共因子Fj对X*的贡献越大,该因子的重要程度越高,或者说对X*的影响和作用越大。pgFjj的方差贡献率也是衡量公共因子相对重要性的另一指标。4、正交因子载荷不具有唯一性AAeDAFADeEAFAEeEAFeEAFEeAFeAFEeAFEXEXEXEXDR)()()()()()(2)()2)(()()())(()(22222222*2***•但此公式并非唯一公式:•其中:•因子载荷的不唯一性,从表面上看是不利的,但当因子载荷矩阵A的结构不够简化时,可以对A实行变换以达到简化的目的,使新的因子更具有鲜明的实际意义。)()(**AAAUAUAUAUAARAUAIUU*,•两个变量xk*与xl*的相关系数和协方差等于因子载荷阵中第k行与第l列对应元素乘积之和。qilikilqkqlklklkaaaaaaaaXXr12211**...),(例1某校对学生进行了测量语言能力和数学能力的六项考试。考试成绩都化为标准分。假定x1*,x2*,x3*是语言能力的三项不同考试的标准分,x4*,x5*,x6*是数学能力的三项不同的标准分。通过部分学生这六项考试成绩,得到相关系数矩阵:依此得出因子载荷矩阵:172.075.049.042.028.0178.042.036.024.0135.030.020.0142.028.0124.01R172.0843.0031.0848.0179.0926.0513.0477.0439.0409.0293.0272.0A据此可写出因子模型:621*6521*5421*4321*3221*2121*1172.0843.0031.0848.0179.0926.0513.0477.0439.0409.0293.0272.0effxeffxeffxeffxeffxeffx•还可求出各变量的共同度,各变量对应的特殊因子方差,各公共因子方差贡献率以及两个公共因子的累计方差贡献。变量ai1ai2共同度特殊因子方差X1*X2*X3*X4*X5*X6*0.2720.4090.4770.9260.8480.8430.2930.4390.513-0.1790.0310.1720.160.360.490.890.720.740.840.640.510.110.280.26方差贡献率45.9%10.1%56%44%累计方差贡献率45.9%56%因子变量的特点•1、因子变量的数量远少于原有指标变量的数量。•2、因子变量是对原始变量的重新组构,能够反映原有众多指标的绝大部分信息。•3、因子变量之间没有线性相关关系,对因子变量的分析能够为研究工作提供较大的便利。•4、因子变量具有命名解释性。•要建立实际问题的因子分析的具体模型,关键是根据样本数据估计载荷矩阵A。对A的估计方法有很多,这里主要介绍主成分法、主因子法。第三节因子分析模型的解的估计量。是样本。维是一组。对应的标准正交化向量为的特征向量,为,因此是标准化处理后的数据由于,的协方差阵为设随机向量SpxxxUUURXXXXXPppp),,,(,,,.),,,(**2*12121*21*•一、主成分分析法•在不考虑特殊因子的情况下:。的标准化正交特征向量的属于特征值为矩阵的特征值,为矩阵iiipppppppRURAAUUUUUUUUUUUURUURURUUIR221122112221110)(ppUUUA0000002121即:在考虑特殊因子的情况下:AAUUUUUUAARppppp22122112211当未知时,可用样本协方差阵S代替。•具体计算时,一般取前k个特征值所对应的因子载荷矩阵A的前k个列向量组成的矩阵作为因子载荷矩阵,只要使累计贡献率达到85%以上。•确定公共因子的个数有两种方法:一是根据具体问题的专业理论来确定,二是利用主成分分析中选取主成分个数的方法。•二、主因子法•主因子法的基本思想是使用多元相关的平方作为对公因子方差的初始估计。初始估计公因子方差时多元相关系数的平方置于对角线上。这些因子载荷用于估计新公因子方差,替换对角线上前一次的公因子方差估计。这样的迭代持续到,本次到下一次迭代结果公因子方差的变化满足提取因子的收敛判据。•1、给出共同度hi2的初步估计值hi*2以第i个变量xi*与其它所有变量x1*,x2*,…,xi-1*,xi+1*,…,xp*回归的复相关系数的平方作为初始估计值。•2、求出约化相关阵•计算φi*=1-hi*2,再计算出R*=R-φ*•3、求出特征根和特征向量•由方程︱R*-λI︱=0求出特征根,并利用特征根、特征向量求出因子载荷阵A1。•4、求出φ的估计,用估计值代替第二步的φ*•φ的估计:φ*(1)=R-A1A1′•5、继续第三步,直到A,φ的估计达到稳定为止•因子分析的目标之一就是要对提取的抽象的实际含义进行合理的解释。有时直接根据特征根、特征向量求解的因子载荷难以看出公共因子的含义。例如可能有些变量在多个公共因子上都有较大的载荷,有些公共因子对许多许多变量的载荷也不小,说明它对多个变量都有较明显的影响作用。这种因子模型反而是不利于突出主要矛盾和矛盾的主要方面的,也难