因子分析factoranalysis1、因子分析模型2、参数估计3、因子旋转4、因子得分5、因子分析的应用6、案例1、因子分析模型因子分析的概念因子分析是多元统计分析中处理降维的一种统计方法,它主要将具有错综复杂关系的变量综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系。因子分子可以看作是对主成分分析的推广,也是一种重要的降维方法。因子分析中通过因子旋转使得变量在降维后更容易得到解释。因子分析的思想:从分析多个可观测的原始指标的相关关系入手,找到支配这种相关关系的有限个不可观测的潜在变量。因子分析试图用几个潜在的、不可观测的地随机变量来描述原始变量间的协方差关系。例:为了评价即将进入大学的高中学生的学习能力,抽了200名高中生进行问卷调查,共50个问题。所有这些问题可简单归结为阅读理解、数学水平和艺术修养这三个方面。这是一个因子分析模型,每一个方面就是一个因子。数学模型设有P维可观测的随机向量x=(x1,x2,...,xp)’,其均值为μ=(μ1,μ2,.....,μp)’,协方差矩阵为∑=(σij),因子分析的一般模型为pmpmppppmmmmεfa.....fafaμxεfa.....fafaμxεfa.....fafaμx221122222121221121211111数学模型f=(f1,f2,…,fm)’为公共(共性)因子(commonfactor),简称因子(factor)。公共因子可理解为原始变量共同具有的公共因素。每个公共因子一般至少对两个原始变量有作用。ε=(ε1,ε2,…,εp)’为特殊因子(specificfactor)。特殊因子εi,只对原始变量xi有作用。f和ε均为不可直接观测的随机变量A=(aij)p*m为因子负荷(载荷)(factorloading)矩阵。数学模型通常先对x作标准化处理,使标准化得到的新变量均值为零,方差为1。模型形式为imimiiifafafax2211假设E(f)=0(fi的均值为0)E(ε)=0(εi的均值为0)V(f)=I(fi的方差为1,公共因子彼此不相关)V(ε)=D=diag(σ12,σ22,....,σp2)(εi的方差为σi2,特殊因子也彼此不相关)Cov(f,ε)=0(特殊因子和公共因子彼此不相关)满足以上假设的模型构成正交因子模型。如果允许公共因子彼此相关,即V(f)不是对角矩阵,则构成斜交因子模型。正交因子模型的特性x的协方差矩阵∑可分解为:∑=AA’+D在满足正交因子模型的假定下,可以推导出上述分解式。因子载荷矩阵A=(aij)pxm,当m=p时,,任何协方差矩阵均可按上式进行分解。出于降维需要,希望m比p小得多,通常只能使这种分解近似成立,近似程度越好,因子模型拟合得越佳。如果x为已标准化了随机向量,则其协方差矩阵∑就是原始变量的相关矩阵R,即有:R=AA’+D例:1000020000200004D29713412A,DAA865-42-205-52175-42-172711-205119)x,x,x,x(x4321,其中可分解为则的协方差矩阵为设随机向量因子载荷矩阵的统计意义aij是xi与fj之间的协方差函数。若x是以标准化了的随机变量,则aij是xi与fj之间的相关系数。),fCov(xajiijijjijijijia),fCov(x))V(fV(x),fCov(x),fρ(x因子载荷矩阵的统计意义若x是标准化了的随机向量,则iiiiimjijimiiiimiiiiiiiiσh)Var(xaaaahaaaxVarfα.....fαfαμx22122222122i22221imm2211)I)f(V()(设正交因子模型取方差对因子分析模型122iiσh因子载荷矩阵的统计意义A的第i行元素平方和hi2是全部(m个)公共因子对第i个变量(Xi)的方差贡献,称为第i个共同度(communality)或共性方差,公因子方差(commonvariance)。它越接近于1,说明变量Xi几乎全部原始信息都被所选取的公共因子说明了;若它接近于0,说明公共因子对Xi的影响很小,主要由特殊因子来描述。σi称为特殊方差(specificvariance),是不能由公共因子解释的部分,是特殊因子εi对xi的方差贡献。因子载荷矩阵的统计意义A的列元素平方和gj2是反映了公共因子fj对所有变量x1,x2,...,xp的影响,是衡量公共因子fj相对重要性的一个尺度,可视为公共因子fj对变量x1,x2,...,xp的总方差贡献。piimpiipiijσggg)(xVag12222121122jar设2、参数估计因子模型的参数估计设x1,x2,....,xp是一组p维样本,则μ和∑可分别估计为为建立因子模型,要估计因子载荷矩阵A和特殊方差矩阵D=diag(σ12,σ22,...,σp2)。niiinii)x)(xx(xnSxnx11111和参数估计方法主成分法极大似然法主因子法主成分法就是主成分解。因此这个解相差一个倍数个主成分的系数向量仅第的列与的第。因子载荷矩阵就是因子模型的一个解和这里的矩阵,为其中,可作如下的近似分解:,则达到一个较高的百分比,并使得累计贡献率数。选取相对较小的因子特征向量为相应的正交单位的特征值依次为设样本协方差矩阵),m,...,1j(ˆjSjAˆDˆAˆˆˆˆˆˆmpˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆSˆˆmˆˆˆ0ˆˆˆSj12222111111111111112121miijiiipijmmmmmpppmmmmmmpiimiippasσ),σ,......,σdiag(D)a()tλ,......,tλ(ADAADttλ.....ttλttλ.....ttλttλ......ttλSλ/λt,....,t,t,λ....λλ主成分法当p个原始变量的单位不同,或虽然单位相同但各变量的数值变异性相差较大时,应先对原始变量作标准化变换,变换后的样本协方差矩阵就是原始变量的样本相关矩阵R,以R代替S可类似地求得主成分解。因子载荷矩阵的列元素平方和就是特征值。j'jj2j'iiiˆtˆtˆ)ˆ(j1ttt列元素平方和为载荷矩阵的第,都是正交向量,即因为主成分法此时得到的因子载荷矩阵A是p个原始变量与(从相关矩阵R出发)前m个主成分的样本相关矩阵。因此在一些统计软件中,该相关矩阵既作为主成分分析的输出结果,也作为因子分析的输出结果。p,.....,2,1j,i,ty,xyxR*ij*j*j*i*j*i)(之间的相关系数与主成分做主成分分析时,变量因为基于极大似然法(maximumlikelihoodfactor)假定原变量服从正态分布,公共因子和特殊因子也服从正态分布,构造因子负荷和特殊方差的似然函数L(μ,A,D),求其极大,得到唯一解。主因子法(principalfactor)设原变量的相关矩阵为R=(rij),其逆矩阵为R-1=(rij)。各变量特征方差的初始值取为逆相关矩阵对角线元素的倒数,δi’=1/rii。则共同度的初始值为(hi’)2=1-δi’=1-1/rii。以(hi’)2代替相关矩阵中的对角线上的元素,得到约化相关矩阵。(h1’)2r12…r1pr21(h2’)2…r2pR’=..…...….rp1rp2…(hp’)2R’的前m个特征根及其对应的单位化特征向量就是主因子解。迭代主因子法(iteratedprincipalfactor)主因子的解很不稳定。因此,常以估计的共同度为初始值,构造新的约化矩阵,再计算其特征根及其特征向量,并由此再估计因子负荷及其各变量的共同度和特殊方差,再由此新估计的共同度为初始值继续迭代,直到解稳定为止。因子提取因子数量的确定用公因子方差贡献率提取:与主成分分析类似,一般累计方差贡献率达到80%以上的前几个因子可以作为最后的公因子用特征根提取:一般要求因子对应的特征根要大于1,因为特征根小于1说明该共因子的解释力度太弱,还不如使用原始变量的解释力度大实际应用中,因子的提取要结合具体问题而定,在某种程度上,取决于研究者自身的知识和经验3、因子旋转因子的解释因子模型参数估计完成后,必须对模型中公共因子进行合理的解释。因子的解释需要一定的专业知识和经验,要对公共因子给出具有实际意义的一种名称。因子的解释带有主观性。公共因子是否易于解释很大程度上取决于因子载荷矩阵A的元素结构。因子的解释假设A是从相关矩阵R出发求得,则如果载荷矩阵A的所有元素都接近于0或正负1,则模型的公共因子就易于解释。这时可将原始变量x1,x2,....,xp分为m个部分,第一部分对应公共因子f1,....,第m部分对应公共因子fm。之间和的所有元素均在即故11A,1a,1haij2im1j2ij因子的解释如果载荷矩阵A的元素多数居中,不大不小,则对模型的公共因子一般不易于做出解释,此时须考虑进行因子旋转。因子旋转的目的:使因子负荷两极分化,要么接近于0,要么接近于(+/-)1。因子旋转的方法因子旋转方法有正交旋转和斜交旋转两类。正交旋转法中公共因子与公共因子之间不相关(因子轴间夹角为90度)。正交旋转的优点是因子之间提供的信息不会重叠。斜交旋转法中公共因子与公共因子之间彼此有某种程度的相关(因子轴间夹角不是90度)。正交旋转对公共因子作正交旋转相当于对因子载荷矩阵A作一正交变换,右乘一个正交阵T,使A*=AT有更好的实际意义。旋转后的公共因子向量为f*=T’f,它的几何意义是在m维空间上对原因子轴作一刚性旋转。因子旋转不改变共性方差和残差矩阵,因为A*A*’=ATT’A’=AA’.正交矩阵T的不同选取法构成不同正交旋转法。最大方差旋转法(Varimax)达到最大。差之和个列元素平方的相对方有所,使得矩阵择正交矩阵最大方差旋转法就是选义为列元素的相对方差可定的第则影响变量的方差贡献不同的始来消除公共因子对各原除以以)(令m21*p1i2j2ijj*p1i2ijji*iji*ijij*ij*V.....VVVmAT)dd(p1VjAdp1d)ha(h/adaATA4、因子得分因子得分就是给出每个样品Xj关于m个公共因子的得分。因子得分是对不可观测的随机变量f1,f2,...,fm的取值做出估计。常用的因子得分估计方法:加权最小二乘法(巴特莱特Bartlett因子得分)回归法(汤姆森Thompson因子得分)Bartlett因子得分计算公式为)x(xDA)ADA(fμ)(xDAA)DA(fj-j-111j111ˆˆˆˆˆˆxD,A,,Dˆ,Aˆ,xˆ子得分代入,便可得相应的因并将每个样品的数据分别代替公式中的在实际应用中用估计值Thompson因子得分计算公式为)x(xSAf(x-μΣAE(f|x)fj-j1j1ˆ~xAS,Aˆ,x)~的因子得分为求得样品,,代替式中的在实际应用中,用因子得分Bartlett因子得分是极大似然估计,也是加权最小二乘回归,得到的因子得分是无偏的,但计算结果误差较大。Thomson法是由Bayes思想导出的,得到的因子得分是有偏的,但计算结果误差较小。注意1.因子分析的解不唯一(1)同一问题可以有不同的因子分析解:主成分解、主因子解、极大似然解(2)进行因子旋转以获得更为满意的解。2.因子得分不能直接进行计算,但可以估计。主成分分析与因子分析因子分析和主成分分析都依赖于原始变量,也只能反映原始变量的信