SAS讲义 第三十六课因子分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1578647541345第三十六课因子分析因子分析(FactorAnalysis)是主成分分析的推广,它也是从研究相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。具体地说,就是要找出某个问题中可直接测量的、具有一定相关性的诸指标,如何受少数几个在专业中有意义,又不可直接测量到,且相对对立的因子支配的规律,从而可用诸指标的测定来间接确定诸因子的状态。一、何为因子分析因子分析的目的是用有限个不可观察的潜在变量来解释原变量间的相关性或协方差关系。在这里我们把不可观察的潜在变量称为公共因子(commonfactor)。在研究样品时,每个样品需要检测很多指标,假设测得p个指标,但是这p个指标可能受到m(mp)个共同因素的影响,再加上其他对这些指标有影响的因素。写成数学的形式就是:pmpmpppmmmmefafafaXefafafaXefafafaX2211222221212112121111(36.1)利用矩阵记号有111pmmPpefAX(36.2)各个指标变量都受到if的影响,因此if称为公共因子,A称为因子载荷矩阵,ie是单变量iX所特有的因子,称为iX的特殊因子(uniquefactor)。设1f,2f,…,mf分别是均值为0,方差为1的随机变量,即mIfD)(;特殊因子1e,2e,…,pe分别是均值为0,方差为21d,22d,…,2pd的随机变量,即DdddeDp),,,diag()(22221;各特殊因子之间及特殊因子与公共因子之间都是相互独立的,即jieeCovji,0),(及0),(feCov。错误!未定义书签。是第j个变量在第i个公共因子上的负荷,从投影的角度看,jia就是jX在坐标轴if上的投影。主成份分析的目标是降维,而因子分析的目标是找出公共因素及特有的因素,即公共因子与特殊因子。在主成份分析中,残差通常是彼此相关的。在公因子分析中,特殊因子起到残差的作用,但被定义为彼此不相关且和公因子也不相关。而且每个公因子假定至少对两个变量有贡献,否则它将是一个特殊因子。在开始提取公因子时,为了简便还假定公因子彼此不相关且具有单位方差。在这种情况下,向量X的协方差矩阵Σ可以表为DAAeAfDXD)()((36.3)这里D=diag(22221,,,pddd),diag表示对角矩阵。如果假定已将错误!未定义书签。标准化,1578647541345也就是说错误!未定义书签。的每一个分量iX的均值都为0,方差都是1,即1)(iXD,那么mjiijiimimiiidaXVarefafafaX1222211)(1(36.4)记mjijiah122,则有pidhii,,2,1,122(36.5)错误!未定义书签。反映了公共因子f对iX的影响,称为公共因子f对iX的“贡献”。2ih实际反映了变量iX对公共因子f的依赖程度。另一方面,还可以考虑指定的一个公共因子jf对各个变量iX的影响。实际上,jf对各个变量iX的影响可由A中第j列的元素来描述,那么piijjag122(36.6)称为公共因子jf对X的“贡献”。显然2jg越大,jf对X的影响就越大,2jg成为衡量因子重要性的一个尺度。实际上ijjimkjkikjiafeCovffCovafXCov),(),(),(1(36.7)那么矩阵A的统计意义就非常清楚:错误!未定义书签。是iX和jf的相关系数;错误!未定义书签。是iX对公共因子f的依赖程度;错误!未定义书签。是公共因子jf对X的各个分量总的影响。下面我们来看怎样求解因子载荷矩阵A。二、因子载荷矩阵的求解如果已知X协方差矩阵和D,可以很容易地求出A。根据(36.3)有AAD(36.8)记D*,则*是非负定矩阵。若记矩阵*的p个特征值1≥2≥…≥m1m1578647541345=…=p=0,且m个非零特征值所对应的特征向量分别为1,2,…,m,则*的谱分解式为mmmmmmm,,,,,,22112211222111*(36.9)只要令mmA,,,2211(36.10)就可以求出因子载荷矩阵A。但在实际问题中,我们并不知道、D,即不知道*,已知的只是n个样品,每个样品测得p个指标,共有np个数据,样品数据见表6.1所示。为了建立公因子模型,首先要估计因子载荷错误!未定义书签。和特殊因子方差2id。常用的参数估计方法有以下三种:主成份法、主因子解法和极大似然法。1.主成份法主成份法求因子载荷矩阵A的具体求法如下:首先从资料矩阵出发求出样品的协方差矩阵,记之为ˆ,其特征值为021p,相应单位正交特征向量为p,,,21,当最后mp个特征值较小时,则对ˆ进行谱分解可以近似为Dmmm222111ˆ(36.11)其中1≥2≥…≥m0是协方差矩阵ˆ相应的前m个较大特征值。先取111a,然后看11ˆaa是否接近对角阵。如果接近对角阵,说明公共因子只要取一个就行了,所有指标主要受到这一个公共因子的影响;如果11ˆaa不是近似对角阵,就取222a,然后看2211ˆaaaa是否接近对角阵,如果接近对角阵,就取两个公共因子;否则再取333a,…,直到满足“要求”为止。这里的“要求”要视具体情况而定,一般而言,就象主成分分析一样,直接取前q个特征值和特征向量,使得它们的特征值之和占全部特征值之和的85%以上即可。此时,特殊因子方差piadqttiiii,,2,1,ˆ122。2.主因子解法主因子解法是主成份法的一种修正,它是从资料矩阵出发求出样品的相关矩阵R,设DAAR,则AADR。如果我们已知特殊因子方差的初始估计2*)ˆ(id,也就是已知了先验公因子方差的估计为2*2*)ˆ(1)ˆ(iidh,则约相关阵DRR*为15786475413452*2122*2211122*1*)ˆ()ˆ()ˆ(ppppphrrrhrrrhR(36.12)计算*R的特征值和特征向量,取前m个正特征值0**2*1m及相应特征向量为**2*1,,,m,则有近似分解式AAR*(36.13)其中),,,(***2*2*1*1mmA,令piadmttii,,2,1,1ˆ122,则A和)ˆ,,ˆ,ˆdiag(22221*pdddD为因子模型的一个解,这个解就称为主因子解。上面的计算是我们假设已知特殊因子方差的初始估计2*)ˆ(id,那么特殊因子方差的初始估计值如何得到呢?由于在实际中特殊因子方差2id(或公因子方差2ih)是未知的。以上得到的解是近似解。为了得到近似程度更好的解,常常采用迭代主因子法。即利用上面得到的)ˆ,,ˆ,ˆdiag(22221*pdddD作为特殊方差的初始估计,重复上述步骤,直到解稳定为止。公因子方差(或称变量的共同度)常用的初始估计有下面三种方法:2ih取为第i个变量与其他所有变量的多重相关系数的平方(或者取iiird/12,其中iir是相关矩阵R的可逆矩阵1R的对角元素,则221iidh);2ih取为第i个变量与其他所有变量相关系数绝对值的最大值;取2ih=1,它等价于主成份解。3.极大似然法假定公共因子f和特殊因子e服从正态分布,那么我们可得到因子载荷阵和特殊方差的极大似然估计。设p维的n个观察向量)()2()1(,,,nxxx为来自正态总体),(pN的随机样本,则样本似然函数为和的函数),(L。设DAA,取x,对于一组确定的随机样本,已经变成了确定已知的值,则似然函数),(L可以转换为A和D的函数),(DA。接下来就可以求A和D取什么值,函数),(DA能达到最大。为了保证得到唯一解,可以附加唯一性条件ADA1对角阵,再用迭代方法可求得极大似然估计的A和D的1578647541345值。三、因子旋转因子模型被估计后,还必须对得到的公因子f进行解释。进行解释通常意味着对每个公共因子给出一种意义明确的名称,它用来反映在预测每个可观察变量中这个公因子的重要性,这个公因子的重要程度就是在因子模型矩阵中相应于这个因子的系数,显然这个因子的系数绝对值越大越重要,而接近0则表示对可观察变量没有什么影响。因子解释是一种主观的方法,有时侯,通过旋转公因子可以减少这种主观性,也就是要使用非奇异的线性变换。设p维可观察变量X满足因子模型eAfX。设错误!未定义书签。是任一正交阵,则因子模型可改写为efAefAX**ˆ(36.14)其中,AA*,ff*。根据我们前面假定:每个公因子的均值为0,即0)E(f,每个公因子的方差为1,即If)D(,各特殊因子之间及特殊因子与公共因子之间都是相互独立的,即jieeCovji,0),(及0),(feCov。可以证明0)E()E()E(*fff(36.15)IIfff)D()D()D(*(36.16)0),(),(),(*feCovfeCovfeCov(36.17)DAAefAefAX)()D()D()D()D(******(36.18)因此,DAADAAX)(**。这说明,若A和D是一个因子解,任给正交阵错误!未定义书签。,AA*和D也是因子解。由于正交阵错误!未定义书签。是任给的,所以因子解不是唯一的。在实际工作中,为了使载荷矩阵有更好的实际意义,在求出因子载荷矩阵A后,再右乘一个正交阵,这样就变换了因子载荷矩阵,这种方法称为因子轴的正交旋转。我们知道,一个所有系数接近0或±1的旋转模型矩阵比系数多数为0与±1之间的模型容易解释。因此,大多数旋转方法都是试图最优化模型矩阵的函数。在初始因子提取后,这些公因子是互不相关的。如果这些因子用正交变换(orthogonaltransformation)进行旋转,旋转后的因子也是不相关的。如果因子用斜交变换(obliquetransformation)进行旋转,则旋转后的因子变为相关的。但斜交旋转常常产生比正交旋转更有用的模型。旋转一组因子并不能改变这些因子的统计解释能力。如果两种旋转模型导出不同的解释,1578647541345这两种解释不能认为是矛盾的。倒不如说,是看待相同事物的两种不同方法。从统计观点看,不能说一些旋转比另一些旋转好。在统计意义上,所有旋转都是一样的。因此在不同的旋转之间进行选择必须根据非统计观点。在多数应用中,我们选择最容易解释的旋转模型。四、应注意的几个问题因子分析是主成分分析的推广,它也是一种降维技术,其目的是用有限个不可观测的隐变量来解释原始变量之间的相关关系。因子模型在形式上与线性回归模型很相似,但两者有着本质的区别:回归模型中的自变量是可观测到的,而因子模型中的各公因子是不可观测的隐变量。而且,两个模型的参数意义很不相同。因子载荷矩阵不是唯一的,利用这一点通过因子的旋转,可以使得旋转后的因子有更鲜明的实际意义。因子载荷矩阵的元素及一些元素组合有很明确的统计意义。因子模型中常用的参数估计方法主要有:主成分法,主因子法和极大似然法。在实际应用中,常从相关矩阵R出发进行因子模型分析。常用的因子得分估计方法有:巴特莱特因子得分和汤姆森因子得分两种方法。五、Factor因子分析过程因子分析用少数起根本作用、相互独立、易于解释通常又是不可观察的因子来概括和描述数据,表达一组相互关联的变量。通常情况下,这些相关因素并不能直观观测,这类分析通常需用因子分析完成

1 / 16
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功