11、因子分析法(FactorAnalysis)一、方法介绍基本思路:因子分析法是一种多元统计方法,它从研究相关矩阵内部的依赖关系出发,根据相关性大小把变量分组(使得同组内的变量之间相关性不高,而不同组内的变量之间相关性较低),这样,在尽量减少信息丢失的前提下,从众多指标中提取出少量的不相关指标,然后再根据方差贡献率确定权重,进而计算出综合得分的一种方法。理论模型:设m个可能存在相关关系的测试变量z1,z2,……,zm含有P个独立的公共因子F1,F2,……,Fp(m≥p),测试变量zi含有独特因子Ui(i=1…m),诸Ui间互不相关,且与Fj(j=1…p)也互不相关,每个zi可由P个公共因子和自身对应的独特因子Ui线性表出:mmpmpmmmppppUcFaFaFaZUcFaFaFaZUcFaFaFaZ221122222211221112121111(1)用矩阵表示:mmppmijmUcUcUcFFFaZZZ22112121.)(简记为2(1)()(1)()(1)(*mmppmmmZAFCU对角阵)(2)且满足:(I)P≤m;(II)COV(F.U)=0(即F与U是不相关的);(III)E(F)=0COV(F)=pppI)(11。即F1,……FP不相关,且方差皆为1,均值皆为0(IV)E(U)=0COV(U)=Im即U1,……,Um不相关,且都是标准化的变量,假定z1,……,zm也是标准化的,但并不相互独立。式中A称为因子负荷矩阵,其元素(即(7.2-1)中各方程的系数)aij表示第i个变量(zi)在第j个公共因子Fj上的负荷,简称因子负荷,如果把zi看成P维因子空间的一个向量,则aij表示zi在坐标轴Fj上的投影。因子分析的目的就是通过模型(1)或(2),以F代Z,由于一般有P<m,从而达到简化变量维数的愿望。二、使用软件和软件实现过程采用Eviews5.1、SPSS12.0、Stata5.1、SASRelease8.02等计量软件均可完成上述因子分子模型,建议采用SPSS12.0操作。因子分析的基本步骤如下(事物可观测原始变量为x1,x2,……,xp):(1)对原始变量标准化。在因子分析求解时若采用主成分法,由于主成分分析在通过总体协方阵求主成分时,往往优先顾及方差较大的变量,受变量的计量单位影响较大,有时会造成不合理的结果,所以为了消除这种影响,需在分析之前,对原始变量标准化。标准化最常规的方法是将原变量数列化为均值为0、方差为1的数列,即令()()xExzxDx;(2)求出标淮化数据zx1,zx2,……,zxp的协方差矩阵,或相关系数矩阵R(两者等价);(3)求R的特征值及相应的一组正交单位特征向量;(4)计算累计贡献率,确定公共因子个数及因子载荷矩阵A;3(5)对A作因子旋转(常为方差最大正交旋转),使得能对公共因子给出合理的解释;(6)计算因子得分,根据得分对研究问题作比较分析。上述计算步骤及作图可利用SPSS11.0软件来完成:(1)选择菜单中“Analyze-descriptivestatistics-desctrptives...,对xl,x2,…,xp指标进行标准化处理,并将标准化后的变量保存在数据编辑窗口;(2)选择菜单中“Analyze-datareduction-factor,打开因子分析对话框,将标准化后的变量放人Variables中,进行主成分分析;(3)在主成分分析的基础上进行观察,发现提取几个公共因子较佳,在“factor-extract-numbersoffacto中输人公共因子的个数;(4)在“factor-rotation”中选择varimax,对因子进行方差最大旋转;(5)在“factor-score”中选regression,计算因子得分。三、一个简单例证:重庆城镇居民消费结构变动的因子分析本文运用数理统计中的因子分析法,对重庆直辖后城镇居民消费结构的变动情况进行分析,认为居民消费主要受生存型消费和享受型消费两大因子的影响,分析表明这两型因子所占比重近几年来都稳定在8:2的水平上,并未发生大的变化。1、资料来源消费结构是人们在生活中消费的消费资料和接受的服务种类及其比例关系,也就是指各类消费支出在总消费支出中的比重。对居民消费支出按照人们实际支出的去向分类可分为食品、衣着、家庭设备及服务、医疗保健、交通通讯、文教娱乐及服务、居住、杂项商品及服务。分别记为X1,X2,……,X8。根据重庆市统计年鉴1998~2003年各卷,得重庆市城镇居民消费结构变化如表1所示。由表1中资料可知,食品、衣着所占比重从1998年开始是下降的。联合国提出的恩格尔系数(食品在总消费支出中的比重)判定生活发展阶段的一般标准:60%以上为贫困,50%~60%为温饱,40%~50%为小康,40%以下为富裕,可见重庆城镇居民消费水平已从小康迈向了富裕。家庭设备所占比重也是下降的,这说明居民对一般家庭设备的需求已经基本饱和,且由于总收入的增加,杂4项支出所占比重也逐年下降。另一方面,表1说明:医疗保健、交通通讯、文教娱乐和住房消费所占比重在逐年上升。这是因为随着社会的发展,居民的保健意识增强,更关注自身的身心健康,再加上医保制度的改革,所以医疗保健所占比重逐年上升;由于城镇居民家庭拥有小汽车的比例增加,移动通讯的普遍使用,网络通讯进入家庭,因而交通和通讯所占比重也是上升的;由于居民对自身进一步发展和子女教育的投入力度加大,并且在物资享受已经得到满足的情况下更加注重精神享受,所以文教和娱乐方面的支出增多;随着我国住房制度的改革,居民在居住上面的支出也出现了大幅增加。为了进一步研究消费结构的变化情况,下面用因子分析法,对表1的数据进行统计分析。表1重庆城镇居民消费结构变化(%)年份食品(X1)衣着(X2)家庭设备(X3)医疗保健(X4)交通通讯(X5)文教娱乐(X6)居住(X7)杂项(X8)198845.5212.179.83.39612.926.094.11199944.5011.79.43.86.912.47.24.1200040.4010.18.75.47.414.494.6200138.7010.28.85.87.714.79.84.3200238.009.87.16.89.716.79.32.62、消费结构的因子模型由表1中资料得样本均值向量:X=(41.42,10.79,8.76,5.04,7.54,14.22,8.27,3.94),且用软件SPSS计算变量的相关系数矩阵的特征值和贡献率见表2。由表2可以看出变量相关系数矩阵有两个大的特征根为6.6721和1.142,其累计贡献率达到98.292%,又根据图1,前两个公因子变化最大,说明前两个公因子提供了原始数据8个指标所能表达的足够的信息。5表2相关矩阵的特征值与贡献率变量序列号因子分析初始解对变量的描述提取共因子后对变量的描述特征值方差贡献率累计方差贡献率特征值方差贡献率累计方差贡献率16.72084.01784.0176.72084.01784.01721.42014.27598.2921.14214.27598.29230.0831.03699.32940.0540.671100.00050.0000.000100.00060.0000.000100.00070.0000.000100.00080.0000.000100.000因此提取两个主因子,用主成份分析法和正交旋转法计算得旋转前后的因子载荷阵如表3所示。表3因子载荷阵原始因子载荷阵旋转后因子载荷阵变量公因子共同度公因子1212X1-0.96-0.260.989-0.9410.323X2-0.942-0.3180.987-0.9580.264X3-0.960.250.984-0.6550.745X40.9940.1030.9990.881-0.472X50.961-0.2350.9790.664-0.734X60.969-0.1120.9520.74-0.036X70.8760.4610.980.984-0.109X8-0.6110.7870.993-0.0650.994由表3可得消费结构的因子分析模型为11251221261231271241X=-0.941F+0.323FX=0.664F-0.734FX=-0.958F+0.264FX=0.740F-0.036FX=-0.655F+0.745FX=0.984F-0.109FX=0.881F-02812.472FX=-0.065F+0.994F选用回归法估算因子得分系数如表4所示。6表4因子得分系数变量X1X2X3X4X5X6X7X8公因子序号1-0.246-0.2720.0040.1730.0030.6640.3340.3112-0.109-1.520.261-0.009-0.251-0.1620.2610.622由此计算5年的因子得分如表5所示。表5各年份因子得分因子19981999200020012002F1-1-1.29601-0.83920.718780.927680.48875F2-10.122770.180810.770190.64263-1.716413、结果分析从表3可以看出,第一个主因子在X1,X2,X4,X6,X75个方面有较大载荷,这几项指标主要反映居民为了生存必需要消费支出的变化情况,因此命名为生存型消费因子;第二个主因子在X3,X5,X83方面有较大载荷,这几项指标主要反映居民为了改善生活,提高生活效率如购买小汽车,使用移动通讯等方面的消费支出变化情况,因此命名为享受型消费因子。分类情况如表6所示。表6主因子分析高载荷指标因子命名1食品,衣着,医疗保健,文教娱乐,居住生存型消费因子2家庭设备,交通通讯,杂项商品及服务享受型消费因子结合表1,根据分类将各年数据相加,得生存型消费因子与享受型消费因子在1998-2002年这5年中所占比重如表7所示。表7各年份两型因子所占比重(%)19981999200020012002生存型消费因子80.1979.679.379.280.6享受型消费因子19.9120.420.720.819.4由表7可知,这5年来,生存型消费因子所占比重基本为80%左右,享受型消费因子所占比重为20%左右,各自的变化幅度不大。这说明虽然重庆市城镇居民的收入增加了,但是由于医疗、住房制度的改革和教育收费标准的提高,居7民生存型消费支出在增加,但另一方面用于享受型消费支出也出现相应的增加,这两型因子所占比重基本维持在8:2的水平上,说明重庆市城镇居民消费结构保持相对稳定,变化不大。四、评价及问题方法评价:因子分析法最大优势在于各综合因子的权重不是主观赋值而是根据各自的方差贡献率大小来确定的,方差越大的变量越重要,从而具有较大的权重;相反,方差越小的变量所对应的权重也就越小。这就避免了人为确定权重的随意性,使得排行结果唯一,而且较为客观合理。此外,因子分析的整个过程都可以运用计算机软件方便快捷地进行,可操作性强。因此,与其他方法相比,因子分析法是一种科学、实用、简便的综合排行方法,适用于解决多指标的综合评价问题。需注意问题:(1)在利用因子分析法的开始阶段,应当尽可能多地选取与研究对象有关的指标,以免遗漏重要的评估指标。然后,就可以通过因子分析选择相对更为有效的指标,构建研究对象评估的指标体系,进而进行基于数据本身的相对客观的评估。(2)设定好因子分析指标后,还要对因子分析法的可行性进行研究。因子分析法应用的前提是原有变量之间应具有较强的相关关系,否则根本无法从中综合出能够反映某些变量共同特性的几个较少的公共因子变量。(3)当然,因子分析法作为一种比较性的方法,也有其局限性。主要的局限性在于它需要较多的数据,只有这样才能根据这些数据分析出研究对象与各指标有关的不可观