因子分析(Factoranalysis)武汉理工大学统计学系唐湘晋因子分析是主成分分析的推广和发展,它也是多元统计中处理降维的一种方法。因子分析是研究相关阵或协差阵的内部依赖关系,将多个变量综合为少数几个因子,再现原始变量与因子之间的关系。形成和发展:1904年CharlesSpearman的论文《对智力测验得分进行的统计分析》早期主要用于心理学和教育学方面的问题目前:经济学、社会学、考古学、生物学、医学及体育科学实例1(1)为了解学生的学习能力,观测了n个学生p个科目的成绩,用X1,X2,…,Xp表示科目(例如代数、几何、语文、英语,……)可以认为各科目有两部分组成:其中F是对所有的Xi都起作用的公共因子,它表示智能高低的因子;系数ai称为因子载荷,表示第i各科目在智能高低上的体现;εi是科目变量特有的特殊因子,描述原始变量.这就是一个最简单的因子模型;(2).推广到m个因子,如数学因子、记忆因子、计算因子等,分别记为F1,F2,……,Fm。这就是一个因子分析模型.1,......,iiiXaFip1122iiiimmiXaFaFaF实例2调查青年对婚姻家庭的态度,抽取n个青年回答了50个问题的答卷,这些问题可归纳为如下的几个方面:如对相貌的重视,对孩子的观点、对老人的态度等实例3考察人体的五项生理指标:收缩压、舒张压、心跳间隔、呼吸间隔和舍下温度。从生理学知识,这五项指标是受植物神经支配的,植物神经又分为交感神经和副交感神经,因此这五项指标也可以用因子分析模型去处理1122iiiiXaFaF1122iiiimmiXaFaFaF因子分析的主要应用(1).寻求基本结构,简化观测系统,将具有错综复杂关系的对象(变量或样本)综合为少数几个因子(不可观测的随机变量),以再现因子与原始变量之间的内在联系(2).用于分类,对变量或样本进行分类.R型和Q型因子分析(1).R型从变量的相关阵出发,找出控制所有变量的几个公共因子,用以对变量或样本进行分类。(2).Q型从样本的相相似据阵出发,找出控制所有样本的几个主要因素。因子分析与主成分分析的区别(1).主成分分析不能作为一个模型,只是变量变换,而因子分析需要构造模型(2).主成分的个数和变量的个数相同,它是将一组具有相关的关系的变量变换为一组互不相关的变量,而因子分析是要用尽可能少的的公因子,以便构造一个简单的因子模型(3).主成分表示为原始变量的线性组合,而因子分析是将原始变量表示为公因子和特殊因子的线性组合。R型因子分析的数学模型1111122112211222221122mmmmppppmmpXaFaFaFXaFaFaFXaFaFaF用矩阵表示111121112212222212mmppppmppXaaaFXaaaFXaaaF因子分析的数学模型简记为X=AF+ε且满足mpcov(,)Fε01111122112211222221122mmmmppppmmpXaFaFaFXaFaFaFXaFaFaF101()01mDFI212220()0pDε为任一个m阶的正交阵,上式仍满足约束条件因子分析每个相应的系数不是唯一的,即因子载荷阵不是唯一的通过模型以F代替X,由于mp,或mn,从而达到简化变量维数目的X=AF+ε()(')XAΓFεcov(',)'cov(,)ΓFεFε0(')'()mDDΓFF因子分析的目的正交因子模型中各统计量的意义因子载荷的统计意义第i个变量与第j个公共因子的相关系数。用统计学术语叫权重,表示Xi依赖Fj的分量cov(,)ijijXFa因子载荷据阵A中各行元素的平方和记为221miijjha称为变量Xi的共同度12221var()var()var()var()miitttmittiitXaFaFh公共因子方差剩余方差变量共同度的统计意义因子载荷据阵A中各列元素的平方和记为2211,,pjijiqajm表示第j个因子对所有分量的总影响,称为第j个因子对X的贡献,它是衡量第j个因子相对重要性的指标22212mqqq公共因子Fj方差的统计意义因子载荷阵的估计方法主成分法主因子法极大似然法12120,,,ppeee设样本的协差阵的特征值和特征向量分别为:1210''0piiiipΣUUee则协差阵可分解为其中分量A和D就是因子模型的一个解,A中的第j列和X中的第j个主成分的系数相差一个倍数。故此解常称为因子模型的主成分解。2111112',,'''mmpmmεeΣeeeAAΣSAAD或当最后p-m个特征值较小时,协差阵可以近似的分解为公因子个数的确定方法1)根据实际问题的意义或专业理论知识2)用确定主成分个数的原则1011mmmpP因子旋转用一个正交阵右乘A,使旋转后的因子载荷阵结构简化,即使得每个变量仅在一个公共因子上有较大的载荷,而在其余的因子上载荷比较小。方差最大的正交旋转使得旋转后的所得到的因子载荷阵的总方差达到最大值.因子得分Thomson回归法11221....iiiippFbXbXbXim因子分析的步骤计算所选原始变量的相关系数矩阵相关系数矩阵描述了原始变量之间的相关关系。可以帮助判断原始变量之间是否存在相关关系,这对因子分析是非常重要的,因为如果所选变量之间无关系,做因子分析是不恰当的。并且相关系数矩阵是估计因子结构的基础。选择分析的变量用定性分析和定量分析的方法选择变量,因子分析的前提条件是观测变量间有较强的相关性,因为如果变量之间无相关性或相关性较小的话,他们不会有共享因子,所以原始变量间应该有较强的相关性。提取公共因子这一步要确定因子求解的方法和因子的个数。需要根据研究者的设计方案或有关的经验或知识事先确定。因子个数的确定可以根据因子方差的大小。只取方差大于1(或特征值大于1)的那些因子,因为方差小于1的因子其贡献可能很小;按照因子的累计方差贡献率来确定,一般认为要达到60%才能符合要求;因子旋转通过坐标变换使每个原始变量在尽可能少的因子之间有密切的关系,这样因子解的实际意义更容易解释,并为每个潜在因子赋予有实际意义的名字。计算因子得分求出各样本的因子得分,有了因子得分值,则可以在许多分析中使用这些因子,例如以因子的得分做聚类分析的变量,做回归分析中的回归因子。因子分析计算步骤与实例分析对我国30个省市自治区的农业生产情况作因子分析。从农业生产条件和生产结果及效益出发,选取六项指标分别为:X1—乡村劳动力人口(万人)、X2—人均经营耕地面积(亩)、X3—户均生产性固定资产原值(元)、X4—家庭基本纯收入(元)、X5—人均农业总产值(千元/人)、X6—增加值占总产值比重(%),原始资料数据如下页表:序号地区X1X2X3X4X5X61北京66.90.932972.413290.732.52549.72天津80.21.644803.542871.621.77449.63河北1621.82.034803.542871.810.8004544山西635.42.762257.661499.140.55556.25内蒙古514.110.175834.941550.150.905166.46辽宁605.12.963108.862059.351.475253.17吉林534.24.734767.511940.461.115463.18黑龙江494.88.245573.022075.421.628357.89上海661.021660.034571.813.044835.610江苏1530.21.262826.862868.331.192150.611浙江1123.10.945494.233289.070.856563.312安徽1953.61.443573.621508.240.575659.213福建775.80.822410.052295.191.149662.814江西1103.21.32310.981804.930.664959.915山东2475.11.443109.111989.530.88095516河南2815.81.53782.261508.360.582358.517湖北1296.51.62291.61754.130.879962.818湖南2089.31.422348.721719.180.58764.719广东1439.80.883249.612928.241.09659.720广西1579.91.433090.171590.90.569464.521海南165.91.354454.771575.490.353565.222四川3903.71.082870.451340.610.444364.123贵州1376.61.182282.271206.250.289265.424云南1642.22.424025.061096.730.345664.225西藏88.62.5111559.831257.710.434970.426陕西1046.12.62228.551091.960.438359.727甘肃6725.862879.361037.120.488357.228青海137.12.626725.111133.060.409670.329宁夏139.14.015607.971346.890.497362.530新疆288.53.967438.131161.711.493957.8因子分析计算步骤与实例分析第一步将原始数据标准化第二步建立指标间的相关系数阵R:10.33250.37100.20260.39550.14130.332510.34920.29800.00140.16540.37100.349210.24810.13080.40440.20260.29800.248110.81450.71120.39550.00140.13080.814510.79670.14130.16540.40440.7112R0.79671因子分析计算步骤与实例分析第三步求R的特征值和特征向量。序号特征值贡献率累积贡献率(%)12.776546.275646.275621.740929.016075.291730.711611.861287.152940.43347.224894.377850.23693.948498.326360.10041.6736100因子分析计算步骤与实例分析由于前三个特征值累积贡献率已达87.15%,所以取前三个特征值所对应的特征向量如下:u1u2u30.1460-0.6242-0.18540.16310.52700.75470.24210.52720.5369-0.54630.01530.2325-0.54550.2317-0.04220.54530.02250.2276因子分析计算步骤与实例分析第四步列出因子载荷矩阵表。2ih因子指标a1a2a3X10.2433-0.8236-0.15640.7621X20.27180.69540.63660.9629X30.40350.69570.45290.8520X4-0.91030.02020.19610.8675X5-0.90890.3057-0.03560.9210X60.90860.02960.1920.8634因子分析计算步骤与实例分析第五步对因子载荷阵实行方差最大正交旋转,旋转后的矩阵如下:由上表可见,每个因子只对应