1第五部分因子分析本部分内容:一、主成分分析二、因子分析三、SPSS操作路径一、主成分分析(一)一个简化分析事例1、坐标变换假定小学某班级学生的语文成绩(X1)数学成绩(X2)的相关系数r12=0.6,且X1和X2都是标准化分数,其散点图如图1所示。现通过旋转(X1,X2)变换出新坐标(Y1,Y2),使新坐标的Y1轴对准散点分布方差最大的方向。下面给出由原坐标系(X1,X2)变换为新坐标系(Y1,Y2)的方法。椭圆较长的直径的方差的65%,则可进行变量简化。把变量标准化,λ即方差。图1图2记随机矢量X′=(X1,X2)的协方差矩阵为∑,则∑=16.06.01设u是以λ为特征值的特征矢量矩阵,把上述结果代入特征值矩阵方程(∑-λI)u=0,得00016.06.0121uu,0)1(6.06.0)1(2121uuuu。得方程组(1-λ)u1+0.6u2=0,0.6u1+(1-λ)u2=0。2要使该方程组有非零解,系数行列式必须为零,故036.0)1)(1(16.06.01。由此解得特征值的两个取值λ1=1.6,λ2=0.4。代入原方程组,取特征矢量为单位矢量,即要求122jiijuu求得对应的特征矢量1u=(u11,u21)=(22,22),2u=(u12,u22)=(22,22)。最后求得新坐标系(Y1,Y2)与原坐标系(X1,X2)的关系为2112222XXYX1u,2122222XXYX2u。结果显示,新坐标是通过原坐标逆时针旋转45°得到的。如此求得的新坐标即可满足“Y1轴对准散点分布方差最大的方向”这一要求。2、特征值λi与散点分布方差的关系矢量Y1和Y2的方差的计算公式为Var(Y1)=Var(1uX)=11XX16.1222216.06.012222,其中∑为协方差矩阵。同理Var(Y2)=Var(2uX)=22XX24.0222216.06.012222。3上述结果表明,散点分布的最大变差方向由变换所得到的特征向量Y1给定,而相应的特征值λ1和λ2刻画了与各特征向量Y1和Y2对应的散点分布方差。并且,散点分布在Y1方向上的方差占全部方向Y1和Y2上的方差的比例为8.04.06.16.1211。也就是说,散点分布变差特点的80%可以在Y1方向得到解释,而Y2方向只占20%。Y1就是本例中的第一主成分。(思考:在原坐标系中,散点分布变差的特点在X1和X2方向上的情况如何?)(二)主成分的一般推导1、主成分的三个特征寻找主成分的目的,是为了根据原有统计指标体系(即原有坐标系),建立更加符合数据散点分布特征的新坐标系,在保证大部分统计信息得到反映的前提下,选择尽可能少的统计指标,简化统计描述,使统计数据中隐含的因果性因素更为清晰。主成分分析就是要揭示统计数据的变差主要出现在哪些方向上,然后选择这些方向作为简化的新坐标,用以描述统计数据的多维分布特征。因此,主成分应满足以下三个特征:(1)在p个指标Xi(i=1,2,3,…,p)的统计描述体系X中,表征主成分的特征矢量Yi应为原坐标Xi的线性组合,若记Yi在Xi中的分量为iu,则1YppXuXuXu12121112YppXuXuXu2222121pYpppppXuXuXu2211这一要求的意思是,新坐标只能由原坐标轴产生,而不能撇开原坐标的统计内容不顾。这是为了保证,新坐标表征的统计体系在内容上与原坐标表征的统计体系相同,改变仅限于描述方式的不同。(2)1iiuu,即122221ipiiuuu,其中i=1,2,3,…,p(该要求在求解λi时自然满足),并且,相应的Yi的p个特征值λi中的少数几个已包含绝大部分可解释的方差。这一要求的含义是,特征矢量为单位矢量,其中少数几个穿过数据散点分布方差较大的方向,用新坐标Yi描写数据的统计特征时,只需采用其中这些穿过数据散点分布方差较大方向的新坐标就足以描述绝大部分变差4的情况,从而可以比原坐标Xi的描述简化。能否实现这一要求,须由实际的推导决定。(3)Yi和Yj(i≠j)相互无关(正交),即新坐标轴两两独立。以数学方式表述为协方差Cov(Yi,Yj)=0,i≠j。这一要求,在运用标准化数据的相关矩阵求解特征值λi和特征矢量Yi的过程中,将自然得到满足,无须特别处理。2、主成分的导出步骤综上所述,主成分可以通过以下步骤求解:(1)把数据标准化,写出标准化数据矩阵X;(2)写出相关系数矩阵:XX(3)通过矩阵方程(∑-λI)u=0求出特征值λi和特征矢量Yi。特征值一般按以下规则命名:p21。此时,主成分已按从大到小排列的顺序求出。(4)利用特征值从大到小累计,计算前m个特征值累计可解释的方差在总方差中所占的比例:pjjmii11,pm然后根据研究目的确定可选择哪些主成分而略去另外哪一些主成分,最后用于统计数据分析。(三)主成分分析应用举例567891011121314151617(四)主成分分析小结1、主成分分析适用于为简化数据结构提供方向性依据,方法是将原有的众多变量转化为几个综合变量,并保证原有的大部分统计信息(以累计方差衡量)在综合变量中同样得到反映。2、主成分分析具有明确的几何意义,它通过把坐标轴旋转获得新坐标,并使新坐标轴的方向与数据分布变差最大的方向一致。可以证明协方差矩阵(或相关矩阵)的单位特征向量的方向就是新坐标轴的方向。3、主成分分析在各变量间的相关关系比较密切时才会有明显价值,此时,数学上表现为各特征值相差较大。一般,特征值差异越大(表现为累计方差集中在少数几个统计指标上),主成分分析的效果越好。一、因子分析如果统计体系中的某些统计描述指标具有很强的相关性,在这些强相关的统计指标中,统计对象在某一个统计指标上的状况即可表明该对象在其他指标的大部分状况,从而,可以把这些强相关的统计指标合并在一起,更为清晰地反映统计对象的特征,使统计系统得以简化和基本变量结构更加明确。(一)因子分析的基本思想(二)因子分析的数学模型18192021222324(三)公共载荷的求解——主成分法252627载荷矩阵A的意义:2829(四)因子旋转因子旋转的目的是要弄清公共因子在原变量系统中的概括含义。公共因子在原变量体系中的不同负荷绝对值(投影长度)越大,公共因子与这些变量的联系就越密切。所谓旋转,就是把某一公共因子中的变量旋转到某些原变量的最大投影方向。如果无论怎样旋转,因子负荷在原变量中的投影始终相差不远,因子分析就没有多大意义了。所以,在有意义的因子分析中,旋转后的因子负荷矩阵应满足以下要求:1、每一列上多数因子负荷取值接近与零;2、每一列上只有少数的因子负荷取较大值;303、每两列中,因子负荷较大和较小的排列结构明显不同。满足上述要求时,因子分析将可以得到明确而简明的解释。最常用的因子旋转方法是“方差最大正交旋转”。具体运算此处不作介绍。二、因子分析应用举例仍以30个省市自治区经济发展基本情况的统计数据为例。31323334计算步骤:3536373839404142434445464748附录:通过项目剔除获得高质量的因子分析结果以某事业单位员工福利满意度调查为例,对样本数据运用主成分法进行探索性因素分析。问卷内容如下:下面的项目是对您单位福利状况的一些描述,请您仔细阅读每一个句子,然后根据自己的实际情况对每一项目做出评定,从1到5表示对您情况描述的同意程度,请您在相应的程度升划√。答案无对错、优劣之分,请根据您的实际情况填写。其中:1=完全不同意,2=比较不同意,3=介于同意与不同意之间,4=比较同意,5=完全同意。题号内容完全不同意比较不同意介于同意与不同意之间比较同意完全同意1单位所提供得福利基本上满足了我的需求和期望123452单位提供的福利措施使我感到工作和生活上有了保障123453我感觉我享受到的福利价值比较高123454从这些福利中,能体会到了单位对我的关怀123455我清楚自己享有的福利项目所花的费用是多少123456我很满意单位为我提供福利所支付的金额123457我认为福利占我的整体收入的比例很合理123458本单位为员工提供了丰富的个性化福利项目123459单位为我提供了丰富的经济性福利(如退休金、团体保险、伤病救助贷款、分红入股、休假给予的报酬等)1234510单位为我提供了丰富的娱乐性福利(如旅游、运动会、社团活动、晚会、书报杂志词阅、演讲和座谈、电影欣赏等)1234511单位为我提供了丰富的设施性福利(体育设施、休闲设施、员工宿舍和餐饮、医疗卫生设施、免费停车场等)123454912单位为我提供了丰富的员工服务福利(职业生涯规划、员工法律咨询、员工投资咨询、弹性工作时间、培训等)1234513本单位能把福利制度及相关措施清楚的告知员工1234514我很了解本单位各项的福利措施,并能很快的列举出1234515本单位经常请一些员工来参与讨论有关福利的各项问题1234516对单位福利有疑问或意见时,我有很多途径向上级反映1234517福利计划一旦有变动,单位会及时告诉我12345第一次因子分析为验证本实验数据是否适合进行因素分析,对数据进行了Bartlett球形检验和KMO取值。表1.第一次因子分析的KMO值和Bartlett’s球形检验的χ2值(n=256)Kaiser-Meyer-Olkin样本适当性度量0.946Bartlett球形检验近似卡方分布3239.091自由度136显著性水平0.000如表4.2所示,样本的KMO值为0.946,Bartlett’s球形检验的χ2值为3232.091,伴随概率小于0.001,达到非常显著水平,表明数据适合进行因素分析。在进行了因素分析的适合性分析之后,接下来就要进行因素分析的具体研究。运用主成分法抽取共同因素,结合最大方差法进行正交旋转处理,提取特征值大于1的因子,结果发现特征值大于1的公共因子共有3个,这3个公共因子累计解释率达70.892%,所有题项共同度均大于0.5。结果如表4.3和表4.4所示。表1-1第一次因子分析的总体变异解释率(n=256)因子初始特征值平方和负荷萃取转轴平方和负荷量50总和方差%累计%总和方差%累计%总和方差%累计%19.51355.96055.9609.51355.96055.9604.82528.38428.38421.4008.23464.1941.4008.23464.1943.69721.75050.13431.1396.69870.8921.1396.69870.8923.52920.75870.89240.6793.99674.88750.5923.48378.37160.5233.07881.44970.4362.56584.01480.3992.34986.36390.3732.19488.557100.3291.93790.494110.2911.71292.205120.2851.67693.882130.2561.50395.385140.2351.38496.768150.2001.17597.944160.1831.07899.022170.166.978100.00表1-2第一次因子分析的转轴后因素矩阵及共同度(n=256)因子123共同度S20.8360.780S10.8280.788S30.7840.773S40.7740.748S60.7330.776S70.6650.666S170.8030.707S130.7850.743S140.7000.641S150.5980.5520.734S50.4080.5890.514S160.4630.5780.659S100.825