第七章因子分析与主成分分析报告

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

旅游与管理工程学院第七章因子分析与主成分分析旅游与管理工程学院一、主成分分析概述•每个人都会遇到有很多变量的数据。•比如全国或各个地区的带有许多经济和社会变量的数据;各个学校的研究、教学等各种变量的数据等等。•这些数据的共同特点是变量很多,在如此多的变量之中,有很多是相关的。人们希望能够找出它们的少数“代表”来对它们进行描述。旅游与管理工程学院•在多数实际问题中,不同指标之间是有一定相关性。由于指标较多及指标间有一定的相关性,势必增加分析问题的复杂性。•因子分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标。同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来的指标的信息。旅游与管理工程学院•因子分析是考察多个数值变量间相关性的一种多元统计方法,它是研究如何通过少数几个主成分来解释多变量的方差—协方差结构。•导出几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间不相关。旅游与管理工程学院•本章就介绍两种把变量维数降低以便于描述、理解和分析的方法:主成分分析(principalcomponentanalysis)和因子分析(factoranalysis)。实际上主成分分析可以说是因子分析的一个特例。旅游与管理工程学院二、主成分分析降维原理•先假定只有二维,即只有两个变量,它们由横坐标和纵坐标所代表;因此每个观测值都有相应于这两个坐标轴的两个坐标值;如果这些数据形成一个椭圆形状的点阵(这在变量的二维正态的假定下是可能的)•那么这个椭圆有一个长轴和一个短轴。在短轴方向上,数据变化很少;在极端的情况,短轴如果退化成一点,那只有在长轴的方向才能够解释这些点的变化了;这样,由二维到一维的降维就自然完成了。旅游与管理工程学院•当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就描述了数据的主要变化,而代表短轴的变量就描述了数据的次要变化。•但是,坐标轴通常并不和椭圆的长短轴平行。因此,需要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆的长短轴平行。•如果长轴变量代表了数据包含的大部分信息,就用该变量代替原先的两个变量(舍去次要的一维),降维就完成了。•椭圆(球)的长短轴相差得越大,降维也越有道理。旅游与管理工程学院-4-2024-4-2024旅游与管理工程学院•对于多维变量的情况和二维类似,也有高维的椭球,只不过无法直观地看见罢了。•首先把高维椭球的主轴找出来,再用代表大多数数据信息的最长的几个轴作为新变量;这样,主成分分析就基本完成了。•注意,和二维情况类似,高维椭球的主轴也是互相垂直的。这些互相正交的新变量是原先变量的线性组合,叫做主成分(principalcomponent)。旅游与管理工程学院•正如二维椭圆有两个主轴,三维椭球有三个主轴一样,有几个变量,就有几个主成分。•选择越少的主成分,降维就越好。什么是标准呢?那就是这些被选的主成分所代表的主轴的长度之和占了主轴长度总和的大部分。有些文献建议,所选的主轴总长度占所有主轴长度之和的大约85%即可,其实,这只是一个大体的说法;具体选几个,要看实际情况而定。旅游与管理工程学院三、主成分分析的基本原理•假定有n个样本,每个样本共有p个变量,构成一个n×p阶的数据矩阵npnnppxxxxxxxxxX212222111211旅游与管理工程学院•当p较大时,在p维空间中考察问题比较麻烦。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息,同时它们之间又是彼此独立的。旅游与管理工程学院定义:记x1,x2,…,xP为原变量指标,z1,z2,…,zm(m≤p)为新变量指标pmpmmmppppxlxlxlzxlxlxlzxlxlxlz22112222121212121111系数lij的确定原则:①zi与zj(i≠j;i,j=1,2,…,m)相互无关;旅游与管理工程学院②z1是x1,x2,…,xP的一切线性组合中方差最大者,z2是与z1不相关的x1,x2,…,xP的所有线性组合中方差最大者;……zm是与z1,z2,……,zm-1都不相关的x1,x2,…xP,的所有线性组合中方差最大者。则新变量指标z1,z2,…,zm分别称为原变量指标x1,x2,…,xP的第一,第二,…,第m主成分。旅游与管理工程学院从以上的分析可以看出,主成分分析的实质就是确定原来变量xj(j=1,2,…,p)在诸主成分zi(i=1,2,…,m)上的荷载lij(i=1,2,…,m;j=1,2,…,p)。从数学上容易知道,从数学上可以证明,它们分别是的相关矩阵的m个较大的特征值所对应的特征向量。旅游与管理工程学院四、计算步骤(一)计算相关系数矩阵•rij(i,j=1,2,…,p)为原变量xi与xj的相关系数,rij=rji,其计算公式为:pppppprrrrrrrrrR212222111211nknkjkjikinkjkjikiijxxxxxxxxr11221)()())((旅游与管理工程学院(二)计算特征值与特征向量:①解特征方程,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列;0RI0,21p②分别求出对应于特征值的特征向量,要求=1,即,其中表示向量的第j个分量。i),,2,1(pieiie112pjijeijeie旅游与管理工程学院③计算主成分贡献率及累计贡献率▲贡献率:),,2,1(1pipkki▲累计贡献率:),,2,1(11pipkkikk一般取累计贡献率达85—95%的特征值所对应的第一、第二、…、第m(m≤p)个主成分。m,,,21旅游与管理工程学院④计算主成分载荷⑤各主成分的得分:),,2,1,(),(pjiexzplijijiijnmnnmmzzzzzzzzzZ212222111211旅游与管理工程学院五、SPSS分析过程•1、步骤•(1)数据适合性检验与抽取因子数目的确定–数据适合性检验:KMO检验和巴特立特球面检验–确定抽取因子的数目:抽取方法与因子数目确定•(2)在明确因子数据的基础上再做一次因子分析。这一步目的在于获得清晰的因子结构以及进行项目删除。–因子旋转:旋转方法?–项目删除:原则?–因子命名•(3)删除若干项目后,再做一次因素分析。这一步的目的在于看每个(或所有)因子解释方差的%。旅游与管理工程学院因子抽取(Extraction)的方法•主成分分析法(PrincipalComponents):一般选这个方法就行。•普通最小二乘法,•广义最小二乘法(generalizedleastsquares),•最大似然法(Maximumlikelihood),•主轴因子法(PrincipleAxisFactoring),•α因子提取法(Alpha),•映像分析法(image)旅游与管理工程学院2、数据适合性检验•判断数据是否适合作因素分析,有下列三种方法:–如果矩阵中的相关系数大部分都小于0.3,则不适合作因素分析。–还可采用KMO检验和巴特立特球面检验。KMO值一般接近1,若比较小则表示不适合作因素分析。标准:0.9以上,非常好;0.8以上,好;0.7,一般,0.6差;0.5,很差;0.5以下,不能接受。–巴特立特球面检(Bartlett’stestofSphericity)是一种显著性检验,达到显著性水平就比较好。旅游与管理工程学院3、确定抽取因子的数目•两个标准:–特征值(Eigenvalalue)准则,特征值大于1有多少个因子。–碎石图(Screetest)准则,取曲线开始转折前的因子个数。•补充原则:–有些情况下,分析人员事先确定因子的个数(numberoffactors)。这种做法适合检验因子的理论或重复某些工作。总之,采取最容易解释且最简单的因子结构为好。旅游与管理工程学院4、因子旋转(Rotation)方法与选择•因子旋转一般在因子分析的第二步进行•旋转方法:–不旋转(None)–方差最大法(Varimax)–等量最大法(Equamax)–四次方最大法(Quartimax)–斜交旋转法(DirectOblimin)•选择标准:–一般选Varimax(正交旋转法),为更容易解释,选斜交旋转法旅游与管理工程学院5、因子命名•因子命名主要借助于因子负载矩阵(factorsolution)。•因子命名原则:–具有高荷重的变量,对因子名称影响最大(可考虑按大小排序)。–绝对值大于0.3的荷重是显著的(解释大于10%方差)。旅游与管理工程学院6、可删除的变量•在所有因子因子荷重(lodging)均小于0.3的项目;•两个因子上因子荷重(lodging)差不多大小•根据实际需要,从大到小排列,删除后面不需要的旅游与管理工程学院7、计算维度分或因子值(Factorscores)•用计算(Compute)命令简单相加即可旅游与管理工程学院六、案例分析•案例见农业生态系统.sav要求:1.计算样本相关矩阵R2.求相关矩阵R的特征值与特征向量,并计算贡献率3.选择主成分4.对所选主成分做经济解释旅游与管理工程学院旅游与管理工程学院旅游与管理工程学院旅游与管理工程学院旅游与管理工程学院旅游与管理工程学院旅游与管理工程学院旅游与管理工程学院旅游与管理工程学院旅游与管理工程学院①第一主成分与x1,x5,x6,x7,x9呈显出较强的正相关,与x3呈显出较强的负相关,而这几个变量则综合反映了生态经济结构状况,因此可以认为第一主成分z1是生态经济结构的代表。②第二主成分与x2,x4,x5呈显出较强的正相关,与x1呈显出较强的负相关,其中,除了x1为人口总数外,x2,x4,x5都反映了人均占有资源量的情况,因此可以认为第二主成分代表了人均资源量。分析:旅游与管理工程学院显然,用三个主成分代替原来9个变量(x1,x2,…,x9),描述农业生态经济系统,可以使问题更进一步简化、明了。③第三主成分,与x8呈显出的正相关程度最高,其次是x6,而与x7呈负相关,因此可以认为第三主成分在一定程度上代表了农业经济结构。旅游与管理工程学院因子分析和主成分分析的一些注意事项•可以看出,因子分析和主成分分析都依赖于原始变量,也只能反映原始变量的信息。所以原始变量的选择很重要。•另外,如果原始变量都本质上独立,那么降维就可能失败,这是因为很难把很多独立变量用少数综合的变量概括。数据越相关,降维效果就越好。•在得到分析的结果时,并不一定会都得到如我们例子那样清楚的结果。这与问题的性质,选取的原始变量以及数据的质量等都有关系•在用因子得分进行排序时要特别小心,特别是对于敏感问题。由于原始变量不同,因子的选取不同,排序可以很不一样。

1 / 40
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功