多元统计分析-因子分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1第四章因子分析2第一节因子分析的基本思想3因子分析的基本思想因子分析是根据相关矩阵内部的依赖关系,把一些具有错综复杂关系的变量综合为数量较少的几个因子。通过不同因子来分析决定某些变量的本质及其分类的一种统计方法。简单地说,就是根据相关性大小把变量分组,使得同组内的变量之间相关性较高,不同组的变量相关性较低。每组变量代表一个基本结构,这个基本结构称为因子。4例如某机关对其职员就以下6个方面进行考核,这6个方面是职员的词汇、阅读、写作能力,以及数字、代数、微积分的运算能力。而这6个方面可归结为职员的语文能力和数学能力两个方面。5例如某公司与48名申请工作的人进行面谈,然后就申请人十五个方面进行打分,这十五个方面分别是:申请书的形式、外貌、学术能力、讨人喜欢的能力、自信心、洞察力、诚实、推销能力、经验、工作积极性、抱负、理解能力、潜力、入围公司的强烈程度、适应性。这15个方面可归结为应聘者的外露能力、讨人喜欢的能力、经验、专业能力这4个方面。6因子分析(factoranalysis)是一种数据简化的技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而假想变量是不可观测的潜在变量,称为因子。例如,在企业形象或品牌形象的研究中,消费者可以通过一个有24个指标构成的评价体系,评价百货商场的24个方面的优劣。7但消费者主要关心的是三个方面,即商店的环境、商店的服务和商品的价格。因子分析方法可以通过24个变量,找出反映商店环境、商店服务水平和商品价格的三个潜在的因子,对商店进行综合评价。而这三个公共因子可以表示为:iiiiiFFFX33221124,,1i称是不可观测的潜在因子。24个变量共享这三个因子,但是每个变量又有自己的个性,不被包含的部分,称为特殊因子。321FFF、、i8注意:因子分析与回归分析不同,因子分析中的因子是一个比较抽象的概念,而回归因子有非常明确的实际意义。主成分分析分析与因子分析也有不同,主成分分析仅仅是变量变换,而因子分析需要构造因子模型。主成分分析:原始变量的线性组合表示新的综合变量,即主成分。因子分析:潜在的假想变量和随机影响变量的线性组合表示原始变量。9第二节因子分析模型一、数学模型)(2211pmFaFaFaXimimiii设个变量,如果表示为iX),,2,1(pippmpmppmmpFFFaaaaaaaaaXXX212121222211121121AFX10称为公共因子,是不可观测的变量,他们的系数称为因子载荷。是特殊因子,是不能被前m个公共因子包含的部分。并且满足:mFFF,,,21icov(,)0,F,F即不相关;111212122212()()()()()()cov()()()()()ppppppEFEFEFEFEFEFEEFEFEFF,εFε011IFD111)(mFFF,,,21即互不相关,方差为1。1222221)(pD即互不相关,方差不一定相等,。),0(~2iiN13用矩阵的表达方式AFXIFDFE)(,0)(1)(),,,()(,0)()2(22221pdiagDE0),cov()3(F141、因子载荷aij的统计意义因子载荷是第i个变量与第j个公共因子的相关系数ija模型为imimiiFaFaX11),cov(),cov(1jikmkikjiFFaFXijFxaji(载荷矩阵中第i行,第j列的元素)反映了第i个变量与第j个公共因子的相关性。绝对值越大,相关的密切程度越高。),cov(),cov(1jijkmkikFFFaija根据公共因子的模型性质,有三、因子载荷矩阵中的几个统计特征15因子载荷不是惟一的AFX**cov()()EF,εFε0且满足因子模型的条件**FA))((FTATFTF*设T为一个p×p的正交矩阵,令A*=AT,,则模型可以表示为0)()()(*FETFTEFEITFDTFTDFD)()()(*),,,()(,0)(22221pdiagDE162、变量共同度的统计意义统计意义:imimiiFaFaX11两边求方差)()()()(2121imimiiVarFVaraFVaraXVarmjiija1221所有的公共因子和特殊因子对变量的贡献为1。如果非常靠近1,非常小,则因子分析的效果好,从原变量空间到公共因子空间的转化性质好。iXmjija122imjija12定义:变量的共同度是因子载荷矩阵的第i行的元素的平方和。记为iX。mjijiah122173、公共因子方差贡献的统计意义jF因子载荷矩阵中各列元素的平方和称为所有的对的方差贡献和。衡量的相对重要性。piijjag122),,1(mjjFiXjF18第三节因子载荷矩阵的估计方法设随机向量的均值为,协方差为,为的特征根,为对应的标准化特征向量,则pxxx,,,21x021pp21u,,u,u主成分分析法UUp2119上式给出的表达式是精确的,然而,它实际上是毫无价值的,因为我们的目的是寻求用少数几个公共因子解释,故略去后面的p-m项的贡献,有21111mmmmmmp1122ppuuuuuuuuuup2uuuuuuppp21122111100p212ppuuuuuu2012ˆˆˆˆmmm1122ΣAA+DuuuuuuD1121122ˆˆˆˆmmpmpmmp2uuuuuDAADu上式有一个假定,模型中的特殊因子是不重要的,因而从的分解中忽略了特殊因子的方差。22212ˆˆˆˆ(,,,)pdiagD其中221ˆmiiiijjsa21AFX)()()(DAFADXD),,,(22221pdiagAA22例假定某地固定资产投资率,通货膨胀率,失业率,相关系数矩阵为试用主成分分析法求因子分析模型。1x2x3x15/25/15/215/15/15/1123特征根为:55.1185.026.036.0707.085.0331.055.1629.06.0707.085.0331.055.1629.0085.0883.055.1475.0A707.0331.0629.0707.0331.0629.00883.0475.0U548.0305.0783.0548.0305.0783.00814.0569.024可取前两个因子F1和F2为公共因子,第一公因子F1物价就业因子,对X的贡献率为51.67%。第二公因子F2为投资因子,对X的贡献为28.33%。共同度分别为1,0.706,0.706。211814.0569.0FFx3212548.0305.0783.0FFFx3213548.0305.0783.0FFFx25第四节因子旋转(正交变换)因子分析的数学目的不仅仅要找出公共因子以及对变量进行分组,更重要的要知道每个公共因子的含义,以便进行进一步的分析。如果每个公共因子的含义不清,则不便于进行实际背景的解释。由于因子载荷阵是不惟一的,所以应该对因子载荷阵进行旋转。目的是使因子载荷阵的结构简化,使载荷矩阵每列或行的元素平方值向0和1两极分化。主要的正交旋转法有方差最大法和四次方最大法。(一)为什么要旋转因子26百米跑成绩跳远成绩铅球成绩跳高成绩400米跑成绩百米跨栏铁饼成绩撑杆跳远成绩标枪成绩1500米跑成绩1X2X3X4X5X6X7X8X9X10X奥运会十项全能运动项目得分数据的因子分析27变量共同度0.6910.217-0.58-0.2060.840.7890.184-0.1930.0920.70.7020.5350.047-0.1750.80.6740.1340.1390.3960.650.620.551-0.084-0.4190.870.6870.042-0.1610.3450.620.621-0.5210.109-0.2340.720.5380.0870.4110.440.660.434-0.4390.372-0.2350.570.1470.5960.658-0.2790.891F2F3F4F1X2X3X4X5X6X7X8X9X10X因子载荷矩阵可以看出,除第一因子中所有的变量在公共因子上有较大的正载荷,可以称为一般运动因子。其他的3个因子不太容易解释。似乎是跑和投掷的能力对比,似乎是长跑耐力和短跑速度的对比。于是考虑旋转因子,得下表28变量F1F2F3F4共同度X1X2X3X4X5X6X7X8X9X100.8840.6310.2450.2390.7970.4040.186-0.036-0.0480.0450.1360.1940.8250.1500.0750.1530.8140.1760.735-0.0410.1560.5150.2230.7500.1020.6350.1470.7620.1100.112-0.113-0.006-0.1480.0760.468-0.17-0.0790.2170.1410.9340.840.700.810.650.870.620.720.660.570.8929通过旋转,因子有了较为明确的含义。百米跑,跳远和400米跑,需要爆发力的项目在有较大的载荷,可以称为短跑速度因子;铅球,铁饼和标枪在上有较大的载荷,可以称为爆发性臂力因子;百米跨栏,撑杆跳远,跳远和为跳高在上有较大的载荷,爆发腿力因子;为长跑耐力因子。2X5X1F1F3X7X9X2F6X8X2X4X3F3F4F1X30(二)旋转方法1、方差最大法2、四次方最大旋转311、方差最大法方差最大法从简化因子载荷矩阵的每一列出发,使和每个因子有关的载荷值平方的方差最大。当只有少数几个变量在某个因子上有较高的载荷值时,对因子的解释最简单。方差最大的直观意义是希望通过因子旋转后,使每个因子上的载荷值尽量拉开距离,一部分的载荷趋于1,另一部分趋于0。2122211211ppaaaaaaAppppFaFaXFaFaXFaFaX2211222212121212111132cossinsincosT设旋转矩阵为:cossinsincosAATB则cossinsincoscossinsincos112112111211ppppaaaaaaaa211211ppbbbb332221212211ppbbbb21221222212112211111piipiipiipiibpbpbpbpVmax根据求极值的原理,使0V,由此可求出因子轴旋转角度34当公共因子个数m2时,可以将

1 / 62
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功