《应用多元统计分析》第五版PPT(第八章)-简化版(JMP13.1)

xllywm
0 ℃
2021-06-03

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第八章因子分析§8.1引言§8.2正交因子模型§8.3参数估计§8.4因子旋转§8.5因子得分1§8.1引言（本身作为目的的）主成分分析的成功需满足如下两点：(1)前(少数)几个主成分具有较高的累计贡献率；(通常较易得到满足)(2)对主成分给出符合实际背景和意义的解释。(往往正是主成分分析的困难之处)因子分析的目的和用途与主成分分析类似，它也是一种降维方法。因子往往比主成分更易得到解释。2因子分析起源于20世纪初，K.皮尔逊(Pearson)和C.斯皮尔曼(Spearman)等学者为定义和测定智力所作的努力，主要是由对心理测量学有兴趣的科学家们培育和发展了因子分析。因子分析与主成分分析主要有如下一些区别：(1)主成分分析涉及的只是一般的变量变换，它不能作为一个模型来描述，本质上几乎不需要任何假定；而因子分析需要构造一个因子模型，并伴有几个关键性的假定。(2)主成分是原始变量的线性组合；而在因子分析中，原始变量是因子的线性组合，但因子却一般不能表示为原始变量的线性组合。3111111221122211222221122mmmmpppppmmpxafafafxafafafxafafaf1111212112121222221122ppppmmmpmpmyaxaxaxyaxaxaxyaxaxaxaxaxax1212,,,,,,pmxxxyyy主成分分析：1212,,,,,,pmxxxfff：因子分析4(3)在主成分分析中，强调的是用少数几个主成分解释总方差；而在因子分析中，强调的是用少数几个因子去描述协方差或相关关系。(4)主成分的解是唯一的（除非含有相同的特征值或特征向量为相反符号）；而因子的解可以有很多，表现得较为灵活（主要体现在因子旋转上），这种灵活性使得变量在降维之后更易得到解释，这是因子分析比（需对主成分作出解释的）主成分分析有更广泛应用的一个重要原因。(5)主成分不会因其提取个数的改变而变化，但因子往往会随模型中因子个数的不同而变化。5例8.1.1林登(Linden)根据他收集的来自139名运动员的比赛数据，对第二次世界大战以来奥林匹克十项全能比赛的得分作了因子分析研究。这十个全能项目是：x1：100米跑x6：110米跨栏x2：跳远x7：铁饼x3：铅球x8：撑杆跳高x4：跳高x9：标枪x5：400米跑x10：1500米跑经标准化后所作的因子分析表明，十项得分基本上可归结于他们的爆发性臂力强度、短跑速度、爆发性腿部强度和跑的耐力这四个方面，每一方面都称为一个因子。十项得分与这四个因子之间的关系可以描述为如下的因子模型：xi=μi+ai1f1+ai2f2+ai3f3+ai4f4+εi,i=1,2,⋯,10其中f1,f2,f3,f4表示四个因子，称为公共因子，aij称为xi在因6子aij称为xi在因子fj上的载荷，μi是xi的均值，εi是xi不能被四个公共因子解释的部分，称之为特殊因子。例8.1.3公司老板对48名应聘者进行面试，并给出他们在15个方面所得的分数，这15个方面是：x1：申请书的形式x9：经验x2：外貌x10：积极性x3：专业能力x11：抱负x4：讨人喜欢x12：理解能力x5：自信心x13：潜力x6：精明x14：交际能力x7：诚实x15：适应性x8：推销能力通过因子分析，这15个方面可以归结为应聘者的进取能干、经验、讨人喜欢的程度、专业能力和外貌这五个因子。7§8.2正交因子模型一、数学模型二、正交因子模型的性质三、因子载荷矩阵的统计意义8一、数学模型设有p维可观测的随机向量，其均值为，协差阵为Σ=(σij)。因子分析的一般模型为其中f1,f2,⋯,fm为公共因子，ε1,ε2,⋯,εp为特殊因子，它们都是不可观测的随机变量。公共因子出现在每一个原始变量的表达式中，可理解为原始变量共同具有的公共因素。上式可用矩阵表示为x=μ+Af+𝛆12(,,,)pxxxx12(,,,)pμ111111221122211222221122mmmmpppppmmpxafafafxafafafxafafaf9式中为公共因子向量，为特殊因子向量，称为因子载荷矩阵。通常假定该假定和上述关系式构成了正交因子模型。由上述假定可以看出，公共因子彼此不相关且具有单位方差，特殊因子也彼此不相关且和公共因子也不相关。12,,,mffff12,,,pε:ijapmA22212diag,,,Cov,pEEVVEfεfIεDfεfε00010二、正交因子模型的性质1.x的协差阵Σ的分解3.因子载荷是不唯一的111.x的协差阵Σ的分解Σ=V(Af+ε)=V(Af)+V(ε)=AV(f)A′+V(ε)=AA′+D如果A只有少数几列，则上述分解式揭示了Σ的一个简单结构。由于D是对角矩阵，故Σ的非对角线元素可由A的元素确定，即因子载荷完全决定了原始变量之间的协方差，具体有如果x为各分量已标准化了的随机向量，则Σ就是相关阵R，即有R=AA′+D相应地有121122,1ijijijimjmaaaaaaijp1122,1ijijijimjmaaaaaaijp例8.2.1设随机向量x=(x1,x2,x3,x4)′的协方差矩阵为则Σ可分解为Σ=AA′+D其中911520112717425175252042586Σ214000430200,170020920001AD13若取A=Σ1/2，D=0，则有分解式Σ=Σ1/2Σ1/2+0此时m=p，没有达到降维目的，故所作的因子分析没有意义。出于降维的需要，我们常常希望m要比p小得多，这样前述Σ的分解式通常只能近似成立，即有Σ≈AA′+D近似程度越好，表明因子模型拟合得越佳。在因子数m的选择上，我们既希望m尽可能小又希望因子模型的拟合尽可能好，而这两个目标是彼此矛盾的，实践中我们应确定一个折中、合理的m。143.因子载荷是不唯一的设T为任一m×m正交矩阵，令A*=AT，f*=T′f，则模型能表示为x=μ+A*f*+ε因为E(f*)=T′E(f)=0V(f*)=T′V(f)T=T′T=ICov(f*,ε)=E(f*ε′)=T′E(fε′)=0所以仍满足模型条件。Σ也可分解为Σ=A*A*′+D因此，因子载荷矩阵A不是唯一的，在实际应用中常常利用这一点，通过因子的旋转（见稍后的§8.4），使得新的因子有更好的实际意义。15三、因子载荷矩阵的统计意义1.A的元素2.A的行元素平方和3.A的列元素平方和4.A的元素平方和161.A的元素或若x为各分量已标准化了的随机向量，则17Cov,Cov,Cov,VxfAfεfAfεfACov,,1,2,,,1,2,,ijijxfaipjmCov,,Cov,1,2,,,1,2,,ijijijijijxfxfxfaVxVfipjm2.A的行元素平方和xi=μi+ai1f1+ai2f2+⋯+aimfm+εi令于是2221122222212,1,2,,iiiimmiiiimiVxaVfaVfaVfVaaaip221,1,2,,miijjhaip1822,1,2,,iiiihip反映了公共因子对xi的影响，可以看成是公共因子f1,f2,⋯,fm对xi的方差贡献，称为共性方差；而是特殊因子εi对xi的方差贡献，称为特殊方差。当x为各分量已标准化了的随机向量时，σii=1，此时有2ih2i221,1,2,,iihip193.A的列元素平方和其中反映了公共因子fj对x1,x2,⋯,xp的影响，是衡量公共因子fj重要性的一个尺度，可视为公共因子fj对x1,x2,⋯,xp的总方差贡献。221,1,2,,pjijigajm2jg2211111122211ppppiiimmiiiiipmiiVxaVfaVfVgg20fj所解释的总方差的比例（或称贡献率）为，如果各原始变量已作了标准化，则该比例就简化为。212]1pjiigVx2]jgp4.A的元素平方和A的元素平方和为或这是f1,f2,⋯,fm对总方差的累计贡献，f1,f2,⋯,fm所解释的总方差的累计比例（或称累计贡献率）为2222111trppmijiijiahAA22111trpmmijjjijagAA对于标准化了的原始变量可简化为23221111[]pppmjiiijiiigVxhVx2211[=]pmjijigphp§8.3参数估计一、主成分法二、主因子法三、极大似然法24一、主成分法设样本协方差矩阵S的特征值依次为，相应的正交单位特征向量为。选取相对较小的因子数m，并使得累计贡献率达到一个较高的百分比，则S可近似分解如下：其中为p×m矩阵，，i=1,2,⋯,p。这里的和就是因子模型的一个主成分解。11ˆˆpmiiii1111111111ˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆmmmmmmpppmmmSttttttttttttDAAD11ˆˆˆˆˆˆ,,mmijaAtt221ˆˆˆdiag,,,pDˆAˆD221ˆˆmiiiijjsa12ˆˆˆ,,,pttt12ˆˆˆ0p25对主成分解，当因子数增加时，原来因子的估计载荷并不变，fj对x的总方差贡献仍为。主成分法与主成分分析有着很相似的名称，两者很容易混淆。虽然第j个因子与第j个主成分的解释完全相同，但主成分法与主成分分析本质上却是两个不同的概念。主成分法是因子分析中的一种参数估计方法，它并不计算任何主成分，且旋转后的因子解释一般就与主成分明显不同了。称为残差矩阵。当p个原始变量的单位不同，或虽单位相同，但各变量的数值变异性相差较大时，我们应首先对原始变量作标准化变换，也就是从出发求解。ˆiˆˆˆSAAD26ˆR例8.3.1在例7.3.2中，分别取m=1和m=2，用主成分法估计的因子载荷和共性方差列于表8.3.1。表8.3.1当m=1和m=2时的主成分解变量m=1m=2因子载荷共性方差因子载荷共性方差f1f2f1f2：100米0.8170.6680.8170.5310.950：200米0.8670.7520.8670.4320.939：400米0.9150.8380.9150.2330.892：800米0.9490.9000.9490.0120.900：1500米0.9590.9200.959-0.1310.938：5000米0.9380.8790.938-0.2920.965：10000米0.9440.8910.944-0.2870.973：马拉松0.8800.7740.880-0.4110.943所解释的总方差的累计比例0.8280.8280.9381f2ˆih1f2f2ˆih*1x*2x*3x*4x*5x*6x*7x*8x2ˆih*1x*2x*3x*4x*5x*6x*7x*8x2728主成分解的近似关系式主成分解的因子解释与主成分的解释完全相同。因子f1代表在径赛项目上的总体实力，可称为强弱因子；因子f2反映了（短跑）速度与耐力的对比。*1121*2122*3123*4124*5125*6126*71271000.8170.531000.8670.43240