多元统计分析:第八章--因子分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

北大数学学院1应用多元统计分析第八章因子分析北大数学学院2§8.1§8.2§8.3§8.4§8.5§8.6Q第八章因子分析目录北大数学学院3第八章因子分析因子分析是主成分分析的推广和发展,它也是多元统计分析中降维的一种方法.因子分析是研究相关阵或协差阵的内部依赖关系,它将多个变量综合为少数几个因子,以再现原始变量与因子之间的相关关系.因子分析的形成和早期发展一般认为是从CharlesSpearman在1904年发表的文章开始.他提出这种方法用来解决智力测验得分的统计分析.目前因子分析在心理学、社会学、经济学等学科都取得成功的应用.北大数学学院4第八章§8.1引言什么是因子分析例1为了了解学生的学习能力,观测了n个学生p个科目的成绩(分数),用X1,…,Xp表示p个科目(例如代数、几何、语文、英语、政治,…),X(t)=(xt1,…,xtp)′(t=1,…,n)表示第t个学生p个科目的成绩,我们对这些资料进行归纳分析,可以看出各个科目(即变量)由两部分组成:Xi=aiF+εi(i=1,…,p)(8.1.1)其中F是对所有Xi(i=1,…,p)所共有的因子,它表示智能高低的因子;εi是变量Xi特有的特殊因子.这就是一个最简单的因子模型.北大数学学院5第八章§8.1引言什么是因子分析进一步可把这个简单因子模型推广到多个因子的情况,即全体科目X所共有的因子有m个,如数学推导因子、记忆因子、计算因子…等.分别记为F1,…,Fm,即Xi=ai1F1+ai2F2+…+aimFm+εi(i=1,…,p)(8.1.2)用这m个不可观测的相互独立的公共因子F1,…,Fm(也称为潜因子)和一个特殊因子εi来描述原始可测的相关变量(科目)X1,…,Xp,并解释分析学生的学习能力.北大数学学院6第八章§8.1引言什么是因子分析例2调查青年对婚姻家庭的态度,抽取了n个青年回答了p=50个问题的答卷,这些问题可归纳为如下几个方面,对相貌的重视、对孩子的观点等,这也是一个因子分析的模型,每一个方面就是一个因子.例3考察五个生理指标:收缩压(X1)、舒张压(X2)、心跳间隔(X3)、呼吸间隔(X4)和舌下温度(X5).从生理学的知识,这五个指标是受植物神经支配的,植物神经又分为交感神经和副交感神经,因此这五个指标有两个公共因子,也可用因子分析的模型去处理它.北大数学学院7第八章§8.1引言什么是因子分析例4Linden对二次大战(1945年以后)奥林匹克十项全能的得分进行研究(n=160),用X1-X10表示十项全能的标准化得分数据(十项全能包括:100米,铝球,跳高,跳远,400米,110米跨栏,铁饼,撑杆,标枪,1500米),目的是分析哪些因素决定了十项全能的成绩,以此来指导运动员的选拔工作.这些因素可归纳为如下几类:短跑速度,爆发性臂力,腿力,耐力等.这也是一个因子分析的模型,每一个因素就是一个公共因子.北大数学学院8第八章§8.1引言什么是因子分析因子分析的主要应用有两方面:一是寻求基本结构,简化观测系统,将具有错综复杂关系的对象(变量或样品)综合为少数几个因子(不可观测的,相互独立的随机变量),以再现因子与原变量之间的内在联系;二是用于分类,对p个变量或n个样品进行分类.北大数学学院9第八章§8.1引言什么是因子分析因子分析根据研究对象可以分为R型和Q型因子分析.R型因子分析研究变量(指标)之间的相关关系,通过对变量的相关阵或协差阵内部结构的研究,找出控制所有变量的几个公共因子(或称主因子、潜因子),用以对变量或样品进行分类.Q型因子分析研究样品之间的相关关系,通过对样品的相似矩阵内部结构的研究找出控制所有样品的几个主要因素(或称主因子).北大数学学院10第八章§8.1引言什么是因子分析因子分析与主成分分析有区别:主成分分析一般不用数学模型来描述,它只是通常的变量变换,而因子分析需要构造因子模型(正交或斜交);主成分分析中主成分的个数和变量个数p相同,它是将一组具有相关性的变量变换为一组独立的综合变量(注意应用主成分分析解决实际问题时,一般只选取m(mp)个主成分),而因子分析的目的是要用尽可能少的公因子,以便构造一个结构简单的因子模型;北大数学学院11第八章§8.1引言什么是因子分析主成分分析是将主成分表示为原变量的线性组合,而因子分析是将原始变量表示为公因子和特殊因子的线性组合.另一方面这两种分析方法之间在某些情况下也有一定联系.这些我们将从下面的介绍中看到.北大数学学院12第八章§8.2因子模型正交因子模型设X=(X1,…,Xp)′是可观测的随机向量,E(X)=μ,D(X)=Σ.F=(F1,…,Fm)′(mp)是不可观测的随机向量,E(F)=0,D(F)=Im(即F的各分量方差为1,且互不相关).又设ε=(ε1,…,εp)′与F相互独立,且E(ε)=0,D(ε)=diag(σ21,…,σ2p)=D(对角阵).北大数学学院13第八章§8.2因子模型正交因子模型假定随机向量X满足以下的模型:X1-μ1=a11F1+a12F2+…+a1mFm+ε1,X2-μ2=a21F1+a22F2+…+a2mFm+ε2,……………………………(8.2.1)Xp-μp=ap1F1+ap2F2+…+apmFm+εp,则称模型(8.2.1)为正交因子模型.用矩阵表示为)2.2.8(1111pmmpppFAX北大数学学院14第八章§8.2因子模型正交因子模型其中F=(F1,…,Fm)′,F1,…,Fm称为X的公共因子;ε=(ε1,…,εp)′,ε1,…,εp称为X的特殊因子;公共因子F1,…,Fm对X每一个分量X1,X2,…,Xp都有作用,而εi只对Xi起作用.而且各特殊因子之间以及特殊因子与所有公共因子之间都是相互独立的.北大数学学院15第八章§8.2因子模型正交因子模型模型中的矩阵A=(aij)(p×m)是待估的系数矩阵,称为因子载荷矩阵.aij(i=1,…,p;j=1,…,m)称为第i个变量在第j个因子上的载荷(简称为因子载荷),或称为第j个因子为预测第i个变量的回归系数.北大数学学院16第八章§8.2因子模型正交因子模型这里有几个关键性的假设:1.公共因子Fi互不相关,且D(F)=Im2.特殊因子互不相关,且D(ε)=diag(σ21,…,σ2p)=D3.特殊因子与公共因子不相关,即COV(ε,F)=Op×m.北大数学学院17第八章§8.2因子模型正交因子模型在主成分分析中,当讨论用前m个主成分表示原始变量的模型时,残差通常是彼此相关的.在因子分析中,特殊因子起着残差的作用,但被定义为彼此不相关且和公因子也不相关.而且每个公因子假定至少对两个变量有贡献,否则它将是一个特殊因子.北大数学学院18第八章§8.2因子模型正交因子模型在正交因子模型中,假定公因子彼此不相关且具有单位方差,即D(F)=Im.在这种情况下,由Σ=D(X)=D(AF+ε)=E[(AF+ε)(AF+ε)′]=AD(F)A′+D(ε)=AA′+D,即Σ-D=AA'(8.2.3)(8.2.3)称为正交因子模型的协方差结构.北大数学学院19第八章§8.2因子模型正交因子模型由(8.2.3)可知,X符合正交因子模型意味着第j个变量和第k个变量(j≠k)的协方差σjk由下式给出:(Σ=AA'+D)σjk=aj1ak1+aj2ak2+…+ajmakm(j≠k)σjj=(aj1)2+(aj2)2+…+(ajm)2+σj2北大数学学院20第八章§8.2因子模型正交因子模型如果原始变量已被标准化为单位方差,在(8.2.3)式中将用相关阵代替协差阵.在这种意义上,公共因子解释了观测变量间的相关性.用正交因子模型预测的相关与实际的相关之间的差异就是剩余相关.评估正交因子模型拟合优度的好方法就是考察剩余相关的大小(即误差平方和Q(m)的大小).北大数学学院21第八章§8.2因子模型正交因子模型因子分析的任务首先是由样本协差阵估计Σ,然后由Σ满足的分解式(8.2.3)求得A和D.也就是从可以观测的变量X1,…,Xp给出的样本资料中,求出载荷矩阵A和D.又COV(X,F)=E[(X-EX)(F-EF)′]=E[(X-μ)F′]=E[(AF+ε)F′]=AE(FF′)+E(εF′)=A,(8.2.4)可见A中元素aij刻画变量Xi与Fj之间的相关性,称aij为Xi在Fj上的因子载荷.北大数学学院22第八章§8.2因子模型1.因子载荷的统计意义由因子模型(8.2.1)及(8.2.4)可知Xi与Fj的协方差Cov(Xi,Fj)=aij如果变量Xi是标准化变量(即E(Xi)=0,Var(Xi)=1),这时因子载荷aij就是第i个变量与第j个公共因子的相关系数.北大数学学院23第八章§8.2因子模型),,2,1(122piahmtiti2.因子载荷矩阵A中各行元素的平方和记为hi2称为变量Xi的共同度.为了给出hi2的统计意义,下面来计算Xi方差.22121)(Var)(Var)(Var)(VariiitmtititmtitihFaFaX北大数学学院24第八章§8.2因子模型正交因子模型中各个量的统计意义Xi的方差由两部分组成,第一部分hi2是全部(m个)公共因子对变量Xi的总方差所作出的贡献,称为公因子方差;第二部分σ2i由特定因子εi产生的方差,它仅与变量Xi有关,也称为剩余方差.北大数学学院25第八章§8.2因子模型显然,若hi2大,σ2i必小.而hi2大表明Xi对公因子F1,…,Fm的共同依赖程度大.当hi2=1(设Var(Xi)=1)时,σ2i=0,即Xi能够由公共因子的线性组合表示;当hi2≈0时,表明m个公共因子对Xi影响很小,Xi主要由特殊因子εi来描述.可见hi2反映了变量Xi对公因子F依赖的程度.故称公因子方差hi2为变量Xi的共同度.北大数学学院26第八章§8.2因子模型3.公共因子Fj在因子载荷矩阵A中,求A的各列的平方和,记为qj2qj2的统计意义与Xi的共同度h2i恰好相反,qj2表示第j个公因子Fj对X的所有分量X1,…,Xp的总影响,称为公共因子Fj对X的贡献(qj2是同一公共因子Fj对诸变量所提供的方差之总和),它是衡量公共因子相对重要性的指标.),,2,1(122mjaqpttjj北大数学学院27第八章§8.2因子模型qj2愈大,表明Fj对X的贡献愈大.如果我们把A矩阵的各列平方和都计算出来,使相应的贡献有顺序:我们就能够以此为依据,提炼出最有影响的公共因子.要解决此问题,关键是求载荷矩阵A的估计.22221mqqq北大数学学院28第八章§8.2因子模型因子分析的任务1.由样本(即观测数据)得出Σ的估计(样本协差阵),假定X符合正交因子模型,则有分解式:Σ=AA'+D2.由样本协差阵估计A和D及公因子个数m使之满足:Σ=AA'+D(参数估计问题)3.对公共因子给出有实际背景的解释.4.估计因子得分函数和因子得分.北大数学学院29第八章§8.2因子模型例8.2.1已知X=(X1,...,X4)'的协差阵Σ:1930212305752325384712234768试求满足(8.2.3)式的因子载荷阵A(m=2)和特殊因子的协差阵D.解:比如取A'=47-111268Σ=北大数学学院30第八章§8.2因子模型例8.2.12000040000100003则协差阵满足:Σ=AA′+D且有共同度h12=42+12=17Var(ε1)=2,Var(X1)=19分解式:19=17+2即:Var(X1)=h12+Var(ε1)D=81612714A北大数学学院32第八章§8.3参数估计方法已知p个相关变量的观测数据X(i)=(xi1,…,xip)’(i=1,…,n).因子分析的目的是用少数几个公共因子(设为m个)来描述pΣ=AA′+D(8.2.3)其中A=(aij)为p×m的因子载荷阵;D=diag(σ21,…,σ2p)为p阶对角阵.因子分析的参数估计问题就是估计公共因子的个数m、因子载荷阵A及特殊

1 / 110
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功