北大数学学院1应用多元统计分析第七章主成分分析北大数学学院2第七章主成分分析目录§7.1§7.2§7.3主成分分析的应用北大数学学院3第七章主成分分析多变量分析(MultivariateAnalysis)是处理多变量(多指标)的统计问题。多个变量之间常存在相关性,人们希望用较少不相关的变量来代替原来较多且相关的变量。主成分就是要从原变量的各种线性组合中找出能集中反映原变量信息的综合变量。北大数学学院4第七章§7.1总体的主成分什么是主成分分析主成分分析是将多个指标化为少数几个综合指标的一种统计分析方法.在实际问题中,研究多指标的问题是经常遇到的问题.由于变量个数太多,并且彼此之间存在着一定的相关性,势必增加分析问题的复杂性.主成分分析就是设法把原来的多个指标重新组合成较少几个新的互不相关的综合变量来代替原来的变量;而且这几个综合变量又能够尽可能多地反映原来变量的信息.利用这种降维的思想,产生了主成分分析、因子分析、典型相关分析等统计方法.北大数学学院5第七章§7.1总体的主成分什么是主成分设X=(X1,…,Xp)′是p维随机向量,均值向量E(X)=μ,协差阵D(X)=Σ.考虑它的线性变换:易见:(7.1.2)(7.1.1)北大数学学院6第七章§7.1总体的主成分什么是主成分假如我们希望用Z1来代替原来的p个变量X1,…,Xp,这就要求Z1尽可能多地反映原来p个变量的信息,这里所说的“信息”用什么来表达呢?最经典的方法是用Z1的方差来表达.Var(Z1)越大,表示Z1包含的信息越多.由(7.1.2)式看出,对a1必须有某种限制.否则可使Var(Z1)→∞.常用的限制是:a1'a1=1.若存在满足以上约束的a1,使Var(Z1)达最大,Z1就称为第一主成分(或主分量).北大数学学院7第七章§7.1总体的主成分什么是主成分如果第一主成分不足以代表原来p个变量的绝大部分信息.考虑X的第二个线性组合Z2.为了有效地代表原变量组的信息,Z1已体现(反映)的信息不希望在Z2中出现,用统计术语来讲,就是要求Cov(Z2,Z1)=a2'Σa1=0.(7.1.3)于是求Z2时,就是在约束a2'a2=1和(7.1.3)下,求a2使Var(Z2)达最大,所求之Z2称为第二主成分,类似地可求得第三主成分,第四主成分,….,第p主成分.北大数学学院8第七章§7.1总体的主成分什么是主成分换言之,若原数据有p个变量,则恰好可得到p个主成分:1.每个主成分都是原变量的线性组合;2.不同主成分间互不相关(互相正交);3.主成分以其方差减少次序排列:第一主成分具有最大方差,第二主成分是与第一主成分正交的原变量的线性组合中具有最大方差者,其余主成分都有类似的性质.北大数学学院9第七章§7.1总体的主成分什么是主成分或者说,若原变量包含有一定的信息,则全体主成分包含与原变量相同的信息.方差反映了变量取值的离散程度,方差大小表示了变量包含信息的多少.第一主成分包含了尽可能多的信息,不同的主成分包含的信息互不重复;第二主成分包含除第一主成分外剩余信息中尽可能多的信息;其余主成分都有类似的性质.北大数学学院10第七章§7.1总体的主成分主成分的定义定义7.1.1设X=(X1,…,Xp)′为p维随机向量.称Zi=ai'X为X的第i主成分(i=1,2,…,p),如果:①ai'ai=1(i=1,2,…,p);②当i1时ai'Σaj=0(j=1,…,i-1);③Var(Zi)=MaxVar(α'X).α'α=1,α'Σaj=0(j=1,…,i-1)北大数学学院11第七章§7.1总体的主成分主成分的几何意义从代数学观点看主成分就是p个变量的一些特殊的线性组合,而从几何上看这些线性组合正是把X1,…,Xp构成的坐标系旋转产生的新坐标系,新坐标轴使之通过样本变差最大的方向(或者说具有最大的样本方差).设有n个观测,每个观测有p个变量X1,…,Xp,它们的综合指标(主成分)记为Z1,…,Zp.当p=2时原变量为X1,X2.设(X1,X2)服从二元正态分布,则样品点X(i)=(xi1,xi2)(i=1,2,…n)的散布图(见下面图形)在一个椭园内分布着.北大数学学院12第七章§7.1总体的主成分主成分的几何意义Z1Z2北大数学学院13第七章§7.1总体的主成分主成分的几何意义对于二元正态随机向量,n个点散布在一个椭园内(当X1,X2相关性越强,这个椭园就越扁).若取椭园的长轴为坐标轴Z1,椭园的短轴为Z2,这相当于在平面上作一个坐标变换,即按逆时针方向旋转一个角度a,根据旋转变换公式,新老坐标之间有关系:Z1=CosaX1+SinaX2Z2=-SinaX1+CosaX2Z1Z2是原变量X1和X2的特殊线性组合.北大数学学院14第七章§7.1总体的主成分主成分的几何意义从图上可以看出二维平面上n个点的波动(用二个变量的方差和表示)大部分可以归结为在Z1方向的波动,而在Z2方向上的波动很小,可以忽略.这样一来,二维问题可以降为一维了,只取第一个综合变量Z1即可,而Z1是椭园的长轴.一般情况,p个变量组成p维空间,n个样品点就是p维空间的n个点.对于p元正态分布变量来说,找主成分的问题就是找p维空间中椭球的主轴问题.北大数学学院15第七章§7.1总体的主成分主成分分析的内容主成分分析的计算一般是从原变量的协差阵或相关矩阵出发进行,包含以下内容:1.各主成分的构成;2.各主成分的方差及其在总方差中所占的比例(贡献率);3.每个观测在各个主成分下的得分值;4.各主成分与原变量的相关性.北大数学学院16第七章§7.1总体的主成分主成分的求法设p维随机向量X的均值E(X)=0,协差阵D(X)=Σ>0.由定义7.1.1,求第一主成分Z1=a1'X的问题就是求a1=(a11,a21,…,ap1)′,使得在a1'a1=1下,Var(Z1)达最大.这是条件极值问题,用拉格朗日乘数法.φ(a1)=Var(a1'X)-λ(a1'a1-1)=a1'Σa1-λ(a1'Ipa1-1),由(7.1.4)(见附录(8.3)式)北大数学学院17第七章§7.1总体的主成分主成分的求法因a1≠0,故|Σ-λI|=0,求解(7.1.4),其实就是求Σ的特征值和特征向量问题.设λ=λ1是Σ的最大特征值,则相应的单位特征向量a1即为所求.一般地,求X的第i主成分就是求Σ的第i大特征值对应的单位特征向量.定理7.1.1设X=(X1,…,Xp)′是p维随机向量,且D(X)=Σ,Σ的特征值λ1≥λ2≥…≥λp,A1,a2,…,ap为相应的单位正交特征向量,则X的第iZi=ai'X(i=1,2,…,p).北大数学学院18第七章§7.1总体的主成分回顾附录中定理7.2定理7.2设B是p阶对称阵,λi=chi(B)是B的第i大的特征值,li是相应于λi的B的标准化特征向量(i=1,…,p),x为任一非零p维向量,那么有)5.7()1(1xxBxxp右边不等式的等号当x=cl1时成立,左边不等式的等号当x=clp时成立,这里c是非零常数.北大数学学院19第七章§7.1总体的主成分回顾附录中定理7.2(2)记£2=£(lr+1,…,lp),即£2是由lr+1,…,lp张成的空间,则)6.7(max10+rxxxxBxx£2且当x=clr+1时达到最大值,这里c非零常数.北大数学学院20第七章§7.1总体的主成分定理7.1.1的证明1aaaap定理7.1.1证明因Σ为对称阵,利用附录中定理7.2的结论(1),可知对任意非零向量a有且最大值在a=a1时达到.故在a1'a1=1的约束条件下,使得11111)(Var)(VaraaXaZ达极大值.北大数学学院21第七章§7.1总体的主成分定理7.1.1的证明raaaaaa0max根据主成分的定义7.1.1,Z1=a1'X为X的第一主成分.对r=2,3,…,p,记£r=£(ar,…,ap),利用附录中的定理7.2的结论(2)即得£r且最大值在a=ar时达到.北大数学学院22第七章§7.1总体的主成分定理7.1.1的证明故在ar'ar=1的约束条件下,ar满足且使得rrrrraaXaZ)(Var)(Var达极大值.根据主成分的定义7.1.1,Zr=ar'X为X的第r主成分.(证毕))1,,1(0rjaaaaaajrjjjrjr北大数学学院23第七章§7.1总体的主成分定理7.1.1的推论设Z=(Z1,Z2,…,Zp)′为p维随机向量,则其分量Zi(i=1,2,…,p)依次是X的第i主成分①Z=A'X,A②D(Z)=diag(λ1,λ2,…,λp),即随机向量Z③λ1≥λ2≥…≥λp≥0.北大数学学院24第七章§7.1总体的主成分主成分的性质主成分Zi就是以Σ的单位特征向量ai为系数的线性组合,它们互不相关,且方差Var(Zi)=λi.记Σ=(σij),Λ=diag(λ1,λ2,…,λp),其中λ1≥λ2≥…≥λp为Σ的特征值,a1,a2,…,ap是相应的单位正交特征向量.主成分向量Z=(Z1,…,Zp)′,其中Zi=ai'X(i=1,2,…,p)总体主成分有如下性质:北大数学学院25第七章§7.1总体的主成分主成分的性质piipiii11(1)D(Z)=Λ,即p个主成分的方差为:Var(Zi)=λi,且它们是互不相关(2)piii1通常称为原总体X的总方差,该性质说明原总体X的总方差可分解为不相关的主成分的方差和.北大数学学院26第七章§7.1总体的主成分主成分的性质即p个原变量所提供的总信息(总方差)的绝大部分只须用前m个主成分来代替。这说明若前几个主成分集中了大部分信息,则后几个主成分的方差都很小,包含的信息也很少.在实际应用时就可用前面较少的几个主成分来代替原p个变量来描述数据的变化.且存在miimiiipm11,使北大数学学院27第七章§7.1总体的主成分主成分的性质),,2,1,(),(pikaXZiiikkik(3)主成分Zk与原始变量Xi的相关系数证明:Var(Xi)=σiiVar(Zk)=λkCov(Xi,Zk)=Cov(ei'X,ak'X)=ei'Σak=ei'(λkak)=λkaik(ei是第i个元素为1,其余为0的单位向量)iiikkkiiikkikaaXZ),(北大数学学院28第七章§7.1总体的主成分主成分的性质常把主成分Zk与原始变量Xi的相关系数称为因子负荷量(或因子载荷量).利用因子载荷量,可对指标分类.如果把主成分与原始变量的相关系数列成表7.1的形式,则由相关系数的公式,还可得出性质(4)和(5).表7.1北大数学学院29第七章§7.1总体的主成分主成分的性质),,2,1(1),()4(12piXZpkik,,AAAA因Xi也可表成Z1,…,Zp的线性组合,且Z1,…,Zp相互独立,由回归分析的知识,Xi与Z1,…,Zp的全相关系数的平方和等于1,即表7.1中每一行的平方和均为1.事实上,由故有.1),(,),,(12121211pkiiikkikpkpkikkipiipiiiaXZaaaaa即北大数学学院30第七章§7.1总体的主成分主成分的性质因Zk可表成X1,…,Xp的线性组合,但X1,…,Xp一般有相关性,由Zk与Xi的相关系数的公式,可得出表7.1中Zk对应的每一列关于各变量方差的加权平方和为λk(即Var(Zk)=λk).北大数学学院31第七章§7.1总体的主成分主成分的贡献率主成分分析的目的是为了简化数据结构(即减少变量的个数),故在实际应用中一般不用p个主成分,而选用前m(mp)个主成分.m取多大,这是一个很实际的问题.为此,我们引进贡献率的概念.北大数学学院32第七章§7.1总体的主成分主成分的贡献率定义7.1.2称λk/[λ1+...+λm+…+λp]为主成分Zk的贡献率;又称fm=[λ1