EquationChapter1Section1《多元统计分析》MultivariateStatisticalAnalysis主讲:统计学院许启发(xuqifa1975@163.com)统计学院应用统计学教研室SchoolofStatistics2004年9月注意电子文档使用范围第页1第三章主成分分析【教学目的】1.让学生了解主成分分析的背景、基本思想;2.掌握主成分分析的基本原理与方法;3.掌握主成分分析的操作步骤和基本过程;4.学会应用主成分分析解决实际问题。【教学重点】1.主成分分析的几何意义;2.主成分分析的基本原理。§1概述一、什么是主成分分析1.研究背景在实际问题的研究中,为了全面分析问题,往往涉及众多有关的变量。但是,变量太多不但会增加计算的复杂性,而且也给合理地分析问题和解释问题带来困难。一般说来,虽然每个变量都提供了一定的信息,但其重要性有所不同。实际上,在很多情况下,众多变量间有一定的相关关系,人们希望利用这种相关性对这些变量加以“改造”,用为数较少的新变量来反映原变量所提供的大部分信息,通过对新变量的分析达到解决问题的目的。主成分分析及典型相关分析便是在这种降维的思维下产生的处理高维数据的统计方法。本章主要介绍主成分分析。主成分分析的基本方法是通过构造原变量的适当的线性组合,以产生一系列互不相关的新变量,从中选出少数几个新变量并使它们含有尽可能多的原变量带有的信息,从而使得用这几个新变量代替原变量分析问题和解决问题成为可能。当研究的问题确定之后,变量中所含“信息”的大小通常用该变量的方差或样本方差来度量。概括地说,主成分分析(principalcomponentanalysis)就是一种通过降维技术把多个指标约化为少数几个综合指标的综合统计分析方法,而这些综合指标能够反映原始指标的绝大部分信息,它们通常表现为原始几个指标的线性组合。主成分概念最早是由KarlParson于1901年引进的,1933年Hotelling把这个概念推广到随机向量。在实践中,主成分分析既可以单独使用,也可和其它方法结合使用,如主成分回归可克服多重共线性。2.基本思想及意义哲学理念:抓住问题的主要矛盾。主成分分析将具有一定相关性的众多指标重新组合成新的无相互关系的综合指标来代替。通常数学上的处理就是将这p个指标进行线性组合作为新的综合指标。问题是:这样的线性组合会很多,如何选择?如果将选取的第一个线性组合即第一个综合指标记为1F,希望它能尽可能多地反映原来指标的信息,即1()VarF越大,1F所包含的原指标信息①就越多,1F的方差应该最大,称1F为第一主成分。如果第一主成分1F不足以代表原来p个指标的信息,再考虑选取2F即选择第二个线性组合。为了有效地反映原来的信息,1F中已包含的信息,无须出现在2F中,即12(,)0CovFF,称2F为第二主成分。仿此可以得到p个主成分。我们可以发现这些主成分之间互不相关且方差递减,即数据的信息包含在前若干个主成分中,因而只需挑选前几个主成分就基本上反映了原始指标的信息。这种既减少了变量的数目又抓住了主要矛盾的做法①度量信息最经典的方差是方差。第页2有利于问题的解决。二、主成分分析的数学模型及几何意义1.数学模型(总体主成分)设有n个样品,每个样品观测p个指标:12,,,pXXX,得到原始数据资料阵:11121212221212,,,pppnnnpXXXXXXXXXXXXX。其中,12iiiniXXXX。其协方差矩阵为ijppEXEXXEX它是一个p阶半正定矩阵。设12,,,(1,2,,)iiipiaaaaip为p个常数向量,考虑如下的线性组合1111121212212122221122pppppppppppFaXaXaXaXFaXaXaXaXFaXaXaXaX简记为1122iiiipipFaXaXaXaX(1,2,,)ip易知有()()iiiiVarFVaraXaa(,)(,),ijijijCovFFCovaXaXaaij(,1,2,,)ijp如果我们希望用1F代替原来p个变量12,,,pXXX,这就要求1F尽可能地反映原p个变量的信息。这里,“信息”用1F的方差来度量,即1()VarF越大,表示1F所含的12,,,pXXX中的信息越多。但由方差的表达式可知,必须对ia加以限制,否则1()VarF无界。而最方便的限制是要求所有ia具有单位长度,即1iiaa因此,我们希望在约束条件111aa之下,求1a使1()VarF达到最大,由此1a所确定的随机变量11FaX称为12,,,pXXX的第一主成分。如果第一主成分1F还不足以反映原变量的信息,考虑采用2F。为了有效地反映原变量的信息,1F中已有的信息就不必要再包含在2F中,用统计的语言来讲,要求1F与2F不相关,即1212(,)0CovFFaa于是,在约束条件221aa及120aa之下,求2a使2()VarF达到最大,由此2a所确定的随机变量22FaX称为12,,,pXXX的第二主成分。一般地,在约束条件1iiaa及(,)01,2,,1ikikCovFFaaki之下,求ia使()iVarF达到最大,由此ia所确定的随机变量iiFaX称为12,,,pXXX的第i主成分。2.主成分的几何意义从代数学观点看主成分就是12,,,pXXX的一些特殊的线性组合,而在几何上这些线性组合正是把12,,,pXXX构成的坐标系旋转产生的新的坐标系,新坐标系使之通过样品方差最大化方向。下面以二元正态变量为例说明主成分的几何意义。当2p时,原变量是12,XX,设122(,)~(,)XXXN,它们有下图的相关关系:第页3对于二元正态变量,n个点的散布大致是一个椭圆,在其长轴方向取坐标轴1F,在其短轴方向取坐标轴2F。这相当于在平面上作一坐标变换,即按逆时针方向旋转角度,得112212cossinsincosFXXFXX或1122cossinsincosFXUXFX这里的U为正交矩阵,即UUI。因此,在12FoF坐标系中有如下性质:(1)1F和2F为12,XX的线性组合;(2)1F与2F不相关;(3)1X与2X的总方差大部分归结为1F轴上,而2F轴上很少。几何意义:一般情况,p个变量组成p维空间,n个样品点就是p维空间的n个点,对p元正态分布变量来说,找主成分的问题就是找p维空间中椭球体的主轴问题。1X2X1F2F第页4§2主成分的推导及性质这里首先从理论上给出总体主成分,探讨总体主成分的性质,而后再给出样本主成分。一、总体主成分1.总体主成分的推导设1122ppFaXaXaXaX,其中12,,,paaaa且1aa,12,,,pXXXX。求主成分的过程就是寻找X的线性组合aX,使相应的方差尽可能地大的过程。()()()()VarFVaraXaEXEXXEXaaa设协差阵的特征根为120p,相应的正交单位特征向量为12,,,pUUUU,则11piiiipUUUU因此,21111ppppiiiiiiiiiiiiiiiaaaUUaaUUaaUaUaU所以,2111111piiaaaUaUaUaUUaaa而事实上,当1aU时有2111111111111ppiiiiiiiiUUUUUUUUUUUU由此可知,在约束条件1aa之下,当1aU时,使()VaraXaa达到最大值,且1111()VarUXUU。同理可求()iiiiVarUXUU,且11(,)0ppijijikkkjkikkjkkCovUXUXUUUUUUUUUUij结论:12,,,pXXXX的主成分就是以的特征向量为系数的线性组合,它们互不相关,其方差为的特征根,主成分的名次是按照特征根大小的顺序排列的。2.总体主成分的性质性质1:设FaX为X的主成分,则其协差阵为由X的协差所对应特征根组成的对角阵。性质2:1111()()ppppiiiiiiiiiVarXVarF。证明:1111()()()()()()ppppiiiiiiiiiVarXtrtrUUtrUUtrVarF。NOTE:此性质说明12,,,pXXX各变量方差之和等于各个主成分的方差之和,即1pii。因此,1pkii描述了第k个主成分提取的信息占总信息量的份额。为此,可以给出方差贡献率和方差累积贡献率的定义。定义:称1pkii为第k个主成分kF的方差贡献率,称11pmiiii为前m个主成分12,,,mFFF的方差累积贡献率。第页5累积贡献率表明了前m个主成分提取了12,,,pXXX中的总信息量的份额。在实际应用中,通常选取mp,使前m个主成分的累积贡献率达到一定的比例(如85%)。这样用前m个主成分代替原来的变量12,,,pXXX而不至于损失太多的信息,从而达到减少变量个数的目的。性质3:1111()()ppppiiiiiiiiiVarXVarF。证明:因为()kkVarF,()iiiVarX(,)(,)()kikikikiikikkkkiCovFXCovUXeXUDXeUeeUeUU①所以,(,)(,)()()kikkikikiiiUCovFXFXVarFVarX。3.标准化变量的主成分②在实际问题中,不同的变量往往有不同的量纲,由于不同的量纲会引起个变量取值的分散程度差异较大,这时,总体方差则主要受方差较大的变量的控制。若用求主成分,则优先照顾了方差大的变量,有时会造成很不合理的结果。为了消除由于量纲的不同可能带来的影响,常采用变量标准化的方法,即令*1,2,,iiiiiXXip其中iiEX,()iiiVarX。这时,****12,,,pXXXX的协方差矩阵便是12,,,pXXXX的相关矩阵ijpp,其中(,)jjijiiijiijjiijjXCovXXXE利用X的相关矩阵作主成分分析,平行于前面的结论,可以有如下的定理。定理:设****12,,,pXXXX为标准化的随机向量,其协方差矩阵(即X的相关矩阵)为,则*X的第i个主成分******11221211221,2,,ppiiiipippXXXFUXUUUip并且***111()()pppiiiiiiVarFVarXp其中***120p为相关矩阵的特征值,***12,,,pUUU为相应的正交单位化特征向量。这时,第i个主成分的贡献为*/ip,前m个主成分的累积贡献为*1miip。4.标准化和非标准化数据的主成分例:设12(,)XXX协方差矩阵和对应的相关矩阵分别为144100,10.40.41①这里ie为第i个分量为1其余分量为0的单位向量。并且使用了A这个结论。②一个总体往往由p个变量所组成,代表不同性质的p个指标,具有不同的计量单位,使得主成分方差i的大小取决于量纲的选择,从而导致各主成分方差大小排序的偏误。实施标准化后,使得不