主成分分析周圣武中国矿业大学理学院第一节引言第二节主成分的几何意义及数学推导第三节主成分的性质第四节主成分方法应用中应注意的问题第五节实例分析第一节引言■多元统计分析处理的是多变量(多指标)问题。由于变量较多,增加了分析问题的复杂性。■在实际问题中,变量之间可能存在一定的相关性,因此,多变量中可能存在信息的重叠。■人们自然希望通过克服相关性、重叠性,用较少的变量来代替原来较多的变量,而这种代替可以反映原来多个变量的大部分信息,——这实际上是一种“降维”的思想。■主成分分析也称主分量分析,是由Hotelling于1933年首先提出的。■由于多个变量之间往往存在着一定程度的相关性。人们自然希望通过线性组合的方式,从这些指标中尽可能快地提取信息。■当第一个线性组合不能提取更多的信息时,再考虑用第二个线性组合继续这个快速提取的过程,……,直到所提取的信息与原指标相差不多时为止。——主成分分析的思想。■一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分量,就得到一个更低维的随机向量。因此,通过主成分既可以降低数据“维数”又保留了原数据的大部分信息。■众所周知:当一个变量只取一个数据时,这个变量(数据)提供的信息量是非常有限的,当这个变量取一系列不同数据时,我们可以从中读出最大值、最小值、平均数等信息。■变量的变异性越大,说明它对各种场景的“遍历性”越强,提供的信息就更加充分,信息量就越大。■主成分分析中的信息,就是指标的变异性,用标准差或方差表示它。■主成分分析的数学模型:设p个变量构成的p维随机向量为X=(X1,…,Xp)’。对X作正交变换,令Y=T′X,其中T为正交阵,要求Y的各分量是不相关的,并且Y的第一个分量的方差是最大的,第二个分量的方差次之,……,等等。为了保持信息不丢失,Y的各分量方差和与X的各分量方差和相等。第二节主成分的几何意义及数学推导一主成分的几何意义二主成分的数学推导一、主成分的几何意义■主成分分析数学模型中的正交变换,在几何上就是作一个坐标旋转。■设有n个样品,每个样品都测量两个指标(X1,X2),它们大致分布在一个椭圆内,如图所示。■事实上,散点的分布总有可能沿着某一个方向略显扩张,这个方向就把它看作椭圆的长轴方向。■显然,在坐标系x1Ox2中,单独看这n个点的分量X1和X2,它们沿着x1方向和x2方向都具有较大的离散性,其离散的程度可以分别用的X1方差和X2的方差测定。■如果仅考虑X1或X2中的任何一个分量,那么包含在另一分量中的信息将会损失,因此,直接舍弃某个分量不是“降维”的有效办法。如果将该坐标系按逆时针方向旋转某个角度变成新坐标系12yOy,这里1y是椭圆的长轴方向,2y是椭圆的短轴方向。旋转公式为112212cossinsincosYXXYXX它的矩阵表示形式为1122cossinsincosYXYXTX其中,T为正交矩阵,即有1TT或TTI。■易见,n个点在新坐标系下的坐标Y1和Y2几乎不相关。称它们为原始变量X1和X2的综合变量,n个点在y1轴上的方差达到最大,即在此方向上包含了有关n个样品的最大量信息。因此,欲将二维空间的点投影到某个一维方向上,则选择y1轴方向能使信息的损失最小。称Y1为第一主成分,称Y2为第二主成分。■第一主成分的效果与椭圆的形状有很大的关系,椭圆越是扁平,n个点在y1轴上的方差就相对越大,在y2轴上的方差就相对越小,用第一主成分代替所有样品所造成的信息损失也就越小。考虑两种极端的情形:■一种是椭圆的长轴与短轴的长度相等,即椭圆变成圆,第一主成分只含有二维空间点的约一半信息,若仅用这一个综合变量,则将损失约50%的信息,这显然是不可取的。造成它的原因是,原始变量X1和X2的相关程度几乎为零,也就是说,它们所包含的信息几乎不重迭,因此无法用一个一维的综合变量来代替。■另一种是椭圆扁平到了极限,变成y1轴上的一条线,第一主成分包含有二维空间点的全部信息,仅用这一个综合变量代替原始数据不会有任何的信息损失,此时的主成分分析效果是非常理想的,其原因是,第二主成分不包含任何信息,舍弃它当然没有信息损失。二、主成分的数学推导设1(,,)pXXX为一个p维随机向量,并假定存在二阶矩,其均值向量与协差阵分别记为()EμX,()DΣX考虑线性变换1111122112211222221122pppppppppppYtXtXtXTYtXtXtXTYtXtXtXTXXX用矩阵表示为YTX其中12(,,)pYYYY,12(,,,)pTTTT。我们希望寻找一组新的变量1,,mYY(mp),能充分反映原变量1,,pXX的信息,且相互独立。注意到,对于1,,mYY有()()()iiiiiiDYDTTDTTTXXΣ1,2,,im(,)(,)(,)ikikikikCovYYCovTTTCovTTTXXXXΣ,1,2,,ikm问题就转化为,在新的变量1,,mYY相互独立的条件下,求iT使得()iiiDYTTΣ,1,2,,im,达到最大。注意到,使()iDY达到最大的线性组合,显然用常数乘以iT后,()iDY也随之增大,为了消除这种不确定性,不妨假设iT满足1iiTT或者1T。那么问题可以更加明确。第一主成分为满足111TT,使得111()DYTTΣ达到最大的11YTX。第二主成分为满足221TT,2121(,)(,)0CovYYCovTTXX,使得222()DYTTΣ达到最大的22YTX。第k主成分为满足1kkTT,(,)(,)0kikiCovYYCovTTXX(ik),使得()kkkDYTTΣ达到最大的kkYTX。■求第一主成分,构造目标函数111111(,)(1)TTTTTΣ(1)对目标函数11(,)T求导数1111220TTTΣ(2)即1()0TΣI(3)由(3)式两边左乘1T得到11TTΣ(4)由于X的协差阵Σ为非负定的,其特征根均大于零,不妨设120p。由(4)知道1Y的方差为。则1Y的最大方差值为1,其相应的单位特征向量为1T。■求第二主成分,首先2121(,)CovYYTTΣ21TT。如果2Y与1Y相互独立,即有210TT或120TT。构造求第二主成分的目标函数22222212(,,)(1)2()TTTTTTTΣ(1)对目标函数22(,,)T求导数有222122220TTTTΣ(2)用1T左乘(2)式有1212110TTTTTTΣ由于120TTΣ,120TT,那么,110TT,即有0。从而2()0TΣI(3)解得22TTΣ(4)这样说明,如果X的协差阵Σ的特征根为120p。则2Y的最大方差值为2,其相应的单位特征向量为2T。■一般情形,第k主成分应该是在1kkTT,0kiTT或0ikTT(ik)的条件下,使得()kkkDYTTΣ达到最大的kkYTX。构造目标函数11(,,)(1)2()kkkikkkkiikiTTTTTTTΣ(5)对目标函数(,,)kkiT求导数112220kkkkiiikTTTTΣ(6)用iT左乘(6)式有11()0kikikiiiiTTTTTTΣ即有0iiiTT,那么,0i(1,2,1ik)。从而由(6)得()0kTΣI(7)解得kkTTΣ(8)■对于X的协差阵Σ的特征根120p。由(7)和(8)知道kY的最大方差值为第k大特征根k,其相应的单位特征向量为kT。■综上所述,设1(,,)pXXX的协差阵为Σ,其特征根为120p,相应的单位化的特征向量为12,,,pTTT。那么,由此所确定的主成分为11YTX,22YTX,,mmYTX,其方差分别为Σ的特征根。第三节主成分的性质一主成分的一般性质二主成分的方差贡献率一、主成分的一般性质设12(,,,)pYYYY是X的主成分,由Σ的所有特征根构成的对角阵为pdiag,,1,主成分可表示为YTX性质1主成分的协方差矩阵是对角阵。性质2主成分的总方差等于原始变量的总方差。性质3主成分kY与原始变量iX的相关系数为(,)kkikiiiYXt并称之为因子负荷量(或因子载荷量)。性质4kpiiiikXY12),(,(pk,,2,1)。二、主成分的方差贡献率■由性质2可以看出,主成分分析把p个原始变量12,,,pXXX的总方差()trΣ分解成了p个相互独立的变量12,,,pYYY的方差之和1pkk。■主成分分析的目的是减少变量的个数,所以一般不会使用所有p个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。称1pkkkk为第k个主成分kY的贡献率。第一主成分的贡献率最大,这表明11YTX综合原始变量12,,,pXXX的能力最强,而23,,,pYYY的综合能力依次递减。若只取()mp个主成分,则称11pmmkkkk为主成分1,,mYY的累计贡献率,累计贡献率表明1,,mYY综合12,,,pXXX的能力。通常取m,使得累计贡献率达到一个较高的百分数(如85%以上)。第四节主成分方法应用中应注意的问题一实际应用中主成分分析的出发点二如何利用主成分分析进行综合评价一、实际应用中主成分分析的出发点■主成分计算是从协方差矩阵Σ出发的,其结果受变量单位的影响。不同的变量往往有不同的单位,对同一变量单位的改变会产生不同的主成分,主成分倾向于多归纳方差大的变量的信息,对于方差小的变量就可能体现得不够,也存在“大数吃小数”的问题。为使主成分分析能够均等地对待每一个原始变量,消除由于单位的不同可能带来的影响,常常将各原始变量作标准化处理,即令*()()iiiiXEXXDX1,,ip则***1(,,)pXXX的协方差矩阵就是X的相关系数矩阵R。实际应用中,R可以利用样本数据来估计。注意:■从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的。实际表明,这种差异有时很大。如果各指标之间的数量级相差悬殊,特别是各指标有不同的物理量纲的话,较为合理的做法是使用R代替∑。■对于研究经济问题所涉及的变量单位大都不统一,采用R代替∑后,可以看作是用标准化的数据做分析,这样使得主成分有现实经济意义,不仅便于剖析实际问题,又可以避免突出数值大的变量。■在实际应用中,主成分分析的具体步骤可以归纳为:1.将原始数据标准化;2.建立变量的相关系数阵;3.求R的特征根为**10p,相应的特征向量为***12,,,pTTT;4.由累积方差贡献率确定主成分的个数(m),并写出主成分为*()iiYTX,1,2,,im二、如何利用主成分分析进行综合评价人们在对某个单位或某个系统进行综合评价时都会遇到如何选择评价指标体系和如何对这些指标进行综合的困难。一般情况下,选择评价指标体系后通过对各指标加权的办法来进行综合。但是,如何对指标加权是一项具有挑战性的工作。指标加权的依据是指标的重要性,指标在评价中的重要性判断难免带有一定的主观性,这影响了综合评价的客观性和准确性。由于主成分分析能从选定的指标体系中归纳出大部分信息,根据主成分提供的信息进行综合评价,不失为一个可行的选择。这个方法是根据指标间的相对重要性进行客观加权,可以避免综合评价者的主观影响,在实际应用中越来越受到人们的重视。我们利用主成分进行综合评价时,主要是将原有的信息进行综合,因此,要充分利用原始变量提供的信息。将主成分的