第六章主成分分析第一节引言第二节主成分的几何意义及数学推导第三节主成分的性质第四节主成分方法应用中应注意的问题第五节实例分析与计算机实现第一节引言多元统计分析处理的是多变量(多指标)问题。由于变量较多,增加了分析问题的复杂性。但在实际问题中,变量之间可能存在一定的相关性,因此,多变量中可能存在信息的重叠。人们自然希望通过克服相关性、重叠性,用较少的变量来代替原来较多的变量,而这种代替可以反映原来多个变量的大部分信息,这实际上是一种“降维”的思想。主成分分析也称主分量分析,是由Hotelling于1933年首先提出的。由于多个变量之间往往存在着一定程度的相关性。人们自然希望通过线性组合的方式,从这些指标中尽可能快地提取信息。当第一个线性组合不能提取更多的信息时,再考虑用第二个线性组合继续这个快速提取的过程,……,直到所提取的信息与原指标相差不多时为止。这就是主成分分析的思想。一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分量,就得到一个更低维的随机向量;因此,通过主成分既可以降低数据“维数”又保留了原数据的大部分信息。我们知道,当一个变量只取一个数据时,这个变量(数据)提供的信息量是非常有限的,当这个变量取一系列不同数据时,我们可以从中读出最大值、最小值、平均数等信息。变量的变异性越大,说明它对各种场景的“遍历性”越强,提供的信息就更加充分,信息量就越大。主成分分析中的信息,就是指标的变异性,用标准差或方差表示它。主成分分析的数学模型是,设p个变量构成的p维随机向量为X=(X1,…,Xp)′。对X作正交变换,令Y=T′X,其中T为正交阵,要求Y的各分量是不相关的,并且Y的第一个分量的方差是最大的,第二个分量的方差次之,……,等等。为了保持信息不丢失,Y的各分量方差和与X的各分量方差和相等。第二节主成分的几何意义及数学推导一主成分的几何意义二主成分的数学推导一、主成分的几何意义主成分分析数学模型中的正交变换,在几何上就是作一个坐标旋转。因此,主成分分析在二维空间中有明显的几何意义。假设共有n个样品,每个样品都测量了两个指标(X1,X2),它们大致分布在一个椭圆内如图6.1所示。事实上,散点的分布总有可能沿着某一个方向略显扩张,这个方向就把它看作椭圆的长轴方向。显然,在坐标系x1Ox2中,单独看这n个点的分量X1和X2,它们沿着x1方向和x2方向都具有较大的离散性,其离散的程度可以分别用的X1方差和X2的方差测定。如果仅考虑X1或X2中的任何一个分量,那么包含在另一分量中的信息将会损失,因此,直接舍弃某个分量不是“降维”的有效办法。图6.1主成分的几何意义如果我们将该坐标系按逆时针方向旋转某个角度变成新坐标系12yOy,这里1y是椭圆的长轴方向,2y是椭圆的短轴方向。旋转公式为112212cossinsincosYXXYXX(6.1)我们看到新变量1Y和2Y是原变量1X和2X的线性组合,它的矩阵表示形式为:1122cossinsincosYXYXTX(6.2)其中,T为旋转变换矩阵,它是正交矩阵,即有1TT或TTI。易见,n个点在新坐标系下的坐标Y1和Y2几乎不相关。称它们为原始变量X1和X2的综合变量,n个点y1在轴上的方差达到最大,即在此方向上包含了有关n个样品的最大量信息。因此,欲将二维空间的点投影到某个一维方向上,则选择y1轴方向能使信息的损失最小。我们称Y1为第一主成分,称Y2为第二主成分。第一主成分的效果与椭圆的形状有很大的关系,椭圆越是扁平,n个点在y1轴上的方差就相对越大,在y2轴上的方差就相对越小,用第一主成分代替所有样品所造成的信息损失也就越小。考虑两种极端的情形:一种是椭圆的长轴与短轴的长度相等,即椭圆变成圆,第一主成分只含有二维空间点的约一半信息,若仅用这一个综合变量,则将损失约50%的信息,这显然是不可取的。造成它的原因是,原始变量X1和X2的相关程度几乎为零,也就是说,它们所包含的信息几乎不重迭,因此无法用一个一维的综合变量来代替。另一种是椭圆扁平到了极限,变成y1轴上的一条线,第一主成分包含有二维空间点的全部信息,仅用这一个综合变量代替原始数据不会有任何的信息损失,此时的主成分分析效果是非常理想的,其原因是,第二主成分不包含任何信息,舍弃它当然没有信息损失。二、主成分的数学推导设1(,,)pXXX为一个p维随机向量,并假定存在二阶矩,其均值向量与协差阵分别记为:()EμX,()DΣX(6.3)考虑如下的线性变换1111122112211222221122pppppppppppYtXtXtXTYtXtXtXTYtXtXtXTXXX(6.4)用矩阵表示为YTX其中12(,,)pYYYY,12(,,,)pTTTT。我们希望寻找一组新的变量1,,mYY(mp),这组新的变量要求充分地反映原变量1,,pXX的信息,而且相互独立。这里我们应该注意到,对于1,,mYY有()()()iiiiiiDYDTTDTTTXXΣ1,2,,im(,)(,)(,)ikikikikCovYYCovTTTCovTTTXXXXΣ,1,2,,ikm这样,我们所要解决的问题就转化为,在新的变量1,,mYY相互独立的条件下,求iT使得()iiiDYTTΣ,1,2,,im,达到最大。我们下面将借助投影寻踪(ProjectionPursuit)的思想来解决这一问题。首先应该注意到,使得()iDY达到最大的线性组合,显然用常数乘以iT后,()iDY也随之增大,为了消除这种不确定性,不妨假设iT满足1iiTT或者1T。那么,问题可以更加明确。第一主成分为,满足111TT,使得111()DYTTΣ达到最大的11YTX。第二主成分为,满足221TT,且2121(,)(,)0CovYYCovTTXX,使得222()DYTTΣ达到最大的22YTX。一般情形,第k主成分为,满足1kkTT,且(,)(,)0kikiCovYYCovTTXX(ik),使得()kkkDYTTΣ达到最大的kkYTX。求第一主成分,构造目标函数为:111111(,)(1)TTTTTΣ(6.5)对目标函数11(,)T求导数有:1111220TTTΣ(6.6)即1()0TΣI(6.7)由6.7式两边左乘1T得到11TTΣ(6.8)由于X的协差阵Σ为非负定的,其特征方程(6.7)的根均大于零,不妨设120p。由(6.8)知道1Y的方差为。那么,1Y的最大方差值为1,其相应的单位化特征向量为1T。在求第二主成分之前,我们首先明确,由(6.6)知2121(,)CovYYTTΣ21TT。那么,如果2Y与1Y相互独立,即有210TT或120TT。这时,我们可以构造求第二主成分的目标函数,即22222212(,,)(1)2()TTTTTTTΣ(6.9)对目标函数22(,,)T求导数有:222122220TTTTΣ(6.10)用1T左乘(6.10)式有1212110TTTTTTΣ由于120TTΣ,120TT,那么,110TT,即有0。从而2()0TΣI(6.11)而且22TTΣ(6.12)这样说明,如果X的协差阵Σ的特征根为120p。由(6.12)知道2Y的最大方差值为第二大特征根2,其相应的单位化的特征向量为2T。针对一般情形,第k主成分应该是在1kkTT且0kiTT或0ikTT(ik)的条件下,使得()kkkDYTTΣ达到最大的kkYTX。这样我们构造目标函数为11(,,)(1)2()kkkikkkkiikiTTTTTTTΣ(6.13)对目标函数(,,)kkiT求导数有:112220kkkkiiikTTTTΣ(6.14)用iT左乘(6.14)式有11()0kikikiiiiTTTTTTΣ即有0iiiTT,那么,0i(1,2,1ik)。从而()0kTΣI(6.15)而且kkTTΣ(6.16)对于X的协差阵Σ的特征根120p。由(6.15)和(6.16)知道kY的最大方差值为第k大特征根k,其相应的单位化的特征向量为kT。综上所述,设1(,,)pXXX的协差阵为Σ,其特征根为120p,相应的单位化的特征向量为12,,,pTTT。那么,由此所确定的主成分为11YTX,22YTX,,mmYTX,其方差分别为Σ的特征根。第三节主成分的性质一主成分的一般性质二主成分的方差贡献率一、主成分的一般性质设12(,,,)pYYYY是X的主成分,由Σ的所有特征根构成的对角阵为100pΛ(6.17)主成分可表示为YTX(6.18)性质1主成分的协方差矩阵是对角阵。证明:实际上,由(6.3)式知()()EEYTXTμ()()DDYTXTTΣTΛ(6.19)性质2主成分的总方差等于原始变量的总方差。证明:由矩阵“迹”的性质知()()()()trtrtrtrΛTΣTΣTTΣ所以11ppiiiii(6.20)或11()()ppiiiiDYDX(6.21)性质3主成分kY与原始变量iX的相关系数为(,)kkikiiiYXt(6.22)并称之为因子负荷量(或因子载荷量)。证明:事实上(,)(,)(,)()()kikikikikiiCovYXCovTeYXDYDXXX其中的(0,,0,1,0,,0)ie,它是除第i个元素为1外其他元素均为0的单位向量。而(,)()()kikiikikkkikkkiCovTeTeeTeTeTtXXΣΣ所以(,)kkikiiiYXt。性质4kpiiiikXY12),(,(pk,,2,1)。证明:只须将(6.22)代入左边式子整理化简即可。二、主成分的方差贡献率由主成分的性质2可以看出,主成分分析把p个原始变量12,,,pXXX的总方差()trΣ分解成了p个相互独立的变量12,,,pYYY的方差之和1pkk。主成分分析的目的是减少变量的个数,所以一般不会使用所有p个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。这里我们称1pkkkk(6.23)为第k个主成分kY的贡献率。第一主成分的贡献率最大,这表明11YTX综合原始变量12,,,pXXX的能力最强,而23,,,pYYY的综合能力依次递减。若只取()mp个主成分,则称11pmmkkkk(6.24)为主成分1,,mYY的累计贡献率,累计贡献率表明1,,mYY综合12,,,pXXX的能力。通常取m,使得累计贡献率达到一个较高的百分数(如85%以上)。第四节主成分方法应用中应注意的问题一实际应用中主成分分析的出发点二如何利用主成分分析进行综合评价一、实际应用中主成分分析的出发点我们前面讨论的主成分计算是从协方差矩阵Σ出发的,其结果受变量单位的影响。不同的变量往往有不同的单位,对同一变量单位的改变会产生不同的主成分,主成分倾向于多归纳方差大的变量的信息,对于方差小的变量就可能体现得不够,也存在“大数吃小数”的问题。为使主成分分析能够均等地对待每一个原始变量,消除由于单位的不同可能带来的影响,我们常常将各原始变量作标准化处理,即令*()()iiiiXEXXDX1,,ip(6.25)显然,***1(,,)pXXX的