数据处理2

bgq941010
2 ℃
2020-04-29

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

在实际问题中，研究多指标的问题是经常遇到的，然而在多数情况下，不同指标之间是有一定关系的。由于指标较多再加上指标之间有一定的相关性，势必增加了分析问题的复杂性。主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标，同时根据实际需要从中可取几个较少的综合指标尽可能多滴反映原来指标的信息。这种多个指标化为少数互不干扰的综合指标的统计方法叫做主成分分析法，如某人要做一件上衣要测量很多尺寸，如身长、袖长、胸围、腰围、肩宽、肩厚等十几项指标。但是某服装产生产一批新型服装绝不可能吧尺寸型号分的过多。而是从其中选取几个综合性的指标作为分类型号。1、反映胖瘦。2、反映特体。3、反映长度。主成分分析PCA概念：主成分分析是一种通过降维技术把多个指标约化为少数几个综合指标的综合统计分析方法，而这些综合指标能够反映原始指标的绝大部分信息，它们通常表现为原始几个指标的线性组合。基本思想及意义哲学理念：抓住问题的主要矛盾。主成分分析将具有一定相关性的众多指标重新组合成新的无相互关系的综合指标来代替。通常数学上的处理就是将这P个指标进行线性组合作为新的综合指标。问题是：这样的线性组合会很多，如何选择？如果将选取的第一个线性组合即第一个综合指标记为F1，希望它能尽可能多地反映原来指标的信息，即var(F1)越大，所包含的原指标信息就越多，F1的方差应该最大，称F1为第一主成分。1111122133FaXaXaX2211222233FaXaXaX旧指标123,,XXX新指标12FFcov(F1,F2)很小如果第一主成分F1不足以代表原来p个指标的信息，再考虑选取F2即选择第二个线性组合。为了有效地反映原来的信息，F1中已包含的信息，无须出现在F2中，即cov(F1,F2)，称F2为第二主成分。仿此可以得到p个主成分。一、主成分的几何意义主成分分析数学模型中的正交变换，在几何上就是作一个坐标旋转。因此，主成分分析在二维空间中有明显的几何意义。假设共有n个样品，每个样品都测量了两个指标（X1，X2），它们大致分布在一个椭圆内如图1所示。事实上，散点的分布总有可能沿着某一个方向略显扩张，这个方向就把它看作椭圆的长轴方向。显然，在坐标系x1Ox2中，单独看这n个点的分量X1和X2，它们沿着x1方向和x2方向都具有较大的离散性，其离散的程度可以分别用的X1方差和X2的方差测定。如果仅考虑X1或X2中的任何一个分量，那么包含在另一分量中的信息将会损失，因此，直接舍弃某个分量不是“降维”的有效办法。•2x1x1F2F••••••••••••••••••••••••••••••••••••主成分分析的几何解释平移、旋转坐标轴•2x1x1F2F••••••••••••••••••••••••••••••••••••主成分分析的几何解释平移、旋转坐标轴••2x1x1F2F•••••••••••••••••••••••••••••••••••主成分分析的几何解释平移、旋转坐标轴••2x1x1F2F••••••••••••••••••••••••••••••••••••主成分分析的几何解释平移、旋转坐标轴•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••主成分的几何意义图1图2如果我们将该坐标系按逆时针方向旋转某个角度变成新坐标系12yOy，这里1y是椭圆的长轴方向，2y是椭圆的短轴方向。旋转公式为112212cossinsincosYXXYXX(1）我们看到新变量1Y和2Y是原变量1X和2X的线性组合，它的矩阵表示形式为：1122cossinsincosYXYXTX(2）其中，T为旋转变换矩阵，它是正交矩阵，即有1TT或TTI。易见，n个点在新坐标系下的坐标Y1和Y2几乎不相关。称它们为原始变量X1和X2的综合变量，n个点y1在轴上的方差达到最大，即在此方向上包含了有关n个样品的最大量信息。因此，欲将二维空间的点投影到某个一维方向上，则选择y1轴方向能使信息的损失最小。我们称Y1为第一主成分，称Y2为第二主成分。第一主成分的效果与椭圆的形状有很大的关系，椭圆越是扁平，n个点在y1轴上的方差就相对越大，在y2轴上的方差就相对越小，用第一主成分代替所有样品所造成的信息损失也就越小。考虑两种极端的情形：一种是椭圆的长轴与短轴的长度相等，即椭圆变成圆，第一主成分只含有二维空间点的约一半信息，若仅用这一个综合变量，则将损失约50％的信息，这显然是不可取的。造成它的原因是，原始变量X1和X2的相关程度几乎为零，也就是说，它们所包含的信息几乎不重迭，因此无法用一个一维的综合变量来代替。另一种是椭圆扁平到了极限，变成y1轴上的一条线，第一主成分包含有二维空间点的全部信息，仅用这一个综合变量代替原始数据不会有任何的信息损失，此时的主成分分析效果是非常理想的，其原因是，第二主成分不包含任何信息，舍弃它当然没有信息损失。二、主成分的数学推导(选读)设1(,,)pXXX为一个p维随机向量，并假定存在二阶矩，其均值向量与协差阵分别记为：()EμX,()DΣX(3）考虑如下的线性变换1111122112211222221122pppppppppppYtXtXtXTYtXtXtXTYtXtXtXTXXX(4）用矩阵表示为YTX其中12(,,)pYYYY，12(,,,)pTTTT。我们希望寻找一组新的变量1,,mYY（mp），这组新的变量要求充分地反映原变量1,,pXX的信息，而且相互独立。这里我们应该注意到，对于1,,mYY有()()()iiiiiiDYDTTDTTTXXΣ1,2,,im(,)(,)(,)ikikikikCovYYCovTTTCovTTTXXXXΣ,1,2,,ikm这样，我们所要解决的问题就转化为，在新的变量1,,mYY相互独立的条件下，求iT使得()iiiDYTTΣ，1,2,,im,达到最大。我们下面将借助投影寻踪（ProjectionPursuit）的思想来解决这一问题。首先应该注意到，使得()iDY达到最大的线性组合，显然用常数乘以iT后，()iDY也随之增大，为了消除这种不确定性，不妨假设iT满足1iiTT或者1T。那么，问题可以更加明确。第一主成分为，满足111TT，使得111()DYTTΣ达到最大的11YTX。第二主成分为，满足221TT，且2121(,)(,)0CovYYCovTTXX，使得222()DYTTΣ达到最大的22YTX。一般情形，第k主成分为，满足1kkTT，且(,)(,)0kikiCovYYCovTTXX（ik），使得()kkkDYTTΣ达到最大的kkYTX。求第一主成分，构造目标函数为：111111(,)(1)TTTTTΣ(5)对目标函数11(,)T求导数有：1111220TTTΣ(6)即1()0TΣI(7)由7式两边左乘1T得到11TTΣ(8)由于X的协差阵Σ为非负定的，其特征方程(7)的根均大于零，不妨设120p。由(8)知道1Y的方差为。那么，1Y的最大方差值为1，其相应的单位化特征向量为1T。在求第二主成分之前，我们首先明确，由(6)知2121(,)CovYYTTΣ21TT。那么，如果2Y与1Y相互独立，即有210TT或120TT。这时，我们可以构造求第二主成分的目标函数，即22222212(,,)(1)2()TTTTTTTΣ(9)对目标函数22(,,)T求导数有：222122220TTTTΣ(10)用1T左乘(10)式有1212110TTTTTTΣ由于120TTΣ，120TT，那么，110TT，即有0。从而2()0TΣI(11)而且22TTΣ(12)这样说明，如果X的协差阵Σ的特征根为120p。由(12)知道2Y的最大方差值为第二大特征根2，其相应的单位化的特征向量为2T。针对一般情形，第k主成分应该是在1kkTT且0kiTT或0ikTT（ik）的条件下，使得()kkkDYTTΣ达到最大的kkYTX。这样我们构造目标函数为11(,,)(1)2()kkkikkkkiikiTTTTTTTΣ(13)对目标函数(,,)kkiT求导数有：112220kkkkiiikTTTTΣ(14)用iT左乘(14)式有11()0kikikiiiiTTTTTTΣ即有0iiiTT，那么，0i（1,2,1ik）。从而()0kTΣI(15)而且kkTTΣ(16)对于X的协差阵Σ的特征根120p。由(15)和(16)知道kY的最大方差值为第k大特征根k，其相应的单位化的特征向量为kT。综上所述，设1(,,)pXXX的协差阵为Σ，其特征根为120p，相应的单位化的特征向量为12,,,pTTT。那么，由此所确定的主成分为11YTX，22YTX，，mmYTX，其方差分别为Σ的特征根。一、主成分的一般性质设12(,,,)pYYYY是X的主成分，由Σ的所有特征根构成的对角阵为100pΛ(17）主成分可表示为YTX(18）性质1主成分的协方差矩阵是对角阵。证明：实际上，由（3）式知()()EEYTXTμ()()DDYTXTTΣTΛ(19）性质2主成分的总方差等于原始变量的总方差。证明：由矩阵“迹”的性质知()()()()trtrtrtrΛTΣTΣTTΣ所以11ppiiiii(20）或11()()ppiiiiDYDX(21）性质3主成分kY与原始变量iX的相关系数为(,)kkikiiiYXt(22）并称之为因子负荷量（或因子载荷量）。证明：事实上(,)(,)(,)()()kikikikikiiCovYXCovTeYXDYDXXX其中的(0,,0,1,0,,0)ie，它是除第i个元素为1外其他元素均为0的单位向量。而(,)()()kikiikikkkikkkiCovTeTeeTeTeTtXXΣΣ所以(,)kkikiiiYXt。性质4kpiiiikXY12),(，（pk,,2,1）。证明：只须将(22）代入左边式子整理化简即可。二、主成分的方差贡献率由主成分的性质2可以看出，主成分分析把p个原始变量12,,,pXXX的总方差()trΣ分解成了p个相互独立的变量12,,,pYYY的方差之和1pkk。主成分分析的目的是减少变量的个数，所以一般不会使用所有p个主成分的，忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。这里我们称1pkkkk(23）为第k个主成分kY的贡献率。第一主成分的贡献率最大，这表明11YTX综合原始变量12,,,pXXX的能力最强，而23,,,pYYY的综合能力依次递减。若只取()mp个主成分，则称11pmmkkkk(6.24）为主成分1,,mYY的累计贡献率，累计贡献率表明1,,mYY综合12,,,pXXX的能力。通常取m，使得累计贡献率达到一个较高的百分数（如85％以上）。三、主成分方法应用中应注意的问题实际应用中主成分分析的出发点如何利用主成分分析进行综合评价一、实际应用中主成分分析的出发点我们前面讨论的主成分计算是从协方差矩阵Σ出发的，其结果受变量单位的影响。不同的变量往往有不同的单位，对同