高维数据的低维化

dyd3652396
1 ℃
2019-12-14

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

高光谱成像数据的低维表示摘要：随着大数据时代的到来，高维数据的分析越来越困难。而基于高光谱成像技术的人类情感识别所要分析的数据量的维度也是越来越大，因此，也诞生了很多降维方法。通过降维，可以非常容易地发现数据的极小维度表示，降低后期大数据分析的复杂度。通过采用这些方法进行数据降维，可以找出数据内在的相互关系，非常有利于数据分布规律的分析。关键词：降维；高光谱成像技术；主成分分析；线性判别法；局部线性嵌入；非负矩阵分解LowerDimensionalityofHigh-DimensionDataWiththelargevolumeofdatacoming，highdimensionaldataisverydifficulttobeanalyzed．Thenthedimensionofdataonemotionrecognitionbyhyperspectralimagingislargerandlarger.Soseveralwaysareintroducedtoreducethedatadimensionality．Theywillshowthelowdimensionalstructureofhighdimensionaldata,andcanreducethecomplexityofdataanalysis.After,theintrinsicconnectionbetweenthedatacanbegoteasily，andishelpfultoresearchthedistributingrules.Keywords:DimensionReduction;HyperspectralImaging;PrincipalComponentAnalysis;LinearDiscriminantAnalysis;LocallyLinearEmbedding;Non-negativeMatrixFactorization一、研究背景从采用各种身体信号（面部表情、语音、身体姿势）到采用生理信号识别人类情感，从利用单一特征作为情感识别系统的输入，到融合多通道信号特征来识别人类情感，科研工作者一直在试图获取更丰富，更有效的人类情感特征用于情感的识别。光谱成像技术可远程无接触地获取所需生理情感信号，是未来情感识别的发展方向之一[1][2]。高光谱成像技术能够在可见光和红外光谱范围内的100-1000个连续窄波段上成像，所成的图像具有3个维度—2个空间维度和1个波长维度。传统的成像技术只在3个宽波段上成像（红、绿、蓝），每个波段的带宽在100nm数量级上，而高光谱成像在上百至上千个波段上成像，每个波段的带宽可小于1nm，且成像波段不局限在可见光范围内。其数据量也相应以指数的量级增加，如果直接对这些数据进行处理，会有以下问题：首先，会出现所谓的“位数灾难”问题，巨大的计算量将使我们无法忍受；其次，这些数据通常没有反映出数据的本质特征，如果直接对他们进行处理，不会得到理想的结果。所以，通常我们需要首先对数据进行降维，然后对降维后的数据进行处理。数据降维的基本原理是把数据样本从高维输入空间通过线性或非线性映射投影到一个低维空间，从而找出隐藏在高维观测数据中有意义的低维结构。之所以能对高维数据进行降维，是因为数据的原始表示常常包含大量冗余：a)有些变量的变化比测量引入的噪声还要小，因此可以看作是无关的；b)有些变量和其他的变量有很强的相关性(例如是其他变量的线性组合或是其他函数依赖关系)；c)可以找到一组新的不相关的变量；从几何的观点来看，降维可以看成是挖掘嵌入在高维数据中的低维线性或非线性流形。这种嵌入保留了原始数据的几何特性，即在高维空间中靠近的点在嵌入空间中也相互靠近。数据降维是以牺牲一部分信息为代价的，把高维数据通过投影映射到低维空间中，势必会造成一些原始信息的损失。所以在对高维数据实施降维的过程中如何在最优的保持原始数据的本质的前提下，实现高维数据的低维表示，是研究的重点。二、降维问题1．定义定义1.1降维问题的模型为(,)XF，其中D维数据空间集合1NllXx（一般为DR的一个子集），映射F:FXY(),xyFxY是d空间集合（一般是dR，dD）的一个子集，我们称F是数据集X（到Y）的降维。若F为X的线性函数，则称F为线性降维；否则，称为非线性降维。定义1.2称映射1F1:FYX1()yxFy为嵌入映射。2．分类针对降维问题的目的和待处理数据集合表象维数的多少，对其进行初步的、粗略的分类如下：1.硬降维问题：数据维数从几千到几万甚至几十万的变化，此时需要对数据集进行“严厉”的降维，以至于达到便于处理的大小，如图像识别、分类问题以及语音识别问题等。2.软降维问题：此时数据集合的维数不是太高，降维的需求不是非常的迫切。如社会科学、心理学以及多元统计分析领域皆属于此类。3.可视化问题：此时数据集合的绝对维数不是很高，但为了便于利用人们的直观洞察力，即为了可视化，我们将其降到2或3维。虽然我们可以可视化更高维数的数据，但是它们通常难于理解，不能产生数据空间的合理形态。若我们还考虑时间变量的话可以对降维问题进行更加进一步的分类，静态降维问题和动态降维问题。后者对于时间序列来讲是有用的，如视频序列、连续语音信号等的处理。3．降维方法实际处理中，由于线性方法具有简单性、易解释性、可延展性等优点，使得线性降维在高维数据处理中是一个主要研究方向。已有的线性维数约简方法，主要包括主成分分析(PrincipalComponentAnalysis，PCA)、独立成分分析(IndependentComponentAnalysis，ICA)、线性判别分析lineardiscriminantanalysis(LDA)、Fisher判别分析(FisherDiscriminantAnalysis，FDA)、主曲线(PrincipalCurves)、投影寻踪(ProjectionPursuit,PP)、多维尺度方法(MultidimensionalScaling，MDS)等。这些方法实际是在不同优化准则之下，寻求最佳线性模型，这也是线性维数约简方法的共性。通过消除数据建模过程中的全局线性假设，Sammon提出了一种非线性映射，即Sammon映射(SM)，该算法能够保持输入样本之间的相关距离；Mika等采用相同的思想来非线性扩展LDA，从而提出了kernelLDA（KLDA）；然而，基于核的方法其难点在于如何选择一个合适的核函数，一个好的核函数可以使数据在特征空间上线性可分或者近似线性可分，但并不是所选核函数对于每一种数据都适用。核函数的选择反映了人们对问题的先验知识，在实际的应用中往往是经验地选择某种核函数，比如径向基函数(RadialBasisFunction，RBF)。同时，在使用核函数时不必知道具体的特征空间，使得核函数方法缺乏物理直观性，这也是核函数方法的一个缺点。非线性降维方法与线性降维方法相比的一个显著特点是分析中的局部性(数据集合经常满足的一个简单假设)。原因在于对数据集合的内蕴结构而言，有下列特性：1.由泰勒定理，任何可微函数在一点的充分小的邻域之内满足线性。形象的来讲，相当于认为曲面流形可由大小不一的局部线性块拼接而成；2.数据流形经常是由许多可分割的子流形所组成；3.数据流形的本征维数沿着流形不断的发生变化，只有局部性才能抓住其根本特性。降维线性流行学习概率参数模型全局谱分析局部全局局部早期的非线性PCAMVUISOMAPChartingLLCKernelPCSMSOMGCLDALPPNPELLELLTSAONPPLELTSAHLLE线性化三、用于研究高光谱数据的降维方法（一）线性方法1.主成分分析(PrincipalComponentAnalysis,PCA)在文献[3]中，PCA将方差的大小作为衡量信息量多少的标准，认为方差越大提供的信息越多，反之提供的信息就越少。它是在损失很少的信息的前提下把多个指标转化为几个综合指标的一种多元统计方法。它具有概念简单，计算方便以及最优线性重构误差等优良的特性。文献[4]对PCA及SVD的应用作了研究，它表明这种全局算法可以较好地揭示具有线性结构的高维数据集的全局分布。PCA假设数据之间的关系是线性的。它在保存原始高维数据协方差结构的基础上计算低维表达，也就是最大化总体方差。它的目标函数可以写为：2121=argmaxargmax()argmax()..PCAPCAPCANmPCAiUiNTmTTPCAiPCATPCAPCAPCAdUUiUyyUxxtrUSUstUUI其中，1miyyN，1mixxN，且TS为总体离散矩阵：i=1=()()TNTiiSxxxx。对转换矩阵做尺度约束d=TPCAPCAUUI，其中dI为dd单位矩阵。则目标函数可以写为：argmax()PCATPCATPCAUtrUSU，..TPCAPCAdstUUI上式问题可以转化为TS的标准的特征值问题：PCA的最优转换矩阵为TS的d个最大的特征值所对应的d个m维特征向量。2.线性判别法(LinearDiscriminantAnalysis,LDA)其基本思想是投影，首先找出特征向量，把这些数据投影到一个低维的方向，使得投影后不同的组之间尽可能的分开，而同一组内的样本比较靠拢，然后在新空间中对样本进行分类。通过最小化类内离散矩阵WS的秩而最大化类间离散矩阵BS的秩，来寻找一个子空间来区分不同的类别。WS和BS分别定义如下：()()()()i=11=()()iNCiiiiTWjjjSxmxm()()1()()CiiTBiiSNmmmm其中，iN是第i个类中样本的个数；()ijx是第i个样本中第j个样本。()im为第i个类的质心；m用来表示所有样本的质心，C为样本的类别数。LDA则有以下的优化准则：argmax()()TLDABLDATLDAWLDAtrUSUtrUSU..TLDALDAdstUUI上述的优化可以转化为求解一个广义的特征分解问题：BWSS且最优的解为d个特征向量其对应于d个最大的非零特征值。（二）非线性方法1.局部线性嵌入方法(LocallyLinearEmbedding,LLE)文献[5]中的LLE在保存原始高维数据邻域线性结构的基础上计算低维表达。是一种局部方法，它试图保持数据的局部几何特征，就本质上来说，它是将流形上的近邻点映射到低维空间的近邻。图2非线性降维实例B是从A中提取的样本点（三维），通过非线性降维算法LLE将数据映射到二维空间中（C），从C图中的颜色可以看出通过LLE算法处理后的数据能很好的保持原有数据的邻域特性主要思想：对一组具有嵌套(流形)的数据集，在嵌套空问与内在低维空间局部邻域问的关系应该不变，即在嵌套空间中每个采样点可以用它的近邻点线性表示，在低维空间中保持每个邻域中的权值不变，重构原数据点，使重构误差最小。LLE的实现过程步骤：LLE方法可以归结为三步：(1)寻找每个样本点的k个近邻点；把相对于所求样本点距离最近的k个样本点规定为所求样本点的k个邻近点。k是一个预先给定值。距离的计算既可采用欧式距离也可采用Dijkstra距离。Dijkstra距离是一种测地距离，它能够保持样本点之间的曲面特性。(2)由每个样本点的近邻点计算出该样本点的局部重建权值矩阵；这里定义一个成本函数，如下式，来测量重建误差：2()iijjjwxwx解得11/iiijjklmklmwGG，1,jijxNwjxN时0ijw其中()()ijkijikGxx，j和k是ix的近邻点；为了使重建误差最小化，权重ijw服从一种重要的对称性，即对所有特定数据点来说，它们和它们邻居点之间经过旋转、重排、转换等变换后，它们之间的对称性是不变的。由此可见重建权重能够描述每个邻居本质的几何特性。因此可以认为原始数据空间内的局部几何特征同在流形局部块上的几何特征是完全等效的。（3）由该样本点的局部重建权值