流形学习的理论和方法主要内容研究背景几种算法研究方向研究背景数据降维的目的是找出高维数据中所隐藏的低维结构。高维数据:低维数据:分类线性降维非线性降维研究背景线性降维通过降维得到的低维数据能够保持高维数据点之间的线性关系,即:若存在线性映射使得,则这个高维数据点从降到低维的过程为线性降维。两种算法PCAMDS非线性降维KPCA流形学习流形学习2000年,JBTenenbaum等,Aglobalgeometricframeworkfornonlineardimensionalityreduction,Science,(IsomeitricMapping,简称Isomap)2000年,STRoweis等,Nonlineardimensionalityreductionbylocallylinearembedding,Science,(LocallyLinearEmbedding,简称LLE)2000年,HSSeung等,Nonlineardimensioinalityreductionbylocallylinearembedding,Science流形学习基本思想:每个高维空间内的流形都有一个低维空间内的流形与之对应,只要找出一个光滑映射,就可以把高维原数据映射成其低维目标空间内的对应。流形的本质是局部化,用数学语言说,就是一个局部可坐标化的拓扑空间。“局部坐标”可以将问题分解为局部问题进行计算,而拓扑空间又能保证将局部计算结果合理、光滑地拼接起来,揭示问题的整体结构。流形学习的方法ISOMAPLLEHLLELELTSA主成分分析(PCA)将方差的大小作为衡量信息量的标准,方差越大提供信息越多,反之提供信息越少。通过原分量的线性组合构造方差大、含信息量多的若干主分量,这些主分量之间不相关,并且尽可能表示原始变量包含的信息,选取最大的几个主成分进行分析,就可以在尽可能少损失原有信息的基础上,降低数据的维度,提高运算的效率。计算过程通过矩阵奇异值分解SVD来实现。PCA数学模型PCA算法多维尺度变换(MDS)MDS也是一种广泛应用的线性降维方法。MDS原用于差异性的几何表示,用在降维上,是将高维点的欧氏距离矩阵作为差异性矩阵。MDS数学模型MDS算法等距映射(Isomap)Isomap建立在MDS的基础上,力求保持数据点的内在几何性质,即保持两点间的测地距离。它同MDS的最大区别在于,MDS构造的距离矩阵反映的样本点之间的欧氏距离,而Isomap构造的距离矩阵反映的是样本点之间的测地距离。测地距离的近似计算方法如下:样本点和它的邻域点之间的测地距离用它们之间的欧氏距离来代替;样本点和它邻域外的点用流形上它们之间的最短路径来代替。局部线性嵌入(LLE)海赛局部线性嵌入(HLLE)拉普拉斯特阵映射(LE)局部切空间排列(LTSA)研究方向基本算法研究内在维数研究定量化研究监督学习算法研究范畴问题研究其他领域因子选择问题数据流的流行学习流行学习的统一框架内在维数研究PCA方法基于方差比来确定约简维数ISOMAP利用方差损失形成的拐点估计维数其他最近邻域分形维PackingNumbers测地线最小生成树基于PackingNumbers的内在维数研究定量化研究高维数据集的内在维数如何影响高维空间的流形结构?———没有一般性研究张军平——局部放大因子和延伸方向——判别流行学习算法准确性的一种定量评估准则放大因子,就是观测空间的数据点变化趋势与在嵌入空间的变化趋势的比值,这个比值在连续模型中相当于在降维的映射下,一个高维空间映射到低维空间后的“体积”比的比例——微分几何中的”微观”放大因子——Bishop的生成式拓扑映射延伸方向,就是指嵌入空间的局部数据变化的主要方向放大因子放大因子延伸方向其他研究方向领域因子选择问题Kouropteva等,2002,为LLE自动选择领域因子Samko等,2004,SelectionoftheoptimalparametervaluefortheIsomapalgorithm,为Isomap自动选择领域因子WangJing,ZhangZhenyue,ZhaHongyuan.AdaptiveManifoldLearning,2004,在每个样本点上自适应地选择领域因子张军平,通过集成的方式来改进流形学习产生的不稳定性数据流的流行学习LawMH等,Nonlinearmanifoldlearningfordatastream,针对数据流的特点提出增量式的Isomap算法流行学习的统一框架流形学习+核函数的研究