主元分析(PCA)理论分析及应用

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

主元分析(PCA)理论分析及应用姓名:苏刚学号:1515063004学院:数学与计算机学院1主元分析(PCA)的原理PCA是(Principalcomponentanalysis)的缩写,中文翻译为主元分析。它是一种对数据进行分析的技术,最重要的应用是对原有数据进行简化。正如它的名字:主元分析,这种方法可以有效的找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。它的优点是简单,而且无参数限制,可以方便的应用与各个场合。因此应用极其广泛,从神经科学到计算机图形学都有它的用武之地。被誉为应用线形代数最价值的结果之一。主成分分析是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题,对于某些复杂数据就可应用主成分分析法对其进行简化。计算主成分的目的是将高维数据投影到较低维空间。从线形代数的角度来看,PCA的目标就是使用另一组基去重新描述得到的数据空间。而新的基要能尽量揭示原有的数据间的关系,而这个基即最重要的“主元”。PCA的目标就是找到这样的“主元”,最大程度的去除冗余和噪音的干扰。设:Y=PX(1)并定义:iP表示P的行向量,Xi表示X的列向量,iy表示Y的列向量。公式1表示不同基之间的转换,在线性代数中,它表示P从X到Y的转换矩阵,在几何上,P对X进行旋转和拉伸得到Y。将公式1展开:可得到yi表示Xi与P中对应列的点积,相当于是在对应向量上的投影。因此,P的行向量事实上就是一组新的基,P的行向量就是PCA中所谓的“主元”。为了使得获得Y具有类间方差大,类内方差小,冗余信息少的特点。2主元分析(PCA)的应用2.1计算机视学领域的应用PCA方法是一个具有很高普适性的方法,被广泛应用于多个领域。这里要特别介绍的是它在计算机视觉领域的应用,包括如何对图像进行处理以及在人脸识别方面的特别作用。2.1.1数据表示如果要将PCA方法应用于视觉领域,最基本的问题就是图像的表达。如果是一幅NN×大小的图像,它的数据将被表达为一个2N维的向量:TNxxxX)(=221在这里图像的结构将被打乱,每一个像素点被看作是一维,最直接的方法就是将图像的像素一行行的头尾相接成一个一维向量。还必须要注意的是,每一维上的数据对应于对应像素的亮度、灰度或是色彩值,但是需要划归到同一纬度上。2.1.2模式识别假设数据源是一系列的20幅图像,每幅图像都是NN×大小,那么它们都可以表示为一个2N维的向量。将它们排成一个矩阵:)ImageVec20ImageVec2ImageVec1(=ixImagesMatr然后对它们进行PCA处理,找出主元。为什么这样做呢?据人脸识别的例子来说,数据源是20幅不同的人脸图像,PCA方法的实质是寻找这些图像中的相似的维度,因为人脸的结构有极大的相似性(特别是同一个人的人脸图像),则使用PCA方法就可以很容易的提取出人脸的内在结构,也及时所谓“模式”,如果有新的图像需要与原有图像比较,就可以在变换后的主元维度上进行比较,则可衡量新图与原有数据集的相似度如何。对这样的一组人脸图像进行处理,提取其中最重要的主元,即可大致描述人脸的结构信息,称作“特征脸”(EigenFace)。这就是人脸识别中的重要方法“特征脸方法”的理论根据。近些年来,基于对一般PCA方法的改进,结合ICA、kernel-PCA等方法,在主元分析中加入关于人脸图像的先验知识,则能得到更好的效果。2.1.3图像信息压缩使用PCA方法进行图像压缩,又被称为Hotelling算法,或者KarhunenandLeove(KL)变换。这是视觉领域内图像处理的经典算法之一。具体算法与上述过程相同,使用PCA方法处理一个图像序列,提取其中的主元。然后根据主元的排序去除其中次要的分量,然后变换回原空间,则图像序列因为维数降低得到很大的压缩。例如上例中取出次要的5个维度,则图像就被压缩了1/4。但是这种有损的压缩方法同时又保持了其中最“重要”的信息,是一种非常重要且有效的算法。3总结PCA技术的一大好处是对数据进行降维的处理。我们可以对新求出的“主元”向量的重要性进行排序,根据需要取前面最重要的部分,将后面的维数省去,可以达到降维从而简化模型或是对数据进行压缩的效果。同时最大程度的保持了原有数据的信息。PCA技术的一个很大的优点是,它是完全无参数限制的。在PCA的计算过程中完全不需要人为的设定参数或是根据任何经验模型对计算进行干预,最后的结果只与数据相关,与用户是独立的。但是,这一点同时也可以看作是缺点。如果用户对观测对象有一定的先验知识,掌握了数据的一些特征,却无法通过参数化等方法对处理过程进行干预,可能会得不到预期的效果,效率也不高。(2)应用Matlab分析“手写数字数据库”中“8”和“9”的第一主成分正态分布并写一个实验报告。图一数字8正态分布图图二数字9正态分布图如上图所示,通过“手写数字数据库”程序测试得出,图一表示的是数字“8”的正态分布图,图二表示的是数字“9”的正态分布图,从图中可以明显地观察出两个图形之间的区别,图一的正态分布图形相对来说弧形比较平滑,以x轴1.4为分界线,两侧分布近乎对称,由于该手写数字特征提取采用的是5*5格模板,而数字“8”又具有对称性的特点,所以正态分布图形也正好符合对称性的特点。图二相对图一来说,以x轴2.5为分界线,右侧分布明显多过于左侧,而数字“9”在手写数字特征提取采用的是5*5格模板表现出来的数字特征也正是如此,除此之外,图一的x轴分布区间在0.8-2之间,y轴分布区间在0-12之间,图二的x轴分布区间在2-4.5之间,y轴分布区间在0-18之间,由此也呈现出明显的区别。

1 / 4
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功