【转】PCA降维算法总结以及matlab实现PCA(个人的一点理解)转载请声明出处。bywatkinssongPCA的一些基本资料最近因为最人脸表情识别,提取的gabor特征太多了,所以需要用PCA进行对提取的特征进行降维。本来最早的时候我没有打算对提取的gabor特征进行降维,但是如果一个图像时64*64,那么使用五个尺度八个方向的gabor滤波器进行滤波,这样提取的特征足足有64*64*5*8这么多,如果图像稍微大一点,比如128*128的图像,那么直接提取的特征就会几十万,所以不降维的话直接用SVM训练分类器是非常困难的。所以在这段时间我就学习了一下PCA降维的基本原理和使用方法,网上给出的资料都比较乱,而且很不清楚,经过这几天的学习和测试,终于把调理弄清楚了,给大家分享一下,下面只是我对于PCA的个人理解,肯定有不对的地方,还请各位大牛多多指教。下面先给出一下PCA的资料地址,都是我收集的:://blog.sciencenet.cn/blog-265205-544681.html://blog.sina.com.cn/s/blog_6833a4df0100pvk7.html://stackoverflow.com/questions/10400230/what-is-score-in-princomp://stats.stackexchange.com/questions/27572/matlab-princomp-latent://://stackoverflow.com/questions/10818718/principal-component-analysis://://lovelittlebean.blog.163.com/blog/static/116582186201181213911729/://=viewthread&tid=146626=viewthread&tid=204069=viewthread&tid=54600降维.html://://://blog.sina.com.cn/s/blog_61c0518f0100f4mi.html://media.cs.tsinghua.edu.cn/~ahz/digitalimageprocess/chapter11/chapt11_ahz.htm://en.wikipedia.org/wiki/Principal_component_analysis://wenku.baidu.com/view/bd9284fcfab069dc51220107.html://wenku.baidu.com/view/9f69930790c69ec3d5bb75d3.html://://zhidao.baidu.com/question/416895922.html上面的网址都是一些pca原理啊,实现什么的介绍。具体的PCA的算法的理论基础呢,我这里就不详细说了,因为我也没有看具体详细,所以如果想要彻底的弄明白PCA的工作原来,还是请到wiki上看吧,写的非常清晰,我因为临时用一下,就写个大致的原理就可以了。PCA原理:PCA的原理就是将原来的样本数据投影到一个新的空间中,相当于我们在矩阵分析里面学习的将一组矩阵映射到另外的坐标系下。通过一个转换坐标,也可以理解成把一组坐标转换到另外一组坐标系下,但是在新的坐标系下,表示原来的原本不需要那么多的变量,只需要原来样本的最大的一个线性无关组的特征值对应的空间的坐标即可。比如,原来的样本是30*1000000的维数,就是说我们有30个样本,每个样本有1000000个特征点,这个特征点太多了,我们需要对这些样本的特征点进行降维。那么在降维的时候会计算一个原来样本矩阵的协方差矩阵,这里就是1000000*1000000,当然,这个矩阵太大了,计算的时候有其他的方式进行处理,这里只是讲解基本的原理,然后通过这个1000000*1000000的协方差矩阵计算它的特征值和特征向量,最后获得具有最大特征值的特征向量构成转换矩阵。比如我们的前29个特征值已经能够占到所有特征值的99%以上,那么我们只需要提取前29个特征值对应的特征向量即可。这样就构成了一个1000000*29的转换矩阵,然后用原来的样本乘以这个转换矩阵,就可以得到原来的样本数据在新的特征空间的对应的坐标。30*1000000*1000000*29=30*29,这样原来的训练样本每个样本的特征值的个数就降到了29个。一般来说,PCA降维后的每个样本的特征的维数,不会超过训练样本的个数,因为超出的特征是没有意义的。下面是百度百科中对pca降维的一段解释,还是挺清晰的:“对于一个训练集,100个对象模板,特征是10维,那么它可以建立一个100*10的矩阵,作为样本。求这个样本的协方差矩阵,得到一个10*10的协方差矩阵,然后求出这个协方差矩阵的特征值和特征向量,应该有10个特征值和特征向量,我们根据特征值的大小,取前四个特征值所对应的特征向量,构成一个10*4的矩阵,这个矩阵就是我们要求的特征矩阵,100*10的样本矩阵乘以这个10*4的特征矩阵,就得到了一个100*4的新的降维之后的样本矩阵,每个特征的维数下降了。当给定一个测试的特征集之后,比如1*10维的特征,乘以上面得到的10*4的特征矩阵,便可以得到一个1*4的特征,用这个特征去分类。”我对PCA的一些了解我的pca迷惑迷惑一刚开始接触PCA的时候,咨询了一个浙大的博士朋友,这朋友告诉我,如果对训练样本进行降维,那么样本的数量必须大于特征的维数,然后我当时就迷惑了,那我怎么办啊,我的人脸表情图像顶多有几百张就算多的了,但是每个图像提取的特征的维数将近有几十万,我不可能找那么多样本去啊。当时有这个迷惑也是因为matlab给出的一个实现在pca降维的函数的说明,就是princomp,这个函数的说明也是用的样本的个数多余特征的维数。后来经过试验是证实,证实了那个浙大的博士的认识是错误的,pca降维肯定不需要样本的个数大于特征的维数,要不然还降维个什么意思。比如我有30*1000000的特征矩阵,那么降维后肯定是每个样本在新的空间中的表示的特征维数不超过30.迷惑二另外一个迷惑,在最初刚开始做的时候,就是为什么这么大的数据,比如30*1000000直接就降到了30*29,这不是减少的数据有点太多了么,会不会对性能造成影响。之所以有这个迷惑,是因为最初并不了解pca的工作方式。pca并不是直接对原来的数据进行删减,而是把原来的数据映射到新的一个特征空间中继续表示,所有新的特征空间如果有29维,那么这29维足以能够表示非常非常多的数据,并没有对原来的数据进行删减,只是把原来的数据映射到新的空间中进行表示,所以你的测试样本也要同样的映射到这个空间中进行表示,这样就要求你保存住这个空间坐标转换矩阵,把测试样本同样的转换到相同的坐标空间中。有些同学在网上发帖子问对训练样本降维以后,怎么对测试样本降维,是不是还是使用princomp这个函数进行降维,这个是错误的。如果你要保证程序运行正常,就要保证训练样本和测试样本被映射到同一个特征空间,这样才能保证数据的一致性。迷惑三网上有不同的pca降维的代码,每个代码也实现的不一样,那么对于同一个数据是否是pca降维以后都是获得相同的数据呢,也就是说不管你用哪种方式进行pca降维,不管你是从哪里下载到的或者自己根据算法实现的pca降维,同样的矩阵降维以后的数据是否一致?这个我个人认为,不同的算法最后导致的pca降维的数据肯定不一致。因为pca降维以后,只是把原来的数据映射到新的特征空间,所以如果你的算法不同,那么选择的协方差矩阵肯定就不同,最后获得的转换矩阵肯定也不一样。那么训练样本和测试样本和不同的转换矩阵相乘以后最终肯定会获得不同的降维坐标。所以使用不同的算法应该最后不会有相同的坐标结果,这个也是我一直实验的结果,我也使用了matlab自带的princomp降维,并且使用相同的数据使用网上下载的一些降维方法进行降维,得到的数据都不一致。比如说princomp这个matlab自带的函数,在降维之前就将每一个样本减去了一个所有样本的平均值,也可能有很多样本没有减去平均值。princomp这里使用一行表示一个样本,每行包括这个样本的所有的特征值。而网上大部分都是每一列表示一个样本,这样这一列的所有行都表示这个样本的特征值。网上的程序使用列表示样本是有一定好处的,比如我的样本是1000000*30,总共有30个训练样本,每个样本的特征值个数是1000000,那么这个矩阵获得的协方差矩阵是30*30,计算起来非常的方便,不想30*1000000这样的矩阵获得到的协方差矩阵式1000000*1000000,直接就内存溢出了,不过matlab有自己的实现方式,巧妙的解决了这个问题。pca的实现(matlab)我在网上看了很多pca降维的例子,都大同小异,原理差不多,都是活的原来矩阵的协方差矩阵,然后计算协方差矩阵的特征值和特征向量,最后通过特征向量的根据特征值由大到小的排序进行KL变换神马的获得一个转换