第8章特征的选择与提取(特征提取)

vrwwwqaz
2 ℃
2020-02-15

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

模式识别徐蔚然北京邮电大学信息工程学院学习指南前面章节讨论的问题主要讨论模式识别的重要概念贝叶斯分类器、线性分类器、非线性分类器、KNN等设计分类器时的讨论问题在d维特征空间已经确定的前提下，讨论分类方法与分类器设计即：对要分类的样本怎样描述这个问题是已经确定的学习指南前面章节讨论的问题例如对苹果与梨的划分问题我们使用尺寸、重量和颜色三种度量来描述这种度量方法是已经确定好的在这种条件下研究用线性分类器好还是非线性分类器好，以及这些分类器的其它设计问题学习指南本章讨论的问题对已有的特征空间进行改造,着重于研究对样本究竟用什么样的度量方法更好譬如用三种度量来描述苹果与梨那么是否运用这三种度量是最有效的呢？颜色：这一个指标对区分红苹果与梨很有效区分黄苹果与梨就会困难得多即，这个指标就不很有效了学习指南本章讨论的问题使用什么样的特征描述事物，也就是说使用什么样的特征空间是个很重要的问题由于对特征空间进行改造目的在于提高其某方面的性能，因此又称特征的优化问题学习指南降维主要有两种途径对特征空间的改造、优化、主要的目的是降维，即把维数高的特征空间改成维数低的特征空间，降维主要有两种途径特征的选择:一种是删选掉一些次要的特征问题在于如何确定特征的重要性，以及如何删选特征的提取:另一种方法是使用变换的手段，在这里主要限定在线性变换的方法上，通过变换来实现降维本章重点1．弄清对特征空间进行优化的含义2．对特征空间进行优化的两种基本方法——特征选择与特征的组合优化3．对特征空间进行优化的一些常用判据4．利用线段变换进行特征空间优化的基本方法，本章知识点8.1基本概念已经讨论的问题是在d维特征空间已经确定的前提下进行的讨论的分类器设计问题是:选择什么准则、使用什么方法,将已确定的d维特征空间划分成决策域的问题另一个重要问题如何确定合适的特征空间如何描述每个样本和每个模式基本概念基本概念基本概念基本概念问题的重要性如果所选用的特征空间能使同类物体分布具有紧致性，即各类样本能分布在该特征空间中彼此分割开的区域内，这就为分类器设计成功提供良好的基础。反之，如果不同类别的样本在该特征空间中混杂在一起，再好的设计方法也无法提高分类器的准确性。基本概念三个不同的层次描述1.物理量的获取与转换指用什么样的传感器获取电信号摄取景物则要用摄像机文字与数字识别首先要用扫描仪等设备手写体文字所用传感器与印刷体文字也很可能不同这些都属于物理量的获取，并且已转换成电信号，为计算机分析打下了基础对从传感器中得到的信号，可称之为原始信息它要经过加工、处理才能得到对模式分类更加有用的信号基本概念三个不同的层次描述2．描述事物方法的选择与设计在得到了原始信息之后，要对它进一步加工，以获取对分类最有效的信息这部分信息必须对原始信息进行加工，而设计所要信息的形式是十分关键的例如:对阿拉伯数字的识别可以提出各种不同的想法*分析从框架的左边框到数字之间的距离变化反映了不同数字的不同形状，这可以用来作为数字分类的依据*强调分析不同截面的信号，如在框架的若干部位沿不同方向截取截面分析从背景到字，以及从字到背景转换的情况基本概念阿拉伯数字的识别可以提出各种不同的想法基本概念三个不同的层次描述2．描述事物方法的选择与设计设计对事物的描述方法是充分发挥设计者智慧的过程这个层次的工作往往因事物而易，与设计者本人的知识结构也有关这是一个目前还无法自动进行的过程这个层次的工作是最关键的，但因为太缺乏共性，也不是本章讨论的内容基本概念三个不同的层次描述3.特征空间的优化这个层次的工作发生在已有了特征的描述方法之后，也就是已有了一个初始的特征空间，如何对它进行改造与优化的问题所谓优化是要求既降低特征的维数，又能提高分类器的性能，这就是本章着重讨论的问题这里讨论的是一些不同模式识别系统中具有共性的问题，特征选择与特征提取基本概念例用RGB颜色空间和HSI颜色空间RGB和HSI是两种常用的颜色空间，虽然它们描述颜色的范围是一样的，也有确定的转换关系，但是用这两种不同的特征描述图像，对以后的识别工作会有很大影响基本概念基本概念特征选择和特征提取对特征空间进行优化有两种基本方法一种为特征选择，一种为特征提取两者区别特征选择:删掉部分特征特征提取:通过一种映射，也就是说新的每一个特征是原有特征的一个函数基本概念特征选择和特征提取两者区别假设已有D维特征向量空间，特征选择:样本由d维的特征向量描述：d＜D由于X只是Y的一个子集，因此每个分量xi必然能在原特征集中找到其对应的描述量xi＝yj基本概念特征选择和特征提取两者区别假设已有D维特征向量空间，特征提取:找到一个映射关系：A:Y→X使新样本特征描述维数比原维数降低。其中每个分量xi是原特征向量各分量的函数，即基本概念特征选择和特征提取两者区别因此这两种降维的基本方法是不同的。在实际应用中可将两者结合起来使用，比如先进特征提取，然后再进一步选择其中一部分，或反过来。8.2类别可分离性判据为什么需要类别可分离性判据特征选择与特征提取的任务是求出一组对分类最有效的特征所谓有效是指在特征维数减少到同等水平时，其分类性能最佳因此需要有定量分析比较的方法,判断所得到的特征维数及所使用特征是否对分类最有利这种用以定量检验分类性能的准则称为类别可分离性判据类别可分离性判据为什么需要类别可分离性判据一般说来分类器最基本的性能评估是其分类的错误率如果能用反映错误率大小的准则，在理论上是最合适的对错误率的计算是极其复杂的，以至于很难构筑直接基于错误率的判据为此人们设法从另一些更直观的方法出发，设计出一些准则，用来检验不同的特征组合对分类性能好坏的影响，甚至用来导出特征选择与特征提取的方法这些准则就是类别可分离性判据类别可分离性判据类别可分离性判据的种类基于距离度量的可分性判据基于概率分布的可分性判据等8.2.1基于距离的可分性判据基于距离的可分性判据基于距离度量是人们常用来进行分类的重要依据一般情况下同类物体在特征空间呈聚类状态，即从总体上说同类物体内各样本由于具有共性因此类内样本间距离应比跨类样本间距离小Fisher准则正是以使类间距离尽可能大同时又保持类内距离较小这一种原理为基础的同样在特征选择与特征提取中也使用类似的原理，这一类被称为基于距离的可分性判据。基于距离的可分性判据基于距离的可分性判据在讨论Fisher准则时曾用过两个描述离散度的矩阵一个是类间离散矩阵Sb另一个是类内离散度矩阵SWSW＝S1+S2基于距离的可分性判据基于距离的可分性判据如果推广至c类别情况其中为所有样本的总均值向量，Pi表示各类别的先验概率，Ei表示i类的期望符号。基于距离的可分性判据1计算特征向量间平均距离的判据该式可写成在欧氏距离情况下有基于距离的可分性判据1计算特征向量间平均距离的判据利用均值向量与总均值向量，有基于距离的可分性判据2考虑类内类间欧氏距离的其它判据判据Jd(X)是计算特征向量的总平均距离以下一些判据则基于使类间离散度尽量大，类内离散度尽量小的考虑而提出：8.2.2基于概率分布的可分性判据基于概率分布的可分性判据上一节讨论的是样本在特征空间的分布距离作为特征提取的依据。该种原理直观，计算简便。但是这种原理没有考虑概率分布，因此当不同类样本中有部分在特征空间中交迭分布时，简单地按距离划分，无法表明与错误概率之间的联系。基于概率分布的可分性判据则依据如下观察到的现象。8.2.2基于概率分布的可分性判据基于概率分布的可分性判据观察现象:不考虑各类的先验概率，或假设两类样本的先验概率相等基于概率分布的可分性判据基于概率分布的可分性判据观察现象如果两类条件概率分布互不交迭，即对p(X|ω2)≠0处都有p(X|ω1)＝0，则这两类就完全可分；另一种极端情况是对所有X都有p(X|ω1)＝p(X|ω2)，则两类就完全不可分。基于概率分布的可分性判据基于概率分布的可分性判据因此人们设计出与概率分布交迭程度有关的距离度量方法，这些距离Jp有以下几个共同点：1.Jp是非负，即Jp≥02.当两类完全不交迭时Jp达到其最大值3.当两类分布密度相同时，Jp＝0这种函数的一般式可表示为：基于概率分布的可分性判据一些常用的概率距离度量Bhattacharyya距离和Chernoff界限Bhattacharyya距离的定义用下式表示Chernoff界限的定义与其相似，为因此JB是JC的一个特例基于概率分布的可分性判据一些常用的概率距离度量散度另一种常用的基于概率距离度量的判据是利用似然比或对数似然比。对两类问题，其对数似然比为如果对某个X，，则,反之若两者差异越大，则的绝对值也大。基于概率分布的可分性判据一些常用的概率距离度量散度以上只是对某一X值而言，为了对整个特征空间概率分布的差异程度作出评价，将对wi类及对wj的可分性信息分别定义为基于概率分布的可分性判据一些常用的概率距离度量散度而总的平均可分信息则可表示成8.2.3基于熵函数的可分性判据我们知道一个样本不同类的后验概率是贝叶斯决策的依据因此在特征空间的任何一点，如果它对不同类别的后验概率差别很大，则为分类提供了很明确的信息而Shannon信息论定义的熵就可以用来对可分类性作出评价故这方面可分性判据的定义称之为基于熵函数的可分性判据基于熵函数的可分性判据基于熵函数的可分性判据分析如果对某些特征，各类后验概率都相等，即此时这也就是错误率最大的情况。基于熵函数的可分性判据基于熵函数的可分性判据分析考虑另一极端，假设能有一组特征使得那末此时的X肯定可划分为ωi，而错误率为零由此可看出，后验概率越集中，错误概率就越小反之后验概率分布越平缓，即接近均匀分布，则分类错误概率就越大基于熵函数的可分性判据基于熵函数的可分性判据熵为了衡量后验概率分布的集中程度，可以借助于信息论中熵的概念，制订定量指标。Shannon熵为另一常用的平方熵基于熵函数的可分性判据基于熵函数的可分性判据两者共性1.熵为正且对称即函数式内项的次序可以变换不影响熵的值；2.如3.对任意的概率分布8.3特征提取按欧氏距离度量的特征提取方法按概率距离判据提取特征特征提取方法小结8.3.1按欧氏距离度量的特征提取方法按欧氏距离度量的特征提取方法基于距离可分性判据的特征优化过程是通过一个线性变换实现特征提取在这里意味着找到一个线性变换W,对原始特征向量Y=[y1,…，yD]T实行映射变换W：Y→X，得到维数减少的向量X=[x1,…，xd]T，即W为D×d矩阵按欧氏距离度量的特征提取方法欧氏距离的判据按欧氏距离度量的特征提取方法利用W（D×d矩阵）线形变换后，希望变换后的特征向量能满足使某个准则函数达到极值的要求使用J2判据进行特征提取注意：如果对特征空间实行一个D×D矩阵的非奇异线性变换，J2保持不变按欧氏距离度量的特征提取方法例如对原特征空间实行一D×D线性变换A令Sw,Sb为原空间离散度矩阵S*w,S*b为映射后的离散度矩阵，则：S*b=ASbATS*w=ASwAT经变换后的J2变为:J2*(A)=tr[(ASwAT)-1ASbAT]=tr[(AT)-1Sw-1SbAT]=tr[Sw-1Sb]=J2(A)按欧氏距离度量的特征提取方法使用J2判据进行特征提取因而以下讨论的特征提取变换，只考虑是降维的即用D×d矩阵(d＜D)进行变换其目的是在维数d的条件下，使相应的判据为最大按欧氏距离度量的特征提取方法使用J2判据进行特征提取将J2判据表示成变换W的函数令Sw,Sb为原空间离散度矩阵，S*w,S*b为映射后的离散度矩阵:S*b=WTSbWS*w=WTSwW则经变换后的J2变为:J2(W)=tr[(WTSwW)-1WTSbW]按欧氏距离度量的特征提取方法使

第8章 特征的选择与提取(特征提取)

第8章特征的选择与提取(特征提取)