山东经济学院计算机科学与技术学院刘兆广模式识别(PatternRecognition)1第五章特征的选择和提取山东经济学院计算机科学与技术学院刘兆广模式识别(PatternRecognition)2主要内容5.1引言5.2类别可分离性判据5.3特征选择5.4特征提取山东经济学院计算机科学与技术学院刘兆广模式识别(PatternRecognition)3在讨论分类器设计时,一直假定已经给出了特征向量维数确定的样本集,样本集中各样本的每一维都是该样本的一个特征,显然这些特征的选择是很重要的,它强烈的影响到分类的设计及其性能。假如对不同类别这些特征的差别很大,那就比较容易设计出具有较好性能的分类器。因此,特征选择是模式识别中的一个关键问题。5.1引言山东经济学院计算机科学与技术学院刘兆广模式识别(PatternRecognition)4特征选择和提取的基本任务是如何从许多特征中找到那些最有效的特征。一般把特征分为(1):物理的,(2):结构的,(3):数学的。人类通常利用物理特征和结构特征识别对象;计算机当然计算能力强,容易提取数学特征来识别。5.1引言山东经济学院计算机科学与技术学院刘兆广模式识别(PatternRecognition)5特征形成:根据被识别的对象产生出一组基本特征,它可以是计算出来的,也可以是测试出来的,这样产生的特征称原始特征。特征提取:原始特征的数量可能很大,或者说样本处于一个高维的空间,通过影射可以用低维空间来表示样本,这个过程叫特征提取,广义上讲就是一种变换。特征选择:从一组特征中挑选出一些最有效的特征以达到降低特征空间维数的目的。5.1引言山东经济学院计算机科学与技术学院刘兆广模式识别(PatternRecognition)6特征选择和提取的任务是求出一组对分类最有效的特征,因此我们需要一个定量的准则(判据)来衡量特征对分类的有效性。特征提取的目的是设计分类器,利用分类器的错误概率计算当然可以,但是计算复杂而且困难。因此,可以找出一些更实用的标准作为各类间的可分性判据。5.2类别可分离性判据山东经济学院计算机科学与技术学院刘兆广模式识别(PatternRecognition)7可分性判据:实用的可计算的判据,并希望:(1):与错误概率有单调关系,即使判据取得最大值的效果一般说来其错误概率较小。(2):对独立的特征有可加性,即:其中Jij是第i类和第j类的可分性准则函数,Jij越大,两类的分离程度就越大,xk是一定类别的相应特征的随机变量。5.2类别可分离性判据121(,,...,)()dijdijkkJxxxJx山东经济学院计算机科学与技术学院刘兆广模式识别(PatternRecognition)85.2类别可分离性判据各类样本可以分开是因为它们位于特征空间中的不同区域,显然这些区域之间距离越大类别可分性就越大。类间平均距离:两类情况,w1和w2:w1中任意一点与w2中任意一点都有一个距离,把所有这些距离相加求平均,可用这个均值来代表两类之间的距离。山东经济学院计算机科学与技术学院刘兆广模式识别(PatternRecognition)95.2类别可分离性判据多类情况类间平均距离的一般定义:山东经济学院计算机科学与技术学院刘兆广模式识别(PatternRecognition)105.2类别可分离性判据应用举例:类别可分离性判据在图像分割中得到了有效的应用,比如:图像二值化的一个常用的方法就是确定一个灰度阈值,使图像中灰度值小于(大于)此阈值的像素作为物体(取值为1),否则为背景(取值为0)。其实质就是一个两类分类问题。灰度就是特征值,阈值就是分界点。如何取阈值就是可以利用类别可分离性判据的方法。山东经济学院计算机科学与技术学院刘兆广模式识别(PatternRecognition)115.3特征选择用少数几个特征进行分类器设计,能够简化特征的获取过程,以降低模式识别系统的代价。特征选择就是从一组数量为D的特征中选择出数量为d(dD)的一组最优特征来,为此有两个问题需要解决:一是选择的标准,这样可以用前面讲的可分离性判据,即要选择使某一可分性达最大的特征组来;二是要找到一个较好的算法,以便在允许的时间内找出最有的一组特征。山东经济学院计算机科学与技术学院刘兆广模式识别(PatternRecognition)125.3特征选择如果把D个特征,每个单独使用时的可分性判据都算出来,按判据大小排队,例如:J(x1)J(x2)…J(xd)…J(xD)就可以提这个问题:单独使用时使J较大的前d个特征是否就是一个最优的特征组哪?一般来说答案是否定的!!即最优相加并非最优组合。山东经济学院计算机科学与技术学院刘兆广模式识别(PatternRecognition)135.3特征选择从D个特征中选择d个,所有可能的组合是:穷举当然是最优的,但也是最耗时的。山东经济学院计算机科学与技术学院刘兆广模式识别(PatternRecognition)145.3特征选择各种搜索算法:最优搜索算法(分支定界算法);次优搜索算法(顺序前进算法等等等);模拟退火算法;Tabu搜索算法遗传算法。山东经济学院计算机科学与技术学院刘兆广模式识别(PatternRecognition)155.4特征提取特征选择:从D个特征选择出d个特征。特征提取:将D个特征变换为d个新特征。目的:更好的分类,减少计算量。