模式识别PatternClassification第八章:特征选择与特征提取模式识别,第八章3引言•特征是决定样本之间的相似性和分类器设计的关键•如何找到合适的特征是模式识别的核心问题•在实际问题中,常常不容易找到那些最重要的特征•或者受条件限制不能对它们进行测量,这使得特征选择和提取的任务复杂化•特征选择成为构造模式识别系统、提高决策精度的最困难的任务之一模式识别,第八章4引言•模式三大基本特征:物理、结构和数字特征•物理和结构特征:易于为人的直觉感知,但有时难于定量描述,因而不易用于机器判别•数字特征:易于用机器定量描述和判别,如基于统计的特征模式识别,第八章5引言•一般情况下普遍认为,增加特征向量的维数(增加特征数)将有助于提高分类器的质量•但实际应用中特征维数却收到多方面因素的约束和限制•用较多的特征进行分类器设计,无论从计算的复杂程度还是就分类器性能来看都是不适宜的模式识别,第八章6特征的形成•特征形成(acquisition):•信号采集→原始测量→原始特征•实例•数字图像中的各像素灰度值•人体的各种生理指标•语音的音调周期、共振峰、声道参数、频谱模式识别,第八章7特征的形成•高维原始特征不利于分类器设计•计算量大•信息冗余模式识别,第八章8特征选择与提取•分析原始特征的有效性,选出最有代表性的特征是模式识别的关键一步•降低特征维数在很多情况下是有效设计分类器的重要课题模式识别,第八章9特征选择与提取•两类获取有效特征信息、压缩特征空间的方法:特征提取和特征选择•基本任务是如何从原始特征中获取最有效的信息模式识别,第八章10特征选择与提取•特征选择(selection)•从原始特征中挑选出一些最有代表性,分类性能最好的特征•特征提取(extraction)•通过映射或变换的方法把高维的原始特征变换为低维的新特征,新的特征包含了原有特征的有用信息模式识别,第八章11特征选择与提取•目前,还没有特征选择和提取的一般方法,这是由于特征选择一般是面向问题的,很难对这些方法去作评价和比较•特征选择与提取是模式识别中重要而困难的一个环节模式识别,第八章12特征选择与提取•细胞自动识别•原始测量正常或异常细胞的数字图像•原始特征找到一组代表细胞性质的特征:细胞面积,胞核面积,形状系数,光密度,核内纹理,和浆比原始特征的维数仍很高,需压缩以便于分类!模式识别,第八章13特征选择与提取•细胞自动识别•特征选择挑选最有分类信息的特征•特征提取数学变换:傅立叶变换或小波变换、特征压缩模式识别,第八章14特征选择•特征选择的任务是从一组数量为D的特征中选择出数量为d(Dd)的一组最优特征•各个特征之间存在复杂的相互关系•如果仅对每个单独的特征按照一定的统计进行排队,取排在前面的d个特征•所得结果在大多数情况下不是最优特征组模式识别,第八章15特征选择•从D个特征中选择出d个最优的特征,在这两个参数都已知的状况下,所有可能的组合数为•如果D=100,d=10,则的Q数量级是1013模式识别,第八章16特征选择•在实际问题的研究过程当中,D的维数往往远远高于100•例如,在利用生物芯片来进行药物设计和癌症诊断时,其产生的有效特征维数往往在10000左右•实际需要选取的优化特征组的特征数量是未知的•寻找可行的特征选择算法已逐渐成为国际上研究的热点模式识别,第八章17特征选择•一般来看,特征选择(确定优化的特征子集)需要两个主要步骤•确定评价准则来评价所选择的特征子集的性能•确定进行特征搜索所需要的策略模式识别,第八章18特征选择•按搜索策略划分的特征选择算法•全局最优搜索策略“分支定界”算法:该方法能保证在事先确定优化特征子集中特征数目的情况下,找到相对于所设计的可分性判据而言的最优特征子集。如何事先确定优化特征子集当中特征的数目?当处理高维度多类问题时,算法运算效率低下模式识别,第八章19特征选择•按搜索策略划分的特征选择算法•随机搜索策略将特征选择视为组合优化问题,采用非全局最优搜索方法把特征选择问题和模拟退火算法、禁忌搜索算法、遗传算法、或随机重采样过程结合,以概率推理和采样过程作为算法基础遗传算法在这一领域的应用最为广泛模式识别,第八章20特征选择•按搜索策略划分的特征选择算法•启发式搜索策略单独最优特征组合算法序列前向选择算法序列后向选择算法浮动搜索算法模式识别,第八章21特征选择•特征选择的原则•选择反映模式本质特性的参数作为特征•使样本类间距离较大、类内距离较小•与类别信息不相关的变换(平移、旋转、尺度变换)具有不变性•尽量选择相关性小的特征•尽可能不受噪声的干扰模式识别,第八章22基于主成份的特征提取:K-L变换•K-L变换(Karhunen-LoeveTransform,卡洛南-洛伊变换)是将高维特征向量映射为低维特征向量的有效方法•目的:提取出空间原始数据的主要特征(主元或主成份),减少数据冗余,使得数据在一个低维的特征空间被处理,同时保持原始数据的绝大部份有用信息,从而解决数据维度过高的瓶颈问题。•方法:•将维特征向量,通过特征变换得到另一维特征向量特征向量,使得与原向量的均方误差最小模式识别,第八章23nXm)(nmYYX模式识别,第八章24K-L变换•设为维特征向量,即:现在维特征空间中选取一组新的正交基底向量即:XnTnxxxX,,,21nn,,,21ji0ji1jTi模式识别,第八章25K-L变换•将在该基底向量上进行投影得到新向量,即则向量可表示为:XYXyyyyYTiiTn:,,,21其中niiiYyX1X1模式识别,第八章26K-L变换X原空间Y新空间y1y2x1x2TyyY21,TxxX21,2211yyX2模式识别,第八章27K-L变换•可见不同的基底向量,将投影后可产生不同的向量•现要寻求一组有效的基底向量,实现特征压缩的目的Yn,,,21X模式识别,第八章28K-L变换•考虑:TnmmTnyyyyyyyyY,,,,,,,,,12121模式识别,第八章29K-L变换•将中以后各项用常数代替得:Y)(mnibTnmmbbyyyY,,,,,,121模式识别,第八章30K-L变换•定义误差向量nmiiimiiibyX11nmiiiibyXXX1)(模式识别,第八章31K-L变换X原空间y新空间yX模式识别,第八章32K-L变换•则平方误差为nmjjjjnmiTiiiTbybyXXX112)()(模式识别,第八章33K-L变换•由于•则有ji0ji1jTinmiiibyX122)(模式识别,第八章34K-L变换•若现有一批样本,则均方误差为:可见,均方误差与基底向量和有关211222)()(inmiTinmiiibXEbyEXEiib模式识别,第八章35K-L变换•如何选择和,使得均方误差最小?•为什么要这样做?iib2模式识别,第八章36K-L变换•首先考虑若确定,如何选择?令即iib0)(212inmiTiiibXEbbnmiiTibXE102模式识别,第八章37K-L变换•则有XEbbXETiiiTi0模式识别,第八章38K-L变换•再考虑当用最佳值代替后,如何确定?XETiibi模式识别,第八章39K-L变换•确定后,均方误差nmiTiTiXEXE12)(ibnmiiTibXE122)(模式识别,第八章40K-L变换•即:nmiiTi12nmiiTTiXEXXEXE12))((协方差矩阵经典数学问题模式识别,第八章41K-L变换•结论:•使均方误差最小的基底向量,即是协方差矩阵的本征向量如何求本征向量?2i模式识别,第八章42K-L变换•本征值•协方差矩阵的本征值,即满足的值•共有i个本征值0I单位矩阵n,,,,321模式识别,第八章43K-L变换•本征向量•满足方程的向量•共有i个本征向量iiiin,,,,321模式识别,第八章44K-L变换•当为协方差矩阵的本征向量时,均方误差•可见应保留本征值较大的本征向量为基底向量!为什么?nmii12i模式识别,第八章45K-L变换•总结:•将压缩到将产生误差压缩维数越多将越大,即丢失的信息越多。TnyyyY,,,21TmyyyY,,,21nmii122模式识别,第八章46K-L变换•为了有效减少,应在压缩时,保留本征较大的本征向量为基底向量,即排序•而选择本征值较大的m个本征向量为基底向量•压缩后的特征向量为2n321TmyyyY,,,21模式识别,第八章47K-L变换•而称为X的m个主成份XyTii模式识别,第八章48K-L变换•K-L变换进行特征维数压缩的过程:•获取一批学习样本•计算其均值•计算其协方差矩阵•计算协方差矩阵的n个本征值XETXEXXEXE))((i模式识别,第八章49K-L变换•将由大到小排序值为•计算本征值对应的本征向量,即•根据具体要求将特征向量降为m维向量in321iiiini,,2,1TmyyyY,,21XyTii模式识别,第八章50K-L变换•例:设已知样本的特征向量为:试用K-L变换将X压缩为一维的4个样本,并求出均方误差22,11,22,114321XXXX2模式识别,第八章51K-L变换X2X3X4X1模式识别,第八章52K-L变换•解:•求出样本均值(期望值)04141iiXXE模式识别,第八章53K-L变换•求协方差矩阵TXEXXEXE}){)((4141iTiiXX2.52.52.52.5模式识别,第八章54K-L变换•计算协方差矩阵的本征值即计算解得0I0-2.52.52.5-2.55102模式识别,第八章55K-L变换•计算协方差矩阵的本征向量解得:iii2121121212模式识别,第八章56K-L变换•特征压缩后211111XyYT2221212XyYT231313XyYT2241414XyYT模式识别,第八章57K-L变换Y3Y4Y112Y2模式识别,第八章58K-L变换•均方误差022