5.1基本概念5.2类别可分性测度5.3基于类内散布矩阵的单类模式特征提取5.4基于K-L变换的多类模式特征提取第5章特征选择与特征提取5.1基本概念①由于测量上可实现性的限制或经济上的考虑,所获得的测量值为数不多。②能获得的性质测量值很多。如果全部直接作为分类特征,耗费机时,且分类效果不一定好。有人称之为“特征维数灾难”。特征选择和提取的目的:经过选择或变换,组成识别特征,尽可能保留分类信息,在保证一定分类精度的前提下,减少特征维数,使分类器的工作即快又准确。1.两种数据测量情况(1)具有很大的识别信息量。即应具有很好的可分性。(2)具有可靠性。模棱两可、似是而非、时是时非等不易判别的特征应丢掉。(3)尽可能强的独立性。重复的、相关性强的特征只选一个。(4)数量尽量少,同时损失的信息尽量小。2.对特征的要求3.特征选择和特征提取的异同(1)特征选择:从L个度量值集合中按一定准则选出供分类用的子集,作为降维(m维,mL)的分类特征。Lxxx,,21(2)特征提取:使一组度量值通过某种变换产生新的m个特征,作为降维的分类特征,其中。),,(21Lxxxih),,(21myyyLmmi;,,2,1(c)是具有分类能力的特征,故选(c),扔掉(a)、(b)。BA解:[法1]①特征抽取:测量三个结构特征(a)周长(b)面积(c)两个互相垂直的内径比——特征选择:一般根据物理特征或结构特征进行压缩。②分析:例:特征选择与特征提取的区别:对一个条形和圆进行识别。当模式在空间中发生移动、旋转、缩放时,特征值应保持不变,保证仍可得到同样的识别效果。[法2]:①特征抽取:测量物体向两个坐标轴的投影值,则A、B各有2个值域区间。可以看出,两个物体的投影有重叠,直接使用投影值无法将两者区分开。②特征选择:将坐标系按逆时针方向做一旋转变化,或物体按顺时针方向变,并适当平移等。根据物体在轴上投影的坐标值的正负可区分两个物体。'2x——特征提取,一般用数学的方法进行压缩。BA2x1x22Bx22Ax12Bx12Ax11Bx11Ax21Bx21AxBA2x1x'2x'1x5.2类别可分性测度5.2.1基于距离的可分性测度类别可分性测度:衡量类别间可分性的尺度。相似性测度:衡量模式之间相似性的一种尺度类内距离和类间距离类概率密度函数类别可分性测度空间分布:随机模式向量:错误率与错误率有关的距离1.类内距离和类内散布矩阵1)类内距离:同一类模式点集内,各样本间的均方距离。平方形式:}||{||22jiEDXX)}(){(TjijiEXXXXXi,,Xj:n维模式点集{X}中的任意两个样本。特征选择和提取的结果应使类内散布矩阵的迹愈?愈好。特征选择和提取的结果应使类内散布矩阵的迹愈小愈好。}{}{2}{2TT2XXXXEEED]}{[2TTMMXXE][tr2TMMR][tr2Cnkk122若{X}中的样本相互独立,有式中,R:该类模式分布的自相关矩阵;M:均值向量;C:协方差矩阵;:C主对角线上的元素,表示模式向量第k个分量的方差;2ktr:矩阵的迹(方阵主对角线上各元素之和)。2)类内散布矩阵:表示各样本点围绕均值的散布情况,即该类分布的协方差矩阵。T{()()}iiEXXMMiw类类间散布矩阵的迹愈大愈有利于分类。2.类间距离和类间散布矩阵1)类间距离:模式类之间的距离,记为。bD每类模式均值向量与模式总体均值向量之间平方距离的先验概率加权和。ciiibPD1202||||)(MMciiiiP10T0)())((MMMM式中,)(iωP:i类的先验概率;iM:i类的均值向量;0M:所有c类模式的总体均值向量。XME0cii,,2,1,XciiiP1)(M2)类间散布矩阵:表示c类模式在空间的散布情况,记为Sb。ciiiibP1T00))()((MMMMS类间散布矩阵的迹愈?愈有利于分类。3)类间距离与类间散布矩阵的关系:}{tr2bbDS注意:与类间距离的转置位置不同。3.多类模式向量间的距离和总体散布矩阵1)两类情况的距离设1ω类中有q个样本,2ω类中有p个样本。q个p个1ω2共p×q个距离两个类区之间的距离=p×q个距离的平均距离多类间任意两个点间距离的平均距离类似地多类情况多类间任意两个点间平方距离的平均值inkjnljlikcjjijciidDnnPPJ11211),(1)()(21XX式中,)(iωP和)(jP:i和jω类先验概率;c:类别数;ikX:i类的第k个样本;jlX:jω类的第l个样本;in和jn:i和jω类的样本数;),(2jlikDXX:ikX和jlX间欧氏距离的平方。(5-8)inkikiin11XMi类的均值向量:(5-10)ciiiP10)(MMc类模式总体的均值向量:(5-11)2)多类情况的距离(2)Jd的另一种形式:将以下3式代入(5-8)式(1)多类模式向量间的平均平方距离Jd)()(),(T2jlikjlikjlikDXXXXXX(5-9)平方距离:任意类的组合特定两类间任意样本的组合得)()()()(1)(0T01T1MMMMMXMXiiiikinkiikiciidnPJ某类类内平方距离平均值某类类间平方距离多类模式向量之间的平方距离=各类平方距离的先验概率加权和某类的平方距离模式类间的距离模式类内的距离多类模式向量之间的距离3)多类情况的散布矩阵ciiiibP1T00))()((MMMMS多类类间散布矩阵:4)多类模式平均平方距离与总体散布矩阵的关系)(tr)(trwbtdJSSS多类类内散布矩阵:ciiiiwEP1T}))({()(MXMXSiXciinkiikiikinP11Ti))((1)(MXMX——各类模式协方差矩阵的先验概率加权平均值。多类模式的总体散布矩阵:wbtESSMXMXS}))({(T00得)()()()(1)(0T01T1MMMMMXMXiiiikinkiikiciidnPJ距离与散布矩阵作为可分性测度的特点:*计算方便,概念直观(反映模式的空间分布情况);*与分类错误率没有直接的联系。211)|()(RdpePXX122)|()(RdpePXX)()()()()(2211ePPePPeP5.2.2基于概率分布的可分性测度1.散度出发点:对数似然比含有类别的可分性信息。设i,j类的概率密度函数分别为)|(ipX和)|(jpXi类对j类的对数似然比:)()(lnjiijpplXX1)散度的定义j类对i类的对数似然比:)()(lnijjipplXX对不同的X,似然函数不同,对数似然比体现的可分性不同,通常采用平均可分性信息——对数似然比的期望值。i类对数似然比的期望值:XXXXdppplEIXjiiijij)()(ln)(}{类对数似然比的期望值:jXXXXdppplEIXijjjiji)()(ln)(}{散度等于两类的对数似然比期望值之和。i类对j类的散度定义为ijJ:XXXXXdppppIIJjiXjijiijij)()(ln)]()([)()(}{xdxxpxEXXXXXdppppIIJijXijijjiji)()(ln)]()([散度表示了区分ωi类和ωj类的总的平均信息。2)散度的性质(1)jiijJJXXXXXdppppIIJjiXjijiijij)()(ln)]()([(2)ijJ为非负,即0ijJ。当)|()|(jippXX时,0ijJ,)|(ipX与)|(jpX相差愈大,ijJ越大。当)|()|(jippXX,两类分布密度相同,0ijJ。——特征选择和特征提取应使散度尽可能的大?——特征选择和特征提取应使散度尽可能的(3)错误率分析中,两类概率密度曲线交叠越少,错误率越小。0x12)()|(11Pxp)()(11ePP)()(22ePPR1R2)()|(22Pxp)()|(iiPxpXXXXXdppppIIJjiXjijiijij)()(ln)]()([由散度的定义式可知,散度愈大,两类概率密度函数曲线相差愈大,交叠愈少,分类错误率愈小。(4)散度具有可加性:对于模式向量T21],,,[nxxxX,若各分量相互独立,则有nkkijnijijxJxxxJJ121)(),,,()(X据此可估计每一个特征在分类中的重要性:散度较大的特征含有较大的可分信息——保留。(5)可加性表明,加入新的特征,不会使散度减小。即),,,,(),,,(12121nnijnijxxxxJxxxJ3)两个正态分布模式类的散度设ωi类和ωj类的概率密度函数分别为),(~)(CMXiiNp),(~)(CMXjjNp可得到i类对j类的散度为11tr[(()()]()()ijijijijijJCMMMMMMCMM——两类模式之间马氏距离的平方一维正态分布时:22)(σmmJjiij两类均值向量距离越远,散度愈大每类自身分布愈集中,两类间的散度愈大模式识别导论(齐敏)p1355.3基于类内散布矩阵的单类模式特征提取对某类模式:压缩模式向量的维数。对多类分类:压缩维数;保留类别间的鉴别信息,突出可分性。特征提取的目的:若}{X是iω类的一个n维样本集,将X压缩成m维向量*X——寻找一个nm矩阵A,并作变换:特征提取操作方法:AXX*m×1m×nn×1(mn)注意:维数降低后,在新的m维空间里各模式类之间的分布规律应至少保持不变或更优化。讨论内容:*根据类内散布矩阵如何确定变换矩阵A;*通过A如何进行特征提取。1.根据类内散布矩阵确定变换矩阵设iω类模式的均值向量为M,类内散布矩阵(协方差矩阵)为C:XMET))((MXMXCE式中,X为n维向量,C为n×n的实对称矩阵。设矩阵C的n个特征值分别为nλλλ,,,21。任一特征值是满足0CI的一个解。假定n个特征值对应的n个特征向量为nk,,2,1,ku。则ku是满足kkuCuk的一个非零解。ku是n维向量,可表示为T21],,,[knkkuuuku。若ku为归一化特征向量,根据实对称矩阵的性质,有ijij,0,1Tjiuu——n个特征向量相互正交,且都是单位长度。若选n个归一化特征向量作为A的行,则A为归一化正交矩阵:TTTnuuuA21nuuuA21TIAAT利用A对iω类的样本X进行变换,得AXX*。式中,X和*X都是n维向量。考察变换前后的分布规律:均值向量*M、协方差矩阵*C和类内距离2D的变化。}))({(T*****MXMXCE}))({(TAMAXAMAXETT}))({(AMXMXAETACAAMXAAXXM}{}{}{**EEE(1)(2)nnnnuuuuuuuuuuuunC2121212121TTTTTTnλλλ0021An×nkkuCukijij,0,1Tjiuu变换后:协方差矩阵为对角阵,说明*X的各分量不相关——便于特征的取舍;*X的第k个分量的方差等于未变换时C的特征值kλ。}||{||2**2jiEDXX)}(){(**T**jijiEXXXX)}(){(TjijiEAXAXAXAX)}(){(TTjijiEXXAAXX)}(){(TjijiEXXXX}||{||2jiEXX(3)变换