1第五章高光谱遥感数据的特征选择与提取高光谱遥感数据有助于我们完成更加细致的遥感地物分类和目标识别,然而波段的增多也必然导致信息的冗余和数据处理复杂性的增加。具体表现在:(1)数据量急剧增加:波段的增加,使得高光谱数据比传统数据多1-2个数量级,表现在显示,存储,管理方面相当繁琐(2)计算量增大:数据的膨胀导致计算机处理载荷大幅度增加,寻找有效地降维空间手段是必要的(3)统计参数的估计误差增大:利用统计方法为了达到比较精确的估计,样本个数一般是波段数的100倍以上,这在高光谱数据中往往无法实现,因此,导致了分类精度的普遍下降。2当光谱维数增加的时候,特征组合形式成指数倍增加,如何优化光谱特征空间,进行光谱选择非常重要。35.1光谱特征的选择4特征选择的方法是根据专家知识来进行挑选或者是根据类别可分性准则选择。前者由于涉及到人为的因素比较多,因此不作讨论;后者根据类别可分性准则,挑选光谱特征。选择步骤:A、选择可分性准则,确定使用策略B、确定选择特征的算法5A、选择可分性准则选择可分性准则有两个策略:一、选择各类平均可分性最大的特征二、选择最难分的类别具有的可分性最大的特征第一个策略比较难照顾到分布比较集中的类别,如果使用这个策略,选用能均衡照顾到各类的可以弥补其不足;第二个策略能照顾到最难分的类别,但是可能会漏掉某些可分性最大的特征,从而使分类精度下降。6实际的应用当中,要综合两种策略的思想,使效率和模式分布能够达到平衡。如果模式分布的比较均匀,选择哪一个策略都是无关紧要的;但是如果模式分布的不均匀,选择第一个策略就必须考虑可分性准则的有效性,选择第二个策略就必须考虑最难分的类别,提高分类精度。7B、选择特征的算法定义:短时间内找出高光谱数据波段中最优的一组特征常用算法介绍:(1)单独选择法根据可分性准则函数计算n个特征中每个特征可分性,然后根据各个特征的可分性大小进行排序,选择可分性最大的前m(nm)个特征。8(2)扩充最优特征子集一、计算每个特征对应的所有类别的可分性,选择可分性最大的进入到最优子集当中;二、增加一个特征构成新的特征集,重新计算特征集合的可分性,选择最大的特征组合作为新的最优子集。三、重复执行第二步,直到最优的特征子集达到m个为止。9(3)选择最难分类的类对做出正确分类贡献最大一、根据类别可分性函数计算每一个类对的可分性,找出最难分的类对。二、计算各个特征对于最难分的类对的可分性,选择可分性最大的特征进入最优子集。三、增加一个特征,形成新的组合,计算新组合对于最难分的类对的可分性,选择可分性最大的特征组合作为新的最优特征子集。四、重复执行第三步,直到最优的特征子集达到m。10(4)去掉最难分类正确分类贡献最小一、根据类别可分性函数计算每一个类对的可分性,找出最难分的类对。二、计算各个特征对于最难分的类对的可分性,去掉择可分性最小的特征,剩下特征作为最优子集。三、减少一个特征,形成新的组合,计算新组合对于最难分的类对的可分性,选择可分性最大的特征组合作为新的最优特征子集。四、重复执行第三步,直到最优的特征子集达到m。11(5)搜索树是一种自上而下的搜索方法,具有回溯功能,使得所有的特征组合都能被考虑到。搜索树具有最大的特点是所用到的可分性函数具有单调性,利用单调性的特点,减少对一些特征组合的搜索。12必须指出的是以上的算法均假设各个特征之间相互独立,没有考虑特征之间的相关性。实际上,各个特征之间是存在相关性的,首先应该剔除一些可分性小,与其他特征相关性大的特征,选择最优,可分性最大的特征组。13光谱特征选择的策略按照以上选择的方法来划分类别,我们从以下三个方面的内容来具体介绍:一、光谱距离统计二、光谱特征位置搜索三、光谱相关性分析145.1.1光谱距离统计光谱距离统计是考虑在进行特征选择时,需要依据一定的准则进行判断。类别可分性根据这些判据能够反映各类在特征空间的分布情况,还能刻划各特征分量在分类识别中的重要性或贡献。15满足光谱距离可分性的要求:设计光谱可分性的准则必须满足三个方面的要求:(1)与错误概率具有单调关系,这样准则取最大值的情况下,所得到的错误概率应该是最小的。(2)度量特性。设定两类地物类别i,j的度量特性为,越大,两类特征的分离程度越大。(3)单调性,新加入的特征,准则函数的值并不减小。ijJijJ16从n个特征中求取最有效的m个特征,相应的组合方式有:种,主要的考核指标:(1)各样本之间的平均距离;(2)类别间的相对距离;(3)离散度;(4)J-M距离;(5)基于熵函数的可分性准则mnC光谱距离可分性准则17(1)各类样本间的平均距离各类样本之间的距离越大,类别可分性越大,因此可以利用各类样本之间的距离的平均值作为可分性的准则。常用的距离函数有:欧氏距离,马氏距离,明氏距离等。欧几里德距离:需要注意:很多情况下,类别之间的平均距离并不一定代表了类别之间的可分性。如下图所示plkkjkiijxxd2)(18两种分布的可分离性比较19(2)类别间的相对距离根据费歇尔准则,分类时总是希望类内的离散度尽量小,类间的离散度尽量大,那么根据这个定律,可以作为相对距离的一个度量,度量的公式,都是根据类内和类间离散度矩阵来进行定义。20(3)离散度相对距离是基于类间距离和类内方差,类内方差越大,分类误差越大。而离散度则是基于条件概率之差,表达式为:代表某一点的似然比代表似然比的自然对数E代表期望值]/)('[]/)('[jwXijLEiwXijLEijD'ijLijL21(4)J-M距离J-M距离也是基于类条件概率之差,与离散度的评价方式一样,其表达式为:J-M距离的组成成分与离散度是一样的,只是函数表现形式不一样,因此,把离散度加以改造,也能够很好的区分类别之间的距离和可分离性。2/12}])/()/([{xjiijdXwXpwXpJ22(5)基于熵函数的可分性准则在信息论中,一般用“熵”作为不确定性的度量,是错误概率的函数。为了对所有特征进行评价,需要计算空间中每一个点的熵函数,因此利用熵函数期望值就可以表征类别的分离成都,它可以用来作为提取特征分类性能的准则函数。熵是一种不确定性的度量,熵函数越大,模式归属为那一类的就越模糊,从而类别间的可分性就越小。235.1.2光谱特征位置搜索特征位置通常是指:特征吸收波段的位置包络线去除(包络线归一化)方法的具体步骤如下:2425手工搜索方法:利用定义手工逐点直线连接突出的“峰”值点,并使得折线在“峰”值点的外角180度,然后用实际光谱波段值去除相应的波段值,这样归一化后,峰值点均为1,非“峰”值点均小于1。这样就很容易测定吸收特征参数。26由包络线去除法调整的明矾石光谱曲线27包络线去除前后的光谱反射率曲线对比28经过包络线去除后,高岭石与白云石的可分有效区间,这里选择了5个特征波段:B1(2.16)B2(2.18)B3(2.21)B4(2.32)B5(2.38)1)选择特征波段区分地物29以上的五个特征可以构成一个凸面几何体,高岭石与白云石在这个投影变换后的特征空间集中在两个彼此分离的区间,两者能够完全区分302)基于特征位置进行彩色合成彩色合成采取RGB来构成波段组成,利用特征位置,可以缩小候选区域,突出感兴趣像元光谱的提取以及感兴趣区域的划分。31光谱相关性是指图像同一空间位置的像素在各波段有相似性。产生这种相似性的原因有以下两点:一、光谱图像的每个波段图像的像素值,是相同区域地物对各个波段光的反射强度值,相邻波地物反射率是相近的,由此产生了一定的相关性。二、由于不同波段的图像所涉及的地面目标相同,它们具有相同的空间拓扑结构。光谱相关性主要指的是统计相关性,即各个波段图像的灰度分布是相关的,其相关性的大小很大程度上是由光谱分辨率决定的,光谱分辨率越高,统计相关性也越高。5.1.3光谱自相关性分析32光谱相关性波段选择光谱波段选择一般遵循以下3个原则:(1)所选择的波段信息总量要大(2)所选的波段相关性弱(3)目标地物类型要在所选的波段组合内与其他地物有很好的可分性。主要选择的方法有:方差、相关系数矩阵、OIF指数等33方差(或标准差)统计定义:每一个波段的亮度值与平均亮度值差的平方和,再取平均数。单波段的方差越大,表明波段的离散程度越大,信息量越丰富。34通过分析遥感图像各波段的数据值,可以确定各个波段包含的信息量的多少,各波段的方差(标准差)反映了图像各像元灰度值与平均值总的离散度,一定程度上反映了各波段信息量,其值越大,所包含的信息量越大,地物之间越容易区分。下面以128个波段的omis影像为例,介绍图像方差(标准差)所反应出来的图像信息量大小。35(a)第10波段的图像(b)第65波段的图像(C)第126波段的图像36图像在128个波段的标准差。可以看出,波段65-96这些波段的标准差较小(几乎都小于50),所以这些波段子集包含的信息量就少。而波段27-30,35-39,113-114,116-118的标准差较大(基本都大于400),这些波段包含的信息量就较多。高光谱遥感图像各波段的信息量分布并没有规律,在一个很小的波长范围内,各波段的信息量分布不均匀。就是相邻两个波段的信息量有时差别也很大。37相关系数法通过相关系数r来比较两个光谱图像之间的相关性,它反映了不同变量之间的相关程度,大小取决于两个变量之间的协方差和它们各自的标准差,其计算公式为:这里定义j=i+1,即:比较相邻两个波段之间的相关性,可以用下面的表来显示jjiiijijR23839用图像的直方图形式来统计相关性404142435.2光谱特征的提取光谱特征的提取是光谱特征空间降维的过程。现有的降维方法可以分两类:一类是基于非变换的,如利用光谱位置搜索进行波段选择。它的优点是保持了图像的原有特征。另一类是基于变换的方法,如主成分分析PCA(K-L变换),最小噪声分离变换MNF,小波变换等,基于变换的降维方式的优点是可以经过若干变换直接将高维数据降低到几维,降维速度快。44光谱自相关性的波段选择空间自相关性的波段选择5.2.1波段组合选择45OIF指数(Optimumindex)最佳指数,用来计算几个波段所包含的信息量。利用它可以用来选择组合波段,通过组合波段的标准差之和最大,组合波段间相关系数之和最小作为准则来加以判断最佳波段组合的选择,计算公式如下:S代表标准差,R代表相关系数niijniiRSOIF11光谱自相关46空间自相关性空间自相关性的判别,多是采用纹理分析的方法,即利用纹理自相关函数进行纹理测度:代表横坐标方向的移动步长代表纵坐标方向的移动步长101021010)],([]),(),([),(MiNjjiMiNjjijiyxfyxfyxfr47当和变化时,可以画出图像的自相关系数随变化的曲线。可以通过这种自相关系数来确定图像的纹理粗糙程度。当d不变的时候,粗纹理的自相关纹理的自相关系数比细纹理的自相关系数大22d48空间自相关模型的目标:可以将空间自相关模型用到波段选择里面,目标是:地物集中区域灰度反差越大越好,地物集中区域越集中越好,波段之间越独立越好。49评价指数Geary’sc值的公式如下:ijijijijijwcwc22其中2)(jiijzzc22)(11iizzn50Geary’sCindex值介于0与2之间,当Geary’sC值大于1的时候,表示两个区域之间存在负相关,当Geary’sC值小于1的时候,呈现正相关,如果等于1,代表两者不相关。51利用Geary’sc值可以反映两个方面的情况,第一反映影像质量,影像的Geary’sc值越小,方差越大,影像质量越高第二选择波段,比较两个波段的比值图像的空间自相关值,值越小,说明构成比值的图像信息量越大,两波段应入选52Geary’sc值反映图像质量分别为0.428与0.1695