遥感图像分类方法研究综述摘要本文概述了遥感图像分类的概念和原理,详细探讨了传统的遥感分类方法,对各种方法的进行了定性的比较与分析。然后介绍了分别基于GPU、计算机集群和刀片机服务器的三种加快分类速度的途径,最后展望了遥感图像分类方法的发展方向和研究热点。关键词:遥感;图像分类;监督分类;非监督分类;GPU;机群系统;刀片机1.引言在遥感图像处理的研究中,无论是专业信息提取,地物变化预测,还是专题地图制作等都离不开分类。遥感图像分类有类别多,混合度大和计算量大的特点,分类方法的优劣直接关系到分类的精度和速度。由于遥感图像本身的空间分辨率以及“同物异谱”和“异物同谱”现象的存在,往往出现较多的错分、漏分现象,导致分类精度不高[1],如何实现图像分类识别并满足一定的分类精度,是当前遥感图像研究中的一个关键问题,也是研究的焦点[2]。2.遥感图像分类原理遥感图像通过亮度值或像素值的高低差异及空间变化表示不同地物的差异,如不同类型的植被、土壤、建筑物及水体等,这也是区分不同地物的理论依据。利用光谱特征(地物电磁波辐射的多波段测量值)或纹理等空间结构特征,按照某种规则就能对地物在遥感图像上的信息进行识别与分类。图像分类的目标就是通过对各类地物波谱特征的分析选择特征参数,将特征空间划分为不相重叠的子空间,进而把影像内诸像元划分到各子空间去,从而实现分类[3]。3.传统分类方法遥感影像的计算机分类方法可分为两种:统计判决分类和句法模式识别。前者通过对研究对象进行大量的统计分析,抽出反映模式的本质特点、特征而进行识别。后者则需要了解图像结构信息,从而对其进行分类。传统的分类方法一般为统计判决分类,如最大似然法、K均值法等。近年来发展的分类新方法则多采用句法方法,如专家系统法和决策树分类法等。根据是否已知训练样本的分类数据,统计模式方法可分为监督分类、非监督分类。下面将具体介绍监督分类、非监督分类以及其它分类(如模糊分类和人工神经网络分类)的典型算法及其主要步骤。3.1监督分类监督分类是一种常用的精度较高的统计判决分类,在已知类别的训练场地上提取各类训练样本,通过选择特征变量、确定判别函数或判别规则,把图像中的各个像元点划归到各个给定类[4]。常用的监督分类方法有最小距离分类、平行六面体分类、最大似然分类等。主要步骤包括:(1)选择特征波段;(2)选择训练区;(3)选择或构造训练分类器;(4)对分类精度进行评价。3.1.1最小距离分类最小距离分类的基本思想是按照距离判决函数计算象素点与每一个聚类中心的光谱距离,将该像素点归到距离最近的类别。该分类方法的距离判决函数是建立在欧氏距离的基础上的,公式如下:𝑑(𝑥,𝑀𝑖)=[∑(𝑥𝐾−𝑀𝑖𝐾)2𝑛𝐾=1]12其中n为波段数(维数),K是某一特征波段,i是聚类中心数,M𝑖是第i类样本均值,𝑀𝑖𝐾是第i类中心第k波段的象素值,𝑑(𝑥,𝑀𝑖)是象素点x到第i类中心M𝑖的距离。最小距离判别方法的具体步骤如下:(1)确定地区和波段;(2)选择训练区;(3)根据各训练区图像数据,计算𝑀𝑖;(4)将训练区外图像像元逐类代入等式计算𝑑(𝑥,𝑀𝑖),按判别规则比较大小,将像元归到距离最小的类别;(5)产生分类图像;(6)检验结果,如果错误较多,重新选择训练区;(7)输出专题图像。最小距离分类有计算量相对较小,分类速度快的优点并能适用于样本较少的情况。缺点是分类精度相对其它监督分类方法较低。3.1.2平行六面体分类平行六面体分类是通过设定在各轴上的一系列分割点,将多维特征划分成对应不同类别的互不重叠的特征子空间的分类方法。通过选取训练区详细了解分类类别的特征,并以较高的精度设定每个分类类别的光谱特征上限值和下限值,构成特征子空间[8]。对于一个未知类别的像素点,它的分类取决于它落入哪个类别特征子空间中。如落入某个特征子空间中,则属于该类,如落入所有特征子空间中,则属于未知类型。因此平行六面体分类要求训练区样本的选择必须覆盖所有的类型。这种方法的优点有:快捷简单,因为对每一个范本的每一波段与数据文件值进行对比的上下限都是常量;对于一个首次进行的跨度较大的分类,这一判别规则可以很快缩小分类数,避免了更多的耗时计算,节省了处理时间。缺点是由于平行六面体有“角”,因此象素点在光谱意义上与模板的平均值相差很远时也可能被分类。3.1.3最大似然分类最大似然分类利用了遥感数据的统计特征,假定各类别的分布函数为正态分布,在多变量空间中形成椭圆或椭球分布,根据各方向上散布情况不同按正态分布规律用最大似然判别规则进行判决,得到较高准确率的分类结果。分类公式如下:𝐷=ln(𝑎𝑐)−[0.5ln(|𝐶𝑜𝑣𝑐|)]−[𝑇(𝐶𝑜𝑣𝑐−1)(𝑋−𝑀𝐶)]其中,D是加权距离(可能性),C是某一特征类型,X为象素的测量向量,𝑀𝐶是类型C的样本平均向量,𝑎𝑐是任一象素属于类型C的百分概率(缺省为1.0,或根据先验知识输入),𝐶𝑜𝑣𝑐是类型C的样本中的象素的协方差矩阵。具体的分类流程如下:(1)确定需要分类的地区和使用的波段和特征分类数,检查所用各波段或特征分量是否相互已经位置配准;(2)根据已掌握的典型地区的地面情况,在图像上选择训练区;(3)计算参数:根据选出的各类训练区的图像数据,计算MC和CovC,确定先验概率ac;(4)分类:将训练区以外的图像像元逐个代入公式,对于每个像元,分几类就计算几次,最后比较大小,选择最大值得出类别;(5)产生分类图:给每一类别规定一个值,如分成10类,可规定每一类对应的值分别为1,2,3,···,10。分类后的像元值便用类别值代替并进行着色,最后得到的分类图像就是专题图像;(6)检验结果,如果分类中错误较多,需要重新选择训练区再作以上各步,直到结果满意为止。虽然最大似然法的分类精度较高,但是计算量大,分类时间长,而且对输入的数据有一定要求(最大似然是参数形式的,意味着每一输入波段必须符合正态分布)。3.2非监督分类非监督分类是在没有先验类别知识的情况下,根据图像本身的统计特征及自然点群的分布情况来划分地物类别的分类处理。这类方法以图像的统计特征为基础,能够获得图像数据内在的分布规律。因为非监督分类不需要对待分类的地区有已知知识或进行实地考察,相对监督分类而言有更广的应用范围。主要的方法有K均值分类和ISODATA分类。3.2.1K均值分类K均值分类的基本思想是通过迭代,逐次移动各类的中心,直至得到最好的分类结果为止。需要预先设定聚类中心的个数(这在一定程度上限制了该算法的应用),逐次移动各类的中心,使聚类域中所有样本到聚类中心的距离平方和最小,直至各类的中心不再移动(或移动的范围小于设定的阈值)或达到规定的迭代次数时停止分类。其主要步骤如下:(1)确定类别数并各类的初始中心:𝑍1(0),𝑍2(0),…,𝑍𝐾(0),K为类别数。初始中心的选择对聚类结果有一定影响,一般通过以下方法选取:①根据问题的性质,用经验的方法确定类别数K,从数据中找出直观上看来比较适合的K个类的初始中心;②将全部数据随机地分为K个类别,将这些类别的重心作为K个类的初始中心;(2)择近归类:将所有像元按照与各中心的距离最小的原则分到K个聚类中心;(3)计算新中心:待所有样本第i次划分完毕后,重新计算新的集群中心𝑍𝑗(𝑖+1),j=1,2,…,K;(4)如果聚类中心不变或小于设定的阈值,则算法收敛,聚类结束;否则回到步骤(2),进入下一次迭代;下图描述了K均值分类过程中各类中心移动的过程。聚类中心数K、初始聚类中心的选择、样本输入的次序,以及样本的几何特性等均可能影响k均值算法的进行过程。对这种算法虽然无法证明其收敛性,但当各类之间彼此远离时这个算法所得的结果是令人满意的。由于K均值分类有实现过程简单,分类速度较快的优点,在遥感图像分类应用中有着重要的作用。3.2.2ISODATA分类ISODATA(IterativeSelf-OrganizingDataAnalxsisTechniquesA)分类也称为迭代自组数据分析算法,它与K均值分类类似,都是通过迭代移动各类的中心,直到得到最好的分类结果。差别在于:第一,它不是调整一个样本的类别就重新计算一次各类样本的均值,而是在每次把所有样本都分类完毕之后才重新计算一次各样本的均值。所以,K均值分类可看作逐个样本修正法,ISODATA分类可看作成批样本修正法;第二,该算法不仅可以通过调整样本所属类别完成样本的聚类分析,而且可以自动地进行类别的“合并”与“分裂”,从而得到类别数比较合理的聚类结果。这种方法不受初始聚类组的影响,对识别蕴含于数据中的光谱聚类组非常有效,前提是重复足够的次数。缺点是比较费时,因为可能要迭代上百次[9]。3.3其它分类方法3.3.1模糊分类遥感图像中的像元不一定由单纯的一种地物信息构成,因此,用传统的“硬”分类方法(如前面提到的监督分类和非监督分类,每个像元归为单一类别)进行图像分类,无法获得较高的精度。一种较好的解决办法就是采用以模糊理论为基础的模糊分类法。模糊分类允许根据各类型的百分比函数,将一个像元归到几个类别。模糊分类具有过程灵活简便、主观影响小、适应面广等优点。但仍存在如下问题:(1)算法性能依赖于参数的初始化;(2)大数据量时算法严重耗时。针对于这些问题学者们进行了很多研究,并取得了重要成果,主要研究内容有隶属函数确定、模糊模式识别匹配(分类)、模糊推理、模糊方法与统计方法的结合、模糊方法与人工神经网络的结合、模糊动态识别等[10]。3.3.2人工神经网络分类人工神经网络分类是利用计算机模拟人类学习的过程,建立输入与输出数据之间联系的程序。在模仿人脑学习的过程中,通过进行重复的输入和输出训练来增强和修改输入和输出数据之间的联系[11]。所以,人工神经网络分类也可归为监督分类。人工神经网络主要由3个基本要素构成,即处理单元、网络拓扑结构及训练规则,是由大量简单的处理单元(神经元)连接成的复杂网络,能够模仿人的大脑进行数据接收、处理、贮存和传输。神经网络方法具有极强的非线性映射能力,可高速并行处理大量数据,而且具有自学习、自适应和自组织能力。下图为三层神经网络的典型结构图。三层神经网络的典型结构图[12]目前,人工神经网络技术在遥感图像分类处理中的应用主要有单一的BP(BackPropagation,反向传播)网络、模糊神经网络、多层感知器、径向基函数(RBF)网络、Kohonen自组织特征分类器、Hybrid学习向量分层网络等多种分类器。3.4各种传统分类方法的比较监督分类的关键是训练样本的选择,训练样本的质量直接关系到分类能否取得良好的效果。在选择训练样本时要充分考虑研究区地物的光谱特征和分布区域特征并结合大量的野外调查,才能保证所选取的训练样本具有较好的代表性。非监督分类不需要对地面信息有详细的了解,也不需要选择训练样本。能根据地物的光谱特征进行分类,受人为因素的影响较少,而且算法成熟,操作简单。在初步分析图像时,用非监督分类的方法来研究数据的自然集群分布情况是很有价值的。两种分类方法各有特点,实际应用中应充分考虑分类要求,如分类精度和速度,选择合适的分类方法作为基础算法。下表是上述分类方法的特点的总结。方法区别原理适应条件特点效果局限性最小距离法元素到聚类中心距离最小每一个要识别的类有对应的代表向量精度取决于对已知地物类型的了解和训练统计的精度计算简便,可对像元顺序扫描分类,效果较好对于类别重叠的情况,分类精度受到限制最大似然分类归属概率最大多数情况适用,但对出现概率低的类别可能影响精度建立一个判别函数集分类错误小而精度高容易受到参数估计的限制平行六面体分类设定分割点将多维特征划分成分别对应不同分类类别的互不重迭的特征子空间通过选取训练区详细了解分类类别(总体)的特征特征子空间快捷简单,节省处理时间由于平行六面体有“角”,像素在光谱意义上与模板的平均值相差很远时可能被分类K均值分类所有样本到聚类中心的距离平方和最小对待分类区域缺乏足够了解聚类中心