基于构造重要空间的主动学习支持向量机EdoardoPasolli,学生会员,FaridMelgani,高级会员,IEEE,YakoubBazi,高级会员摘要:在遥感图像分类研究中,主动学习是一种极为有效的方法,可以提高遥感图像分类的效率。这篇论文主要介绍了一种基于主动学习策略开发的支持向量机(SVM)分类方法。本方法主要基于以下几个思想:1)将原始的分类问题代入到一个新的领域,通过合适的支持向量机理论为指导,根据实验需要来区分重要样本和不重要样本;2)通过构建相应的重要空间来适当性的优化样本选择策略,从而有助于更好地处理原来的分类问题。通过在多光谱图像上的实验结果表明,在在收敛速度,稳定性和稀疏性等方面,新的算法都显示出了较高的优势。关键词:主动学习,高光谱图像,支持向量机(SVM),高分辨率图像(VHR)。第一章综述为了获得一个有效的监督分类系统,我们有必要去适当地解决一些重要的问题。其中一个重要问题就是,分类器的选择问题。值得一提的是,基于支持向量机的研究方法在不同的研究领域显示出了巨大的潜力[1]–[3]。虽然基于SVM的分类系统在研究中展现出了巨大的潜力,但作为传统的分类方法,用来构成训练集训练分类器的已标注样本的数量和质量仍严重影响着分类器的性能。事实上,训练样本的构成必须符合数据的概率分布,从而具有代表性。然而,获取训练样本是极困难的,它不仅受人工标注难以避免的各种错误影响,还需耗费大量的时间和金钱代价。基于以上原因,我们有必要去找到一种算法,既可以尽可能少的选择训练样本,又可以通过这些样本来正确的区分出未标注数据的标准类别。在过去的几年里,研究学者在如何让分类系统实现自动构建训练样本集上表现出了越来越大的兴趣。在机器学习领域,最近针对该问题所提出的的一个新的理论就是主动学习算法。先选取少量的并符合要求的已标注样本构成训练集,训练出初始的分类器,再通过一定的选择算法从大量未标注的样本中选择出最具信息量的样本交由专家人工标注。将专家标注的样本添加入训练集,从而再次训练优化分类器。整个过程循环往复,迭代进行,直到训练前满足了一定的分类精度或者分类数量,系统才会停止优化。在文献中,主动学习的方法已被成功地应用不同应用领域。然而,遥感图像分类研究中,主动学习方法还被研究的很少。在参考文献[4]中,被埋物体检测的应用中采用基于Fisher信息矩阵的方法来构造训练集。在参考文献[5]中,当标记和未标记的数据之间都存在光谱特征显著变化时,作者提出了一种基于最大似然分类的概率学习模型或分类器调整算法上。在参考文献[6]中,作者在文献[4]中所提方法的基础上进行了扩展,从而提高了被埋物体检测的性能。该方法将基于相互信息量衡量主动学习方法用于基于图的半监督算法。在参考文献[7]中,作者讨论了一个最先进的基于SVM分类器的主动学习方法,边缘采样算法(MS)[8]。此外,两个新方法被提出和应用到超高分辨率(VHR)图像的分类问题中,在这这篇论文中,作为一种替代方法,作者提出了基于主动学习的支持向量机的遥感图像分类。第二章方法提出首先,让我们专注于一个通用的二进制分类问题。至于扩展到多类的问题,将会在本节最后进行阐述。让我们先考虑一个最初由n个已标记样本组成的集合1{,}niiiLxy和另外一个由m个未标记样本组成的学习样本集合1{}nmjjnUx,并且有mn。为了能够不断地从学习集中选择一系列的样本在人工标注后添加到训练集L中,主动学习算法的任务就是在选择添加样本的过程中尽可能得使分类过程的准确率实现最大化,同时也要尽可能的使样本数量最小化(例如:参与人工标注的专家数量)。在本论文中,改进的主动学习算法是以支持向量机为基础而提出的。其算法的主要框架图如图1所示。图1、主动学习算法框架图第一个步骤是所谓的显著性分析,即检测初始训练集L中的信息最显著样本,这个操作是通过训练集L来训练支持向量机分类器(框图中名为SVM1的分类器)完成的。我们定义分类器所选择的支持向量(SVS)为显著样本,而其余样本被简单地定义为不重要样本。我们构建了一组新的集合Lb,使得原始训练样本集合L被重新赋予了显著性的概念。因此,Lb是一个可以区分为两类的集合,它包含了L中的显著样本和非显著样本。因此,第二步的任务是建立一个模型,可以将显著性样本从非显著样本中区分开来。为了这个目的,用新的训练集Lb训练另一个SVM分类器(在程序框图中名为SVM2)。由这第二个分类器所定义的模型可用于分类未标记的学习样本集合U。我们将从集合U中被分类出来的显著性样本定义为US。最后一步是从集合US中随机选择Ns样本,其中,Ns是被添加到训练集L中的样本。最后,随机选择的Us’样本由专家人工标注后添加到训练集L中去。如果模型的训练结果没有达到预先设定的收敛条件时(如训练样本总数不够),整个主动学习的迭代过程将不会停止。LbLUUsUs’Ls’为了更好的理解本文说提出的方法,下面将针对一个实例来进行阐述,结果如图2所示。在图2(a)中我们用原始的训练集L来训练支持向量机1(SVM1),并得到了相应的分隔区域。图中用圆圈说包围的点便是支持向量(SVs),即所谓的显著样本。在我们的改进方法中,我们定义了一个新的问题,根据显著性理论来重新定义了训练样本中的已标注样本。这种新的分类问题需要训练的第二个SVM分类器(SVM2),并能分隔出空间中的重要区域[图2(b)中的绿色区域]。这种区域表示了特征空间的部分区域,表明位于该区域的样本对于处理原来的分类问题有着更大的用处。支持向量机的本质二元分类,然而,在对遥感影像进行分类时,往往会同时涉及到对几个信息类的判别。为了解决这个问题,本文采用多类分类器来实现多类的区分。在本文中,分类器1(SVM1)通过1-a-1方法构造为多类分类器。在N类训练样本中构造所有可能的两类分类器,每类仅仅在第N类中的2类训练样本上训练,结果共构造(1)/2TT个分类器,用投票法组合这些两类分类器,得票最多的类为新点所属的类。在我们的主动学习方法中,支持向量机2(SVM2)也采用1-a-1方法来构造。对于每个SVM1二元分类,我们通过SVM2来确定原始类别所对应的各个重要区域。在训练了(1)/2TT个SVM2分类器后,结合SVM1说预估的类别,如果大多数的T-1分类器同意某个样本的重要性。我们称这个给定的样本是全局显著样本(参考多类问题)图2分类问题示意图(a)原始的分类空间(圆圈点为支持向量)(b)对应的重要区域第三章实验3.1实验准备为了验证所提出的主动学习方法,在两个不同的遥感数据集进行主动学习算法的相关实验。第一个数据集为多光谱的VHR图像,由QuickBird卫星传感器在2002年4月收集。4个光谱波段,空间分辨率为0.6米被用于整个分类过程。图像为布米尔达斯(阿尔及利亚)的部分城市区域,其中四个土地覆盖类型在图片中占据了主导地位,即:水,土壤,植被,人工建筑。第二个数据集由反射光学系统成像光谱仪传感器在2002年7月收集,图像为帕维亚(意大利)城市的一部分。该高光谱图像的特征是一共有102个波段,空间分辨率等于1.3米。地表类型被分为九类,分别为:水,树木,沥青,砖,土沥青,瓷砖,阴影,草地,裸露的土壤。在下面的实验中,对于两个数据集,所有的提供样品分为两组,相对应于学习集U和测试集。学习集的具体样本数目和测试样本数量列于表Ⅰ中。在此表中,也列出了每个类别的最初训练样本数量,最初的训练样本是从学习集合U随机选择而来。表1样本数量分配表(a)布米尔达斯地区样本(b)帕维亚地区样本类别水土壤植被人工建筑总数最初训练样本数444416学习集样本数600033804499397817857测试样本数600029574455411317525(a)布米尔达斯地区样本类别水树木沥青砖土沥青瓷砖阴影草地土壤总数训练样本56565656650学习样本82482081680880812604768248207456测试样本6514767788432189164974156623872266576414710(b)帕维亚地区样本第一个数据集,主动学习算法将一直运行到训练样本数增加到2991个,在每次迭代中增加25个样品。类似地,在第二个数据集中,在每次迭代时加入50个样品,直到总数为2000个样本。整个的主动学习过程中程序运行十次,每次用不同的初始训练集训练,得到可靠的统计结果。在每次运行时,初始训练样本完全采用随机的方式选择。分类性能主动通过以下几个指标来进行评估:1)整体精度(OA),这是考虑每个独立的类别中,分类正确的样本所占的百分比;2)平均精确度(AA),这是不同类别的精度的平均值;3)OA与AA的标准偏差(σ),这是为了评估主动学习模型的稳定性;4)支持向量的数量。为了得到一个可以参考的训练情况,SVM分类也对整个学习集进行训练,被称为“全”训练。一方面,在此得到的分类结果方式表示为主动学习模型的精度上限。在另一方面,我们期望精度下限约束将通过完全随机的选择策略(R)确定。我们重申,任何主动学习策略的目的是使得全训练的收敛速度快于完全随机的选择策略。此外,我们将改进的方法与基于边缘采样算法(MS)进行了比较[8]。3.2实验结果对于“全”训练情况,其整体进度(OA)为95.12%,其中布米尔达斯和帕维亚数据集的精度分别为97.75%。在图3(a)-(d)中,分别展示了基于本文改进的主动学习样例选择策略,边缘采样策略和完全随机采样情况下,不同样本数量的整体精度(OA)。对于的布米尔达斯数据集,改进的主动学习策略收敛到“全”精度,只需使用约1100个样本,占整个学习集的5.6%。相反,MS和R方法达到收敛条件时却需要使用约2000个样本。对于的帕维亚数据集,达到收敛时,改进的主动学习方法和MS方法分别需要700和800个样本,而R方法收敛时所需训练样本数则大于2000。我们注意到,在收敛之前,本文提出的改进算法表现出了最佳的性能。特别是对于布米尔达斯数据集,由于初始精度低,MS方法在主动学习过程中的第一次迭代中呈现出了糟糕的性能,而改进算法在第一步骤中就展现出了良好的性能。这可以通过事实来进行解释,即当只有少数的训练样本时可用,仅依靠最接近分类边缘的样品来进行推断,得出的决策边界是不稳定的。在这种情况下,使用MS方法可能会适得其反的效果。我们的方法判断一个样本是否使用时,不只通过决策边界来判定,还会通过样本邻近区域的情况来决定[如图2(b)],这使得该方法能更好地解决这个问题。为了更好地理解所提方法的行为,我们在图3中展示了交叉验证法(CV)演变的准确性和支持向量(#SV)的数量,其定义在以下基础理论上:“如果在1-a-1的多类架构体系中,至少有一个SVM分类器认为某点是支持向量时,则该点便认定为支持向量。”可以观察到,在第一次迭代过程中CV值呈现降低的倾向,但只要当足够数量的样品被添加到的训练集中时,CV值才为增加趋势。CV值的减少意味着难以分类的样本被添加到训练集中。然而,这些新样本都极具代表性并且能够改善泛化性能(例如:在测试样本中的准确度)。而R方法则呈现一个完全不同的特性,CV值从开始就呈现出增大的倾向。类似地,我们注意到,在我们的主动学习方法,支持向量(#SV)值增加的速度比R方法要快。因此,由主动学习方法选择的样本大多数是支持向量,因此对于类别的判别更为重要。对于R方法,支持向量的数目趋于增加的过程要慢得多。支持向量在主动学习策略中的数量快速增加地趋势清楚地表明,加入训练集样本对于分类过程中是非常重要的。最后,我们观察到改进算法在实现支持向量的增长以后,支持向量曲线呈现出一个断点。这意味着,经过一个给定的点,MS算法开始沿着决策边界进行过采样从而导致样本冗余。而改进算法,由于受决策边界的约束较小,样本距离边界也较远[如图2(b)所示]。所得到的结果在表Ⅱ中有更详细的显示。特别是,我们考虑到,对于每个方法训,最小样本数量将导致整体精度(OA)相对于“满”分类的OA将减少1%。对于OA减少0.5%的情况,我们也进行了相同的分析。我们给