Speeded-UpRobustFeatures(SURF)HerbertBay,AndreasEss,TinneTuytelaars,LucVanGool摘要这篇文章提出了一种尺度和旋转不变的检测子和描述子,称为SURF(Speeded-UpRobustFeatures)。SURF在可重复性、鉴别性和鲁棒性方面都接近甚至超过了以往的方案,同时计算和比较的速度更快。这依赖于使用了积分图进行图像卷积、使用现有的最好的检测子和描述子(特别是,基于Hessian矩阵方法的检测子,和基于分布的描述子)、以及简化这些算法到了极致。这些最终实现了新的检测、描述和匹配过程的结合。本文包含对检测子和描述子的详细阐述,之后探究了一些关键参数的作用。作为结论,我们用两个目标相反的应用测试了SURF的性能:摄像头校准(图像配准的一个特列)和目标识别。我们的实验验证了SURF在计算机视觉广泛领域的实用性。1.引言在两个图片中找到相似场景或目标的像素点一致性,这是许多计算机视觉应用中的一项任务。图像配准,摄像头校准,目标识别,图像检索只是其中的一部分。寻找离散像素点一致性的任务可以分为三步。第一,选出兴趣点并分别标注在图像上,例如拐角、斑块和T型连接处。兴趣点检测子最有价值的特性是可重复性。可重复性表明的是检测子在不同视觉条件下找到相同真实兴趣点的能力。然后,用特征向量描述兴趣点的邻域。这个描述子应该有鉴别性,同时对噪声、位移、几何和光照变换具有鲁棒性。最后,在不同的图片之间匹配特征向量。这种匹配基于向量间的马氏或者欧氏距离。描述子的维度对于计算时间有直接影响,对于快速兴趣点匹配,较小的维度是较好的。然而,较小的特征向量维度也使得鉴别度低于高维特征向量。我们的目标是开发新的检测子和描述子,相对于现有方案来说,计算速度更快,同时又不牺牲性能。为了达成这一目标,我们必须在二者之间达到一个平衡,在保持精确性的前提下简化检测方案,在保持足够鉴别度的前提下减少描述子的大小。相关文献中已经提出了大量的检测子和描述子。同时,基于基准数据库的详细的对于和评估也已经进行过。我们的快速检测子和描述子在文献4中介绍过。它建立在前人的成就上。在我们对基准数据库的实验上,SURF检测子和描述子不止更快,而且可重复性更好,同时鉴别力更高。我们关注于尺度和平面内旋转不变的检测子和描述子。对于常见的光学畸变,这似乎在特征复杂性和鲁棒性之间达到了妥协。倾斜,各向异质性,缩放和透视效应被认为是次要影响,在一定程度上可以被描述子的鲁棒性修复。注意到使用椭圆放射正规化,描述子可以扩展到放射不变区域,虽然这将会影响到计算时间。另一方面,检测子的扩展并不那么直观。我们假定一个简单的线性模型,带有偏置(偏移)和反向变化(尺度因子)。检测子和描述子都没有使用颜色信息。本文的结构如下。第二部分我们回顾了之前关于兴趣点检测和描述的著作。第三部分描述了用于快速鲁棒兴趣点检测的策略。对输入图像在不同尺度上进行了分析,以确保尺度不变形。检测到的兴趣点在第四部分用旋转和尺度不变描述子进行了表述。此外,还提出了一种基于兴趣点和邻域对比的简单高效的首行索引技巧。第五部分讨论了可用参数及其影响,包括垂直版本(非旋转不变)的优点。我们同样研究了SURF在两种重要应用场景中的表现。首先,我们考虑了一种特殊的图像配准场景,称为3D重建中的摄像头校准。然后,我们试验了SURF在目标识别中的应用。相对于其他方法,这两个应用都突出了SURF的速度和鲁棒性。第六部分是一个总结。2.相关工作2.1兴趣点检测最常用的检测子是1988年提出的基于二阶矩矩阵的Harris角点检测子。然而,Harris角点不是尺度不变的。Lindeberg介绍了自动尺度选择的概念,可以根据兴趣点的特征尺寸检测兴趣点。他用Hessian矩阵和Laplacian矩阵的秩(以及Hessian的迹)检测类似斑块的结构。MikolajczykandSchmid提炼了这种方法,创造了鲁棒性好,尺度不变,高重复性的特征检测子,称为Harris-Laplace和Hessian-Laplace。他们使用(适应尺度的)Harris方法或者Hessian矩阵行列式来选择位置,使用Laplacian选择尺度。为了提高速度,Lowe提出了用DifferenceofGaussians(DoG)来近似DifferenceofGaussians(DoG)的方法。此外还有其他尺度不变检测子,例如KadirandBrady提出的显著区域检测子,这种检测子将一个区域内的熵最大化,另外还有JurieandSchmid的基于边缘的检测子。这些算法不易优化,尽管几个放射不变特征检测子已经被提出用来应对宽视角变化,然而这些超出了本文的范围。通过公开资料对现有检测子的对比,我们能得出结论,基于Hessian矩阵的检测子比基于Harris的更稳定和可重复。另外,Hessian矩阵行列式也比迹有优势,因为它对于拖尾的,局部错误的结构误警更少。我们同样观察到,它的DoG近似能在损失精确度的情况下提高速度。2.2兴趣点描述特征描述子有很多种,例如高斯导数、不变矩、符合特征、可控滤波、基于相位的局部特征等。描述子代表兴趣点附近的小范围特征分布。Lowe发明的基于相位局部特征已经被证明优于其他的。这是因为其获取了大量空间强度信息,同时对小范围变形和局部错误有稳健性。文献24中的SIFT描述子计算兴趣点附近的方向梯度柱状图,存储为128D向量(八个方向数据,每个方向含4x4个分量)。这种基本方法的优化版本有很多。KeandSukthankar把PCA加入到兴趣点附近的梯度图。PCA-SIFT输出36D描述子,匹配更快,但是MikolajczykandSchmid在一片对比论文中指出,其鉴别度低于SIFT,并且PCA计算低于SIFT。在其论文中,作者提出了一种SIFT的变种,叫做GLOH,它的鉴别度比SIFT高,但是计算量更高,因为这种算法也使用PCA提取数据。实际应用中,SIFT描述子描述子仍然是最吸引人,也是最常用的描述子。它的鉴别度和速度对于即时应用很关键。最近,文献37等在FPGA上实现了SIFT算法,速度提高了一个数量级。同时,Grabner等人用积分图近似SIFT。他们的检测方法基于difference-of-mean,不需要插值,描述子基于积分柱状图。他们达到了和我们相同的速度(虽然特征描述的速度是固定的),但是是以降低SIFT的质量为代价的。概况的说,描述子的高维度是SIFT在匹配阶段的缺点。对于普通PC上的即时应用来说,检测、描述、匹配,这三个阶段都要快。提高匹配速度的方法有很多,全都是减少近似匹配的计算量。这些方法包括:Lowe的最优值优先、balltrees、词汇树、位置敏感哈希、冗余比特向量等。此外,我们建议使用Hessian矩阵来大大提高匹配速度。同时减少描述子的维度,任何匹配算法都能提高速度。3.兴趣点检测我们的兴趣点检测方法使用了非常基本的Hessian矩阵近似,使用由Viola和Jones推广的积分图,这将大大减少计算量。Simard等指出,积分图适用于大量箱式小波的一般框架。3.1积分图为了让这篇文章更完备,我们简要讨论一下积分图的概念。它使得箱型卷积滤波速度更快。积分图IΣ(X)在位置X=(x,y)处代表I在X之前的矩形区域像素值的和。一旦积分图计算好了,计算任何垂直矩形区域的密度只需要三个加法,如图1。因此,计算时间将不依赖于大小。这在我们的方法中是很重要的,因为我们使用大尺寸滤波器。3.2基于Hessian矩阵的兴趣点检测我们使用Hessian矩阵是因其良好的精确度。确切的说,我们检测行列式最大的类似斑块的结构。相对于Mikolajczyk和Schmid的Hessian-Laplace检测子,我们同样使用Hessian矩阵来选择尺度,这一点Lindeberg已经做过。对于一个图像中的点X=(x,y),尺度为σ的Hessian矩阵H(X,σ)定义为:其中Lxx(X,σ)为点X处的高斯二阶倒数的卷积。Lxy(X,σ)和Lyy(X,σ)与之类似。高斯对于尺度分析是最优的,但在实际应用中需要离散化和裁剪(图2)。这使其在π/4的奇数倍旋转时的可重复性有损失。这是基于Hessian检测子的通病。图3显示了两种基于Hessian的检测子对于单纯图像旋转的可重复性。可重复性在π/2的整数倍时达到最大,这是因为滤波器是方形的。然而,检测子的表现还是不错的,性能的微小减少并不比离散和裁剪带来的快速卷积的优点重要。实际的滤波器不可能是理想的,考虑到Lowe在LoG近似方法上的成功,我们进一步近似了Hessian矩阵。这种高斯二阶倒数近似可以利用积分图,大大减少计算复杂度。计算时间也不依赖于滤波器大小。第五部分和图3显示,其性能与离散裁剪的高斯法相当或更好。图2中的9x9方形滤波器是σ=1.2的高斯滤波器的近似,这也是计算斑块响应图的最小的尺度(最大的空间分辨率)。我们将其标注为Dxx,Dyy和Dxy。为了计算简单,我们将方形区域的权重设为固定值。因此:滤波器响应的相关权重w是为了平衡Hessian行列式的表达式。这是为了保持高斯核和近似高斯核的能量守恒。其中|X|F是F范数。为了理论上的正确性,权重需要根据尺度变化。实际中,我们设为常数,因为它对实验结果并没有重要影响。此外,滤波器响应根据尺度进行了归一化,这保证了对于不同尺寸有等量的F范数,这是上一节中讨论的,对于尺度分析很重要的一方面。近似的Hessian行列式代表了图像在X点处的斑块响应。这些响应保存在不同尺度的斑块响应图中,3.4节中将会检测局部最大值。3.3尺度空间表示兴趣点需要在不同的尺度进行检测,不只是因为一致性搜索的比较需要在不同尺度的图片中进行。尺度空间通常以图像金字塔的形式呈现。图像多次被高斯平滑,然后下采样,以得到金字塔高层的图像。Lowe将金字塔不同层次的图像相减以得到DoG(DifferenceofGaussi-ans)图像。因为用了积分图,我们不需要将同样的滤波器迭代应用在上次输出的图层上,而是使用任意尺度的方形滤波器,这样不同层可以有同样的速度,甚至可以并行执行(虽然还未在本文使用)。因此,尺度空间是使用放大的滤波器尺度,而不是迭代减小图像大小。图4是上节介绍的9x9滤波器输出,这是初始尺度层,我们记为尺度s=1.2(近似于σ=1.2的高斯导数)。接下来的图层通过使用逐渐增大的滤波器得到,也利用积分图的离散特性和我们滤波器的特殊结构。我们这样采样的动机是为了减小计算量。此外,因为我们不需要下采样,因此也不需要对齐。在下层,方形滤波器保存放大后会消失的高频部分,这会限制尺度不变性。然而这在我们的实验中并不明显。尺度空间被划分为组,一组代表一系列滤波器响应图,通过对同样的图像使用不断增大的滤波器卷积得到。总体上,一组包含尺度因子为2(这意味着滤波器大小需要至少增加一倍)。一个组又被分为固定数量的子尺度层。因为积分图的离散型,两个子层间的最小尺度差依赖于l0,二阶偏导在倒数方向(x或y)的突出块的长度,这个值被设置为滤波器大小的三分之一。对于9x9滤波器,这个值是3。对于两个连续层,尺度至少增加2像素(一边一个),以保持大小为偶数,确保中心点的存在。这使得总的覆盖面积增加了6像素(如图5)。另外,由于l0对于面积的差异性(例如,垂直滤波器中间段的宽度),滤波器大小的调整带来了舍入误差。然后,由于这些误差通常小于l0,这是可以接受的近似。尺度空间的构建从9x9滤波器开始,计算图像的斑块响应,作为最小尺度层。然后,滤波器增至15x15,21x21,和27x27,尺度变化了两倍多。但这是必须的,因为3D非最大化抑制不仅要在本空间内,还要在临尺度内进行。因此,第一和最后一层Hessian响应图本身并不能包含最大值,他们只是用来同其他层做比较的。所以,如3.4节所述,插之后可能的最小尺度是σ=1.6=1.2*(12/9),对应的滤波器大小是12x12,最大到σ=3.2=1.2*(24/9)。其他组也类似。对每个新组,滤