基于SIFT特征的目标识别摘要我们已经开发出一个通过使用局部影像特征进行目标识别的系统。这些特征是尺度、平移和旋转不变的,并且具有一定的灰度变化不变性和仿射及三维射影变换不变性。这些特征与灵长类动物的目标识别有一些共同的特性。这些特征可以通过一个分阶段的滤波过程在尺度空间中得到那些稳定点。这些关键点通过将其图像梯度表示为多尺度下的多向性平面从而可以忍受畸变。这些关键点将作为最邻近索引的输入,用于候选匹配。候选匹配的最终确认是通过最小残差的最小二乘估计得到的。实验结果表明在混乱有部分遮挡图像中可以在两秒钟内得到稳定的目标识别结果。1简介在混乱的现实世界中进行目标识别需要目标没有被附近的杂乱信息和部分遮挡而影响。这些特征必须对不同的亮度、三维射影变换、以及普通的目标变化有一定抗干扰能力。换句话说,这些特征必须相对于其他特征更具有代表性。目标识别的困难就在于不能成功的找到这些典型图像特征。然而最近一段时问的通过密集局部特征的算法显示出高效的识别可以通过使用大量分布于重复位置的局部图像描述了来实现。本文展示了一个称为尺度不变特征变换(SIFT)的新方法。这个方法是通过将图像变换成一个由大量具有平移、尺度、旋转不变以及一定的亮度变化不变及仿射、三维射影变换不变性质的局部特征向量组成的集合之中来实现的。先前的基于局部特征的算法缺乏初读不变性并且对投影变形和亮度变化更为敏感。SIFT特征和灵长类动物视觉系统中的视网膜神经元的响应机制有一定的共有特性。本文也论述了模型验证以及改进的索引方法。尺度不变特征使用了分阶段滤波算法因此效率很高。第一阶段通过在尺度空间中需找那些高斯差函数(DOG)的最大值或最小值点来寻找特征点。每一个点都被用来生成一个描述了相对于其尺度空间进行了采样的局部图像区域特征向量。这些特征通过平滑图像梯度具有一定的局部变化(如仿射变换或三维射影变换)不变性。这个方法是基于哺乳动物视网膜上复杂细胞的行为模型而产生的。得到的特征称为SIFT特征。在现有的版本下面,每个图像产生约1000个SIFT特征,这个过程大约需要不到一秒的计算时问。从图像中得到的SIFT特征被用于最邻近查找,索引到候选匹配。那些满足一些潜在模型姿态的特征点集将首先通过霍夫变换哈希表被识别,然后通过最小二乘拟合得到模型参数的估计。当至少有三个SIFT特征满足该模型参数并且残差较小时,将表明该目标存在的可能性很大。因为在目标的影像上可能有很多个SIFT特征,从而就可能在有相当程度的遮挡的情况下依然可以得到很高的置信度。目前的目标模型是被表示为可以忍受仿射变换的SIFT特征的平面位置。特征位置的明显变化将有助于识别最大旋转60度的平面物体的或最大20度旋转的三维物体中心投影。2相关研究目标识别在机器视觉里被大量应用于观察、识别和操纵。然而目前的商业目标识别系统很大程度上依赖于基于相关的模板匹配。这些算法在目标姿态、光照被严格控制等一些特定的环境下,模板匹配时很有效的,但是在目标旋转、尺度、亮度以及三维姿态变化的情况下,效果很差,在处理部分可见物体以及大型模型的时候更是如此。一个可选的搜寻用于匹配的特征的方法是从图像中提取那些有对成像过程有一定不变性的特征,并且匹配过程中仅匹配这些特征。至今已经发现并推荐了很多候选特征类型,包括线段、边缘、区域。这些特征对于一些特定的目标类型效果很好,它们通常不能被高频检测或者不能有效的稳定地识别目标物。近期也有一些文章使用了更加密集的图像特征。有一种方法使用一种角点检测算子去检测那些在可重复图像位置。Zhangetal.在经过极线重排的图像上用harris角点算子来确定特征位置,将搜索空间由二维变为一维,相对于那些直接搜索的算法节省了很多时问。对于目标识别问题,Schmid和Mohr也用harris角点提取算子去确定兴趣点,然后再按DOG图像中的指向不变向量给每一个兴趣点对应一个得到一个局部图像描述了。这些描述子被用于通过寻找多个满足目标指向和位置条件的匹配描述了对实现鲁棒目标识别。本文的方法在大数据量的速度上以及处理稳定性上都有很大的优越性。在先前的有关目标识别的工作中使用的角点检测算子都有一个共同的弱点,就是它们在处理的时候只是在一个单一尺度进行处理。当图像问尺度变化较大的时候,这些算子得到不同的匹配点。同时,以为这些算子没有提供每张图像,这样就有必要生成一个图像描述子并在多个尺度上进行匹配。本文描述了一种快速稳定的在尺度空间中进行特征匹配的方法。这就意味着不同的图像尺度不会影响特征匹配结果。另外,对每一个特征都给出其尺度,这样就允许这个点对应的图像描述子可以在每张图像中被重采样为同一尺度。对每一个特征位置都一个标准指向,从而可以在一个局部二维坐标框架下进行匹配。这就允许了在Schimid和Mohr的方法中使用的比旋转不变描述子更具特色的图像描述子,这种描述子改进了在仿射变换和亮度变化下的不变性。其他的基于表象的识别方法包括特征空间匹配、颜色直方图、及感受直方图。这些方法在孤立对象或预先分割好的图像中表现很好,但是由于他们使用全局特征,很难讲他们扩展到杂乱图像或部分遮挡的图像中区。Ohba和Ikeuchi通过使用许多小的局部特征窗口成功的将特征空间匹配应用到杂乱图像中去,但是这就需要对每一个窗口和图像进行模板匹配,需要花费很长时问。3特征位置我们的目的是图像中确定哪些在尺度空间具有平移缩放旋转不变以及对噪声和少量扭曲不敏感性质的位置作为特征。Lindeberg展示了在针对尺度不变的一些一般假设下,高斯核及其导数是唯一可能的尺度空间分析平滑核。为了使该方法达到旋转不变并且高效,我们通过选择特征空间中DOG函数的最大值和最小值点作为特征点。这可以通过经过重采样得到的影像金字塔快速计算得到。另外它将这些点置于变化的区域和尺度中区,使得这些特征点能够作为图形的典型特征从而标识图像。Crowley,Parker和Lindeberg曾经在尺度空间中使用DOG用作其他用途。接下来我们将介绍一个更加有效更加稳定的检测该最大值和最小值的方法。因为二维高斯函数是可分离的,它和输入图像的卷积可以通过两个以为高斯函数在横向和纵向分别卷积而实现:g(𝑥)=1√2𝜋𝜎𝑐−𝑥22𝜎2⁄对于特征点位置,我们在使用平滑操作时使𝜎=√2,这样可以使用由7个样本点组成的一维核以很高的精度进行近似。输入图像首先用一个标准差为√2的高斯核进行卷积得到图像A,之后再进行一次标准差为√2增值滤波得到图像B,实际上此时的有效标准差为2oDOG函数是由图像A减去图像B得到的,两高斯核之比为2/√2=√2。我们通过重采样平滑后的图像B进行双线性内插法在各个方向1.5个像素的像素空间进行重采样得到下一层金字塔。然而,看起来按照√2的比例进行内插似乎看起来更白然,仅有的条件就是重采样后的图像有足够的频率可以寻找极值点。在1.5个像素的像素空间中,每一个重采样点由四个邻近点线性组合而成。这样就很容易计算并且能够最小化由于改变重采样系数造成的锯齿效应。最小化尺度空间DOG函数是通过在影像金字塔中比较每一个像素与其相邻点的大小完成的。首先,一个像素与其在同一层的八个邻居进行比较,如果它在该层是最大值或者最小值,就将在下一层中计算其邻近像素位置,如果该点依然是最值点那么继续在该层进行搜索。由于大多数的像素点经过儿次比较就会被忽略掉,这种检测算法的时问耗费很少,甚至比建立影像金字塔要低。如果影像金字塔的第一层以输入图像相同的速率进行采样,那么最高的频率信息将被忽略,这是由于为了进行极值点分离而进行了初始光滑。所以我们在建立金字塔之前将输入图像用双线性插值进行重采样,将其扩大到原来的两倍。这将使得我们可以从一个512x512的图像中得到大约1000个特征点,是不进行扩大的四倍。3.1SIFT特征稳定度为了使得每个特征点能够标识该图像,金字塔中每一层的平滑图像A被用来生成梯度和指向。在任意一个像素𝐴𝑖𝑗,其梯度大小𝑀𝑖𝑗,以及指向𝑅𝑖𝑗可以由像素问差分得到:像素差分计算很高效而且由于预先的平滑也提供了相当的准确度。在计算特征点位置的时候需要加上实际的半像素平移。我们通过在o.1倍的可能最大梯度值处进行阈值分割,加强了算法在亮度变化下的稳定度。由于亮度变化会可能会造成梯度值的急剧变化,但是对梯度指向的影像较小,这就减小了三维起伏表面的光照方向变化。每一个特征位置都有一个标准指向使得描述了保持旋转不变。为了尽可能在光照和对比度变化时尽可能保持该性质,该标准指向通过在局部图像梯度指向直方图中选取极值点而得到。该直方图是通过使用一个标准差为当前平滑核3倍的高斯加权窗口得到的。这个过程就是用这些权值被乘上一个经过阈值分割的梯度在相应位置的梯度指向风:。这个直方图有36项,包含了360度范围的旋转,并且需要在探测极值前进行平滑。经过上述步骤得到的特征点的稳定性可以通过将自然图像经过仿射变换、对比度和亮度变化、添加噪声等进行测试。第一幅图像中的每一个特征点都可以通过转换参数进行预测。这个框架已经被用于选择各种参数,如上述的重采样像素空间大小,高斯核大小等,以使得该方法可以即高效又稳定的处理数据。图1:图1(b)是1(a)经过旋转、尺度变换、拉仲、亮度及对比度变化再加上随机噪声后形成的尽管有这么多不同,1(a)中78%的特征点都找到了相应的匹配点,改图中仅显示了部分特征点。图1显示了一小部分在2个倍频程范围内具有较大尺度的特征点。每一个特征点被显示为一个方框,并且有一条线从其中心到方框的一边用来表示其指向。其另一半被旋转了15度,缩放到原来的0.9倍,在横向仲展1.1倍。像素灰度范围为0到1,减去亮度的0.1倍,对比度乘以原来的0.9倍,并且添加了小于5比特每像素的噪声信号。在这样的情况下有78%的特征点的位置、尺度、指向与预测一致。在各种变换下的稳定度可以从图表2中得到,表中的每一项都是从20个不同的测试图像的总共15000个特征点得到的。每一行展示一种特定的。第一个数给出了在尺度为1.5的空间中存在在置信区问半径为σ之内的匹配点的特征点所占比例,第二列则给出了那些满足这些匹配标准并且与预测指向相差20度以内的匹配所占比例。图2:对于应用于20幅图像样本的各种不同的变换,这个表给出了位置和尺度匹配所占比例(匹配%)和指向匹配(指向%)所占比例4局部特征描述子给定每一个特征点稳定位置、尺度和指向后我们就可以在各种变换下以不变的形式描述这个局部图像区域。另外,如果它能够抵抗局部儿何体的微小移动(如由仿射和三维相似变换英气的移动)的话就更加完美。一种方法就是模拟视网膜复杂细胞的反应,一个特征的位置可以变化,但是其指向和光谱信息必须保持。Edelma,Intrator和Poggio对不同的三维计算机图形图像模型进行视网膜复杂神经进行模拟,发现这些复杂的细胞相比于基于相关的匹配得到了更好的结果。例如,如果一个仿射变换在某一个方向拉伸图像,改变了梯度特征的相对位置但是对其方向和频谱却影响甚微。对局部集合扭曲的鲁棒性是通过用多个具有一定数量方向的图像(指向平面)组合而成实现的,每一个指向平面仅包含相对于该指向的梯度,并对中问指向使用线性内插进行赋值。每一个指向平面都被平滑以应对梯度位置的更大移动。通过使用在指向选择时预先计算好梯度和指向的影像金字塔这个过程可以被高效完成,在这里我们使用那些金字塔中特征点被检测到的层的影像中的像素点。那些在该特征点周围8像素以内的像素点将被插入到指向平面。他们的指向是相对于该特征点的,需要将其减去特征点的指向。在我们的实验中,我们使用8指向平面,每一个都由一个4x4的网格采样得到,且其采样间距为像素梯度检测间距的四倍。该平滑是通过分配在其采样网格内的8个相邻像素的梯度得到,其指向和两个二维坐标都通过线性内插得到。这种方法比显式平滑和重采样更快,但可以得到几乎一样的结果。为了在更大尺度上对图像进行采样,相同的过程将在金字塔的第二层极线,并增加一个频程。然而这次我们使用的是2x2的采样网格,而不是4x4。这意味着相同的区域在不同尺度进行操作,任何某