利用参照物基于SIFT的摄像机定位在多机环境和机器人的技术应用SIFT,即尺度不变特征转换(Scale-invariantfeaturetransform,SIFT),是用于图像处理领域的一种描述子。这种描述具有尺度不变性,可在图像中检测出关键点,是一种局部特征描述子。关键字:相机姿态估计,相对位姿;摄像机标定,规模歧义,参考对象;地方特色,尺度不变特征转换,多摄像机环境,智能客房,机器人定位摘要:本文的贡献是,提出了一个统一的方法来提高定位和在一个新的环境中使用已经安装摄像头的机器人的感觉。用我们的方法可以在多摄像头的环境下任意定位摄像机。采用自动延长网络摄像头在线的,无人值守时,实时的方式。通过这种方式,所有的摄像机可用于提高场景的感知,并附加摄像机可以实时被添加,例如,删除盲点。为此,我们使用尺度不变特征变换(SIFT)和至少一个任意已知大小的参考对象,让相机定位。然后我们应用相对姿态估计的非线性优化并使用它来反复地校准摄像机网络以及本地化任意一个摄像机。例如多相机环境的手机或机器人。对此我们进行了综合评估,以及实际数据验证了该方法的适用性。一.引言近年来智能家居已经吸引了越来越多人的兴趣,例如,在办公环境下提高生产率,并协助人员危机应变中心。为达到此目的,必须确定房间中的人的身份(以及关注的视听焦点必须被估计)例如,呈现目前正在查看人的个性化信息。然而,这些应用依赖于信息的融合,该信息通过一组传感器提供,最重要的是麦克风和摄像机阵列。为了在这种环境下融合来自不同传感器的信息,有必要建立一个共同的坐标系并确定他们的外部参数。在下文中,我们专注于相机的传感器和在这一领域的离线标定方法应用最普遍(见参考文献)。不幸的是,这些方法通常需要耗时的手动程序。如果添加一个新的摄像头或移动一个摄像头,需要进行反复执行。本文在这方面的贡献是,通过分析如何使用已经校准相机的环境的观点本地化一个新的相机,从而使随后的传感器融合。例如,这里可以容易地扩展相机网络,允许可移动智能机器人的传感器信息的无缝集成,以及允许可移动智能机器人使用传感器的信息安装环境,以提高他们的认知能力。根据所提出的方法,我们能够确定只给出了一个已知的相机在全局坐标系与任意的基准对象中的新相机的绝对姿态。虽然我们专注于一个单一的已知相机可能会限制可实现的成果,方案中有大量相机具有广泛的重叠意见,我们选择这个作为重点。因为它能够使我们整合相机并只查看现场的部分,记录只有另外一个摄像头。这是特别重要的,如果摄像机的观点非常不同,或只有很少的相机使用。根据我们的经验,在大多数应用领域更现实。然而,我们的方法可以自然被扩展到具有多个视图的情况。为此,我们对所有合理的计算机配对计算的位置,随后聚合成对的定位结果。相反,大多数以前的工作,我们不依赖于特殊的校准模式或设备而是使用任意的引用对象代替。为此,只需要非常少量的用户交互来构建已知物体的适当的数据库。关于参考对象所需的信息可能会从互联网上自动收集,或在认知机器人领域,直接通过积极探索潜在对象获得。一旦该信息可用时,摄像机可以在任何时间完全自动定位。二.相关工作摄像机校准的研究领域,其中相机姿态估计是一个重要的方面,是一个众所周知的和研究课题,并相应地有许多不同的方法已经被提出(见参考文献)。为了计算出相对姿势,根本矩阵已经计算过。归一和标准的8点算法,变体的7点算法,以及6点和5点算法进行比较。归一化8点算法比非归一化版本可充分执行和当在没有先验知识摄像机运动时推荐使用,即可以横向或向前移动。在大多数情况下5点算法可取得较好的结果,确认在(见参考文献),但前向运动有问题,结果很更糟。鉴于8点算法有着综合的优秀表现,我们的方法中使用8点算法。为了找到对应点,我们依靠罗威提出的SIFT特征匹配方法(见参考文献)。在相对位姿估计和现场重建的背景下,有被使用过(见参考文献)。在以前的工作中,(见参考文献)描述一种系统校准内在和外部会议室的网络摄像头的外部参数。他们使用了有点和其他标志物的盒子来校准相机。这导致了良好的准确度,对于大多数摄像机的摄像机位置小于1厘米。然而,为了执行校准大量的用户交互是必需的,相机对的手动选择,每个摄像机对必须专门放置校准框。(见参考文献)提出了一种技术,在多摄像机环境下校准,用较少的用户交互。他们使用一个亮点作为校准功能,用激光指针连接到它的小扩散的塑料片产生,而不是使用专用的标定物体或标记。他们的算法可以用来完全校准照相机网络,唯一的用户交互是通过工作容积挥舞着激光笔。阿斯兰等推行类似的方法来自动校准多台摄像机的外部参数(见参考文献)。他们发现人在房间里面走,在每个人头顶上用一个点作为校准功能,而不是一个亮点。相对位姿是对每对摄像头的估计,因此,使用全局误差最小化技术建立完整的相机网络。精度已经在不同的室内场景被评估,到达的投影误差小于的6px和现场标记的三角测量误差约5cm。相机中心的位置并没有与他们的地面实况进行比较。最近,布鲁克纳和Denzler建议使用多摄像机系统的积极校准技术。(见参考文献)他们使用旋转和变焦云台变焦的功能(PTZ)相机优化每个之间的相对姿势摄像头对。该比例因子的摄像头三角形估计两三个相对姿势。相反,我们的做法没有必需的参考对象,但是仅限于使用云台全方位(PTZ)摄像机类型。我们的系统不会对摄像机的类型进行任何限制,例如允许固定PTZ摄像机的组合,安装在机器人平台,甚至智能手机摄像头。此外,需要两个以上的相机,而我们的方法允许以估计只有两个相机的绝对姿态。类似的如那些用于校准多相机的环境中的技术,可以应用到其他应用程序,如机器人室内定位。在(见参考文献)中,提出了基于一组已知的意见机器人定位和跟踪的系统。首先,一组视图的场景,室内环境,机器人的具体位置和不同方向的记录。该位置被选用的网格,大约相隔90厘米。项目海报的环境被包围,以方便寻找对应的图像。弗兰克-波顿等人得出结论,对极几何结合归一化的8点算法过于敏感,以确保一个强大的和准确的姿态估计。相反,他们使用所谓质量阈值的聚类的技术,就造成了46厘米的平均位置误差和9的平均定位误差。我们的研究结果(见第4节)验证了这个假设,一个更精确的定位可以实现了与我们的方法,使用该项目的海报作为参考对象。三.姿态估计我们的系统对于一个已知的相机计算出其全球姿势主要包括三个步骤:第一步,可以计算摄像机的相对姿态。这需要两个深思熟虑的图像之间的对应点的检测。为此,SIFT特征需要计算并匹配。这一步可以采用离群值。图像点的对应关系是对相同场景点的不同预测。如果他们不能稳健淘汰,将发生在所估计的姿态误差。第二步,我们优化了估计的相对姿态,以尽量减少噪音和影响力取得更好的成绩。最后,在第三步计算全球比例的相对姿态,这个步骤是基于对于至少一个参考对象在已知大小不知场景检测。3.1相对位姿第二相机的相对姿势是用极几何方法计算的。对于这一点,基本矩阵F是用归一化8点算法与RANSAC结合计算,以消除点对应的异常值。利用基本矩阵的场景可以重建到一个投影歧义。我们假设用固有的校准矩阵K1和K2校准相机。因此,如图2所示重建可以产生规模歧义。作为未知规模的结果,平移矢量归一化为||t||=1图二:可视化规模歧义,第二摄像头沿着摄像机之间的基线可以“滑动”(即不同比例的相对位置)而不会影响对应点。(极几何:epipolargeometry,又称核面几何。极几何是机器视觉中摄像机标定中的技术名词,在世界坐标系,观察坐标系,像素坐标系等坐标系转换中是很重要的一个概念。)(RANSAC为RANdomSAmpleConsensus的缩写,它是根据一组包含异常数据的样本数据集,计算出数据的数学模型参数,得到有效样本数据的算法。它于1981年由Fischler和Bolles最先提出。RANSAC基本思想描述如下:①考虑一个最小抽样集的势为n的模型(n为初始化模型参数所需的最小样本数)和一个样本集P,集合P的样本数#(P)n,从P中随机抽取包含n个样本的P的子集S初始化模型M;②余集SC=P\S中与模型M的误差小于某一设定阈值t的样本集以及S构成S*。S*认为是内点集,它们构成S的一致集(ConsensusSet);③若#(S*)≥N,认为得到正确的模型参数,并利用集S*(内点inliers)采用最小二乘等方法重新计算新的模型M*;重新随机抽取新的S,重复以上过程。④在完成一定的抽样次数后,若未找到一致集则算法失败,否则选取抽样后得到的最大一致集判断内外点,算法结束。)本质矩阵E,基本矩阵的一种特殊形式是归一化图像坐标。定义为基本矩阵的定义是矩阵有两个奇异值是相等的,而第三个是0.由于噪声的存在通过摄像头校准过程中的小错误和基本矩阵的估计被引入,这个属性必须强制执行。因此,让作为E的奇异值分解,本质矩阵,最大限度的减少了Frobenius(弗罗贝尼乌斯)范数||E-||,被计算为。(奇异值:设A为复数域内m*n阶矩阵,A*表示A的共轭转置矩阵,A*·A的n个非负特征值的算术平方根(即A*·A的开根号值)叫作矩阵A的奇异值。记为σi(A)。如果把A*·A的特征值记为λi(A*·A),则σi(A)=sqrt(λi(A*·A))。同时,需要注意的是,任意矩阵都有奇异值。对于一般的方阵来说,其奇异值与特征值是没有关系的。)第二相机的基本矩阵可以被分解为四个的姿势(t;R),用t表示平移,R表示旋转。3D点只有一个重建解决办法,在两个摄像机图像平面的前方。这个约束被称为手性约束。在理想情况下,足以重建一个对应点,并测试是否满足手性约束。但是由于离群不能排除投票机制必须放到位,以确定正确的解决方案。每个重建点投票的解决方案,都满足它的手性约束。根据最高票数的解决方案,作为正确的解决方案。3.2姿优化图3估计的红色相机的相对姿态(a)只是用极几何,(b)使用附加非线性优化。使用优化,大多数的蓝色重构点平行于X轴,这符合地面真相。图3显示一种场景重建,使用相对位姿描述。该相机是面向平整墙面的。然而重建点坐落在弯曲的表面,这表明是小误差得到的位姿。为提高相对位姿,使用非线性,信赖域反光优化步骤。(1966)已经出台最大限度的减少重投影误差。与Levenberg-Marquardt的优化相比,信赖域反光优化可以处理边界约束条件的优化空间。一个姿态通常有六个自由度,三个用来翻译,三个用来旋转。作为规模歧义的结果,减少到五个自由度的相对姿态。因为归一化||t||=1,对于t的所有可能的解决方案都围绕着所述第一单元球摄像头。因此t的球面坐标可以表示为(θ,φ)。一起旋转角rx,ry,rz,优化空间是(θ,φ,rx,ry,rz)。由于优化步骤只能找到局部最小值的重投影误差,为了找到全局最小一个好的初始猜测是很重要的。因此,优化任务的起点作为计算之前的相对位姿。根据不同的应用,进一步限制可能存在以减少优化空间的维数。例如,在一个房间里配备云台全方位监控摄像机,rz轴可以设置为0。3.3解决规模歧义如果只给出两种观点的场景,对于规模性问题的解决方案,需要了解在现场本身或位于其中的对象的更多的信息。我们的方法是使用引用已检测到的对象的知识,在两种观点中使用尺度不变特征转换(SIFT),最好的结果可以得到平面物体,如海报或图片。然而,非平面的物体也可能作为参照对象,但需要某些限制或更复杂的处理的地方特性,以达到类似的效果。参照对象由匹配检测用两个视图的每个参考物体的图像和计算的射影变换对象。与尺度不变特征转换进行匹配。这是一个优点,因为该SIFT特征计算对于相对姿态的估计可重复使用。摄影变换是单应性矩阵在参考对象和与其匹配的字符串。单应是映射在一个平面上的点投影变换为另一面,这也是为什么平面的参考对象可以产生最佳结果。矩阵H是一个3*3的单硬性矩阵。一个算法来计算单应性的是直接线性变换算法,它可以与RANSAC进行组合,以确保对离群值的强壮性。令H=[H1H2;H3]成为参考对象的图像之间的单应性矩阵和相机的内在校正矩阵K,摄像机图像的外在参数[R|t]相对于参考物体可被计算为和旋转矩阵R=