毕业设计外文翻译《Visualestimationofpointedtargets》

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

计算机视觉和图像理解1.导言在社会机器人的新兴领域,人类–机器人相互作用通过手势是一个重要的研究课题。人类进行交际的手势中,指向手势的互动与机器人特别有趣。他们开放的直观指示对象和位置的可能性,是特别有用的机器人的命令。指向手势也可结合语音识别指定的口头陈述和位置参数,还提供了一个明确的输入语音识别时发生歧义。这种类型的一个例子的情况是指向手势引导机器人到一个特定的对象或使用地点。机器人必须能够检测的指向手势和估计目标位置,从而指出,主要的问题出现,有关最近在这一领域的研究视野[1–4,8]。一些最重要的挑战是相关的实时计算,得到的精度和运行在困难的杂乱环境可能遮挡,光照和不同的背景。另一个共同的要求是,指向手势必须认识到,无论规模大小,大指向手势是指进行全臂延伸而小的指向手势只减少前臂和手的运动[3,4]。基于这一事实,对于大多数应用程序,它是指目标而不是实际的指向,这是非常重要的,我们制定了一个新的方法,与现有的指向手势识别的方法,也考虑到可能指出目标位置的先验信息。假设的指示语的手势,最常见的类型例如,一个涉及食指指向对象的利益和用户的目光指向同一目标[5,6]我们制定我们的方法使用单眼设置高精度跟踪下飞机头部旋转,同时识别手指的手势。这两种输入流被组合在一起推导出指向目标使用的配方是基于Dempster-Shafer理论的证据[7]。一种区别我们的方法来自使用相机基本的方法,多数使用立体声或多摄像机设置。然而,本文的主要内容在于基于Dempster-Shafer理论输入端的组合,让该方法在一种或两种输入数据流丢失的情况下能妥善处理(例如手指向的来自遮挡了的可见光);也就是,使用的输入的信号缺乏,实现了令人印象深刻的结果,这是当代概率融合方法不可能得到的来源[1,8]。此外,本文所提出的制定的信念被分配到设置尖锐的目标而不是个人提出的目标。Dempster的组合规则有助于这些信念相结合,而不需要将他们的个人目标的分别观测指出,假如没有明确的建议。在下面的章节中对相关工作(第2节)和提出的方法(第3节)进行了论述。手指的手势识别的简要讨论在第4节而人脸姿势识别在第5节进行了阐述。人脸姿态和手指的融合,是本文的重点,在第6节进行了分析。在模拟环境下的实验结果及其使用的地面真实数据的结果在第7节。本文的结论与讨论在第8节。2相关的工作手势识别的研究近年来受到越来越多的关注,也超越了人类–机器人互动的区域,例如在情感计算和身临其境的游戏技术。第一次尝试解决手势解读导致的机械装置,直接测量手或手臂的关节角度和空间位置,所谓的手套设备[9]。随着计算机视觉技术及快速处理器可用性的最新研究进展,在基于视觉的非接触式接口增加了可穿戴设备,克服阻碍缓解作用的弊端。最近基于视觉的手势识别技术作了较全面的介绍[11]而且大部分的努力都集中在手势识别[12,6]以及手语翻译[13,14]。基于视觉手势的研究指出,有使用立体声或多摄像机系统的几种方法,这只手/手臂、双手、手臂和头。他们中的大多数估计指向在水平方向上,而其他的一些在水平和垂直方向。在那些用手或手臂,奇波拉等人。[15]利用立体视觉与主动轮廓跟踪的位置和指向对机器人的两维空间。Hosoya等人[16]衍生的肩膀和手臂的深度和立体彩色图像的三维位置来估计三维指向。最近,Huetal[17]用合适的AdaBoost级联反应检测器[18]的手势检测和指向从立体图像估计的主动外观模型,然而检测时间高成本。其他作者的关于人脸的三维位置和指向手使用的信息,以获得视线和估计的指向。Jojic等人。[19]识别指向手势的基础上密集的视差图和辨别从身体的手臂的统计模型和估计的指向从头部和手部的极值点。在Stiefelhangen和Nickel的工作中[1,2,20]使用神经网络的头部姿态估计和基于HMM模型的方法来识别指向手势。然而,他们的方法因延迟识别搜索三种特征序列检测的指向手势。Kelh和VanGool[21],以及Watanabe等人。[22]利用多摄像机系统检测脸和手。首先提取人体轮廓,头和手的极值点,解决了三维的对应关系和推导出的指向。图像分割的质量有很强的影响该方法的准确度,这在[21]是不定量评估。后者估计人脸方向八可用相机离散面方向特征类一起使用它的3D手的位置指向估计。最近,Park和Lee[4],基于立体相机,使用同样的[2]一个基于HMM的方法在两个阶段识别指向手势,但在指向手势的不同定义的。本文考虑的姿态,但规模第一,该方法的精度主要取决于第一阶段的HMM的状态数,因此需要更多的训练数据和处理时间。这些方法中的一些遭受延迟识别,例如[2,17],有限的精度评估,例如21,17]和大多数的(除非在这里[4])不支持手势规模。不像我们使用一个单一的摄像头,可以放置在一个移动机器人平台上面的方法。单相机系统进行Kolesnik和Kulessa[23]控制使用俯视相机虚拟物体的运动通过Cernekova等人。【24】基于视频的交互作用。在[23]架空的相机的就业产生的实验装置,明显偏离一个使用在当前的工作,因此,没有进一步的关注[23]。后来的工作主要集中在识别画面上的是指用户的网格单元,通过梯度向量流(GVF)检测指手蛇的。用户初始化屏幕区域的边界,映射到二维图像,通过指向左上和右下角的屏幕。随后,通过线性变换计算指向子区域。虽然报告说这初步的结果是良好的方法,针对具体应用的视野非常狭窄,限制在其他环境中的普遍性的方法。Richarzetal。[25]提出了一种神经网络的体系结构,能够估计一个参照目标点上的地板从指出构成,从而使得用户能够通过指向命令移动机器人。结果表明,神经网络估计是相当敏感的偏离的姿势是训练。在两个测试对象的情况下,可接受的结果已经报告只有当手动的头检测中得到应用,而在Viola–Jones方法中[18]取代人工检测导致的整体性能[25]的一个明显的降解。表1总结了上述审查的方法。正如已经提到的,大多数这些方法使用两个或多个摄像机,可以推导出在指向精度好的结果。只有多机系统,如[21],可以支持360°指向手势检测。规模大的指向手势手势,指全臂进行扩展和小的指向手势减少前臂和手的运动,只在Park和Lee[4]中支持,但只有在[-90°;90°]的范围内。本文提出的方法使用单眼相机安装和支持规模的手势,以及钝角的指向手势超出范围°调整到在水平方向的[-90°;90°]范围内。同时,指出了提高精度和实施的方法以及在实时中的操作,照顾了遮挡,光照和动态背景。表格1审查的系统指的方向估计的总结。NC代表的相机数。PA是指向精度,给出了每一个具体的应用和并且N/A表示不支持。RT是实时处理,表中的○是指实时处理,△意味着近实时处理并且N/A表示不支持。SG站规模的姿态,其中X表示不支持大的和小的指向手势,○是指大的和小的指向手势的支持。OG是钝角的姿态,其中X是钝角的手势是不支持的,而○意味着它是支持。方法NCPARTSGOGCipolla等人[15]22cma△XXHosoya等人[16]20.5-1m△XXHu等人[17]2N/A△XXJojic等人[19]215cm○XXNickel和Stiefelhangen[2]225°△XXKelh和vanGool[21]4-8N/A○X○Watanabe等人[22]82.14°bN/AXXPark和Lee[4]27.2°/18.7°c△○XKolesnik和Kulessa[23]1N/A○XXCernekova等人[24]110cmd○XXRicharz等人[25]110°e○X○a在一个40cm的地方b在[-22.5°,22.5°]的视角范围内c大/小手势d在一个2mX1.5m的屏幕上,计算[-25°,25°]的视角e45%的案例这项工作的主要新颖之处是以人脸定位的有效融合与公认的手指手势相结合,要精确地估计所指的目标。Dempster-Shafer理论上[7]是利用制定融合作为一个可能的指向信念的空间估计问题。即使在情况下,系统无法识别手指手势或面取向(或没有),这(缺乏)的信息提供了一个证据,在大多数情况下是足够的重要的明显限制可能的个数。这一特征使得Dempster-Shafer组合最适合手头的任务的理论,从人脸跟踪和/或手势识别这样的错误并不少见,在现实世界中的相互作用。3.目标情况下,提出的方法该目标的情况下,我们的地址是一个机器人在公共空间的操作,如展览或博物馆,与人类和提供感兴趣的信息有关特定点的相互作用(“景点”,例如展品)。具体的景点,用户可以在目标设定,换句话说,“指出目”。在前面的章节中已经提到的,正是针对的目标是估计在我们的工作中,而不能任意指向可能造成的不受限制的指示语的手势在用户的环境。该机器人配备有2D地图的环境,此外,知道在这地图的上的所有景点的位置。定位模块提供了机器人在地图上的位姿(2D位置和方向),因此,机器人可以与自己的坐标计算出所有景点的相对位置。人与机器人交互的用户站在机器人的前面,他/她相对于机器人的位置在地图上是机器人使用激光测距仪来测定的。所有的人类–机器人之间的互动是通过机器人的对话和行动还有处理(DAM)负责提示用户输入,对用户的响应(语音和手势)和生产机器人的响应。对话的大部分机器人开始所以DAM知道期望用户的手势和手势是希望每一次。尤其是指向手势,机器人只希望这种手势的相关问题后(例如机器人问用户,这表现出(即POI)他/她想参观下)。因此,这是合理的假设,我们知道什么时候期待一个指向手势和我们的算法只需要找到(a)时,正是这个指向手势发生和(b)的POI,用户代表的是什么。一个重要的假设是,所有的手势指向景点。因此,手头的任务有关的POI,用户点的精确估计。另一个假设,我们可以很容易地使是当用户点一个点,这一点必须是“可见”的用户和机器人。这里,术语“可见”意味着视线之间的用户(或机器人)和POI不是由一些障碍物遮挡。换句话说,机器人期望用户不会点到一个点,一堵墙的后面。然而,用户还可以指出一点,后面是机器人或后面的用户,只要有点和用户或机器人之间没有障碍。图1。所提出的估计方法,指出目标框图手和脸的识别分类手势识别LSM鼠标手势基于D-S证据理论的融合运动检测手指检测头定位指出目标鼠标手势图1描绘的是所提出方法的概述。第一步是跟踪用户的面部斑点和手。这些都是使用皮肤颜色的斑点追踪[29]图像平面跟踪。增量贝叶斯分类器[30]是用来检测轨道分类皮肤色的斑点,成左右手,手和脸。然后两个独立模块用于手和脸。手斑点是美联储的手势识别模块,用于识别手指手势[31]时,面部斑点被馈送到一个最小二乘匹配(LSM)模块[37]这是用来推导出差动旋转通过补丁的图像帧之间的变形。该手势识别模块的输出可以带三个值:“左边点”“右边点”和“看不见”,如果没有指向手势可以确认。该人脸定位估计模块的输出是一个标量变量,如人脸定位计算,或'NaN'如果面对的方向不能计算。最后,我们的方法估计的指向手势(计算提出POI)通过整合信息的人脸定位与使用Dempster规则的组合的手势识别的信息。4.手指手势识别能够识别指向手势的人需要有与机器人交互的位置和姿态信息。因此,我们跟踪的人的脸和手的位置,这些都在指点手势识别的重要特征。我们方法的第一步是检测输入图像中的肤色区域。为了这个目的,我们使用一种类似于在[26,27]里描述的。最初,图像的前景区域是由一个背景减法算法利用提取[28]。然后,前景像素的特点是根据他们的概率来描绘人类的皮肤,然后组合成固体皮肤颜色的斑点,使用滞后阈值和连接的组件标签。位置和每个斑点的速度被建模为一个离散时间,线性动态系统,利用卡尔曼滤波方程和传播的像素的假设算法跟踪[29]。该算法根据信息对每个被跟踪的对象的像素的空间分布(即它的形状)传播框架使用对象的当前动态帧,所估计的卡尔曼滤波器。传播的像素密度的假设提供了度量,它是以副观察皮肤颜色的像素与现有的对象跟踪的一种方式,是意识到每个对象的形状和与它相关联的不确定性轨迹。它要注意跟踪结果依赖于背景

1 / 23
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功