人机交互手势识别—分级实现手势结构视觉识别

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

一种分级实现手势结构视觉识别摘要自动识别手势,用便携式照相机发现视觉结构与手势之间的联系。便携式照相机以第一人称视觉那样能够对连续可视手势进行每日活动分析,相比于之前重心放于人工对第一人称录像机的手势分析的研究,现在我们计划一种基于视觉完全自动实现手势分析。基于手势分类器的输出结果,所训练的手势的视觉结构是基于一种迭代有识别能力的聚类过程。我们先评估分类器在控制室内掌握数据集,然后验证我们的方法的分析能力,用一名机械师的真实数据。我们掌握的平均F1得分为室内掌握数据集分类器达到超过0.80。分析现实世界的视频显示,它可以自动学习直观视觉符合专家设计手势结构分类法。1.介绍这项工作的目的是提供一个可伸缩的计算机应用框架的理解和分析的使用人类的手。特别的是,我们提出一个完全自动的方法去识别手势结构用便携式使用相机来识学习视觉的手势结构。在过去的一个世纪里,分析手和他们的交互与物理世界吸引了研究人员的关注,在神经肌肉康复等不同领域,机械臂的设计和运动控制分析。在机器人、手功能的研究提供了重要的信息关于机器人和仿生手的设计。但是,传统方法手势分析开发主要在实验室实验,通常包括侵入肢体接触传感器或校准相机。便携式相机克服其他直接传感方式的约束并允许连续记录自然的手交互。甚至,第一人称的视角是一个理想的观察视角把握分析由于一只手和一个对象被抓住自然位于视觉的中心。但是,便携式相机的最重要的好处是,它使手掌握在大规模的研究。现在可以毫不费力地记录小时的视频进行手势分析。在这项工作中,我们需要背离古典适于抓握的技术和开发自动计算机视觉技术,可以作为一种工具来推进研究适于抓握的分析。计算机视觉技术用于我们的工作的例子Flg.1所示。特别是,我们采用最先进的检测方法以自我为中心的手,为了应对新的挑战自我中心视力等无约束手部运动和快速变化的背景在极端的运动平台。基于健全的手检测、手势相关的特性提取手的形状和对象环境,并且进行编码,并训练分类器对于不同的类型的识别。最后,掌握使用分类器学习视觉相似性掌握自动构建一个基于外观的掌握层次结构,我们称之为视觉结构的掌握。在我们的实验中,真实环境的视频的分析表明,它可以自动学习直观视觉把握结构符合专家设计的手势分类法。这项工作的贡献如下:1)提出一个完全自动建立的方法可以实现健全的手势识别性能,依靠一个便携式相机。2)我们提出一个方法学习视觉结构的掌握使用可视化聚类方法,使得系统能够自动任务型学习手势分类法。2.相关工作一。手势分类法手势分类研究了近一个世纪以来,以更好地了解人手的使用[5][4][6][2][7][8]。早期作品由施莱辛格[5]将手势分为6大类基于手形和种属性。1956年,纳皮尔提出一项计划[6],将掌握划分为权力和十年掌握基于操作任务的需求。权力的分类和精确掌握被研究人员广泛采用在医学、生物力学和机械领域。在生产任务,学习掌握·卡特提供了一个全面的手势分类[2],指导机器人的手设计中发挥了重要作用。在1990年代初,康和Ikeuchi[7]提出了一种计算手势识别框架,依据人类的理解允许自动对机器人系统规划。最近的便携式相机技术的进步,研究集中在适于手势的分析,从耶鲁大学[9][10][11]使用几个小时的第一人称视角视频观察人类的行为。在以前的工作的传统适于手势的分析,这一过程需要数小时熟练的视觉检查的注释。然而,当它变得容易获得大量的视觉数据。很明显,人工方法不会扩大到更大的数据集。因此,这项工作的目的是提出一个可伸缩的自动建立框架,将有助于支持下一代研究领域的适于手势的分析使用了大量的视频数据。二。自动化的理解分析自动化的数据驱动的方法开发了适于抓握的分析主要是在控制实验室环境。手跟踪设备(如数据手套或惯性传感器被用来获取详细的测量联合角度和立场的手[12][13][14][15]。由于传感器是直接嵌入在手上,手的动作可以测量具有很高的准确性。然而,主要的限制是,他们必须穿,有时可以抑制手交互。应用手姿势估计系统[16][17][18]允许一个完全非接触形式的交互。然而,大多数手姿势估计系统也需要校准相机的控制环境和要求的手交互记录在实验室设置。为了了解自然统计轮流交替使用,关键是手交互可以在日常的生活中或在实验室外的正常活动。在这项工作中,我们有针对性的开发技术分析视频可穿戴的日常手交互记录第一人称视角相机。3.手势框架研究我们希望有一个可伸缩的手势分析框架可以区分学习分类器并自动从视频获取手势视觉结构。为此,我们采用最先进的检测技术来分割手地区从自我中心的视频,我们提取手势相关特性培训区分手势分类器和我们使用监督聚类方法来学习视觉结构的手势。一。手分割强劲识别手地区便携式相机是一个具有挑战性但必要的预处理需要自动化的手手势分析。相机移动,快速变化的背景,手没有约束和相机可以在极端平台移动。最近的工作检测一方面地区使用便携式相机已经表明,健全手的检测可以得到:如果手模型是快速适应成像条件的变化[19]。[19]后,我们训练一个多模型手探测器由一组像素分类器建立全面外观模型。给定一个测试图像,全面外观建模计算颜色直方图作为视觉探测,对于每一帧,为了推荐n-best一方面像素分类器。基于多模型的手探测器,我们为每个图像生成一个概率图如图2所示(b)。每个像素的值代表的可能性是一个像素的原始图像。一旦皮肤区域被检测到,手掌区域,其中包含大部分的手势信息,然后分段边界框。首先二值化概率阈值的映射选定候选人的手地区。地区在某一地区比例丢弃,最多两个地区留存下来.Fig.2(c)显示了两个候选人手区域涂上一个固定大小的边界框后消除手臂地区基于椭圆拟合。边界框的大小确定了一些,利用手中的头盔摄像头之间的距离在各种操作任务是一致的。二。特征表示专业定义的手势分类,不同的理解类型通常被手姿势,对象属性和类型的手势对象交互。因此,我们提取手势相关特性区域编码的形状不同的手掌姿势和视觉操纵对象的环境。1)形状:手面向形状的直方图表示的梯度[20]计算Feix理解类型的一个子集的分类被认为是在我们的数据集,因为并不是所有手势类型通常用于日常活动。我们选择17掌握类型图所示。5基于布洛克etal.[10]提供的手势统计结果。四个受试者被要求掌握一组对象放置在桌面后简短的演示如何执行每种类型的手势。每个主题手势再执行一组独特的对象。视频是由一个高清记录30fps安装摄像头,主管在受试者执行每个类型不同的手的姿势。录制视频随之缩小为960*540像素。检查我们的方法在更自然的环境中,我们使用一个真实的掌握数据集[23],这是由20个视频序列记录了一个机械师的日常工作。机械师掌握数据集是人类掌握的一部分数据集由耶鲁大学提供,并手动标记类型。机械师掌握数据集的视频质量较低的图像分辨率640*480像素。在我们的机械师掌握实验数据集,我们删除罕见掌握类型和关注剩余17的至少发生三次通过所有序列。17在机械师掌握掌握类型数据集所示Fig.9稍有不同,因为数据集自在不同的任务中手势会有所变化。手地区被分割的边界框的大小320*160UT手势数据集和256*128机械师手势数据集。然后四个特征描述符提取每个分段的手地区III-B部分中解释)。最后,三种类型的分类器训练通过使用获得的特征描述符:线性支持向量机(1),(2)支持向量机与径向基函数内核,和(3)范例SVM。平均F1分数计算的加权平均每个手势的F1得分类型是用于评估手势识别性能。值范围从0到1,1代表完美的表现.一。手势识别的性能我们应用方法UT手势数据集和机械师手势数据集,看看视觉特征可以区分不同类型控制和自然环境。首先我们现在掌握识别结果为单个用户UT手势数据集。我们训练和测试手势分类器为每个用户使用5倍交叉验证。平均F1得分17手势分类表,我所示为不同的特征描述符和不同的机器学习算法。从表1,我们可以看到全局特性优于局部直方图特征。而不同手势可以共享类似的局部梯度统计模式,我们观察到全球梯度信息对健全的分类很重要。HOG执行比HandHOG因为操纵的对象。大的性能差距SVM-linear和SVM-rbf,特别是当使用HOG-PCA时,表明,手握姿势差异过大,因此没有线性可分。更重要的是,实验结果表明,可以为单个用户构建高性能应用特定于任务的分类器。掌握识别性能机械师掌握使用5倍交叉验证数据集是表2所示。注意,视频数据记录的数据集包含近八小时机械师的日常工作,因此,提供了一个良好的平台,在现实条件下评估我们的应用方法是如何工作的。HOG-PCA和SVM-rbf达到最好的0.42,平均F1的平均F117类的分类是0.06水平的机会。虽然绝对性能仍然较低,相信结果表明潜在的自动化视觉分类在现实中手势类型的设置。一些例子,真正的积极和假阳性Flg.6所示。两列的虚线显示真正的积极理解类型的原型是最左边的列示。假阳性的右边的图7所示。从这些例子中,棕榈地区。HOG的特性是一个基于收集的图像描述符当地分布的强度梯度和被广泛用于目标检测。HOG的特性计算,首先将手掌区域划分为网格的小区域,然后计算每个单元的梯度方向直方图。细胞然后积累和归一化直方图更大区域内的块描述符不同光照不敏感。最后,结果块直方图连接形成一个猪特征描述符。我们使用一个细胞大小8*8像素,16*16像素的块大小,窗口大小为160*80像素9取向垃圾箱。HOG的特性的可视化例子的Flg.3左下角所示。在我们的实验中我们研究HOG的三个变体特征描述符。第一个是上述全球HOG的特性。第二个是HOG的降维,使用主成分分析降低维特征描述符从6156年到100年。第三是HOG皮肤特性加权的概率地图。handHOG有效抑制梯度由于对象被操纵或背景区域。Flg.3所示,HOG特性对应地陪区域被加权每一块直方图的平方手概率的中心块。2)对象上下文:我们根据当地为了捕捉关键点提取特征的视觉环境对象和手对象交互。特别是,我们提取以下两个地方梯度描述符。我们提取筛选功能[21]作为操纵对象的视觉环境的代表。例要点可视化在每个关键点的尺度和方向图4说明一个圆和一个红色的半径。周围的梯度直方图计算每个关键点作为关键点描述符。注意重点检测对象和周围的手接触到对象的一部分。我们使用big-of-words方法获得的图像描述符包含关键点的频率模式。共有100个关键点模式是使用k-means聚类生成所有关键点描述符。除了SIFL弓,我们也使用同样的方法获得100-维图像描述符计算频率使用k-means聚类生成的基于块的猪的特性对所有块猪描述符。两个100维feeature向量然后连接在一起,一个新的特性。三。掌握识别和抽象我们训练而多层次手势分类器中定义的手势类型的菲克斯分类[8]。我们使用这个分类,因为它是最完整的一个存在,曾被应用于手势分析[10][11]。我们进行概率校准[22]为每个分类器以生产类似的分数。在测试过程中,每一帧是掌握分类类型的得分最高的分类器。我们定义了一个相关性指数评估视觉相似性不同手势类型基于分类结果。手势类型i和手势类型j之间的相关性指数Cj被定义为:基于指数的相关性,我们实现一个监督手势聚类算法通过迭代聚类两个最相似的理解类型。算法1中描述的算法。这个过程定义了一个视觉把握类型之间的结构———掌握系统树图。探索我们的视觉特性的有效性识别理解类型,我们创建了一个新的数据集控制环境。我们看到,一些掌握类型是极难区分,甚至人类注释器。以Thumb-3手指为例,首先第一个真阳性和假阳性显示机械师的手拿着工具。很难说有多少手指中使用该工具仅从视觉感知。一些对掌握类型之间的视觉相似性(e。g,Thumb-2手指和Thumb-3手指)带来了巨大的挑战在训练歧视掌握基于视觉特征的分类器。区分这样的细粒度的类别需要更高级的视觉技术提取精确的手指的位置。这是留给我们的未来的工作。这里我们展示视觉训练掌握分类器之间的相关性可以用来发现手握的视觉结构。我们计算指数之间的相关性对机械师手势类型数据集根据分类结果使用HOG-PCA和SVM-rbf的结合。17手势类型的相关矩阵图7所示,其中每个元素表示相关指数(可视化扩

1 / 5
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功