手势识别技术综述作者单位:河北工业大学计算机科学与软件学院内容摘要:手势识别是属于计算机科学与语言学的一个将人类手势通过数学算法针对人们所要表达的意思进行分析、判断并整合的交互技术。一般来说,手势识别技术并非针对单纯的手势,还可以对其他肢体动作进行识别,比如头部、胳臂等。但是这其中手势占大多数。本文通过对手势识别的发展过程、使用工具、目的与市场等进行综述,梳理出手势识别发展的思路,让读者对手势识别有一个总体上的认识,同时也可以让读者在此基础上进行合理想象,对手势识别的未来有一个大体印象。Abstract:Gesturerecognitionisaninteractivetechnologyusingmathematicalarithmetictotheanalysis,judgeandassemblymeaningthatpeoplewanttoconveywhichbelongstocomputerscienceandLinguistics.Ingeneral,gesturerecognitiontechnologyisnotforsimplegesturesexpressedbyhands,itcanalsoaimtootherbodymovementrecognition,suchasthehead,armandsoon.Butthegestureaccountedformostoftheanalysis.Inthispaper,bydescribingthedevelopmentprocess,toolsused,objectiveandmarketofgesturerecognition,wecansortouttheideasofthedevelopmentofgesturerecognition,andletreadershaveanoverallunderstandingofgesturerecognition.Atthesametime,itcanletthereaderimaginethatonhandgesturerecognitionbasedonreason,andhaveageneralimpressionofitsfuture.1.定义说到手势识别,首先要对手势识别中的手势有一个清晰的认知。手势在不同的学科中有不同含义,而在交互设计方面,手势与依赖鼠标、键盘等进行操控的区别是显而易见的,那就是手势是人们更乐意接受的、舒适而受交互设备限制小的方式,而且手势可供挖掘的信息远比依赖键盘鼠标的交互模式多。在学术界,人们试图对手势定义一个抽象、明确而简洁的概念以为手势及其应用的研究提供依据。1990年EricHulteen和GordKurtenbach曾发表的题为“GesturesinHuman-ComputerCommunication”中定义:“手势为身体运动的一部分,它包括一部分信息,而且是一种能被观察到的有意义的运动。挥手道别是一种手势,而敲击键盘不是一种手势,因为手指的运动没有被观察,也不重要,它只表示键盘被按下这一动作。”从定义上讲,手势识别是一种利用数学算法,包括计算机图形学,辅以摄像头、数据手套等输入工具,针对收集到的信息,比如手掌、手指各关节的方位、角度等进行判断、分析并作出正确回复的技术。许多测试品已开始使用三维手势识别来提升准确率及反应速度。但是,分析手势的特点,回顾手势识别的发展历史,可以更好地把握其发展脉络,从而对未来手势识别的潜力与可能方向做出基本判断。2.发展过程手势是任意的,手不同部位的方向、角度及弯曲程度等的不同信息可能会有实际意义上的天壤之别。所以手势识别应该基于用户与程序、设备之间的约定。针对手势的任意性,最初的手势识别主要使用各种与手及手臂通过直接的接触式有线机器设备进行数据采集。它可以直接检测诸如手指、关节及手臂的方位、角度等。典型的设备有数据手套等。通过内含许多传感器的数据手套,可以十分精确地获取手势识别所需的各种信息,此外其反应速度、识别准确度、稳定性也得到了保障。但是该设备在实际中的造价比较高昂,更重要的是会对手的灵活性有一定限制,因而没有得到有效推广。此后推出的穿戴式光学标记可通过红外线将手指及手掌变化传输到屏幕上,也保持了数据手套的优点。该设备虽减轻了重量,提高了手部的灵活性,但是仍需较复杂的输入输出转换设备,此外也会对手部动作的自然性产生影响。【1】基于视觉的手势识别技术能够使手部动作的表达更加自然,同时也可以为未来其他的肢体识别技术所应用,因此成为了主流。手型模型是通过计算机图形学对二维的手势图像属性,如手的颜色、纹理、边界、轮廓等进行分析。【6】该方法主要使用三种组件:探测组件、运动轨迹组件、识别组件。【6】探测组件负责有针对性地收集有特点的视觉信号并将手势信号整理成码。运动轨迹组件负责实时定位,虽然它对于只需静态手势的设备并不是必要的组件,但是其可以优化手部中各部位的运动曲线,提升设备精度。基于视觉的手势识别按手势的动态特点可以分为静态的与动态的两种,静态手势识别针对单个手型,主要包括手势分割及手势识别两部分,前者是后者的基础。【3】静态手势识别方法难以识别区分度较小的手势、实时性差,因此向动态手势识别过渡已经成为一种趋势。【3】大部分手势识别应用是将每个手势作为一个整体,之后通过计算相似度来进行模式匹配。这种方法显而易见的缺点是只有当收集到的数据与预设模型的相似程度很高时才会比较准确,另外对于某些比较相似的手势区分效果不好。【6】3.研究方法目前常用的手势识别研究方法主要有以下几种:(1)基于人工神经网络的手势识别神经网络基于统计和概率学方法的组织和判断具有抗干扰、自学习、易控制和处理高效的特点,可用于处理信息缺失的模式并进行模式推广。如果整个神经网络包括的全部神经元都是时空效能好的算法,那就可以判断手势细微部分的运动。但人工神经网络对时间序列处理能力不强。在静态手势的识别中应用较多,动态手势识别中几乎没有应用。此外,尽管对神经网络的相关研究及应用已经有了几十年,但是该方法本身的复杂性使成功构建一个效果良好的神经网络对大多数人比较困难。【2】(2)基于隐马尔可夫模型的手势识别隐马尔可夫模型是一种能细致描述信号的时空变化统计分析模型,适用于动态手势的识别。由于其分析复杂,计算量大,速度慢,故而大多采用离散马尔可夫模型。(3)基于几何特征的手势识别,包括手势分割法与几何特征法手势分割包括2种方法:单目视觉和立体视觉。基于单目视觉的方法又分为基于徒手的表观特征(肤色,轮廓);人为增加限制,如要求使用者戴上有色手套及各种光学标识;建立数据库的方法。【12】手势的几何特征指手势的边缘(如轮廓)和手势区域特征(如手掌颜色、面积)。【4】基于几何特征的手势识别技术,大多采用各种距离公式进行模板匹配,如量度度量空间中真子集之间距离的Hausdorff距离等。几何特征识别方法主要有3种:模板匹配法(自动提取每一帧特征图像与模板库匹配后识别手势,多用于静态手势识别);神经网络法,统计分析法(如隐马尔可夫模型法HMM)等。动态手势识别的算法比较复杂。除了进行手势识别的算法外,还需要其他辅助算法及过程。某些具有手部整体运动轨迹的手势可以是肢体动作的一部分,比如挥手、打招呼等。这些手势识别需要准确地从手腕部对手势及手臂进行识别并分割。此外,在动态手势识别中还需同时进行方位定位及识别工作,其核心是动态时间空间跃迁算法(DSTW),一种可以在时间空间成对排列搜索请求及模型手势的算法。【11】此外,涉及随机信号及过程的光谱分析法已经在大量科学学科中使用了几十年,尽管随机性会给时间域特性分析带来困难,像特征值及频率仍然是有价值的光谱信息。傅里叶分析是频率域光谱分析的常见方法。【8】尽管存在诸多的方法,而且手势识别仍在不断发展中,但是手势识别本身的特点在某些方面成为了障碍。与人脸识别最显著的区别是,基于图像的手势识别与人脸识别虽然都是根据二维图像,但是手部没有类似人脸那样丰富的可以标记及区分的数据特征对象。人脸的表情丰富,可以作为理想的数据库。典型的人脸切尔诺夫模型拥有18个变量,而自1973年来经过几十年的发展,面部特征又得到了丰富,非对称的切尔诺夫脸可显示多达36维的脸部特征。手部的特征明显要少得多,基本上就是各关节、手掌的坐标,指尖的朝向等。而且脸部特征基本上是在一个平面上的,没有旋转特征,脸部的自由度小。手部在手势定位及旋转上至少需要6维信息,包括手部的三维坐标及三维方向。而完全对手势进行分辨需要超过20个的自由度变量,这使得手势的甄别十分复杂。4.当前的应用(1)用于虚拟环境的交互手势识别可以用于虚拟制造和虚拟装配、产品设计等。虚拟装配通过手的运动直接进行零件的装配,同时通过手势与语音的合成来灵活的定义零件之间的装配关系。还可以将手势识别用于复杂设计信息的输入。【9】(2)用于手语识别。手语是聋哑人使用的语言,是由手型动作辅之以表情姿势由符号构成的比较稳定的表达系统,是一种靠动作Π视觉交际的语言。手语识别的研究目标是让机器“看懂”聋人的语言。手语识别和手语合成相结合,构成一个“人2机手语翻译系统”,便于聋人与周围环境的交流。手语识别同样分为基于数据手套的和基于视觉的手语识别两种。基于DGMM的中国手语识别系统选取Cyberglove型号数据手套作为手语输入设备,采用了动态高斯混合模型DGMM(DynamicGaussianMixtureModel)作为系统的识别技术,可识别中国手语字典中的274个词条,识别率为98.2%。【9】(3)用于多通道、多媒体用户界面。正如鼠标没有取代键盘,手势输入也不能取代键盘、鼠标等传统交互设备,这一方面由于手势识别的设备和技术问题,另一方面也由于手势固有的多义性、多样性、差异性、不精确性等特点。手势识别要想取得比较高的识别率,仍有很长的路要走。手势输入在人机交互中应用的精髓不在于用来独立地用作空间指点,而是为语言、视线、唇语等交互手段通道提供空间的或其他的约束信息,以消除在单通道输入时存在的歧义。这种做法是试图以充分性取代精确性。(4)用于机器人机械手的抓取机器人机械手的自然抓取一直是机器人研究领域的难点。手势识别,尤其是基于数据手套的手势识别的研究对克服这个问题有重要的意义,是手势识别的重要应用领域之一。5.前景提供一个自然而且有效的人机交互界面始终是人机交互研究的目的。【1】那么手势识别以后的发展也要围绕这一点。在未来的发展中,口语、手势和人脸在虚拟环境中的互补是必要的。因为手形有两种建模方式:基于三维的建模和基于图像的建模。【4】基于三维的建模有强大的表达能力,几乎能够表达所有的手形,但是缺乏效率。而后者简单高效,但是缺乏通用性。手势由一段时间内的一系列手形组成。手势的分解和分类是手势识别的两个重要问题。在多用户虚拟环境中,人脸又可以作为区分用户的属性。只有综合利用他们,才能在人机交互系统中产生深远的影响。然而在手势识别的发展中还有以下几个难点:现有的手势识别方法的局限性:单一颜色或静态背景;干净的肤色分割;手腕的界定;手动初始化。【10】到目前为止,大多数研究都集中在静态手势识别技术,而我们不仅要对手势进行跟踪,还要进行识别,其计算工作量很大且速度慢,不能用于实时识别系统。当前阻止我们进行实时识别的难点有手势目标检测困难手势目标识别困难。当前还未能找到解决问题的理想方法,针对具体的某一系统,在实现时要假设一定的限制条件,以达到较好的识别效果。虽然有许多许多的困难,但是现在全世界已有不少工作者投入到手势识别这项研究中,例如:美国的麻省理工学院,乔治理工学院,加州圣何塞公司等。如上所言,这项研究肯定有许多的难点问题需要去思考,去克服。在他发展的道路上,我认为分析师拉兹罗所言的:“无论何时,如果你想引进一种新的用户界面,他是否简单和容易操作总是成败的关键。当年鼠标问世时也不是一下子就得到了大众的接受。”非常适合此处。所以无论是学生还是公司,只要坚持对该系统的研究,必然会获得成功。目前多个科技公司都纷纷推出了自己的手势识别