目录1引言.........................................................................................................12视线跟踪技术概述................................................................................23视线跟踪的基本原理............................................................................24视线跟踪技术分析................................................................................34.1常见视线跟踪技术......................................................................34.1.1眼电图法..........................................................................34.1.2巩膜接触镜/搜寻线圈法..............................................34.1.3照片图像法(POG)、视频图像法(VOG)........................44.1.3.1角膜-巩膜异色边缘反射法...............................44.1.3.2角膜反射法...........................................................44.1.3.3双普金野象法........................................................44.1.3.4基于视频结合瞳孔和角膜反射的方法................44.2各种方法的比较..........................................................................55视线跟踪技术在人机交互通道中的特点............................................66视线跟踪方法的研究趋势.....................................................................67视线跟踪技术在人机交互领域中的应用及前景................................78小结.........................................................................................................99参考文献.................................................................................................91视线跟踪技术及其应用摘要:本文介绍了研究、应用视线跟踪技术的必要性,回顾了视线跟踪技术的研究历程,概述了主要的视线跟踪技术及其原理,比较各种视线跟踪技术的优缺点。重点探讨了当前常用的基于视频的瞳孔-角膜高光向量法的原理和技术,并介绍了视线跟踪技术的研究方向和发展趋势。最后对视线跟踪技术在人机交互、智能机器等领域的应用前景进行了介绍和展望。关键词:视线跟踪研究方向人机交互1引言随着对人机交互技术研究的不断深入,多通道的交互备受关注,人机界面更强调“以人为中心”的原则,使用户能运用各种感觉通道以最自然的方式和计算机交互。现有的人机交互输入绝大多数通过鼠标、键盘等实现,这些输入需要视觉或听觉接收输出信息相配合。此外,语音识别输入技术在逐渐成熟;而对身体姿势的理解、触觉的输入输出等技术在智能虚拟现实环境中得到了较多的研究。人们在观察外部世界时眼睛总是与其它人体活动自然协调地工作,并且眼动所需的认知负荷很低,人眼的注视包含着当前的任务状况以及人的内部状态等信息,因此眼注视是一种非常好的能使人机对话变得简便、自然的候选输入通道。由于常见的上下文信息还隐藏于我们的视线中,视线反应了我们感兴趣的对象、目的和需求,具有输入输出双向性特点。视线检测使得抽取对人机交互有用的信息成为可能,从而实现自然的、直觉的和有效的交互,因此,对视线跟踪技术及其在人机交互中应用的研究具有特殊的价值。目前,视线跟踪技术和对视线所蕴含信息的理解还处在实验研究阶段。22视线跟踪技术概述视线追踪是利用机械、电子、光学等各种检测手段获取受试者当前“注视方向”的技术。按照系统构成和采用的检测方法可以粗略划分为侵入式和非侵入式两种。在人机交互和疾病诊断两个领域有着广泛的应用,如助残、虚拟现实、认知障碍诊断、车辆辅助驾驶、人因分析等。用于诊断的视线追踪系统可以采用侵入式以达到更高的精度.用于交互的视线追踪系统除了对精度、鲁棒性、实时性的要求以外,需要最大程度地减少或消除对使用者的干扰。随着数字化技术、计算机视觉、人工智能技术的迅速发展,基于眼睛视频分析(Videooculographic,VOG)的非侵入式视线追踪技术成为当前热点研究方向。目前用户界面所使用的任何人机交互技术几乎都有视觉参与。早期的视线跟踪技术首先应用于心理学研究(如阅读研究),后被用于人机交互。眼动在人的视觉信息加工过程中,起着重要的作用。它有三种主要形式:跳动(Saccades),注视(Fixations)和平滑尾随跟踪(SmoothPursuit)。在正常的视觉观察过程中,眼动表现为在被观察目标上一系列的停留及在这停留点之间的飞速跳动,这些停留一般至少持续100ms以上,称为注视。绝大多数信息只有在注视时才能获得并进行加工。注视点间的飞速跳跃称为眼跳动。眼跳动是一种联合眼动(即双眼同时移动),其大小为1到40度视角,持续时间为30到120ms,最高运动速度为400-600度/秒。3视线跟踪的基本原理视线跟踪技术及装置有强迫式(intrusiveness)与非强迫式(non-intrusiveness)、穿戴式与非穿戴式接触式(如Eyeglass-mounted)与非接触式(Remote)之分;其精度从0.1°至1°或2°不等,制造成本也有巨大差异。在价格、精度与方便性等因素之间作出权衡是一件困难的事情,例如视线跟踪精度与对用户的限制和干扰就是一对尖锐的矛盾。有关视觉输入的人机界面研究主要涉及两个方面:一是视线跟踪原理和技术的研究;二是在使用这种交互方式后,人机界面的设计技术和原理的研究。眼睛能平滑地追踪运动速度为1到30度/秒的目标,这种缓慢、联合追踪眼动通常称为平滑尾随跟踪。平滑尾随跟踪必须有一个缓慢移动的目标,在没有目标的情况下,一般不能执行这种眼动。在人机交互中,主要表现为跳动和注视两种形式。视线追踪的基本工作原理是利用图象处理技术,使用能锁定眼睛的特殊摄象机。通过摄入从人的眼角膜和瞳孔反射的红外线连续地记3录视线变化,从而达到记录分析视线追踪过程的目的。在人机交互中对视线追踪的基本要求是:(1)要保证一定的精度,满足使用要求;(2)对用户基本无干扰;(3)定位校正简单;(4)可作为计算机的标准外设。4视线跟踪技术分析一般而言,存在两种类型的眼睛运动跟踪技术:第一种方法测量相对于头部的眼睛位置,第二种是测量空间中眼睛关注点。人机交互系统主要关注的是交互场景中用户所关注的对象,这通常使用后一种测量方法。4.1常见视线跟踪技术最广泛使用的测量关注点是基于瞳孔-角膜反射向量的视线跟踪方法。目前存在四大类的眼睛运动测量方法:眼电图法,巩膜接触镜/搜寻线圈,POG法或VOG法和基于视频的结合角膜反射。4.1.1眼电图法眼电图法出现在70年代,曾被广泛应用,它使用电极测量眼窝附近皮肤的电压差来实现对眼睛运动的测量人的眼球存在着电压差,角膜表现为正极,眼底为负极,一般为1毫伏到数毫伏。在眼睛附近皮肤贴上电极,当眼睛运动时,电极会产生不同信号,大约可以识别出3度的眼球水平转动和5度的眼球竖直转动。眼电图法会产生不适的感觉,不适合长期使用和用于人机交互。另外,仪器制造材料要求较高且需要稳定的照明条件和调节标定程序,而使用者的变化也可能造成信号的不稳定,比如,皮肤电阻会因为皮角质的不断分泌而改变。4.1.2巩膜接触镜/搜寻线圈法巩膜接触镜/搜寻线圈法是最精确的眼睛运动测量方法之一,它将一个机械的或者光学的元件连接到直接佩戴到眼睛的接触镜上。早期的记录仪将熟石膏圈附加到角膜上,通过机械铰链连接到纪录笔4上。随着技术的发展,现代的接触镜通常附有安装杆。接触镜的尺寸需要足够大,将角膜和巩膜同时覆盖,以免镜头滑动。常用的附加装置有:反射镜、搜寻线圈等。其原理是通过测量由于眼睛的转动而决定的附加装置的方位来确定眼睛的方位。使用反射镜可以将固定光束反射到不同方向,从而获得眼睛的运动状态。使用搜寻线圈时在眼睛周围加上固定的磁场,当眼睛转动时会牵动搜寻线圈,使线圈中的磁通量发生变化而产生感生电动势,而依据电压的变化可以分析眼球的运动。接触镜法是比较精确的眼睛运动测量方法,在5度的测量范围内可以精确到8-10分,但这是一个最具侵入性的方法,通常会滴入人工泪液以减轻这种不舒。接触镜的双层构造会影响使用者的视力,不适合于测量注意点。4.1.3照片图像法(POG)、视频图像法(VOG)照片、视频图像法指测量眼睛的可区分特征的一类眼睛运动测量技术,这些特征包括瞳孔的外观形状,虹膜和巩膜的异色边缘,眼睛附近的光源的角膜反射等。4.1.3.1角膜-巩膜异色边缘反射法角膜-巩膜异色边缘反射法利用红外线光在角膜-巩膜边缘反射的差异来测量眼睛运动状况。该方法以数个红外线LED以固定的角度照射在虹膜周围,经虹膜和巩膜反射的红外光被对应的红外光敏管接受;由于深色虹膜的反射能力差,大部分光线被吸收,而白色巩膜部分的红外线几乎被完全反射;眼睛转动的时候,光敏管接收到的红外线会随之变化,利用这些变化的红外线信号,可以检测眼球的运动。4.1.3.2角膜反射法角膜能反射落在它上面的光,当眼球运动时,光以变化的角度射到角膜,得到不同方向上的反光。角膜表面形成的虚像因眼球旋转而移动,实时检测出图像的位置,经信号处理可得到眼动信号。4.1.3.3双普金野象法普金野图像是由眼睛的若干光学界面反射所形成的图像。角膜前表面、晶状体后表面所反射的图像是第一和第四普金野图像。双普金野方法使用红外光照射形成的第一和第四普金尔野反射,测量这两个反射的相对位置并分析图像数据,可以计算眼睛在相对于头部的朝向。Generation-V眼睛跟踪器就是双普金野象视线跟踪器。4.1.3.4基于视频结合瞳孔和角膜反射的方法上面提及的技术适合于对眼睛运动的测量,但如果需要测量“注意点”,可以固定住头部以保持眼睛相对于头的相对位置不变,或者测量眼睛的多个特征来消除头部运动引起的歧义,比如角膜的高光反射和瞳孔的中心。基于视频结合瞳孔和角膜反射的方法,是目前最广泛5应用于测量关注点的方法。角膜反射为瞳孔附近的小白点,它是角膜表面的反射高光,由于红外光源是相对于眼睛的固定位置放置的,眼球在眼眶里面转动的时候,角膜反射的位置是相对于眼睛是固定的。而瞳孔中心的的位置随着眼睛的转动而转动,因此,根据角膜反射点坐标和瞳孔中心位置坐标构成的向量可以估算视线的方向。4.2各种方法的比较根据前面所述方法已经开发了多种类型的眼睛跟踪器,但每一种方法都有其优缺点(比如精度、采样率),毫无疑问,基于视频的角膜反射式的视线跟踪器最适合于图形或者交互的应用。通过捕捉眼睛的红外视频图像,这些装置可以处理视频帧并输出眼睛的相对于被观察的屏幕的x和y坐标。相比其他装置,基于视频的视线跟踪器是相对非侵入性