多模态人机交互综述(译文)

44804430
2 ℃
2020-04-19

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

AlejandroJaimes,NicuSebe,Multimodalhuman–computerinteraction:Asurvey,ComputerVisionandImageUnderstanding,2007.多模态人机交互综述摘要：本文总结了多模态人机交互(MMHCI,Multi-ModalHuman-ComputerInteraction)的主要方法，从计算机视觉角度给出了领域的全貌。我们尤其将重点放在身体、手势、视线和情感交互(人脸表情识别和语音中的情感)方面，讨论了用户和任务建模及多模态融合(multimodalfusion)，并指出了多模态人机交互研究的挑战、热点课题和兴起的应用(highlightingchallenges,openissues,andemergingapplications)。1.引言多模态人机交互(MMHCI)位于包括计算机视觉、心理学、人工智能等多个研究领域的交叉点，我们研究MMHCI是要使得计算机技术对人类更具可用性(Usable)，这总是需要至少理解三个方面：与计算机交互的用户、系统(计算机技术及其可用性)和用户与系统间的交互。考虑这些方面，可以明显看出MMHCI是一个多学科课题，因为交互系统设计者应该具有一系列相关知识：心理学和认知科学来理解用户的感知、认知及问题求解能力(perceptual,cognitive,andproblemsolvingskills)；社会学来理解更宽广的交互上下文；工效学(ergonomics)来理解用户的物理能力；图形设计来生成有效的界面展现；计算机科学和工程来建立必需的技术；等等。MMHCI的多学科特性促使我们对此进行总结。我们不是将重点只放在MMHCI的计算机视觉技术方面，而是给出了这个领域的全貌，从计算机视觉角度I讨论了MMHCI中的主要方法和课题。1.1.动机在人与人通信中本质上要解释语音和视觉信号的混合。很多领域的研究者认识到了这点，并在单一模态技术unimodaltechniques(语音和音频处理及计算机视觉等)和硬件技术hardwaretechnologies(廉价的摄像机和其它类型传感器)的研究方面取得了进步，这使得MMHCI方面的研究已经有了重要进展。与传统HCI应用(单个用户面对计算机并利用鼠标或键盘与之交互)不同，在新的应用(如：智能家居[105]、远程协作、艺术等)中，交互并非总是显式指令(explicitcommands)，且经常包含多个用户。部分原因式在过去的几年中计算机处理器速度、记忆和存储能力得到了显著进步，并与很多使普适计算ubiquitouscomputing[185,67,66]成为现实的新颖输入和输出设备的有效性相匹配，设备包括电话(phones)、嵌入式系统(embeddedsystems)、个人数字助理(PDA)、笔记本电脑(laptops)、屏幕墙(wallsizedisplays)，等等，大量计算具有不同计算能量和输入输出能力的设备可用意味着计算的未来将包含交互的新途径，一些方法包括手势(gestures)[136]、语音(speech)[143]、触觉(haptics)[9]、眨眼(eyeblinks)[58]和其它方法，例如：手套设备(Glovemounteddevices)[19]和and可抓握用户界面(graspableuserinterfaces)[48]及有形用户界面(TangibleUserinterface)现在似乎趋向成熟(ripeforexploration)，具有触觉反馈、视线跟踪和眨眼检测[69]的点设备(Pointingdevices)现也已出现。然而，恰如在人与人通讯中一样，当以组合方式使用不同输入设备时，情感通讯(effectivecommunication)就会发生。多模态界面具有很多优点[34]：可以防止错误、为界面带来鲁棒性、帮助用户更简单地纠正错误或复原、为通信带来更宽的带宽、对不同的状况和环境增加可选的通信方法。在很多系统中，采用多模态接口消除易出错模态(errorpronemodalities)的模糊性是多模态应用的重要动机之一，如Oviatt[123]所述，易出错技术可以相互补充，而不是给接口带来冗余和减少纠错的需要。然而，必须指出的是：多模态单独(multiplemodalitiesalone)并不为界面带来好处，多模态的使用可能是无效的(ineffective)，甚至是无益的(disadvantageous)，据此，Oviatt[124]已经提出了多模态接口的共同错误概念(commonmisconceptionsormyths)，其中大多数与采用语音作为输入模态相关。本文中，我们调研了我们认为是MMHCI本质的研究领域，概括了当前研究状况(thestateoftheart)，并以我们的调研结果为基础，给出了MMHCI中的主要趋势和研究课题(identifymajortrendsandopenissues)。我们按照人体将视觉技术进行了分组(如图1所示)。大规模躯体运动(Largescalebodymovement)、姿势(gesture)和注视(gaze)分析用于诸如情感交互中的表情识别任务或其它各种应用。我们讨论了情感计算机交互(affectivecomputerinteraction)，多模态融合、建模和数据收集中的课题及各种正在出现的MMHCI应用。由于MMHCI是一个非常动态和广泛的研究领域，我们不是去呈现完整的概括，因此，本文的主要贡献是在对在MMHCI中使用的主要计算机视觉技术概括的同时，给出对MMHCI中的主要研究领域、技术、应用和开放课题的综述。Fig.1.采用以人为中心多模态交互概略1.2.Relatedsurveys已经有在多个领域中广泛的综述发表，诸如人脸检测[190,63]，人脸识别[196]，人脸表情分析(facialexpressionanalysis)[47,131]，语音情感(vocalemotion)[119,109]，姿态识别(gesturerecognition)[96,174,136]，人运动分析(humanmotionanalysis)[65,182,182,56,3,46,107]，声音-视觉自动语音识别(audio-visualautomaticspeechrecognition)[143]和眼跟踪(eyetracking)[41,36]。对基于视觉HCI的综述呈现在[142]和[73]中，其重点是头部跟踪(headtracking)，人脸和脸部表情识别(faceandfacialexpressionrecognition)，眼睛跟踪(eyetracking)及姿态识别(gesturerecognition)。文[40]中讨论了自适应和智能HCI，主要是对用于人体运动分析的计算机视觉的综述和较低手臂运动检测、人脸处理和注视分析技术的讨论；[125–128,144,158,135,171]中讨论了多模态接口。[84]和[77]中讨论了HCI的实时视觉技术(Real-timevision)，包括人体姿态、对象跟踪、手势、注视力和脸姿态等。这里，我们不讨论前面综述中包含的工作，增加前面综述中没有覆盖的领域(如：[84,40,142,126,115])，并讨论在兴起领域中的新的应用，着重指出了主要研究课题。相关的的会议和讨论会包括：ACMCHI、IFIPInteract、IEEECVPR、IEEEICCV、ACMMultimedia、InternationalWorkshoponHuman-CenteredMultimedia(HCM)inconjunctionwithACMMultimedia、InternationalWorkshopsonHuman-ComputerInteractioninconjunctionwithICCVandECCV、IntelligentUserInterfaces(IUI)conference和InternationalConferenceonMultimodalInterfaces(ICMI)。2.多模态交互概要术语“multimodal”已经在很多场合使用并产生了多种释义(如[10-12]中对模态的解释)。对于我们来讲，多模态HCI系统简单地是一个以多种模态或通信通道响应输入的系统(如：语音speech、姿态gesture、书写writing和其它等等)，我们采用“以人为中心”的方法(human-centeredapproach)，所指的“借助于模态(bymodality)”意味着按照人的感知(humansenses)的通信模式和由人激活或衡量人的量(如：血压计)的计算机输入设备，如图1所示。人的感知包括视线(sight)、触觉(touch)、听力(hearing)、嗅觉(smell)和味觉(taste)；很多计算机输入设备的输入模态对应于人的感知：摄像机cameras(sight)、触觉传感器hapticsensors(touch)[9]、麦克风microphones(hearing)、嗅觉设备olfactory(smell)和味觉设备taste[92]，然而，很多其它由人激活的计算机输入设备可以理解为对于人的感觉的组合或就没有对应物，如：键盘(keyboard)、鼠标(mouse)、手写板(writingtablet)、运动输入(motioninput)(如：自身运动用来交互的设备)、电磁皮肤感应器(galvanicskinresponse)和其它生物传感器(biometricsensors)。.在我们的定义中，字“input”是最重要的，恰如在实际中大多数与计算机的交互都采用多个模态而发生。例如：当我们打字时，我们接触键盘上的键以将数据输入计算机，但有些人也汇同时用视线阅读我们所输入的或确定所要按压键的位置。因此，牢记交互过程中人所在做的(whatthehumanisdoing)与系统实际接收作为输入(whatthesystemisactuallyreceivingasinput)间的差异是十分重要的。例如，一台装有麦克风的计算机可能能理解多种语言和仅是不同类型的声音(如：采用人性化界面(humminginterface)来进行音乐检索)，尽管术语“multimodal”已常用来指这种状况(如：[13]中的多语言输入被认为是多通道的multimodal)，但本文仅指那些采用不同模态(如：通信通道)结合的系统是多模态的，如图1所示。例如：一个系统仅采用摄像机对人脸表情和手势作出响应就不是多模态的，即使输入信号来自多个摄像机；利用同样的假设，具有多个键的系统也不是多模态的，但具有鼠标和键盘输入的则是多模态的。尽管对采用诸如鼠标和键盘、键盘和笔等多种设备的多模态交互已经有研究，本文仅涉及视觉(摄像机)输入与其它类型输入结合的人机交互技术。在HCI中，多模态技术可以用来构造多种不同类型的界面(如图1)，我们特别感兴趣的是感知(perceptual)、注意(attentive)和活跃(enactive)界面。如在[177]中定义的那样，感知界面(Perceptualinterfaces)[176]是高度互动(interactive)且能使得与计算机丰富、自然和有效交互的多模态界面(multimodalinterfaces)，感知界面寻找感知输入sensing(input)和绘制输出rendering(output)的杠杆技术以提供利用标准界面及诸如键盘、鼠标和其它监视器等公共I/O设备[177]所不能实现的交互，并使得计算机视觉成为很多情况下的核心要件(centralcomponent)；注意界面(Attentiveinterfaces)[180]是依赖于人的注意力作为主要输入的上下文敏感界面(context-awareinterfaces)[160]，即：注意界面[120]采用收集到的信息来评估与用户通信的最佳时间和方法；由于注意力主要由眼睛注视(eyeco