人机交互的进展及面临的挑战人机交互的进展及面临的挑战一引言二回顾三进展四挑战五结论-3-3人机交互与多媒体研究室一引言-4-4人机交互与多媒体研究室人机交互与用户界面人机交互(Human-ComputerInteraction,HCI):是研究人、计算机以及它们间相互影响的技术用户界面:是人与计算机之间传递、交换信息的媒介和对话接口,是计算机系统的重要组成部分人机交互与用户界面是两个有着紧密联系而又不尽相同的概念人机交互强调的是技术和模型,用户界面是计算机的关键组成部分-5-5人机交互与多媒体研究室人机交互技术与计算机始终相伴发展计算机的发展历史,不仅是处理器速度、存储器容量飞速提高的历史,也是不断改善人机交互技术的历史。人机交互技术,如鼠标器、窗口系统、超文本、浏览器等等,已对计算机的发展产生了了巨大的影响,而且还将继续影响整个人类的生活。人机交互技术是当前信息产业竞争的一个焦点,世界各国都将人机交互技术作为重点研究的一项关键技术。-6-6人机交互与多媒体研究室人机交互技术的目标美国总统信息技术顾问委员会的“21世纪的信息技术报告”中列出了新世纪四项重点发展的信息技术研制能听、能说、能理解人类语言的计算机使计算机更易于使用,操作起来更愉快,从而提高使用者的生产率人机交互和信息管理软件可伸缩信息基础设施高端计算-7-7人机交互与多媒体研究室计算机的三个作用ACM图灵奖1992年获得者、微软研究院软件总工程师ButlerLampson在题为“二十一世纪的计算研究”报告中指出“计算机有三个作用:模拟;帮助人们进行通信;互动:与实际世界的交流”“人们希望计算机能够看、听、讲,甚至比人做得更好,并能够进行实时处理。”-8-8人机交互与多媒体研究室两个重要的应用趋势计算机系统的拟人化以虚拟现实为代表计算机的微型化、随身化和嵌入化以手持电脑、智能手机为代表人机交互技术是面临这种趋势的瓶颈技术。以人为中心、自然、高效将是新一代人机交互的主要目标。-9-9人机交互与多媒体研究室VR&EmbodiedVirtuality-10-10人机交互与多媒体研究室VR&EmbodiedVirtuality-11-11人机交互与多媒体研究室二回顾-12-12人机交互与多媒体研究室人机交互的发展历史人机交互的发展历史,是从人适应计算机到计算机不断地适应人的发展史人机交互的发展经历了几个阶段:1.早期的手工作业阶段2.作业控制语言及交互命令语言阶段3.图形用户界面(GUI)阶段4.网络用户界面的出现5.多通道、多媒体的智能人机交互阶段-13-13人机交互与多媒体研究室-14-14人机交互与多媒体研究室最有影响的事件和成果1945年美国V.Bush提出了应采用设备或技术来帮助科学家检索、记录、分析及传输各种信息的新思路和名为“Memex”的一种工作站构想。1963年美国麻省理工学院I.Sutherland开创了计算机图形学的新领域,而获1988年ACM图灵奖。他还在1968年开发了头盔式立体显示器,成为现代虚拟现实技术的重要基础。-15-15人机交互与多媒体研究室最有影响的事件和成果1963年发明鼠标器的美国斯坦福研究所的D.Engelbart,他预言鼠标器比其他输入设备都好,并在超文本系统、导航工具方面做了杰出的成果(AugmentedHumanIntellectproject),而获1997年ACM图灵奖。10年后鼠标器经不断改进,成为影响当代计算机使用的最重要成果。-16-16人机交互与多媒体研究室最有影响的事件和成果70年代Xerox研究中心的AlanKay提出了Smalltalk面向对象程序设计等思想,并发明了重叠式多窗口系统。1989年TimBerners-Lee在日内瓦的CERN用HTML及HTTP开发了网,随后出现了各种浏览器(网络用户界面),使互联网飞速发展起来。-17-17人机交互与多媒体研究室最有影响的事件和成果90年代美国麻省理工学院N.Negroponte领导的媒体实验室在新一代多通道用户界面方面(包括语音、手势、智能体等),做了大量开创性的工作。90年代美国Xerox公司PARC的首席科学家MarkWeiser首先提出“无所不在计算(UbiquitousComputing)”思想。-18-18人机交互与多媒体研究室三进展-19-19人机交互与多媒体研究室人机交互技术的进展1.自然、高效的多通道交互2.人机交互模型和设计方法3.虚拟现实和三维交互4.可穿戴计算机和移动手持设备的人机交互5.智能空间及智能用户界面6.标准化及其它-20-20人机交互与多媒体研究室1。自然、高效的多通道交互-21-21人机交互与多媒体研究室通道与多通道交互多通道交互(Multi-ModalInteraction):一种使用多种通道与计算机通信的人机交互方式。采用这种方式的计算机用户界面称为“多通道用户界面”。通道(Modality):源于心理学的概念,涵盖了用户表达意图、执行动作或感知反馈信息的各种通信方法,如言语、眼神、脸部表情、唇动、手动、手势、头动、肢体姿势、触觉、嗅觉或味觉等。-22-22人机交互与多媒体研究室多通道交互多通道交互是近年来迅速发展的一种人机交互技术,它既适应了“以人为中心”的自然交互准则,也推动了互联网时代信息产业(包括移动计算,移动通信、网络服务器等)的快速发展。多通道交互的各类通道(界面)技术中,有不少已经实用化、产品化、商品化。其中我国科技人员做出了不少优异的工作。-23-23人机交互与多媒体研究室手写汉字识别中科院自动化所开发的“汉王笔”手写汉字识别系统,经过近20年的研究和开发,已能识别27000汉字,当用非草写汉字、以每分钟12个汉字的速度书写时,识别率可达99.8%。我国现在已约有300万手写汉字识别系统的用户。-24-24人机交互与多媒体研究室数字墨水技术微软亚洲研究院多通道用户界面组发明的数字墨水技术,采用全新易操纵的笔交互设备、高质量的墨水绘制技术、智慧的墨迹分析技术等,使它不仅可用作为文字识别、图形绘制的输入,而且作为一种全新的“Ink”数据模型,使手写笔记更易阅读、获取、组织和使用。数字墨水技术已作为产品,结合在微软的TabletPC操作系统中,产生了巨大的社会影响。它还将继续发展,有可能成为新一代优秀的自然交互设备。-25-25人机交互与多媒体研究室笔式交互技术在笔式交互技术研究中,中国科学院软件所人机交互技术与智能信息处理实验室在笔式交互软件开发平台、面向教学的笔式办公套件(包括课件制作、笔式授课、笔式数学公式计算器、笔式简谱制作等)、面向儿童的神笔马良系统的开发应用方面均有出色的工作,其中不少已经实用化、产品化。-26-26人机交互与多媒体研究室基于笔的字处理EasyEditor-27-27人机交互与多媒体研究室手写数学公式-28-28人机交互与多媒体研究室中文语音识别IBM/ViaVoice连续中文语音识别系统经过不断改进,已广泛应用于Office/XP的中文版等办公软件和应用软件中,在中文语音识别领域有重要影响。中国科学院自动化所“汉语连续语音听写系统”的特点是建立了基于决策树的上下文相关模型;针对连续语音中声调之间的协同发音问题,建立了相应的变调模型;建立了与识别系统配套的自适应平台,降低35%左右音节误识率;提出了领域自适应方法,通过较少的领域语料,可得到较好的领域自适应模型和字典-29-29人机交互与多媒体研究室语音合成技术1990年提出的基音同步叠加(PSOLA)方法使合成语音的音色和自然度明显提高。在国家支持下,汉语语音合成取得了显著进展,多家国内研究单位都成功开发了自己的语音合成系统。1999年在国家智能计算机研究开发中心、中国科技大学人机语音通信实验室的基础上组建的科大讯飞公司在汉语语音合成技术领域已达到了国际先进水平。-30-30人机交互与多媒体研究室语音和笔上述成果表明,作为人类最重要的自然通道——语音和笔的交互技术,包括手写识别、数字墨水、笔交互、语音识别、语音合成等通道技术,近年来已有显著的进步,我国的不少成果已具有国际先进水平,并达到了一定的产业规模。虽然语音和笔(手势)通道因其自身的特点,在抗干扰、准确度等方面仍嫌不足,但它们在多通道整合、领域受限应用等配合下,最有希望成为新一代实用的自然交互技术。-31-31人机交互与多媒体研究室手语识别和合成中国科学院计算所研制成功了基于多功能感知的中国手语识别与合成系统,它采用数据手套可识别大词汇量(5177个)的手语词。该系统建立了中国手语词库。对于给定文本句子(可由正常人话语转换而成),自动合成相应的人体运动数据。最后用计算机人体动画技术,将运动数据应用于虚拟人,由虚拟人完成合成的手语运动。它可输出大词汇量的手语词,为中国聋哑人的教育、生活提供了有用的辅助工具,使他们用手语与正常人的交流成为可能。-32-32人机交互与多媒体研究室视线跟踪(眼动)技术视线跟踪(眼动)技术由于其可能代替键盘输入、鼠标移动的功能,可能达到“所视即所得”(WhatYouLookatisWhatYouGet),因而对残疾人和飞行员等使用有极大的吸引力。视线跟踪技术,一是研究高质量的眼动跟踪设备,二是如何构造易于操作的用户界面。眼动跟踪设备有强迫式与非强迫式、穿戴式与非穿戴式、接触式与非接触式之分。眼动跟踪设备的精度和对用户的限制和干扰是一对尖锐的矛盾。-33-33人机交互与多媒体研究室视线跟踪(眼动)技术目前一类产品是采用头戴微型摄像头的设备,它用来获取两眼瞳孔(或角膜)中视点。其采样率、精度高,可靠。另一类是在PC机前装了两个微型摄像头的设备,精度不高,适合残疾人操作计算机使用。-34-34人机交互与多媒体研究室“注视用户界面(AttentiveUserInterfaces,AUI)”-35-35人机交互与多媒体研究室触觉通道的力反馈装置新一代力反馈感应技术主要有TouchSense触觉感应技术和G-ForceTilte动作感应技术两种。TouchSense触觉感应技术主要用在鼠标/轨迹球等产品中,而动作感应技术(G-ForceTilte)则主要用在动感游戏控制器中。用在非游戏的高精度触觉反馈装置中,最著名的是由MIT人工智能实验室MassieandSalisbury开发、美国SensAbleTechnologies公司生产的Phantom触觉反馈(6自由度)设备和Ghost软件开发包。由于高精度,它已广泛用于军事、医学、机器人、教学、虚拟现实等各类应用中。-36-36人机交互与多媒体研究室触觉通道的力反馈装置-37-37人机交互与多媒体研究室生物特征识别技术生物特征识别技术(Biometrics)是受到广泛关注的一类新兴识别技术。早期通过对人的指纹识别来确定人的身份,因而指纹识别被广泛应用于安全、公安等部门。随着反恐斗争的日显重要,各国正在对其他人体特征进行广泛研究,希望尽快找到快速、准确、方便、廉价的身份识别方法。眼睛虹膜、掌纹、笔迹、步态、语音、人脸、DNA等的人类特征研究和开发正引起政府、企业、研究单位的广泛注意。-38-38人机交互与多媒体研究室唇读、人脸表情识别唇读、人脸表情识别是又一个人机交互技术的热点。唇读将人们说话的语音和嘴唇变化的形态结合起来,以便更准确地获取人们表达的意图、感情和愿望等。人脸表情识别的模型和方法也在不断改进。-39-39人机交互与多媒体研究室自然语言理解自然语言理解始终是自然人机交互的最重要目标,虽然目前在语言模型、语料库、受限领域应用等方面均有进展外,由于它的难度(自然语言的不规范性等),自然语言理解仍是计算机科学家和语言学家的一个长项研究目标。-40-40人机交互与多媒体研究室多通道的整合问题多通道的整合问题是多通道交互的一个核心研究内容。1995年由北京大学、杭州大学、中科院软件所承担的自然基金重点项目“多通道用户界面研究”是当时我国最大的HCI项目,探索了多通道用户界面的模型、设计、实现、评估和应用,取得了重要的成果。-41-41人机交互与多媒体研究室多通道交互的标准工作2002