现代通信理论与先进技术之Kinect体感交互技术摘要:本文通过查阅国内外相关文献,了解了人机交互技术尤其是可以实现高效人机交互的Kinect体感技术的发展方向,并以此为研究基础,综述了Kinect体感技术的理论基础和国内外应用现状,讨论了其广泛应用需要解决的技术难题,展望了其在人机交互领域的应用前景,得出了Kinect体感技术有利于推动人机交互的智能化进展,是人机交互改革的又一个新起点的结论。关键词:Kinect体感技术;人机交互;虚拟现实;人工智能引言继鼠标和多点触摸之后,体感交互被称之为“第三次人机交互革命的原点”。人机体感交互的出现是人与机器对话方式回归自然的重要转折,体现了人们对“以人为中心”设计理念的不断追求。人机交互[1](Human-ComputerInteraction,HCI)是研究人与计算机及其相互作用的技术,其研究目的在于利用所有可能的信息通道进行人机交流,提高交互的自然性和高效性。目前人与计算机交互的方式只局限于鼠标与键盘,正是由于这种传输方式的单一性阻碍了人机交互的进一步发展,人机交互中输入输出效率之间的差距变的越来越大。随着科学技术的高速发展,更高层次的人机交互理念对交互方式提出了巨大的需求,众多科研人员开始对新的交互技术的多通道界面展开研究,目前的研究内容主要是集中在手势输入、语音识别及感觉反馈等方面。而kinect体感技术的出现为促进人机交互的发展具有重要意义,kinect作为新一代的体感设备,可以依靠实时捕捉使用者的动作、面部识别及语音识别就可以达到输入功能。这一特性很好地填补了现有人机交互技术的缺陷,并且促使kinect体感技术成为人机交互领域的一个研究热点。与传统输入设备不同的是,kinect设备可以实现直接用使用者的身体来控制终端,用这种最自然的方式与终端进行交互的特点贴近了人机交互对自然性的要求,kinect体感技术对人机交互理念的实现起到了重要的促进作用。因此研究kinect体感技术在人机交互领域中的应用对其今后的发展具有很大的必要性。1Kinect设备的基本介绍Kinect[2],[3],[4]是由微软公司开发的一款姿态传感输入设备,作为Xbox360外接的3D体感摄影机,利用即时动态捕捉、影像辨识、麦克风输入、语音辨识、社群互动等功能让用户摆脱传统输入设备的束缚,通过自己的肢体控制终端。图1所示是Kinect设备的整体结构图。Kinect设备的整体结构及功能:1.1RGB摄像头用来获取640X480的彩色图像,每秒钟最多获取30帧图像,根据在Kinect设备视野范围内移动的一个或两个人的图像进行骨骼追踪,可以追踪到人体上的20个节点。1.23D深度传感器分别为红外发射器和红外线COMS摄像机,用来侦测3D影像。1.3数组式麦克风与Microsoft.Speech的语音识别API集成,使用一个具有消除噪音和回波的四元麦克风组,能够把声源附近有效范围之内的各种信息捕捉到。用于语音识别并具有降噪功能。基于以上功能,Kinect设备不需要使用任何控制器,只需依靠实时捕捉使用者的3D动作、面部别和语音识别即可达到输入的功能[5]。图1Kinect整体结构图2基于Kinect的人机交互的工作原理2.1Kinect传感Kinect追踪处理流程的核心是一个无论周围环境的光照条件如何,都可以让Kinect感知世界的CMOS红外传感器。该传感器通过黑白光谱的方式来感知环境:纯黑代表无穷远,纯白代表无穷近。黑白间的灰色地带对应物体到传感器的物理距离。它收集视野范围内的每一点,并形成一幅代表周围环境的景深图像。传感器以每秒30帧的速度生成景深图像流,实时3D地再现周围环境。就像你玩pinpointimpression3D针模玩具一样,将你的手(或者脸,如果你愿意的话)按压在这种玩具上,就可以产生你身体某一部位的简单3D模型。如图2所示。图2pinpointimpression3D针模玩具2.2寻找移动部位Kinect需要做的下一件事是寻找图像中较可能是人体的移动物体,就像人眼下意识地聚焦在移动物体上那样。接下来,Kinect会对景深图像进行像素级评估,来辨别人体的不同部位。同时,这一过程必须以优化的预处理来缩短响应时间。Kinect采用分割策略来将人体从背景环境中区分出来,即从噪音中提取出有用信号。Kinect可以主动追踪最多两个玩家的全身骨架,或者被动追踪最多四名玩家的形体和位置。在这一阶段,我们为每个被追踪的玩家在景深图像中创建了所谓的分割遮罩,这是一种将背景物体(比如椅子和宠物等)剔除后的景深图像(如图3)。在后面的处理流程中仅仅传送分割遮罩的部分,以减轻体感计算量。图3Kinect追踪的骨架图2.3Exemplar(模型)系统:判断关节点真正的“魔术”在这里发生。分割化人的图像的每一个像素都被传送进一个辨别人体部位的机器学习系统中。随后该系统将给出了某个特定像素属于哪个身体部位的可能性。比如,一个像素有80%的几率属于脚,60%的几率属于腿,40%的几率属于胸部。这时候并不是就把几率最大的可能性当作结果,而是将所有的这些可能性输入到Exemplar(模型)系统进行处理中并且等到最后阶段再做判断。数以TB计的数据被输入到集群系统中来教会Kinect以像素级技术来辨认手、脚以及它看到的其他身体部位。下图(如图4)就是我们用来训练和测试Exemplar的数据之一。图4训练和测试Exemplar的效果图2.4模型匹配:生成骨架系统处理流程的最后一步是使用之前阶段输出的结果,根据追踪到的20个关节点来生成一幅骨架系统。Kinect会评估Exemplar输出的每一个可能的像素来确定关节点。通过这种方式Kinect能够基于充分的信息最准确地评估人体实际所处位置如图5所示。另外我们在模型匹配阶段还可以附加一些输出滤镜来平滑输出以及处理闭塞关节等特殊事件。图5生成的骨架图3Kinect体感技术的国内外研究现状Kinect传感器凭借其特性已经应用在医学、商业、计算机科学及机器人等很多领域,下面就其在相关领域的应用进行综述。3.1Kinect在医学领域的应用研究Kinect体感技术在医学领域的应用研究目前主要体现在临床医学、远程手术、医学教育和医学数据调查四个方面。3.1.1临床医学在临床手术中,有必要保持接受手术的病人周围的一切都是无菌的。然而,在手术中,外科医生还需要从计算机上查看患者的临床影像资料,计算机不是无菌的。传统的医生查看资料的方式既耗时又增加患者的感染几率。而在手术过程中借助Kinect设备可以有效的缓解这一弊端。由瑞士伯尼尔大学Michael.Tully教授等研究人员利用Kinect设备帮助医生解放了双手,医生无需像传统方式那样亲自接触患者的影像资料,只需要用手做出摆动就可以控制专为医疗图像浏览而设计的图像处理应用程序——OsiriXPACS[6](picturearchivingandcommunicationsystem:医学影像存档与通信系统)。该项研究利用Kinect非触摸的体感方式[7]可以更符合手术过程中的无菌化操作的要求并能有效避免手术过程中的交叉感染。国内西京医院骨科手术中也已经实现了使用Kinect设备体感控制患者的影像资料。Kinect设备同样在多伦多新宁医院(SunnybrookHospital)得到了应用,它允许外科医生在手术过程中以不用手的姿势来操纵计算机屏幕上的核磁共振成像图像[8]。这项新技术使手术过程更容易并且节省了手术所需的时间,临床手术中Kinect体感技术的应用必将成为一种趋势。3.1.2远程手术远程手术是将虚拟现实技术与网络技术结合,可以使得医生根据传来的现场影像对远程的患者进行手术操作,其一举一动可转化为数字信息传递至远程患者处,控制当地的医疗器械的虚拟现实系统。运程手术的技术目前尚未成熟,而Kinect体感技术的介入可以增加远程手术的可行性。西雅图华盛顿大学Biorobotics实验室的Chizeck等让Kinect传感器在远程手术过程中为外科医生提供触觉反馈。他们将PhantomOmni[9]触觉设备与Kinect设备连接,提供电阻式的反馈,以Kinect体感技术帮助建立物体的3D模型,并将数据转换为触摸反馈。这项研究实现了只要有卫星天线车的地方,医生就可以使用Kinect设备远程手术,因此可被广泛应用于救灾或者战场。3.1.3医学教育德国慕尼黑工业大学的一名学术研究员发明了一款命名为“Themagicmirror—魔镜”的设备。它是专门为方便解剖课程的教学所设计的,系统能够制造一种镜像的幻觉,让使用者像是在身上开个“洞”,看到自己的内脏。Kinect体感技术在现代医学教育中的研究,是现代医学教育方式的一个新的突破,若能得到实际应用则会对实现现代医学教育跨越式的发展具有十分重要的意义。3.1.4医学数据调查明尼苏达大学研究院的教授kolaosPapanikolopoulos及研究员们借助Kinect感应器观察并分析儿童的反常行为和动作,然后根据得到的客观数据衡量儿童的失调症状如孤独症、强迫症等,与以往的评估方式相比,这种基于Kinect体感技术观察和分析的方式会使得评估过程更简单数据也更真实。3.2Kinect在商业领域的应用研究Kinect凭借其出色的互动能力已经在商业方面得到了实际应用,如俄罗斯一家名为ARDoor的科技公司于2011年5月运用Kinect体感外设技术发明的一款“试衣魔镜”,当购物者站在这虚拟试衣镜前时,装置将自动显示试穿新衣以后的三维图像。俄罗斯的高街时装品牌TopShop在自己的店中安装了这款“试衣魔镜”,俄罗斯的消费者们成为率先体验这一高科技所带来的便利的受惠者。除了实际应用的成果以外,还有一些取得较好效果的研究成果,如黄康泉[10]开发的CoolView视频会议系统中整合了Kinect设备的部分功能,实现了手势控制PPT、自动识别与会人员的举手发言请求及实时3D捕获与显示等功能,提高了视频会议的交互性和真实感,该系统的实现进一步论证了Kinect体感技术在视频会议中的实用价值以及对视频会议系统发展创新的积极现实意义。3.3Kinect在科技助残领域的应用研究残障人是一个特殊困难的弱势群体,如何使弱势人群无障碍地融入到社会生活当中一直都是各国关注的热点,Kinect体感技术的出现为推动这一改善事业的进展起到了积极的作用,并且由已经取得的研究成果体现出Kinect体感技术在改善残疾人生活状况方面有着十分重要的现实意义。如德国康斯坦茨大学的Michael.Zollner[11]等开发的视觉障碍导航辅助(NavigationalAidsfortheVisuallyImpaired,NAVI)系统就实现了帮助盲人导航的功能,他们将Kinect设备固定在一个头盔上,将连接到Arduino[12]主板上的震动马达装在腰带上,再通过USB接口连接到背部的笔记本上,耳中戴有蓝牙耳机。当Kinect扫描到前方有障碍物时,通过软件的解读,腰带中的马达会震动,并且会发出转向提醒。与传统的导盲犬和手杖相比,这套系统能够在很远的距离提前提醒障碍物和方向,显示出了较强的实用性和有效性。罗元[13]等设计与实现的基于Kinect传感器的智能轮椅手势控制系统在智能轮椅研究方面取得了良好的进展,系统利用Kinect深度传感器所获取的图像深度信息实现手部从背景中的分割,并通过Hu矩[14],[15]基础上加入3个表达式,使不变矩包含更多细节特征,对手势目标进行识别,最后把得到的识别结果转换成控制指令通过Ad-Hoc网络传送给智能轮椅,实现运动控制。这些项目都可以很好的服务于残障人士,促进残疾人生活状况改善事业的重要发展。3.4Kinect在机器人领域的应用研究麻省理工学院的一个名为Warwick移动机器人的团队,将Kinect设备和救援机器人结合到一起,设计出一款新的机器人—Kinectbot。这个机器人利用Kinect传感器可以探测出人的存在,并且人们可以通过肢体动作和声音来控制这个机器人[16]。Kinectbot还能利用Kinect设备的画