服务机器人语音交互解决方案

7713
1 ℃
2020-02-03

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

:2003210227;:2003211228:天津市自然科学基金资助项目(013602811);天津市高等学校科技发展基金资助项目(20030509)。:孙艺红(19722),女,山东牟平人,硕士研究生,主要研究方向为计算机应用等。ControlEngineeringofChinaMar.2004Vol.11,No.220043112:167127848(2004)02201842041,2(11东北大学信息科学与工程学院,辽宁沈阳10004;21天津职业技术师范学院,天津300222):、,、、,。;,。,、。:;;;:TP24216:A1/基于远程脑概念的机器人开发平台0项目在分析人类的认知过程、人类智能本质以及大脑小脑分工和协调配合工作机理的基础上,研究了远程大脑和机器人本体上小脑的分工、系统结构、工作原理,并构建了具有仿生功能的远程脑机器人控制体系。本文将研究在/基于远程脑概念的机器人开发平台0系统中如何有效实现人、机(机器人)语音交互。介绍了大脑相关的语音交互系统设计,以及小脑相关的语音功能实现,实际应用表明,该套综合解决方案具有较好的灵活性、智能性和实用性。2/基于远程脑概念的机器人开发平台0的系统基本结构如图1所示。操作者(用户)通过语音、鼠1/0标、键盘、手柄、急停开关等方式实现对机器人下达控制命令;其中语音交互方式最能充分体现机器人的智能性,而其他几种方式主要在复杂任务、特殊环境和非正常状态下起辅助控制输入作用。现有的语音交互系统,大多是基于PC机或数字信号处理(DSP,DigitalSignalProcessing)两者之一实现。但考虑到本系统中大脑和小脑在分工(分别处理任务级和动作级命令)、构成(大脑由并行PC机及专家系统构成,小脑由CPLD和多单片机网络构成)、处理能力等方面均有较大差别,实际开发平台综合应用基于PC机和MCU两种技术手段构建相对独立的两个语音交互系统分别完成上述功能。3大脑相关的语音交互系统的主要功能是对操作者下达的任务级命令进行预处理工作,其输出的命令清单为大脑的任务规划提供执行依据。1)概述大脑相关的语音交互系统是在商业化语音开发平台基础上进行二次开发,形成实用的语音交互子系统,作为整个系统人机接口的重要组成部分并与其他功能模块实现无缝集成。按照面向对象设计方法将各功能模块封装,可大大提高各模块的功能、可靠性和重用性[1]。2)平台选择目前,Microsoft,IBM等大公司均有相应的商业化的语音识别平台,本文分别研究了基于IBMViaVoice和MicrosoftSpeechAPI(简称SAPI)的二次开发。相比较而言,前者有较强的训练及学习功能,从而能够获得更好的、个性化的识别效果;后者基于COM(ComponentObjectModel,组件式对象模型)接口,且可以免费下载。本文介绍的大脑相关的语音交互系统设计正是基于SAPI进行二次开发而实现的。3)应用VC++实现对SAPI的二次开发SAPI可由任何一种支持COM的程序设计语言(如VC++,VB,Java,Delphi等)进行二次开发,下面以VC++实现语音识别部分为例(语音合成功能的实现相似),说明针对SAPI二次开发的一般过程和注意事项。¹增加程序对SAPI的支持通过如下几个主要步骤可以实现程序对SAPI的支持[2~5]:a1对COM的支持在主程序类的InitIn2stance()的最前面增加/AfxOleInit();0b1相关定义与引用在与语音交互相关的头文件中增加/#includesphelper1h0,在相关的执行文件中增加/#include0filename1hd0(由MicrosoftSpeechSDK中的语法编译器gc1exe生成的,用以定义一些与语音识别任务相关的常量的头文件),以及/#defineWM-RECOEVENT,,0(当SAPI处理识别任务时,将发送/WM-RECOEVENT0消息);在/protected:0段中增加如下3个关键的成员变量:/CComPtr3ISpRecognizer4g-cpEngine;0,/CComPtr3ISpRecoContext4g-cpRe2coCtxt;0以及/CComPtr3ISpRecoGrammar4g-cpCmdGrammar;0。c1消息映射://}}AFX-MSGafx-msgLRESULTOnRecoEvent(WPARAM,LPARAM);DECLARE-MESSAGE-MAP()//}}AFX-MSG-MAPON-MESSAGE(WM-RECOEVENT,OnRecoEvent)END-MESSAGE-MAP()º初始化SAPI初始化SAPI的主要步骤及相关函数如下:a1初始化COM:CoInitializeb1建立识别引擎:g-cpEngine1CoCreateInstancec1建立识别上下文:g-cpEngine-4CreateRecoCon2text(&g-cpRecoCtxt)d1确定响应窗口:g-cpRecoCtxt-4SetNotifyWin2dowMessagee1限制响应事件:g-cpRecoCtxt-4SetInterestf1建立语法:g-cpRecoCtxt-4CreateGrammar(0,&g-cpCmdGrammar);g1建立规则及确定规则状态:g-cpCmdGrammar-4LoadCmdFromResourceg-cpCmdGrammar-4SetRuleState»语法与规则的相关问题SAPI中语法建立与应用的主要步骤为:编辑XML(ExtensibleMarkupLanguage,可扩展标记语言)文件[6,7]y编译成CFG(context-freegrammar)文件y引入资源y建立规则及确定规则状态y应用。上述的/语法0不同于平常所理解的/语法0,而是SAPI在进行语音识别时使用到的语音识别规则。由于汉语是大字符集的语言,且具有五级语法单位(语素、词、短语、句子和句群),使得汉语语音识别问题具有特殊的复杂性[8,9]。在设计过程中,从项目实际需求出发,在对操作者的命令句型全面、深入分析的基础上建立相应规则,充分考虑覆盖性、可扩展性、编码/解码的惟一性、快速性、灵活性、资源优化等因素。4语音识别分为特定发音人识别(SpeakerDe2pendent)和非特定发音人识别(SpeakerIndepen2dent)方式。本文采用SPCE061单片机为核心的嵌入式系统实现机器人本体与操作人员(特定发音人)简单语音交互(识别、合成/回放)功能。1)SPCE061单片机简介凌阳公司基于系统芯片(SOC,systemonachip)的16位L.nSPTMCPU单片机采用模块式集成结构,其内核采用凌阳L.nsp(MicrocontrollerandSignalProcessor)16位微处理器芯片(L.nSPTM),同时集成不同规模的ROM,RAM和功能丰富的各种外设接口部件[10~12]。本文所采用的SPCE061A较高的处理速度使其能够非常容易地、快速地处理复杂的数字信号,从而在数字语音识别应用领域具有明显的优越性。2)硬件实现[12]语音识别电路基本结构如图2所示。由于语音具有较明显的不确定因素,预先制定好计算输入语音的特征模式与各特征模式的类似程度(或距离度)的算法规则固化在ROM中,把该距离最小(即最类似)的模式作为识别相应语音的手段。由于本系统采用特定人识别方式,所以扩展FLASH以存储训练的标准样板,从而不需要在每次上电复位后重复训练。#185#2:23)软件实现[12]程序包括训练样本、识别和语音提示3部分。其中语音识别程序包括识别程序和中断服务程序。识别程序完成选取词库、初始化A/D和定时器TimerA、识别运算及识别结果处理,流程如图3所示。中断服务程序定时读取A/D转换结果,并存入缓冲区,A/D的输入为MIC通道的语音信号。语音识别和放音分时复用TimerAFIQ中断,由标志位判断语音识别处理和放音处理。a1识别主流程图b1中断流程图35在实际开发与使用过程中,为提高系统灵活性,在大脑相关的语音交互系统设计中应用历史命令记录与重选等功能,进一步完善了语音交互与其他辅助方式的配合;在小脑相关的语音功能实现上通过软、硬件综合抗干扰手段大大提高了系统的可靠性。上述解决方案已成功应用在TVT032A服务机器人系统开发平台中。实际应用表明,该套综合解决方案具有较好的灵活性、智能性和实用性。未来将在公众语音交互方面作进一步研究。:[1][美]BrueggeB,等.吴丹,等译.面向对象的软件工程)构建复杂且多变的系统[M].北京:清华大学出版社,2002.[2][美]RogersonD.杨秀章,译.COM技术内幕)微软组件对象模型[M].北京:清华大学出版社,1999.[3]潘爱民.COM原理与应用[M].北京:清华大学出版社,1999.[4]李明柱,等.VisualC++最新编程实践与技巧[M].北京:北京航空航天大学出版社,2000.[5][美]MuellerJP.希望图书创作室,译.VISUALC++6从入门到精通(第二版)[M].北京:北京希望电子出版社,1999.[6][美]HoaroldER.康博创作室,译.XML实用教程[M].北京:机械工业出版社,1999.[7][美]HlznerS.潇湘工作室,译.XML使用详解[M].北京:机械工业出版社,1999.[8]朱民雄,等.计算机语音技术(修订版)[M].北京:北京航空航天大学出版社,2002.[9]姚天顺.自然语言理解(第二版)[M].北京:清华大学出版社,2002.[10]薛钧义,等.凌阳16位单片机原理及应用[M].北京:北京航空航天大学出版社,2003.[11]谭家玉.单片机原理及接口技术)凌阳16位及51系列8位单片机[M].哈尔滨:哈尔滨工业大学出版社,2003.[12]李晶皎.嵌入式语音技术及凌阳16位单片机应用[M].北京:北京航空航天大学出版社,2003.SettlePlanofSpeechInteractionofServeRobotSunYi2hong1,LiuYuan2(1.InstituteofInformation&Science,NortheasternUniversity,Sheyang10004,China;2.TianjinUniversityofTechnologyandEducation,Tianjin300222,China)Abstract:Besedonremote2brainconceptanalyses,thecognitiveprocess,theessenceofaptitude,themechanismofdifferenta2tionoflaborofcerebrumandcerebellumaredealtwith.Thefunctionandsituationofspeechinteractionofrobotdevelopingplat2formbasedonremote2brainconceptarediscussed.ThedesignofthespeechinteractionsystemassociatedwithcerebrumbasedonCOM,andthespeechfunctionassociatedwithrobotbodyareintroduced.Theresultsofpracticalapplicationindicatethatthissettleplaniswithflexibility,intelligenceandpractibility.Keywords:serverobot;speechinteraction;componentobjectmodel;embeddedcomputersystem#186#11