语音识别的研究现状和应用前景语音识别技术并不是一夜之间冒出来的神话,早在三四十年前,在美国的一些大学和研究单位,就已经有人开始从事这一方向的研究,并有一些相关论文发表;七十年代前后,研究的脉络日渐清晰,于是贝尔实验室和国际商用机器公司(IBM)等都先后建立了专门的研究机构。今天这两家公司在这一领域都已取得了显著的成果,并且在商业上应用成功,但贝尔实验室主要是偏重于电信方面应用的语音识别系统,如电话查询等;而IBM则偏重于商务应用,因而在连续语音识别上取得了不小的成功。不谈商业方面的应用,事实上,很多家公司都提供语音识别的引擎(Engine),并且都表示能支持微软的SAPI。看一看SAPI4.0SUITE就不难发现,微软在这方面的研究并不逊于任何一家公司,只是很奇怪它居然没有将成果商业化。微软同时提供了一系列引擎,如SpeechRecognition(语音识别)、Command&Control(发布指令并控制)、PhoneQuery(电话语音识别)、Texttospeech(文本语音转换)等。今天,许多用户已经能享受到语音技术的优势了,可以对计算机发送命令,或者要求计算机记录下用户所说的话,以及将文本转换成声音朗读出来。尽管如此,距离真正的人机自由交流的前景似乎还远。目前,计算机还需要对用户作大量训练才能识别用户的语音。并且,识别率也并不总是尽如人意。换言之,语音识别技术还有一段路需要走,要做到真正成功的商业化,它还必须在很多方面取得突破性进展,这实际就是其技术的未来走向。就算法模型方面而言,需要有进一步的突破。目前能看出它的一些明显不足,尤其在中文语音识别方面,语言模型还有待完善,因为语言模型和声学模型正是听写识别的基础,这方面没有突破,语音识别的进展就只能是一句空话。目前使用的语言模型只是一种概率模型,还没有用到以语言学为基础的文法模型,而要使计算机确实理解人类的语言,就必须在这一点上取得进展,这是一个相当艰苦的工作。此外,随着硬件资源的不断发展,一些核心算法如特征提取、搜索算法或者自适应算法将有可能进一步改进。可以相信,半导体和软件技术的共同进步将为语音识别技术的基础性工作带来福音。就自适应方面而言,语音识别技术也有待进一步改进。目前,象IBM的ViaVoice和Asiaworks的SPK都需要用户在使用前进行几百句话的训练,以让计算机适应你的声音特征。这必然限制了语音识别技术的进一步应用,大量的训练不仅让用户感到厌烦,而且加大了系统的负担。并且,不能指望将来的消费电子应用产品也针对单个消费者进行训练。因此,必须在自适应方面有进一步的提高,做到不受特定人、口音或者方言的影响,这实际上也意味着对语言模型的进一步改进。现实世界的用户类型是多种多样的,就声音特征来讲有男音、女音和童音的区别,此外,许多人的发音离标准发音差距甚远,这就涉及到对口音或方言的处理。如果语音识别能做到自动适应大多数人的声线特征,那可能比提高一二个百分点识别率更重要。事实上,ViaVoice的应用前景也因为这一点打了折扣,只有普通话说得很好的用户才可以在其中文版连续语音识别方面取得相对满意的成绩。就强健性方面而言,语音识别技术需要能排除各种环境因素的影响。目前,对语音识别效果影响最大的就是环境杂音或嗓音,在公共场合,你几乎不可能指望计算机能听懂你的话,来自四面八方的声音让它茫然而不知所措。很显然这极大地限制了语音技术的应用范围,目前,要在嘈杂环境中使用语音识别技术必须有特殊的抗嗓(NoiseCancellation)麦克风才能进行,这对多数用户来说是不现实的。在公共场合中,个人能有意识地摒弃环境嗓音并从中获取自己所需要的特定声音,如何让语音识别技术也能达成这一点呢?这的确是一个艰巨的任务。此外,带宽问题也可能影响语音的有效传送,在速率低于1000比特/秒的极低比特率下,语音编码的研究将大大有别于正常情况,比如要在某些带宽特别窄的信道上传输语音,以及水声通信、地下通信、战略及保密话音通信等,要在这些情况下实现有效的语音识别,就必须处理声音信号的特殊特征,如因为带宽而延迟或减损等。语音识别技术要进一步应用,就必须在强健性方面有大的突破。多语言混合识别以及无限词汇识别方面目前使用的声学模型和语音模型太过于局限,以至用户只能使用特定语音进行特定词汇的识别。如果突然从中文转为英文,或者法文、俄文,计算机就会不知如何反应,而给出一堆不知所云的句子;或者用户偶尔使用了某个专门领域的专业术语,如信噪比等,可能也会得到奇怪的反应。这一方面是由于模型的局限,另一方面也受限于硬件资源。随着两方面的技术的进步,将来的语音和声学模型可能会做到将多种语言混合纳入,用户因此就可以不必在语种之间来回切换。此外,对于声学模型的进一步改进,以及以语义学为基础的语言模型的改进,也能帮助用户尽可能少或不受词汇的影响,从而可实行无限词汇识别。任何技术的进步都是为了更进一步拓展我们人类的生存和交流空间,以使我们获得更大的自由,就服务于人类而言,这一点显然也是语音识别技术的发展方向,而为了达成这一点,它还需要在上述几个方面取得突破性进展,要实现这一点,Intel架构平台的性能进步也是一个关键的因素,最终,多语种自由交流系统将带给我们全新的生活空间。语音识别技术的广阔应用前景语音识别技术的发展的确经历了一个漫长的渐进过程。二十多年前,它还只是科研人员在实验室里描述的一个梦想般的希望,但两个方面的进步终于促成了这一技术的平民化。其一,半导体技术的发展使得以前只有在巨型机上才能进行的语音识别系统如今在微机上就可以实现。无疑,英特尔公司在这其中扮演了重要的角色,今天,多数的普通家庭都对“IntelInside”这样一句广告词耳熟能详,并且也具备足够的支付能力来使用一台高性能微机;其二,软件技术的演进也使得这项技术走向实用,一些核心算法,如特征提取、语音的声学摸型及相应的语言模型,搜索算法及自适应算法等都取得了长足的进展。软硬件技术的有效结合为我们提供了一种全新的远景。很显然,语音处理正在革新这个世界,因为一旦赋予人类语音以力量之后,任何会说话的人都将能自由地应用这种技术。并且,这也是现存的最为自然的用户界面。多数人可能都怀着一种模糊而激动的心情期待着这一新技术的来临,然而,语音识别技术确切地能够为我们带来什么呢?许多行业还并未清晰地意识到该技术所可能开拓的广阔空间。但是,就目前的发展势态及技术进步来看,它将有可能涉足人类生活的每一领域。目前,在信息处理、教育与商务应用、消费电子应用方面,语音识别技术都已经展现出了它的巨大优势。一、语音识别技术在信息处理领域的应用:个人电脑的普及在中国一直有着不小的障碍。多数的中国用户往往会被其复杂的用户界面弄得不知所措。此外,汉字输入也是计算机应用的一个困难,即使五笔字型已经如此著名,但愿意花时间去学并且学好的人也并不很多,而拼音输入对于发音不太准或拼音基础不好的人来讲也成问题。因此,语音识别技术至少首先在这两个方面有着广阔的应用。简单地讲,语音识别技术在信息处理领域的首要的巨大应用将在于提供了一种全新的人机交互形式,在这样一种形式之下,将会拓展出许多应用分支:1.给计算机发送指令(Command&Control):Windows的图形用户界面虽然已经大大简化了操作环境,但大多数用户仍然会在其中迷失方向。而且,日益出现的新领域也超过了一般用户的理解能力。而现在,随着语音识别技术的应用,计算机将会象是一位与你交谈的伙伴,你可能只需要对着话筒说几句话,就可以实现那些隐藏在Windows层层菜单后面的功能。目前,国际商用机器公司(IBM)在这方面已经有成熟的产品。国内购买联想微机的用户想必已经体到了这一技术的优势,语音输入已经取代键盘和鼠标成为你与计算机交流的又一方式。2.听写系统(Dictation):去年9月4日IBM在人民大会堂召开的新闻发布会上就宣布了这一成熟技术商品化应用的成功,它的最主要特征是实现了中文连续语音识别,这标志着中文语音识别技术划时代的进展,,这套系统还实现了非特定语音的识别,中文输入速度可达到平均每分钟150字,平均最高识别率达到95%,并具有“自我”学习的功能,很显然这将大大降低计算机应用的障碍,并简化了信息处理的方式。3.信息查询:由于语音识别技术使得计算机能够听懂指令,因此,将语音识别、语言理解与大量的数据库检索和查询技术相结合,就能够实现更轻松的信息查询方式。比如,图书馆的资料信息将能够对来自用户的语音输入进行理解,并将它转化为相应的指令,从数据库中获取结果并返回给用户。公司的决策者也不用再花很多时间来研究如何使用软件,他只要对着计算机表达出他所需要的信息就可以了,使用者通过简单的命令就可以获得当下的资料。4.网上交谈:可能对于多数中国用户来讲,网上交谈还是一个憧憬,但实际上技术就在你的身边,你只需要拿起来使用就可以了。网上交谈有两个层次,目前很流行的聊天室还限于文字层面,你尽可以对着话筒说就是了,计算机将及时把它转成文字并发送出去;最为理想的网上交谈是语音识别技术、机器翻译技术和语音合成技术的完美结合,这意味着你可以面对世界上任何地方的某个人,虽然你们彼此并不懂对方的语言,而且远在天涯,却可以自由地交谈。当你对着话筒说完后,计算机会识别你的语音并转化为文字,而机器辅助翻译则会马上将这些文字翻译成对方的文字并传送过去,对方的计算机则将这些文字再合成为语音并读出来,整个过程类似于同声传译,只是机器在这里充当了主角。二、教育与商务应用;在教育与商务领域,语音识别技术的应用前景也是广泛的。1.语音教学软件就教育领域来讲,语音识别技术的最直接的应用就是帮助用户更好地练习语言技巧。在过去,用户只是通过简单的模仿来进行学习,而无法精确地比较自己发音的差异,我曾见过一家美国公司开发的一套《TalktoMe》,当用户跟着计算机说完一句话后,计算机会同时显示标准发音和用户发音的波形比照图,并给出分数。用户通过比较波形图就可以发现自己在某个发音细节方面的差异,并且可以反复对比倾听来体会这种差异。同时,基于语音比较技术而给出的分数也更具有公正性,并可以激励用户的学习潜质;我还见过另一家美国公司开发的一套幼教儿童产品,孩子可以对着话筒指挥动物做各种动作,从而借此来学习语言技能,不难想象,将语音技术应用于教育方面的空间是极其巨大的,目前双语公司也正考虑推出这方面的产品。2.电话查询:语音识别技术的另一个发展分支就是电话语音识别技术的发展,贝尔实验室是这方面的先驱,电话语音识别技术将能够实现电话查询、自动接线以及一些专门业务如旅游信息等的操作,但电话语音识别的难度还包括对冗余信息的处理,因为人们的日常口语中多数是没有特定意义的。我曾见过贝尔实验室和菲利普公司各自开发的电话查询系统,都已做得相当出色,电话彼端的计算机系统处理来自查询者的信息并作出相应的应答,比如查询天气信息、公司特定员工电话号码等等。3.电子商务:随着网格技术的进一步发展,电子商务也正在日渐流行,设想一下,你也许只需要坐在家中,通过向计算机发布命令就可以实现网上购物,从而免掉跋涉之劳,语音识别技术和电子商务的结合,将创造一种全新的交易方式。类似的,语音技术还可以用于声导系统等,总之,它将有可能改变我们的整个商业运作模式,并创造更大的便利。三、消费电子产品应用计算机的发展方向将可能使得语音识技术在手持电脑上进行,乃至固定到一个小小的芯片上,假如确实能够在一个指头大小的芯片上应用语音识别技术,那将不仅仅只是给用户带来一些方便而已。事实上,将这些算法嵌入到更小的芯片中去,将为语音识别应用开拓更新的领域。现在,一般的家电产品,机械系统乃至各种小型特别专用系统都是通过微处理芯片进行控制的,设想技术的发展使得我们能够在这些芯片上集成一些算法,就可以部分地或全部地实现语音控制的功能,只要发布一个指令,机器(或电子产品)就能够理解,并按照这样一个指令去执行一系列包括各种操作的动作。设想你下了班回家,也许只需要坐在客厅里说几句话,房间里便能响起柔和的音乐,厨房里就自动开始烹调食品等等,简单地讲,你将发现一切都是