中文语音处理技术在数字助听器中的开发和应用技术分类:医疗电子|2008-06-13半导体应用网目前国外对助听器研究发展的一个热点则是集中在中国,确切地讲是基于对汉语语言和语音研究,开发相关的语音识别技术和产品。为中心的中文听力学也不例外。我们已经知道听觉科学是一门发展迅速、知识更新很快的一门学科,它所研究的对象以人的听觉为中心,现在我们将介绍和讨论科学家和听力学家更关心的是怎样将听觉科学运用到中国人的听觉和言语实际中去。汉语是具有特征化的音调性语言,与其他以拼音字母为主的语系,如斯拉夫语系等具有很明显的语音学差别。这种差别不仅仅在语言特征上非常明确,在具体使用时,区别也很大。是否不同语系的不同语音特征会影响听觉受损患者对言语的理解,尤其是在使用基于不同语系研究成果制作成的助听器时,这种语音的差异是否起到重要作用,最近已成为学术和科研的一个热门课题。比如国内研制的人工耳蜗的一个特点便是在设计其算法时考虑到中文语音特点。国外助听器厂商将在近期推出以中文语音为特征算法的助听器。加拿大在中国的一语音实验室通过多年的研究和实验,早在2000年运用领先的数字信号处理(DSP)技术,在其数字助听器中加入中文语音算法,并同时申请了相关专利。目前他们率先推出的以中文语音处理技术为核心的全新数字助听器—Intelligia,在临床试验中得到受试者的认可,初步证明这种新型助听器对说以中文为母语的患者有益处。目前研究的结果表明,不同的语系,如汉语和英语有各自特点,在听觉感知过程中有很大差别。英文和汉语在语音和口语上有重要区别,Ming-XiTsaielal(2000)认为汉语和英文语音在结构上特征区别很大。汉语的词、字、音节和声、韵母分节含有不同层次的信息,并保持复杂的关系。在口语中,汉语发音差异也很大,在不同会话条件下,受到这些结构中不同层次信息的影响。对中文语音识别和中文语音音调的研究表现在人工耳蜗的算法上面。言语处理策略是人工耳蜗帮助患者理解语言核心技术,已有大量研究。但对于言语声尤其是声调、语调的研究,比如对以语调为基础的汉语研究还是很少。在最近的一个试验中,他们用澳大利亚人工耳蜗来观察对汉语语音理解的影响。结果表明在某些言语处理策略中汉语的使用的理解度要高于其他时间策略。如果能提高刺激率,加强对语音和音调的理解,他们也认为不同的言语处理策略对汉语说法也有理解。研究再次证明,汉语应该有一定的语音系统处理自己的语言,尤其是对听障人士尤为重要。美国麻省理工学院研究者MichaelQin在其《在噪音背景发音和音调的辨认》的试验中,对汉语普通话音调的辨认和噪音的关系进行了研究。他认为不同的语言利用不同类型的声调使我们口语富于不同的意义,在噪音环境下这些有意义的声调会受到影响,因此他需要发现说普通话的中国人怎样在噪音环境里辨认不同的声调。在试验中他使用6个辅元音的音位,同时使用4个声调:阴阳上去。其结果表明在信噪比降低的情况下,对汉语声调和元音的识别受到很大影响,从而影响降低言语的理解能力。因此信噪比影响理解中文很重要的因素。这个试验对听觉康复和设计有针对性的助听器具有重要意义。同时,最近美国成立了一个综合性专家研究小组,开始研制适合中文语音的助听器。该小组成员包括世界闻名的豪斯耳研究院、香港中文大学耳鼻喉科等。与上述研究类似。他们认为在聆听以声调作为识别语音和语义的语言时,如普通话、广东话和泰国语等,可能听觉更重要的是依靠基频相关的信息来理解语言,这是与别的语言不同的。因此,在研制助听器时,我们应该考虑到这些患者的语言特点。当然,笔者最感兴趣的是最近由威耳康研究基金(WellcomeTrust)赞助的一项题为《中文普通话会话者在理解语言时比英文会话者用脑更多》的试验,其目的是使用影像技术来观察和研究中文母语和英文母语说话者大脑出现的不同活动。主持该项研究的心理学家索菲斯高特博士发现,当英语的受试者听到英文时,其左颞叶变得异常活跃,研究者认为这个区是把言语声组合在一起形成独立的字词。但是当中文受试者听到普通话时,其左右颞叶同时活跃起来。显然,由于说不同语言的受试者用他们大脑的不同区域对不同语言的刺激进行解码。这对我们理解这些理论产生了很大的影响。他们进一步认为中文受试者的左颞叶处理语音信号,而他们的右颞叶则处理声调,同时产生意义。言语声是非常复杂的声音,而正确理解言语传递的意思,在这种情况下,大脑会充分利用说话者抑扬顿挫的声调来对其言语进行解码,从而将口语变成有意义的信号。大脑听觉区域很容易受外部影响,而改变对声音的分辩能力。一旦听觉受到损伤,必需进行康复,大脑需要重新连接和编码。大脑的可塑性是很强的。了解大脑对不同语言的反应,可以有效地帮助听觉患者重新恢复对语言的理解。重要的是基于这些研究,我们可以清楚地看到研制出具有中文语音特征的听力康复设备。记得在2002年北京大学和中国残联成立言语听觉中心的开幕式上,邓朴方先生在发言中专门谈到:他第一次听说中文语音处理特征对助听器使用者的影响,他认为这是一个重要课题,需做大量工作,而研制出以中文语音为特征的听觉康复设备将会有重要的意义。根据国际确认的听损发病率,中国有10%的人口,即一亿三千万人有不同程度听力损失,因此,利用中文语音处理技术更有效地帮助听残患者具有非常重要的作用。一.中文语音技术处理原理中文语音处理策略的英文词有“Chinesespeechprocessingstrategy”或“Chinesespeechrecognition”,(中文语音识别)和“hearingaidalgorithm”(助听器算法)等。其中,algorithm,即“算法”一词使用较多,尤其涉及到数字助听器的开发,“算法”代表了某一特殊技术的核心。“算法”可以被简单地看作为实现某些特定信号处理功能的指令序列。中文语音特征可以通过算法研究来形成的。数字信号处理器和算法构成了数字助听器的DSP线路。包含多通道动态范围压缩、噪音衰减等处理,设计助听器的算法的主要目标是利用中文语音处理技术,即使在不同的听音环境中,须确保言语被听见并聆听舒适。同时,利用数字助听器改善汉语可懂度,使有听力损失的中国患者能更容易地理解汉语。汉语是声调单字语言,声调是汉语的重要语音特征之一。声调特征主要体现在嗓音基频随时间变化的模式上。Eady技术(1982)曾考察过声调语言—汉语的基频模式与重音语言—英语有什么不同。汉语的声调在词语中具有辩意作用,在生活实践当中,大家也都能体会到声调有助于我们听懂别人的话,而“南腔北调”常表示不易听懂和不大好懂和不大好听的意思。对于连续言语来说,长时间平均的正、负颤动因数,各种语言和男女发音人是差不多的。只是负颤动总是比正颤动大,而且出现频率也较高。Eady的测量结果表明,汉语的说话速度要比英语慢一些。这可能是由于说汉语时,说话人要花更大的努力在每一个音节上来控制声带运动,也就是说声调语言的音节喉运动控制有较大的语言学负荷,因而花的时间就多一些。结果就表现为说话慢一些。因此,声调信息主要存在于基频随时间的变化中,强度变化对声调信息有补偿作用,以及清辅音的存在与否对声调清晰度是有一定的影响的。原理(Principles)本文介绍一种可应用于数字助听器的提高汉语可懂度的语音处理方法,其目标是使以汉语为母语的听残人士能更容易地理解语言。增强言语可懂度的思路来源于人们的实践经验。回想一下,当你为使一个有听力障碍的人更容易听懂自己说话时所采用的方法:你不仅仅要提高音量,而且还要改变发音方式,说得更慢和更清晰。一些研究表明清楚地读无意义的语句,比在日常会话句子,大约能提高17%的单词可懂度。这里所谓说得更清晰是指强调言语信号中的某些暗示,这些暗示有许多不同的形式,如特定音段的持续时间,元音的共振峰位置或者音素之间的过渡等。不是所有人都会简单地、方便地对听力损失患者“清楚地”讲话。因此,我们要采用言语增强的方法就是在说话人和听话人中间构造一个处理模型,该模型能强调并突出语句中的特定成分,使语句听起来更清晰。一切语音之所以能够表达意义,是由于各个音之间存在区别。这些区别产生于声腔内部的器官和肌肉等活动决定的发音方法和发音部位的差异,同时又表现为语音的声学特征的差异。本文提出的言语增强的方法正是通过对语音信号的重构来强化这些差异。所谓重构是指对语音信号中不同性质的信号进行识别并有针对性地予以处理,强调其中对人的感知起作用的特征,从而达到提高言语清晰度的目的。该方法可以简单地概括为:放大辅音、强调重音和突出声调.汉语语音信号的感知特点声调声调的调类声调的感知主要依据基频的变化声调音高的变化对音长和音强都可能产生影响重音轻重音的声学特性与实际音强有密切关系,但并不相等还要受音色、音高和音长的制约感知特点:分辨轻重音时,音强往往并不是决定性因素1)辅音放大(ConsonantAmplification)言语知觉的心理实验证实了如下特点:人在言语感知过程中,对语音信号载荷的关于发音方法和发音部位的分辨信息的知觉能力存在强弱差别。总体上说,人对发音方法比对发音部位有更好的分辨能力。而方法清晰度与辅音清晰度的关系很相近。在汉语辅音的发音方法的知觉重要性中,存在清与浊、送气与不送气、摩擦与非摩擦的从强到弱的位次关系。研究表明,相对加强辅音有助于改善语音清晰度。Kates描述了放大辅音的方法,图1是其中被广为采用的一种模型。该系统把信号分解成几个波段,在每个波段检测短时谱形,根据谱形识别元音和辅音,对辅音则给予放大。需要指出的是,杜利民等提出了汉语语音导引特征的概念,从声学信息计算检测的角度为为汉语自动语音识别系统提供了一种辅助匹配结构。图1辅音增强系统1.TOCCATA数字信号处理系统ToccataTM系统是微型、超低功耗、高效率的数字信号处理系统。它包括一个高保真加权叠加滤波器组(WOLAfilterbank)、一个16位DSP核心、两个14位A/D转换器、一个14位D/A转换器和其它外围设备。ToccataTM技术提供标准的软件可编程的DSP开发平台和采用0.18μ工艺制造的微型超大规模集成电路。它不但为音频处理系统制造商也为其它基于DSP的微型、低功耗产品的开发提供了便利。[4]a.硬件结构(HardwareStructure)图4硬件系统结构图TOCCATA系统由三块芯片组成,一个“模拟”芯片(ALPHA),一个“数字”芯片(DELTA),和一个用于无电存储的E2PROM芯片。ALPHA芯片ALPHA芯片包括输入和输出放大器,二个A/D转换器,一个D/A转换器,以及主时钟及供电系统。DELTA芯片DELTA芯片包括了16位软件可编程DSP核心,一个WOLA滤波器组协处理器,一个DMA控制器(输入输出处理器或IOP)和存储器(RAM和ROM)。可编程核心和灵活的滤波器的组合允许通过软件改变信号的处理方式。因而,该结构可以执行传统的音频处理系统处理方案(例如双通道压缩),当然通过DSP核心,也可以执行更强大的处理方案(例如16通道乃至更多通道的压缩,降噪,抑制反馈等)。DSP核心和指令系统(DSPCore)RCORE是一个灵活的DSP核心,采用带单周期连乘累加操作和40位累加器的双哈佛结构。外围组件通过一个由扩展寄存器、存储器映象寄存器和共享存储器组成的复合体提供。信号路径图5.Toccata系统提供的信号路径Intelligia数字助听器结构Intelligia全数字助听器是基于上述介绍的芯片的技术特点设计的,其结构可由图6表明。尽管同模拟助听器一样,数字助听器也使用麦克风和接收器作为能量转换器,但在数字信号处理器中经A/D采样后,电平信号已被转化为数字编码。数字编码能够非常灵活地被加以利用来提供增益、改善频响,或按患者听力的要求作其它处理。当DSP算法完成后,数字编码又被D/A转换为电平信号,并经由接收器转换为声音。图6简单的数字助听器结构图数字助听器的关键在于具有信息处理系统,这里以一款基于现进数字信号处理系统ToccataTM,开发出的全数字助听器Intelligia,具有独特的中文语音处理功能。Intel