hslogic短时幅度谱估计在语音增强中的研究和应用摘要语音处理过程中受到各种各样噪声的干扰,不但降低了语音质量,而且还将使整个系统无法正常工作。因此,为了消除噪声干扰,在现代语音处理技术中,工业上一般采用语音增强技术来改善语音质量从而提高系统性能。本论文基于短时幅度谱估计来研究语音增强,主要介绍了功率谱相减、维纳滤波法,并介绍了这几种语音增强方法的基本原理和实现方法。通过研究,我们得到在白噪声的条件下,这些语音增强方法具有很好的增强效果,可作为开发实用语音增强方法的基础。关健词:语音增强,短时幅度谱估计,功率谱相减,维纳滤波,白噪声AbstracthslogicVoiceprocessingisalwaysinflucencedbyavarietyofnoise,whichnotonlyreducesthevoicequality,butalsomakethewholesystembreak.Therefore,inordertoeliminatethenoiseinterference,inthemodernvoiceprocessingtechnology,wegenerallyusethevoiceenhancementtechnologytoimprovevoicequalityandsystemperformance.Inthispaper,wewillstudythespeechenhancementwhichisbasedshort-termratespectralestimation,wemainlyintroducespectralphase,Wienerfilteringmethod,andalsointroducedseveralmethodsoftherealizationandbasicprinciplesofspeechenhancement.Throughresearching,wegettheresultthatintheconditionsofwhitenoise,thesespeechenhancementmethodhasabesteffect,canbeusedasthebasementofspeechenhancementrealiaztion.Keywords:speechenhancement,short-termratespectralestimation,powerspectralsubtraction,Wienerfiltering,whitenoisehslogic第一章语音增强的研究背景及意义1.1语音增强的应用背景人们在语音通信过程中不可避免的会受到来自周围环境和传输媒介引入的噪声、通信设备内部电噪声乃至其他讲话者的千扰。这些干扰最终将使接收者接收到的语音己非纯净的原hslogic始语音信号,而是受噪声污染的带噪语音信号。例如安装在汽车、飞机或舰船上的电话,街道、机场的公用电话,常受到很强背景噪声的干扰,严重影响通话质量。又如有历史价值的旧唱片、旧录音带的噪声和失真等,都是带噪语音信号的例子。而且环境噪声的污染,使得许多语音处理系统的性能急剧恶化。例如,语音识别己取得重大进展,正步入实用阶段。但目前的语音识别系统大都是在安静环境中工作的。在噪声环境中,尤其是强噪声环境,语音识别系统的识别率将受到严重影响。低速率语音编码,特别是参数编码,也遇到类似问题。由于语音生成模型是低速率编码的基础,当模型参数的提取受到混杂在语音中背景噪声严重干扰时,重建语音的质量将急剧恶化,甚至变得完全不可懂。在上述情况下,语音增强或者作为一种预处理,,不失为解决噪声污染的一种有效手段。因此,或者为抑制背景噪声,提高语音质目前,语音增强已在语音处理系统、通信、研究语音增强技术在实际中有重要价多媒体技术、数字化家电等领域得到了量值越来越广泛的应用。语音增强的一个主要目标,就是从带噪语音信号中提取尽可能纯净的原始语音。然而,由于干扰通常是随机的,从带噪语音中提取完全纯净的语音几乎是不可能。在这种情况下,语音增强的目的主要有两个:一是改进语音质量,消除背景噪声,使听者乐于接受,没有疲劳感,这是一种主观测量:二是提高语音的可懂度,这是一个客观测量。但这两个目的往往不能兼得,所以实际应用中总是视具体情况而有所侧重的。在语音信号的理论和应用中,所用的语音数据大部分都是在接近理想的条件下采集的。大多数语音识别和语音编码在开始研究时都要在高保真设备上录制语音,尤其要在无噪环境下录音。然而,在语音通信过程中会不可避免的受到各种噪声的干扰,这种干扰将最终导致接收者接收到的语音信号已非纯净的原始语音,而是受到噪声污染后的带噪语音。正是由于这些污染,使得许多语音处理系统的性能急剧恶化。语音识别正在步入实用阶段,但识别系统大都是在安静环境中工作的,在噪声环境中尤其是强噪声环境,语音识别系统的识别率将受到严重影响。例如,在单个孤立词识别的系统中,用纯净语音训练后,其识别率可达到100%,但在以行驶的汽车噪声为背景的环境中,其识别率将会降至30%;低速率编码,特别是参数编码例如基于语音生成模型中涉及的LPCC系数求解,由于该系数对语音的编解码质量有重要的影响,而噪声的干扰使得求得的LPCC系数的准确度下降,从而使重建后的语音质量大幅下降,甚至变的完全不可懂。而特别遗憾的是,线性预测技术作为语音处理中最有效的手段,恰恰是最容易受到噪声影响的。因此,如何从带噪语音中尽可能的恢复原始纯净语音、去除噪声信号就成了语音信号预处理过程中的重要环节。在实际需求的推动下,早在60年代,语音增强这个课题就已经引起了人们的注意,此后的30年间人们一直契而不舍地进行这方面的研究。随着数字信号处理理论的成熟,70年代曾形成hslogic一个研究高潮,并取得一些基础性成果,并使语音增强成为语音信号处理理论的一个重要分支。这之后,随着超大规模集成电路和计算机技术的发展,为语音增强算法得以实验仿真和实时实现提供了可能,语音增强的研究进入了一个新阶段。然而,由于干扰通常都是随机的,从带噪语音过程中提取出完全纯净的语音几乎不可能。在这种情况下,语音增强的目的主要有两个:一是改进语音质量,消除背景噪声,使听者乐于接受,不感觉疲劳,这是一种主观度量;二是提高语音可懂度,这是一种客观度量。这两个目的往往不能兼得。语音增强不仅与信号处理技术有关,而且涉及到人的听觉感知和语音学。另外,噪声来源众多,随应用场合不同,其特性也各不相同。即使在实验室仿真条件下,也很难找出一种通用的语音增强算法适用于各种噪声环境。必须针对不同噪声,采取不同的语音增强对策。目前国外已产生的几种算法也都是针对不同的噪声源处理,减少和消除它们对原始语音的干扰。1.2对语音增强的研究的发展历史语音增强这个研究课题早在60年代即引起人们的注意,随着数字信号处理理论的成熟,70年代取得了一些基础性成果,并使语音增强发展成为语音信信号处理领域的一个重要分支;80年代及90年代初这十几年间,各种语音增强方法不断提出,进而奠定了语音增强理论的基础并使之逐渐走向成熟。随着数字信号处理的发展,以及DSP,FPGA的发展,越来越满足复杂的语音信号处理了。现将这些语音增强方法给予简单的介绍:·自适应梳状滤波由于语音中的浊音具有明显的周期性,这种周期性反映到频域中为一系列分别对应基频(基音)及其谐波的一个个峰值分量,这些频率分量占具了语音的大部分能量。这时可采用自适应梳状滤波器来提取基音及其谐波分量,抑制其他周期性噪声和非周期的宽带噪声。由于语音是时变的,语音的基音周期也是不断变化的,能否准确地估计出基音周期以及能否及时跟踪基音变化,是这种基于谐波增强法的关键。对人耳的听觉特性起主要作用的是语音频谱的幅度,而人耳对语音的相位是不敏感的。这样在进行语音增强处理的时候,就可将重点放在对语音幅度谱的精确估计上,对于语音的相位谱则允许有一定的误差(实际中,经常直接将带噪语音的相位谱作为语音信号的相位谱),以此为出发点,可以得到以下一些基于语音短时幅度谱的语音增强方法。·幅度谱相减对带噪语音信号进行傅立叶变换,在频域中从带噪语音的幅度谱上减去噪声的幅度谱来作为语音信号的幅度谱,而语音相位谱则近似用带噪语音的相位谱代替,这正利用了人耳对hslogic语音相位的不敏感性,这样即达到了消除噪声的目的,这就是幅度谱相减方法的基本原理这种方法针对的是加性不相关噪声。·功率谱相减法这种方法是从带噪语音功率谱中减去噪声的功率谱,从而得到语音信号的功率谱,进而决定语音信号各频谱分量增益,最终得到语音信号的估计。·维纳滤波法维纳滤波法是为得到语音信号的时域波形,在最小均方误差准则下得到的最优估计器。实际应用中,多采用非因果维纳滤波器的频域实现形式。·最小均方误差短时谱幅度估计器这种方法力图获得语音信号频谱幅度的最优估计,是从观测序列中依最小均方误差准则估计语音信号正交展开系数的模值。与两态软判决最大似然包络估计器一样,若考虑语音存在的不确定性,则可得到性能更优的最小均方误差短时谱幅度估计器。·隐马尔科夫模型语音增强方法语音信号可细分为不同的类型,如鼻音、摩擦音、爆破音等。对不同类型的语音,如果采用不同的最优滤波器进行滤波则能得到更好的效果。要表示这些语音类型,人们提出了语音的混合源模型,人们将语音看成由一定数量的子源组成的,每个子源代表一种语音类型。不同的语音类型也可理解为不同的语音状态,则一段语音可看成一个在不同状态间转移的马尔科夫过程,这就是语音的隐马尔科夫模型思想。同样对噪声也有其隐马尔科夫模型。这样在语音增强过程中就可针对不同语音状态选择不同的滤波器,这样就得到了隐马尔科夫模型语音增强方法。如果能正确建立语音和噪声的隐马尔科夫模型,用隐马尔科夫模型方法进行语音增强处理,只要噪声不是十分强,就能得到很好的结果。1.3噪声特性随着人们对语音增强研究的发展,人们越来越认识到语音增强不仅仅是一个单纯的语音信号数字处理问题,而且还涉及到人的听觉感知、语音学和语言学。另外,噪声来源很多,随运用场合而异,其特性也各不相同.因此,要想对语音增强有比较充分的了解,必须首先对语音和噪声的重要特性进行一番了解和分析。我们还必须认识到,要想得到一种可以适用于各种情形的语音增强算法是不可能的,必须针对不同的实际情况,采取不同的语音增强算法。下面我们先分别简略的叙述一下语音和噪声的主要特性。本章我们首先从语音和噪声的特性入手,对最常用也是最基本的谱相减法进行研究。以上我们介绍了听觉系统的生理机制以及听觉的基本特征,下面我们接着介绍一下常hslogic见的噪声。噪声来源取决于实际的应用环境,因而噪声特性可以说是变化无穷。噪声可以是加性的,也可以是非加性的,但是对于非加性的噪声,我们可以通过一些相应的变换(如同态变换和伪随机扰动)将其转化为加性噪声,所以我们这里讨论的主要是加性噪声。加性噪声大致上分为:周期性噪声、脉冲噪声、宽带噪声和同声道其他语音的干扰。1.周期性噪声其特点是具有许多离散的线谱,主要来源于发动机等周期性运转的机械。电气干扰,特别是电源交流声,也会引起周期性噪声.这种噪声可以通过梳状滤波器予以抑制。实际环境中的周期性噪声并非简单地只含线谱分量,而是由许多窄谱带组成,而且往往是时变的。2.脉冲噪声脉冲噪声表现为时域波形中突然出现的窄脉冲。它来源于爆炸、撞击和放电等。对它们的消除可以通过时域上设置闭值来加以抑制,也可以通过内插法进行平滑处理。3.背景噪声对发音的影响噪声使语音质量下降,可懂度降低。强噪声会使人产生听觉疲劳。不仅如此,强噪声环境还对讲话人产生影响,使讲话人改变在安静环境或低噪声环境中的发音方式,从而改变了语音的特征参数,这称为Lombard效应,它对语音识别系统有很大的影响。随着人们对语音增强知识的认识和发展,各种各样的语音增强算法都相应的发展起来。如前所述,由于噪声特性各异,总的来说,现在比较流行的算法主要有以下几种:1)小波分解法;2)听觉屏蔽法;3)噪声对消法;4)谐波增强法;5)基于语音生成模型的增强算法;6)基于短时