语音增强原理及应用的讨论内容语音增强相关概念语音增强基本原理及应用语音增强的定义语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。一句话,从含噪语音中提取尽可能纯净的原始语音。语音增强的目标改进语音质量,消除背景噪音;提高语音可懂度!两者往往不能兼得,所以实际应用中总是视具体情况而有所侧重的!语音噪声类型带噪语音的噪声类型按与信号关系可以分为加性噪声和非加性噪声。加性噪声有宽带的,窄带的,平稳的,非平稳的,白噪声,有色噪声,等;非加性噪声如乘性噪声,卷积噪声等。语音噪声类型加性噪声:一般指热噪声、散弹噪声等,它们与信号的关系是相加,不管有没有信号,噪声都存在,信号与噪声是相互独立的!加性噪声来源一殷可以分为三方面:(1)人为噪声;(2)自然噪声;(3)内部噪声。语音噪声类型乘性噪声:一般由信道不理想引起,它们与信号的关系是相乘,信号在它在,信号不在他也就不在。一般通信中把加性随机性看成是系统的背景噪声;而乘性随机性看成系统的时变性(如衰落或者多普勒)或者非线性所造成的。其他常见噪声名词白噪声:表示在全频域内单位频域下都分布有相同的能量密度,在线性空间内它具有平坦的频谱。换句话说,一定频域内的白噪声在其中任意给定的带宽内都具有相等的功率。随机噪声:噪声波形是随机的,不可预测的。平稳噪声:是指分布参数或者分布律随时间不发生变化的噪声。语音噪声特性一般,语音增强处理的噪声指环境中的噪声,而这些噪声主要是高斯白噪声,这种噪声一般符合如下的假设:(1)噪声是加性的。(2)噪声是局部平稳的。局部平稳是指一段加噪语音中的噪声,具有和语音段开始前那段噪声相同的统计特性,且在整个语音段中保持不变。也就是说,可以根据语音开始前那段噪声来估计语音中所叠加的噪声统计特性。(3)噪声与语音统计独立或不相关。到底什么是傅立叶变换?有时信号在时域特征不明显,我们通常的将它变换到频域,这时会用到傅里叶变换,那么傅里叶变换到底是什么呢?傅里叶变换是将时域信号分解为不同频率的正弦信号或余弦函数叠加之和。连续情况下要求原始信号在一个周期内满足绝对可积条件。离散情况下,傅里叶变换一定存在。到底什么是傅立叶变换?一个恰当的比喻是将傅里叶变换比作一个玻璃棱镜。棱镜是可以将光分解为不同颜色的物理仪器,每个成分的颜色由波长(或频率)来决定。傅里叶变换可以看作是数学上的棱镜,将函数基于频率分解为不同的成分。当我们考虑光时,讨论它的光谱或频率谱。同样,傅立叶变换使我们能通过频率成分来分析一个函数。到底什么是傅立叶变换?在频域中,频率越大说明原始信号变化速度越快;频率越小说明原始信号越平缓。当频率为0时,表示直流信号,没有变化。因此,频率的大小反应了信号的变化快慢。高频分量解释信号的突变部分,而低频分量决定信号的整体形象。l语音增强常用方法根据语音和噪声的特点,出现了很多种语音增强算法。语音增强方法有噪声对消法、谱相减法、维纳滤波法、卡尔曼滤波法,FIR自适应滤波等。其中谱相减法、wiener滤波,卡尔曼滤波是常用增强方法,下面简单介绍下其原理。维纳滤波维纳滤波方法采用最小均方误差准则设计一个数字滤波器,带噪语音信号通过此滤波器便得到语音信号的估计。维纳滤波器频域表达式为:𝐻𝑤=𝑃𝑠(𝑤)𝑃𝑠𝑤+𝜆𝑑(𝑤)𝑃𝑠(𝑤)和𝜆𝑑(𝑤)分别是纯净语音和噪声的功率谱密度。维纳滤波器是在平稳条件的最小均方误差意义下的最优估计。维纳滤波适用范围:平稳随机过程。从理论上说,维纳滤波的最大缺点是必须用到无限过去的数据,不适用于实时处理。当长度为N(«∞)时,为FIR维纳滤波器,其精度与N有关,实现的主要困难时计算量大,因此不是一个有效方法。为克服这一缺点,60年代卡尔曼把状态空间模型引入滤波理论,导出一套递推估计算法,这就是在维纳滤波的基础上发展起来的卡尔曼滤波。卡尔曼滤波卡尔曼滤波的基本思想:采用信号与噪声的状态空间模型,利用前一时刻的估计值和当前时刻的观察值来更新对状态变量的估计,以求现时刻的估计值。其特点:(1)无需采用全部过去的观察值进行估计,适合于实时处理。(2)用状态方程和量测方程表示信号和噪声,采用递推法进行计算,适合于计算机求解。适用范围广:平稳或非平稳,时变或非时变系统。谱减法的基本原理将含噪语音信号和有声/无声判别得到的纯噪声信号进行FFT变化,从含噪语音幅度谱的平方中减去纯噪声的幅度谱的平方,然后开方,得原始语音谱幅度的估值,再借用含噪语音的相位,进行IFFT变化,得到增强的语音。+-含噪语音纯噪声原始语音谱幅度的估值()jXe()dn()sn()jDearg(())jjXee22()()jjXeDe22()()()jjjXeDeSe()xnDFT2()jXe插入相位DFT2()jDeIDFTarg(())()jjjXeSee原始语音的频谱的估值谱减法流程图谱减法假设噪声叠加;噪声与语音不相关;对纯净语音无先验知识;对统计噪声有先验知识。带噪语音模型:y(n)=s(n)+v(n)式中,y(n)是带噪语音,s(n)是纯净语音,v(n)是噪声。谱减法对语音模型公式两边进行傅立叶变换,得Y(k)=X(k)+N(k)由于对噪声的统计参数的未知,所以在实际应用中,通常使用非语音段噪声谱的均值来作为对噪声谱N(k)的估计,𝑁𝑗𝑤=𝐸𝑁𝑗𝑤≅𝑁𝑗𝑤=1𝐾𝑁𝑖(𝑗𝑤)𝐾−1𝑖=0谱减法把带噪语音的相位𝜃𝑦(𝑒𝑗𝜔)当作是纯净语音的相位,那么纯净语音频谱的估量为:则对纯净语音幅度谱的估量表示为𝑋(𝑘)=𝑌𝑘−𝑁𝑘𝑓𝑜𝑟𝑌𝑘−𝑁𝑘≥00𝑒𝑙𝑠𝑒𝑋𝑒𝑗𝑤=𝑋(𝑒𝑗𝑤)𝑒𝑗𝜃𝑦(𝑒𝑗𝜔)→𝑥𝑛=𝐼𝐹𝐹𝑇𝑋(𝑒𝑗𝑤)谱减法实现步骤根据已知的平台噪声进行FFT,计算噪声功率谱谱平均值N(k);对含噪语音进行FFT计算得到其功率谱X(k),保留含噪语音相位;用含噪语音功率谱X(k)减去噪声功率谱N(k),得到原始语音的功率谱估计值S(k);利用S(k)以及含噪语音相位进行IFFT,这样就得到原始语音的估计值。谱减法缺点由于噪声的随机分布的范围广,因此相减时,若该帧某频率点上的噪声幅度谱分量大时,就会有很大一部分残留,在频谱上呈现随机起伏的尖峰。在听觉上形成类似音乐的残留噪声,又称为背景音乐噪声。背景音乐噪声损伤了语音的质量,降低了可懂度和清晰度,是该类方法最大的缺点。含噪语音帧标准纯噪声帧纯语音的幅度谱的平方幅度谱的平方幅度谱相减残留的音乐噪声幅度谱的平方