题目:共振峰提取技术的理论研究作业题目与要求:题目:共振峰提取技术的理论研究要求:(1)大量查阅关于共振峰提取技术的资料(通过Internet或图书馆,在Internet上可以通过搜索:formantEstimation等关键字来查找相关的信息)。(2)分析总结各种共振峰分析方法及其应用领域;(3)写一篇关于共振峰提取技术及其应用技术现状的论文。一、共振峰的概念共振峰是反映声道谐振特性的重要特征,它代表了发音信息的最直接的来源,而且人在语音感知中利用了共振峰信息。所以共振峰是语音信号处理中非常重要的特征参数,已经广泛地用作语音识别的主要特征和语音编码传输的基本信息。共振峰信息包含在频率包络之中,因此共振峰参数提取的关键是估计自然语音频谱包络,一般认为谱包络中的最大值就是共振峰。与基因检测类似,共振峰估计也是表面上看起来很容易,而实际上又受很多问题困扰。这些问题包括:(1)虚假峰值。在正常情况下,频谱包络中的极大值完全是又共振峰引起的。但在线性预测分析方法出现之前的频谱包络估计器中,出现虚假峰值是相当普遍的现象。甚至在采用线性预测方法时,也并非没有虚假峰值。为了增加灵活性会给预测器增加2~3个额外的极点,有时可利用这些极点代表虚假峰值。(2)共振峰合并。相邻共振峰的频率可能会靠的太近而难以分辨。这时会产生共振峰合并现象,而探讨一种理想的能对共振峰合并进行识别的共振峰提取算法存在很多实际困难。(3)高音调语音。传统的频谱包络估计方法是利用由谐波峰值提供的样点。高音调语音的谐波间隔比较宽,因而为频谱包络估值所提供的样点比较少,所以谱包络的估计就不够精确。即使采用线性预测进行频谱包络估计也会出现这个问题。在这样的语音中,线性预测包络峰值趋向于离开真实位置,而朝着最接近的谐波峰位移动。共振峰参数包括共振峰频率、频带宽度和幅值,共振峰信息包含在语音频谱的包络中。因此共振峰参数提取的关键是估计语音频谱包络,并认为谱包络中的最大值就是共振峰。利用语音频谱傅里叶变换相应的低频部分进行逆变换,就可以得到语音频谱的包络曲线。依据频谱包络线各峰值能量的大小确定出第1~第4共振峰,如图所示。二、提取共振峰的方法提取共振峰的几种常用方法包括:(1)基于线性预测(LPC)的共振峰求取方法。一种有效的频谱包络估计方法是从线性预测分析角度推导出声道滤波器,根据这个声道滤波器找出共振峰。虽然线性预测法也有一定的缺点,例如其频率灵敏度与人耳不相匹配,但对于许多应用来说,它仍然是一种行之有效的方法。线性预测共振峰通常有两种途径可供选择:一种途径是利用一种标准的寻找复根的程序计算预测误差滤波器的根,称为求根法;另一种途径是找出由预测器导出的频谱包络中的局部极大值,称为选峰法。(2)倒谱法。声道响应的倒谱衰减很快,在[-25,25]之外的值相当小,因此可以构造一个相应的倒谱滤波器,将声道的倒谱分离,对分离出来的倒谱做相应的反变换,就可以得到声道函数的对数谱,对此做进一步处理即可求得所需的各个共振峰。三、提取共振峰的实现(1)基于线性预测(LPC)在语音信号的LPC模型中,语音信号样本s(n)可由如下差分方程表示:式中,u(n)为激励函数,G是增益,{ak;k=1,2,……P}是LPC系数。相应的数字滤波器传递函数H(z)为上式还可表示为P个极点的级联形式:式中,是H(z)在Z平面上第k个极点:若H(z)是稳定的,其所有极点都在z平面的单位圆内。则第k个共振峰的频率和带宽分别为和,T为语音信号采样周期。语音信号的共振峰能由数字激光器传递函数H(z)进行估计,最直接的方式是对H(z)进行多项式求根,由所求的根来判断共振峰或谱形状极点。然而,该方法难以快速而有效地找到根值。另一有效的获取共振峰的途径是语音信号LPC谱的谱峰检测的方法进行估计共振峰,该方法需要解决共振峰台并的问题。McCandless试图采用在z平面单位圆内重复计算H(z)的方式来分离合并的共振峰,另一个有效的方法是采用对数LPC谱的二阶导数进行估计共振峰,取得较好效果。(2)倒谱法语音信号不是加性信号,而是卷积信号。为了能用线性系统对其进行处理,可以先采用卷积同态系统处理。经过卷积同态系统后输出的伪时序序列称为原序列的“复倒频谱”。它的定义式可以表示为:(){ln[{()}]}xnIFTFTxn倒谱或称“倒频谱”的定义为:(){ln|[()]|}cnIFTFTxn它和复倒谱的主要区别是对序列对数幅度谱的傅立叶逆变换,它是复倒谱中的偶对称分量。它们都将卷积运算,变为伪时域中的加法运算,使得信号可以运用满足叠加性的线性系统进行处理。复倒谱涉及复对数运算,而倒谱只进行实数的对数运算,较复倒谱的运算量大大减少。如果1()cn和2()cn分别是1()xn和2()xn的倒谱,x(n)=1()xn*2()xn,那么x(n)的倒谱c(n)=1()cn+2()cn。(2)倒谱法选择最普遍的极零模式来描述声道相应x(n),其z变换的形式为:m111111)(1))(1)imokkkpipokkkzbzXzdzkk(1-a(z)=|A|(1-c经过傅立叶变换,取对数和逆傅立叶变换后可以得到其复倒谱:1111ln||(0)()nnpimikkkknnpomokkkkAncaxnnnnbdnnn对于倒谱可以只考虑它的幅度特性,可以看出,它是一个衰减序列,且衰减的速度比1/|n|快。因而它比原信号x(n)更集中于原点附近,或者说它更具有短时性。四、提取共振峰的实现方法的应用(1)基于线性预测(LPC)的应用技术现状肺部气流冲击声带.通过声道的响应,形成语音。不同的声道形状产生不同的声道响应,导致不同的语音。就声道的数学模型,主要有两种观点:(一)把声道看作由多个不同截面积的声管串联而成,即声管模型;(二)把声道看作谐振腔,共振峰就是该腔体的谐振频率,即共振峰模型。因人耳听觉的柯替氏器官就是按频率感受而排列其位置的,因而,实践证明共振峰模型方法是非常有效的。共振峰是描述语音信号特征的重要参数,所以,准确有效的共振峰提取算法对语音信号的分析、台成、编码有重要意义。线性预测编码(LPC)是进行语音信号分析、语音信号编码最有效的技术之一其重要性在于提供了一组简洁的语音信号模型参数,比较精确地表征了语音信号的幅度谱,而分析它们所需的计算量相对而言并不大口语音信号共振峰的LPC分析方法的一个主要特点在于能够由预测系数构成的多项式中精确地估计共振峰频率和带宽。在过去的研究中,已有许多利用LPC分析提取共振峰方法被提出。(2)倒谱法的应用技术现状倒谱法根据对数功率谱的逆傅立叶变换,能够分离频谱包络和细微结构,很精确地得到基音频率和共振峰信息,但它的运算量比较大。当采用无噪语音时,用倒谱进行基音提取的效果是很理想的。然而当存在加性噪声时,在对数功率谱的低电平部分会被噪声填满,从而掩盖了基音谐波的周期性。这意味着倒谱的输入不再是纯净的周期性成分,而倒谱中的基音峰值将会展宽,并受到噪声的污染从而使倒谱检测方法的灵敏度也随之下降。在基音估计中还可以使用经过中心削波或三电平削波后的自相关方法,这种方法在信噪比低的情况下可以获得良好的性能。五、总结共振峰是反映声道谐振特性的重要特征,它代表了发音信息的最直接的来源。改变共振峰可以产生出所有原音和某些辅音,在共振峰中也包含着辅音的重要信息。人在语音感知中也利用了共振峰信息。所以共振峰已经广泛地用作语音识别的主要特征和语音编码的基本信息。分析的方法很多,各有各的优缺点。与基因检测类似,共振峰估计也是表面上看起来很容易,而实际上又受很多问题困扰。随着语言处理技术的发展,越来越多的语音特征提取方法被提出和完善,相信将克服各种困难,为人们的生活提供更多便利。