第4章语音分析本章主要讨论的问题:1.语音分析方法概述2.语音的时域分析3.语音的频域分析4.语音的语谱分析1.语音分析方法概述语音分析是语音合成及语音识别的基础。语音分析的三种方法:(1)时域分析法——时域波形图。(2)频域分析法——频谱图。(3)语谱分析法——语谱图。1.语音分析方法概述(1)时域分析法语音的时域分析采用时域波形图。横坐标是时间,纵坐标是幅值。1.语音分析方法概述(2)频域分析法频域分析包含:语音信号的频谱、功率谱、倒频谱、频谱包络、短时间谱等。常用的频域分析方法有:a.带通滤波器组法。b.傅里叶变换法。c.线性预测法等。1.语音分析方法概述(3)语谱分析法语谱分析法是另一种用于语音分析的有效方法。语谱分析法始于20世纪40年代,当时研制成功语谱仪,能生成语谱图。语谱图可以在二维(时间及频率)图上表示音强的关系,提供了有关不同时间不同频率的相对音强的有价值的信息。2.语音的时域分析三种常用的时域分析方法:(1)过零分析(2)幅度分析(3)相关分析2.语音的时域分析(1)过零分析所谓过零,是指对于有时间横轴的连续语音信号,可观察到语音的时域波形通过横轴的情况。在离散时间语音信号情况下,若相邻的采样具有不同的代数符号,就称为发生了过零。2.语音的时域分析①几类典型的过零率a.过零率——单位时间内过零的次数。b.平均过零率——一段时间内过零率。对于窄带信号,平均过零率是信号频率量的一个简单度量。2.语音的时域分析c.短时平均过零率。meromnmxmxnZ)()]1(sgn[)](sgn[)(2.语音的时域分析语音的短时处理的一个重要问题是采样个数N的取值。由于人类听觉范围为20Hz~20kHz,因此,采样频率fs为10kHz可以满足语音处理要求。若女性、男性的音调分别对应为400~80Hz,则在采样频率fs为10kHz情况下,采样个数N为25~125。2.语音的时域分析②短时平均过零率的应用a.区别清音和浊音。例如,清音的过零率高,浊音的过零率低。此外,清音和浊音的两种过零分布都与高斯分布曲线比较吻合。清音和浊音的过零分布2.语音的时域分析b.从背景噪声中找出语音信号。语音处理领域中的一个基本问题是,如何将一串连续的语音信号进行适当的分割,以确定每个单词语音的信号,亦即找出每个单词的开始和终止位置。在孤立词的语音识别中,可利用能量和过零作为有话无话的鉴别。2.语音的时域分析③过零分析的缺陷有些单词仅用过零率无法判定语音的开始和终止。解决办法:结合过零率和信号能量分析(如幅度分析)。2.语音的时域分析(2)幅度分析幅度分析用于估计语音信号的特征。清音段幅度较小,能量集中于高频段;浊音段幅度较大,能量集中于低频段。幅度分析包括两方面:①幅度②能量由于语音信号的宽带特点,采用短时处理技术。2.语音的时域分析①短时能量函数短时能量函数定义:式中,h(n)=2(n)为窗函数。nNnmnNnmnmnhmxmnmxE1212)()()]()([2.语音的时域分析两种典型窗函数:矩形窗、哈明(Hamming)窗。a.矩形窗的定义:h(n)=1,0≤n≤N-1h(n)=0,其他b.哈明窗的定义:h(n)=0.54-0.64cos(2∏n/(N-1)),0≤n≤N-1h(n)=0,其他2.语音的时域分析矩形窗的频率响应如下式所示:通过矩形窗,可以求出哈明窗的频率响应。2/)1()2/sin()2/sin()(NTjTjeTNTeH2.语音的时域分析实验表明,在用短时能量反映语音信号的幅度变化时,不同的窗函数以及相应窗的长短均有影响。哈明窗的效果比矩形窗略好。但是,窗的长短影响起决定性作用。窗过大(N很大),等效于很窄的低通滤波器,不能反映幅度En的变化;窗过小(N很小),短时能量随时间急剧变化,不能得到平滑的能量函数。在10kHz的采样频率下,N选为100~200比较合适。2.语音的时域分析小结:短时能量函数的应用a.可用于区分清音段与浊音段。En值大对应于浊音段,En值小对应于清音段。b.可用于区分浊音变为清音或清音变为浊音的时间。(根据En值的变化趋势)c.对高信噪比的语音信号,也可以用来区分有无语音(语音信号的开始点或终止点)。无信号(或仅有噪声能量)时,En值很小,有语音信号时,能量显著增大。d.仅用过零率来判定语音的开始和终止,对于如前所述的5种情况比较困难,若能结合短时能量和过零率,判定效果较理想。2.语音的时域分析②平均幅度函数与短时能量函数相比,短时平均幅度函数处理方法比较简单,不必作平方运算。仅计算加权了的信号绝对值之和。缺点在于:没有短时能量函数(信号的平方和)对高信号电平那样敏感。2.语音的时域分析平均幅度函数定义:NNnmnmnnxM1)()(2.语音的时域分析实验表明,窗宽N对平均幅度函数的影响与短时能量函数的分析结果相同。但平均幅度函数的动态范围比短时能量函数要小。虽然可以判定清音和浊音的不同,但清音和浊音之间的电平差不太明显。2.语音的时域分析(3)相关分析相关函数可用于测定两个信号在时域内的相似性。相关分析有自相关和互相关两类。自相关函数:用于研究信号本身。例如,信号波形的同步性、周期性等。互相关函数:用于研究不同信号之间的差异。例如,两个信号完全不同,则互相关函数接近于零。2.语音的时域分析①自相关函数特性分析一个时间离散确定信号的自相关函数定义:mxxknxmxkC)()()(2.语音的时域分析如果信号是周期的或随机的,其自相关函数定义为:NNmNxxknxmxNkC)()(121)(lim2.语音的时域分析自互相关函数的重要特性:a.周期信号的自相关函数有同样周期,即Cxx(k)=Cxx(k+P)b.自相关函数为一个偶函数,即Cxx(k)=Cxx(-k)c.在k=0时,自相关函数达到最大值,即︱Cxx(k)︱≤Cxx(0)d.自相关函数相当于一种特殊情况的能量,即对应于一确定信号的能量;对于周期信号或随机信号,等于平均功率。2.语音的时域分析在语音信号处理中,自相关函数常用来作以下两种语音信号特征的估计:a.区分语音是清音还是浊音。b.估计周期性语音信号的周期。但是,由于语音信号的宽带特性,在实际应用中,也需要做短时处理。2.语音的时域分析短时自相关函数的定义:)()()()()(mknkmxmnmxkRmn2.语音的时域分析考虑窗函数,且为有限持续时间,上式可简化为:式中,hk(n-m)=(n)(n+k)为窗函数,N为窗宽,n为采样次数,相当于在nT的采样时间上。)()()()(10mnhkmxmxkRkkNmn2.语音的时域分析实验结果表明:a.浊音语音段呈周期性,清音段呈随机噪声特性。浊音语音的周期可用自相关函数中第一个峰值的位置来估算。b.由于语音信号的特性是变化的,所以N应尽可能小。但是,窗的持续时间至少须2倍于语音信号波形的周期。一般说来,语音信号的最小音高为80Hz,用自相关函数估算语音周期时,窗宽N不应小于250。2.语音的时域分析c.由于语音的基音周期的范围很宽,一般应让窗宽匹配于预期的基音周期。需要采用修正的自相关函数。d.在自相关函数的图形中,除最大峰值外,还出现许多其他的峰值。这些峰的大多数都起因于声道响应的阻尼振荡。阻尼振荡会干扰对基音周期的判定。需要改进方法。2.语音的时域分析②“谱平整”的非线性处理方法方法:先对语音信号x(n)进行非线性变换,再利用变换所得的结果y(n)来计算自相关函数。其变换关系如下:y(n)=c[x(n)]式中,c[]表示非线性变换。一种典型的非线性变换c[]采用中心削波函数。2.语音的时域分析举例:中心削波函数及其在语音信号处理中的应用示例。一般情况下,语音信号中有最大幅度Amax,则取削波电平cL=30%Amax。中心削波函数及其在语音信号处理中应用2.语音的时域分析说明:由于中心削波后再计算自相关函数,计算量大大增加,为简化计算,常常将中心削波函数作一定修正,采用三电平中心削波函数。三电平中心削波函数3.语音的频域分析三种常用的频域分析方法:a.滤波器组法(硬件实现方法)b.傅里叶频谱分析(软件实现方法)c.线性预测(时域与频域的结合)3.语音的频域分析(1)滤波器组法①滤波器组法的特点该方法使用简单,实时性好,受外界环境的影响小,是一种可以用硬件实现的方法。譬如,带通滤波器组已制成专用芯片。滤波器的选取模拟滤波器数字滤波器宽带带通滤波器(频率分辨率低)窄带带通滤波器(频率分辨率高)3.语音的频域分析②滤波器组法频谱分析原理由于语音信号的宽带特性,频域分析时需要采用“短时”处理技术,即短时傅里叶变换。a.短时傅里叶变换短时傅里叶变换的定义:式中,x(m)是语音信号序列,(n-m)是窗口函数序列。mmjjnmnemxeX)(])([)(3.语音的频域分析b.短时傅里叶逆变换短时傅里叶逆变换的定义:1010)()()(LknjjLknkkkeeXnyny3.语音的频域分析(2)傅里叶频谱分析①谱分析方法的种类傅里叶谱功率谱倒谱——对数功率谱取傅里叶变换自相关函数结合语音信号的宽带特性,也采用“短时”处理技术,即短时傅里叶变换。注:这是一种可以用软件实现的方法。3.语音的频域分析②几种谱之间的关系a.傅里叶谱傅里叶谱的定义:dttxfGefjx2)()(3.语音的频域分析b.功率谱功率谱的定义:式中,Gx*(f)为Gx(f)的复共轭值。)()()(fGfGfGxxxx3.语音的频域分析c.倒谱对数功率谱取傅里叶变换,并取绝对值,即为倒谱。若不取绝对值,则为复倒谱。倒谱的定义:22)(lg)(dffGCefjxxx3.语音的频域分析d.自相关函数自相关函数的定义:dttxtxCxx)()()(3.语音的频域分析③谱分析方法的应用a.傅里叶谱。用于检出语音信号的共振峰,并进行峰值的估算,称为峰值检出法。在估算共振峰的峰值时,常用一些折线来近似表示频谱(早期方法)。b.功率谱。将功率谱用二次式近似表示(内插法),用于检出共振峰。精度高,但计算较复杂。c.倒谱。便于将慢变化的频谱包络和快变化的谐波峰值的频谱分离开来,用于求出语音信号的基音周期(浊音)。d.自相关函数——语音信号的同步性、周期性。3.语音的频域分析(3)汉语语音的功率谱分析一般说来,在发汉语单词语音时,声母部分短促,韵母绵长,能量集中在韵母部分。韵母表现在低频部分,声母表现在高频部分,韵母在单词中起主要作用。男女声功率谱不同。4.语音的语谱分析语谱图是一种在二维(时间及频率)图上表示语音信号的音强关系的图谱,它能提供有关不同时间不同频率的相对音强的有价值的信息,如共振峰频率和基音周期。举例:若干美国英语元音和辅音的声波形图及其相应的语谱图,如图所示。(a)若干美国英语元音的声波形图及其相应的语谱图下一页(b)若干美国英语辅音的声波形图及其相应的语谱图返回