阅读讨论PPT孔常青PB08210092第三章:语音信号分析概述语音信号的数字化和预处理语音信号的时域分析语音信号的频域分析语音信号的倒谱分析语音信号的线性预测分析语音信号的小波分析3.1概述语音信号分析:语音信号处理的前提和基础,只有分析出可表示语音信号特征的参数,才有可能利用这些参数进行高效的语音通信、语音合成和语音识别等处理。语音合成的音质好坏和语音识别率的高低,也都取决于语音信号分析的准确性和精确性。语音信号分析在语音信号处理中具有举足轻重的地位。分类:参数性质分析方法时域分析频域分析倒谱域分析模型分析方法非模型分析方法简单、计算量小、物理意义明确感知特性较好,更为重要依据语音信号产生的数学模型来分析和提取表征这些模型的特征参数不进行模型化分析短时分析技术:贯穿于语音分析的整个过程;语音信号从整体来看其特征及表征其本质特征的参数均是随时间而变化的,所以它是一个非平衡态过程,不能用处理平衡信号的数字信号处理技术对其进行分析处理。但是在一个短时间范围内(一般认为在10-30ms的短时间内),其特性基本保持不变即相对稳定,因而可以将其看作是一个准稳态过程,即语音信号具有短时平稳性。不论是分析怎么样的参数以及采用什么分析方法,在按帧进行语音分析,提取语音参数之前,有一些经常使用的、共同的短时分析技术必须预先进行,如语音信号的数字化、语音信号的端点检测、预加重、加窗和分帧等,这些也是不可忽视的语音信号析的关键技术。3.2数字化和预处理语音信号的数字化一般包括放大及增益控制、反混叠滤波、采样、A/D变换及编码(一般就是PCM码);如下图:预处理一般包括预加重、加窗和分帧等。分析和处理之前必须把要分析的要分析的语音信号部分从输入信号中找出来,叫做语音信号的端点检测。带通滤波器自动增益控制(AGC)模/数转换(A/D)脉冲编码调制(PCM)语音信号存入计算机预滤波、采样、A/D转换预滤波的目的有两个:抑制输入信号各频域分量中频率超出fs/2的所有分量(fs为采样频率),以防止混叠干扰。抑制50Hz的电源工频干扰。这样,预滤波器必须是一个带通滤波器,设其上、下截止频率分别是fH和fL:则绝大多数语音编译码器有:fH=3400Hz,fL=60-100Hz,fS=8kHz预滤波、采样、A/D转换语音信号经过预滤波和采样后,由A/D变换器变换为二进制数字码。A/D变换中要对信号进行量化,量化不可避免地会产生误差。量化后的信号值与原信号值之间的差值称为量化误差,又称为量化噪声。若信号波形的变化足够大,或量化间隔Δ足够小时,可以证明量化噪声符合具有下列特征的统计模型:①它是平稳的白噪声过程②量化噪声与输入信号不相关③量化噪声在量化间隔内均匀分布,即具有等概率密度分布预滤波、采样、A/D转换若用σx2表示输入语音信号的方差,2Xmax表示信号的峰值,B表示量化字长,σe2表示噪声序列的方差,可以证明量化信噪比SNR(信号与量化噪声的功率比)为:假设语音信号的幅度符合Laplacian分布,此时信号幅度超过4σx的概率很小,只有0.35%,因而可取Xmax=4σx,则上式表明量化器中的每bit字长对SNR的贡献为6dB。A/D转换器分为线性和非线性转换器两类。目前的线性A/D转换器绝大部分是12bits的(即每一个采样脉冲转换为12位二进制数)。非线性A/D转换器则是8位的,它与12位线性转换器等效。2max2()10lg6.024.7720lgxexXSNRdBB()6.027.2SNRdBB预处理由于语音信号的平均功率谱受声门激励和口鼻辐射影响,高频端大约在800Hz以上按6dB/倍频程跌落,要在预处理中进行预加重(Preemphasis)处理。预加重目的:提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。预加重可在语音信号数字化时在反混叠滤波器之前进行,不仅可以进行预加重,而且可以压缩吸纳后的动态范围,有效提高信噪比。预加重一般在语音信号数字化之后,利用数字滤波器实现:值接近1。1()1Hzz预处理进行过预加重数字滤波处理后,接下来就要进行加窗分帧处理。一般每秒的帧数约为33-100帧,视实际情况而定。分帧虽然可以采用连续分段的方法,但一般要采用如图3-1所示的交叠分段的方法,这是为了使帧与帧之间平滑过渡,保持其连续性。前一帧和后一帧的交叠部分称为帧移。帧移与帧长的比值一般取为0-1/2。预处理分帧是用可移动的有限长度窗口进行加权的方法来实现的,这就是用一定的窗函数ω(n)来乘s(n),从而形成加窗语音信号sω(n)=s(n)*ω(n)。在语音信号数字处理中常用的窗函数是矩形窗和汉明窗等,它们的表达式如下(其中N为帧长):矩形窗:汉明窗:1,0(1)()0,nNnnelse0.540.46cos[2/(1)],0(1)()0,nNnNnnelse预处理窗口的形状:在时域因为是语音波形乘以窗函数,所以要减小时间窗两端的坡度,使窗口边缘两端不引起急剧变化而平滑过渡到零,这样可以使截取出的语音波形缓慢降为零,减小语音帧的截断效应;在频域要有较宽的3dB带宽以及较小的边带最大值。可以看出:汉明窗的主瓣宽度比矩形窗大一倍,即带宽约增加一倍,同时其带外衰减也比矩形窗大一倍多。矩形窗的谱平滑性能较好,但损失了高频成分,使波形细节丢失;而汉明窗则相反,从这一方面来看,汉明窗比矩形窗更为合适。窗类型旁瓣峰值主瓣宽度最小阻带衰减矩形窗-134π/N-21汉明窗-418π/N-53预处理窗口的长度:采样周期Ts=1/fs,窗口长度N和频率分辨率Δf之间存在下列关系:Δf=1/NTs,采样周期一定时,Δf随窗口宽度N的增加而减小,即频率分辨率相应得到提高,但同时时间分辨率降低;如果窗口取短,频率分辨率下降,而时间分辨率提高,因而二者是矛盾的。应该根据不同的需要选择合适的窗口长度。有时窗口长度的选择,更重要的是要考虑语音信号的基音周期。通常认为在一个语音帧内应包含1~7个基音周期。然而不同人的基音周期变化很大,所以N的选择比较困难。通常在10kHz取样频率下,N折中选择为100~200点为宜(即10~20ms持续时间)。3.3语音信号的时域分析语音信号的时域分析就是分析和提取语音信号的时域参数。应用范围:常用于最基本的参数分析及应用,如语音的分割、预处理、大分类等。特点:①表示语音信号比较直观、物理意义明确。②实现起来比较简单、运算量少。③可以得到语音的一些重要的参数。④只使用示波器等通用设备,使用较为简单等。短时能量及短时平均幅度分析如图所示,设语音波形时域信号为x(t)、加窗分帧处理后得到的第n帧语音信号为xn(m),则xn(m)满足下式:xn(m)=ω(m)x(n+m)其中,n=0,1T,2T,…,并且N为帧长,T为帧移长度。设第n帧语音信号xn(m)的短时能量用En表示,则其计算公式如下:1,0~(1)()0,mNmm其它值120()NnnmExmT[x]=x2短时能量及短时平均幅度分析En是一个度量语音信号幅度值变化的函数,但它有一个缺陷,即它对高电平非常敏感(因为它计算时用的是信号的平方)。为此,可采用另一个度量语音信号幅度值变化的函数,即短时平均幅度函数Mn,它定义为:Mn也是一帧语音信号能量大小的表征,它与En的区别在于计算时小取样值和大取样值不会因取平方而造成较大差异,在某些应用领域中会带来一些好处。用途:①区分浊音段和清音段,浊音是En值比清音时大得多;②用来区分声母和韵母的边界,无声和有声的边界,连字的分界;③作为一种超音段信息,用于语音识别中。10()NnnmMxm短时过零率分析短时过零率表示一帧语音中语音信号波形穿过横轴(零电平)的次数。过零分析是语音时域分析中最简单的一种。对于连续语音信号,过零即意味着时域波形通过时间轴;而对于离散信号,如果相邻的取样值改变符号则称为过零。过零率就是样本改变符号的次数。定义语音信号xn(m)的短时过零率Zn为:式中,sgn[]是符号函数,即101sgn[()]sgn[(1)]2NnnnmZxmxm1,(0)sgn[]1,(0)xxx短时过零率分析短时能量、平均幅度和过零率都是随机参数,概率密度函数如图:应用:①区分清音和浊音;②从背景噪声中找出语音信号,判断寂静无声段和有声段的起点和终点位置;③当语音以某些音位开始或结尾时(弱摩擦音、弱爆破音、鼻音等),过零率和短时平均能量一起结合使用,更为有效。短时过零率分析实际问题:如果输入信号中包含有50Hz的工频干扰或者A/D转换器的工作点有偏移(等效于输入信号有直流偏移),计算的过零率参数很不精确。解决方法:①A/D转换器前的防混叠带通滤波器低端截止频率应高于50Hz,有效抑制电源干扰。②采用低直流漂移器件,也可以算出每一帧的直流分量并加以滤除。短时相关分析一、短时自相关函数定义:其中K最大的延迟点数。性质:①如果是周期的(Np),则自相关函数②是偶函数,即③当k=0时,自相关函数有最大值,即并且等于确定性信号序列的能量或随机序列的平均功率。10()()()NknnnmRkmmkxx0kK()nmx()()nnRkRkNp()nRk()()nnRkRk(0)()nnRRk(0)nR短时相关分析右图中:N=401,Fs=8kHza、b是浊音信号,c位清音信号,由图可以看出浊音信号的自相关函数具有一定得周期性,而清音信号的自相关函数缺乏周期性。短时相关分析窗长N选择考虑因素:估计均值(矩形窗)窗长N越小,窗内基音周期变化越小Rn(k)估计不准,偏差大;窗长N越大,窗内基音周期性明显,但窗内基音周期变化越大偏差小,但Rn(k)周期性变差;[()](1)[()()]nkERkExnxnkN短时相关分析二、修正的短时自相关函数:问题引出:传统的自相关函数对窗长具有依赖性。解决方法:用两个不同的窗口,截取两个不等长的序列进行卷积和,两个窗口的长度相差最大的延迟数为K。定义:其中:10()()'(),0NnnnmRkxmxmkkK()()(),(0)nxmmxnmkK1,0~(1)()0,mNmm其它值'()'()(),(01)nxmmxnmkNK1,0~(1)'()0,mNKmm其它值增补K点互相关短时相关分析浊音的修正自相关(a)N=401;(b)N=251;(c)N=125.均是矩形窗浊音的自相关(a)N=401;(b)N=251;and(c)N=125.均是矩形窗.短时平均幅度差函数由于短时自相关函数预算量大,所需时间较长,为了避免乘法,采用差值——短时平均幅度差函数(AMDF)来进行语音分析。原理:对于周期(Np)信号,相距位整数倍的样点上的幅值是相同的,差值为0;即短时平均幅度差函数:由周期性可知Fn(k)在K=Np,2Np时出现最小值()()()0,(0,,2,...)ppdnxnxnkkNN10()()()NknnnmFkxmxmk3.4语音信号的频域分析定义:分析语音信号的频域特征。广义上讲:语音信号的频域分析包括语音信号的频谱、功率谱、倒频谱、频谱包络分析等;常用的频域分析方法有带通滤波器组法、傅里叶变换法、线性预测法等几种。本章介绍的是语音信号的傅里叶分析法。因为语音波是一个非平稳过程,因此适用于周期、瞬变或平稳随机信号的标准傅里叶变换不能用来直接表示语音信号,而应该用短时傅里叶变换对语音信号的频谱进行分析,相应的频谱称为“短时谱”。用短时傅里叶变换求语音的短时谱为什么用STFT分析语音信号?清音:噪音激励LTI,其谱较平坦;浊音:周期脉冲激励LTI,浊音的特性主要由LTI的