第03讲语音信号变换域(频域+倒谱)分析

angelaaron
2 ℃
2020-01-30

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

上次课内容简单回顾1.语音信号的数字化和预处理2.语音信号的时域分析（1）语音信号的数字化带通滤波器自动增益控制（AGC）模/数转换（A/D）脉冲编码调制（PCM）语音信号存入计算机(2)语音信号的预处理•预处理一般包括预加重、加窗和分帧等。(3)语音信号的时域分析1.短时能量及短时平均幅度2.短时过零率102)(NmnnmxE10)(NmnnmxM10)]1(sgn[)](sgn[21NmnnnmxmxZ3.短时自相关函数4.短时平均幅度差函数KkkmxmxkRkNmnnn0,)()()(10kNmnnnkmxmxkF10)()()(1语音信号的频域分析2语音信号的倒谱分析（第二讲）§3.4语音信号的频域分析•语音信号的频域分析就是分析语音信号的频域特征。从广义上讲，语音信号的频域分析包括语音信号的频谱、功率谱、倒频谱、频谱包络分析等。•常用的频域分析方法有带通滤波器组法、傅里叶变换法、线性预测法等几种。•本节介绍的是语音信号的傅里叶分析法。•短时分析将语音流分为一段一段来处理，每一段称为一“帧”；•帧长：10～30ms，20ms常见；•帧移：0～1/2帧长，帧与帧之间的平滑过渡；“短时谱”§3.4.1利用短时傅里叶变换求语音的短时谱•语音分帧之后，对第n帧语音信号xn(m)进行傅里叶变换(离散时域傅里叶变换，DTFT)，可得到短时傅里叶变换，其定义如下：•由定义可知，短时傅里叶变换实际就是窗选语音信号的标准傅里叶变换。这里，窗w(n)是一个“滑动的”窗口，它随n的变化而沿着序列x(m)滑动。由于窗口是有限长度的，满足绝对可和条件，所以这个变换是存在的。•是帧号n和角频率ω的函数。()jnXe10()()NjjmjmnnmmjmmXexmexmwnmexmewnm是帧号n和角频率ω的函数。10()()NjjmjmnnmmjmmXexmexmwnmexmewnm()jnXe可见，当n不变时，是序列的标准傅立叶变换，此时具有与标准傅立叶变换相同的性质。()jnXe,nmxmm()jnXe第一种解释（从傅立叶变换的角度）：•设语音信号序列和窗口序列的标准傅里叶变换均存在。当n取固定值时，•根据卷积定理有：•因为上式右边两个卷积项均为关于角频率ω的以2π为周期的连续函数，所以也可将其写成以下的卷积积分形式：•结论：假设x(m)的DTFT是X(ejω)，且ω(m)的DTFT是X(ejω)，那么Xn(ejω）是X(ejω)和W(ejω)的周期卷积。()()jmjmjmwnmeeWe()()[()]jjjnjnXeXeeWe()1()[()][()]2jjjnjnXeWeeXed()jjmmXexme()jjmmWeme•由于相当于信号谱与窗函数谱的卷积，因此应该使窗函数的频谱分辨率高，主瓣尖锐；同时还要使旁瓣衰减大，这样与信号卷积时的频谱泄露才会少。•为了使能够与具有相同的性质，则要求必须是一个冲激函数。窗长越长，的主瓣越狭窄尖锐，则越接近。但窗长太大时，窗选信号已经不满足语音的短时平稳特性，此时已不能正确反映短时语音的频谱了。为此，必须要折中选择窗长。jnXejXejnXejXejWejWejnXejXejnXe•令角频率则得到离散的短时傅立叶变换，它实际上是在频域的取样，如下所示2knjnXe2210,01kkmNjjNNnnnmXeXkxmekN在语音信号数字处理中，都是采用的离散傅立叶变换代替，并且可以用高效的快速傅立叶变换（FFT）算法完成由至的转换。当然，这时窗长N必须是2的整次幂（L是整数）。根据傅立叶变换的性质，实数序列的傅立叶变换的频谱具有对称性，因此全部频谱信息包含在长度为个里。另外，为了使具有较高的频率分辨率，所取的DFT以及相应的FFT点数N1应该足够多，但有时的长度N要受到采样率和短时性的限制。nxmnXkjnXenxmnXk2L21NnXknXknxm•FFT的计算可以在通用计算机上由相应的算法软件完成，这种方式一般只能实现非实时运算。•为了完成实时运算可以采用先进的数字信号处理芯片、阵列处理芯片或专用FFT芯片。是帧号n和角频率ω的函数。()jnXe当w固定不变时，可视为信号与窗函数的卷积，此时，短时傅立叶变换可看作线性滤波.()jnXe第二种解释（从线性滤波的角度）：10()()NjjmjmnnmmjmmXexmexmwnmexmewnmjmxmewn024681012x104-1-0.500.51originalsignal050100150200250300-100-50050短时谱下面给出采样率8kHz，窗长400点（50ms）情况下，分别用矩形窗与汉明窗选取同一段浊音信号，求得其对数幅度谱。简单分析一下不同的窗函数对语音信号短时谱的影响。讨论：窗口形状对短时谱的影响矩形窗加窗的浊音波形及其短时频谱汉明窗加窗的浊音波形及其短时频谱由上图可看出：（1）它们都具有两种变化。一种是快速变化，这是由于激励信号引起的变化。例如图中由于时域波形具有周期性，因此经短时傅立叶变换得到的对数幅度谱表现出频率等间隔的尖峰，尖峰反映了语音的基频和各次谐波。另一种是慢速变化，这是由于声道滤波器的共振峰特性引起的，它反映了各个共振峰的位置和带宽。而且共振峰的幅度随着频率的增高逐渐衰减。（2）矩形窗和汉明窗得到的频谱之间存在明显的区别。矩形窗具有较窄的主瓣，因而频谱分辨率较高，在频谱图中表现为基音谐波的各个峰都很尖锐。但是矩形窗旁瓣的衰减较小，由于相邻谐波的旁瓣在谐波间隔内相互干扰，有时叠加，有时抵消，所以在相邻谐波之间会产生类似于噪声的杂乱频谱，造成频谱泄漏现象，抵消了矩形窗具有较窄主瓣的优点。而采用汉明窗得到的短时频谱相比之下要平滑得多，因而汉明窗用得比较普遍。矩形窗加窗的清音波形及其短时频谱汉明窗加窗的清音波形及其短时频谱由上图可看出：从两个短时频谱图中都可以发现，由于清音的发声类似于随机噪声，因此频谱具有慢速变化的趋势，同时有着频繁的尖峰和谷。当然，汉明窗较之矩形窗有着平滑的短时频谱。下面给出了浊音和清音前40个样点加矩形窗和汉明窗的短时频谱，可以直观地看到窗长对短时谱的影响。由图可见：由于窗长很短，所选出的语音段甚至不到一个基音周期长度，因此语音段丢失了关于基音周期的信息，表现在短时谱上就是反映基音频率和谐波的快速变化特点消失了，短时谱中只保留着慢速变化的特点，也就是还保持着声道滤波器的共振峰。由于矩形窗具有更高的频谱分辨率，因此其短时频谱不如汉明窗平滑。从以上对窗函数和短时频谱的讨论可以得出以下结论：•1）矩形窗和汉明窗的主瓣狭窄且旁瓣衰减较大，具有低通的性质。窗越长，主瓣越窄，加窗后的频谱能更好地逼近短时语音的频谱。•2）窗长越长，频谱分辨率越高，但由于长窗的时间平均作用导致时间分辨率相应下降，如共振峰在不同的基音周期是要发生变化，但如果使用较长的窗则会模糊这种变化。•3）窗长越短，时间分辨率越高，但频率分辨率相应降低。如采用短窗可以清楚地观察到共振峰在不同基音周期的变化情况，但是基频以及谐波的精细结构在短时频谱图上消失了。•4）由于时间分辨率和频谱分辨率的相互矛盾关系，在进行短时傅里叶变换时，应根据分析的目的来折中选择窗长。•在语音信号数字处理中，功率谱具有重要意义，在一些语音应用系统中，往往都是利用语音信号的功率谱。根据功率谱定义，可以写出短时功率谱与短时傅里叶变换之间的关系：•或者：•式中*表示复共轭运算。并且功率谱Sn(ejω)是短时自相关函数Rn(k)的傅里叶变换。2*)()()()(jnjnjnjneXeXeXeS2*)()()()(kXkXkXkSnnnn112)()()(NNkkjnjnjnekReXeS§3.4.2语音的短时谱的临界带特征矢量•利用短时傅立叶变换求取的语音信号的短时谱是按照实际频率分布的，而符合人耳的听觉特性的频率分布应该是按临界带频率分布的。所以，如果用按实际频率分布的频谱作为语音特征，由于它不符合人耳的听觉特性，将会降低语音信号处理系统的性能。•下面介绍一种把实际的线性频谱转化为临界带频谱特征的方法。•第一步，首先求出一帧加窗语音xn(m)：m=0~(N-1)的DFT的模平方值|Xn(k)|2,即功率谱。DFT可用FFT计算，设定DFT的点数为512（在实际的语音信号数字处理系统中的DFT点数一般在128、256、512、1024中任选一个，点数越高则频谱分辨精度提高，计算开销相应提高），则可以得到|Xn(k)|2与原始加窗模拟语音的频谱模平方具有下列关系：（3-35）式中，ωk=2πfk，fk=kfs/512。•第二步，依据下面公式，在f=0~fs/2中确定若干个（单位Hz）临界带频率分割点，将i=1,2,3…代入；ˆ26.810.53ˆ1960iifif1234ˆˆˆˆ,,,,...ffff22exp,0~511nnXkXjkk2expnXjk•由此可求出123161718ˆˆˆˆˆˆ118.6,188.7,297.2,...,3151,3702,4386,...fHzfHzfHzfHzfHzfHz这样1223ˆˆˆˆ~1,~2ffff构成第临界带构成第临界带，等等。如果fs=8kHz，在0.1~4000Hz范围内需要安排16个临界带。若fs=10kHz，在0.3~5000Hz范围内可安排16个临界带。将每个临界带中|Xn(k)|2取和即可得到相应的临界带特征矢量。如果用表示临界带特征矢量，对于上面举的第一个例子（，频谱范围0.1~3.7kHz），L=16，其中的每一个分量可用下式计算：12,,...,,...,lLGgggg8sfkHz12ˆˆˆ,1~16lkllnfffgXkl临界带特征矢量从人耳对频率高低的非线性心理感觉角度反映了语音短时幅度谱的特征。它的畸变可以用欧式距离来度量，所需的变换可以用高效的FFT来完成，因而使用该特征矢量时计算开销较小。所以可用它作为语音识别系统的特征矢量。§3.5语音信号的倒谱分析•语音信号的倒谱分析就是求取语音倒谱特征参数的过程，它可以通过同态处理来实现。•同态信号处理也称为同态滤波，它实现了将卷积关系变换为求和关系的分离处理，即解卷。•解卷算法分为两大类：一类是参数解卷：为线性系统建立一个模型，然后按照某种准则对模型进行参数估计，如线性预测分析；另一种是非参数解卷：无需为线性系统建立模型，如同态处理。•对语音信号进行解卷，得到声门激励信息用于判断清浊音、求基音周期；得到声道响应信息用于求得共振峰；用于语音编码、合成、识别等。§3.5.1同态信号处理的基本原理•我们日常生活中遇到的许多信号，它们并不是加性信号(即组成各分量按加法原则组合起来)而是乘积性信号或卷积性信号，如语音信号、图像信号、通信中的衰落信号、调制信号等。这些信号要用非线性系统来处理。•同态信号处理就是将非线性问题转化为线性问题的处理方法。•按被处理的信号来分类，大体分为乘积同态处理和卷积同态处理两种。•由于语音信号可视为声门激励信号和声道冲击响应的卷积，所以这里仅讨论卷积同态信号处理。•下面看一个同态系统模型。线性系统复倒谱第一个子系统D*[]完成将卷积性信号转化为加性信号的运算，即对于信号x(n)=xl(

第03讲 语音信号变换域(频域+倒谱)分析

第03讲语音信号变换域(频域+倒谱)分析