7.1概述7.2语音信号压缩编码原理&系统压缩评价7.3语音信号的波形编码7.4语音信号的参数编码7.5语音信号的混合编码7.6现代通信中的语音信号编码7.1概述语音编码(SpeechCoding)从信息论角度看,信源编码是要以最少的数码表示信源所发的信号,语音编码属于信源编码的范畴。语音编码通过减少传输码率(或存储量),来达到提高传输(或存储)效率的目的。作为传输语音的压缩技术,语音编码在通信史上一直都扮演着极为重要的角色。语音编码分为三类:*波形编码:重建后的语音时域信号的波形与原语音信号保持一致。*参数编码:通过建立语音信号的产生模型,提取其特征参数来编码,波形上不要求与原信号匹配,又称声码器技术。*混合编码:有机结合以上两种编码方式,基于语音产生模型的假定并采用分析合并技术。三种编码方式的比较波形编码参数编码混合编码编码信息波形模型参数综合比特率9.6~64Kbps2.4~9.6Kbps16~24Kbps优点适应能力强,语音质量好有效降低了编码比特率语音质量明显提高缺点随着量化粗糙语音质量下降合成语音质量低,处理复杂度高编码速率明显上升典型代表自适应差分编码调制(ADPCM)LPC-10、LPC-10E多脉冲激励线性预测编码(MPLPC)规则脉冲激励线性预测编码(RPE-LPC)语音编码发展史自从20世纪30年代脉冲编码调制(PCM)被提出起,语音编码在60多年的时间里得到了迅速的发展。早期的声码器基于对语音信号基音周期与频谱的分析,主要包括通道声码器,共振峰声码器与模式匹配声码器。20世纪50年代后期,着重于线性语音源系统生成模型,包括线性慢时变系统,周期脉冲激励序列与随机激励。20世纪六七十年代,VLSI技术与数字信号处理理论的发展为语音编码技术开辟了新的道路,语音分析合成采用了短时傅立叶变换,变换编码与子带编码,基于线性预测的编码技术进一步得到发展。新的编码技术纷纷产生,如余弦分析合成技术,多带激励声码器,LPC中的多脉冲与矢量激励,矢量量化。到20世纪90年代中期,速率为4~8Kbps的波形与混合编码器,在语音质量上,与早期速率为64Kbps的PCM波形编码器已十分接近。7.2语音信号压缩编码原理&系统压缩评价语音信号中存在着冗余度(包括时域与频域),人的听觉感知机理也有很多可以利用的特点。语音信号压缩编码之所以可行,正是因为这两种情况的存在。语音编码依据之一:语音信号冗余度基本时域冗余:语音信号幅度非均匀分布性语音信号样本间的强相关性浊音语音段具有的准周期性声道形状及其变化的缓慢性静止系数(即语音间隙性)基本频域冗余:从长时间的功率谱密度来看,语音信号具有强烈的非平坦型,存在着固定的冗余度。而且高频能量通常较低,恰好对应于时域上的相邻样本相关性。从短时功率谱密度来看,语音信号在不同频率交替出现峰值(共振峰)与谷值。整个功率谱的细节基于基音频率形成高次谐波结构。语音编码依据之二:人的听觉特点人类听觉系统存在着掩蔽系统,即高声级单音会明显掩蔽临近频率声音。对于不同频段的声音,人耳的敏感程度不尽相同。人类对于语音信号的周期性(即音调)极为敏感,但对信号的相位却充耳不闻,这与理论分类存在差异。语音编码中的几项关键技术线性预测线性预测传送整个反应过程变化的参数,其出发点在于跟踪波形的产生过程而非波形本身。基于全极点模型假设,使得语音信号编码的比特率得到有效的降低。语音信号中存在的两点相关性样点间的短时相关性相邻基音周期之间的长时相关性激励发生器1————P(z)1————A(z)合成语音语音信号合成模型图示其中信号源为预测余量信号,1/P(z)为长时预测滤波器,1/A(z)为短时预测滤波器。语音信号的短时相关性可用一个全极点模型来描述,其传输函数H(z)为:PiiiZazAzH111)(1)(短时预测系数滤波器阶数而滤波器)(/1zP是语音信号长时相关性的模型,其一般形式为:rqiiDiZbzP)(11)(1延时参数(基音周期)长时预测系数合成分析合成分析原理合成分析在编码器中加入综合器,并将其与分析器结合从而产生与译码器端相同的语音,而后根据误差原理调整使得误差最小化。合成分析背景16Kbps以下的高质量语音编码在当今得到的极大关注,使得传统的量化方法对误差最小化已无能为力。因此,合成分析的方法被引入。感觉加权滤波器产生背景:理论与现实的出入对于低码率(4~16Kbps)的语音编码,理论上的最小均方误差(MMSE)在实际应用时却因为人的听觉特点而障碍重重。在这种背景下,根据人耳上网掩蔽效应设计的感觉加权滤波器得到了广泛的应用。在实际应用中,共振峰处的噪声相对于能量较低处的频段更加不易被察觉,故高能量段处的误差要求不高。因此,感觉加权滤波器被提出,用以衡量语音间的误差。)(zW此时,只需在高频段处较小,低频段处较大,就可以升高不敏感的高频段处误差同时降低较敏感的低频段处误差,从而达到目的。sfdffWfSfSe02^)(|)()(|抽样频率重建语音傅立叶变换原始语音傅立叶变换误差表示)(fW其传递函数为:的作用就是使实际信号误差的谱呈现与语音信号类似的包络形状,从而在掩蔽效应的作用下在主观听觉上产生较好的效果。piiiipiiizazazAzAzW1111)/()()(加权因子预测系数)(zW语音压缩系统的性能评判指标较为重要的性能评价准则编码速率(比特率),决定了编码器工作时占用的信道带宽,要求尽可能降低。编码器的完健性,要求良好。编码器的时延,要求最小化。误码容限,要求保持较高值。算法复杂度(包括运算复杂度与内存要求),影响硬件成本,尽可能降低。算法可扩展性,越高越好。评测方法主观评价可懂度评价(DRT得分)音质评价平均意见得分(MOS)判断满意度测量(DAM)客观评价适用于低比特率语音编码质量的评价计算较简单,但没有考虑实际情况,故适用于高比特率语音编码质量的评价7.3语音信号的波形编码波形编码波形编码是语音编码系统在早期所广泛采用的方法,它把语音信号当成普通的波形信号来处理从而保持原波形形状。波形编码适应能力强,合成语音质量好,但比特率过高,编码的效率也不尽如人意。几种典型的波形编码:脉冲编码调制(PCM)自适应预测编码自适应增量调制(ADM)自适应差分脉冲编码调制(ADPCM)子带编码(SBC)脉冲编码调制形式一:均匀PCM最简单最原始的波形编码方式,没有运用压缩技术,产生的比特率也极高,故在当今运用极少。形式二:非均匀PCM将信号进行非线性变换后再均匀量化,变换后信号具有均匀概率密度分布。编码时常采用对数变换压缩(译码时指数扩展)。非线性压缩)(xCx均匀量化编码解码非线性扩张)(1xCzbyyqx非线性压缩扩张的非均匀量化器A律压缩扩张技术(中国标准)μ律压缩扩张技术(北美及日本标准))](sgn[ln1/|)(|)](sgn[ln1]/|)(|ln[1maxmaxmax)]([nxAXnxAnxAXnxAXnxF)1)|(|1(maxXnxA)1)|(|0(maxAXnx)](sgn[)1ln(]|)(|1ln[)]([maxmaxnxXnxXnxF形式三:自适应PCM无论是均匀或是非均匀PCM,量化间隔总是随着量化器的确定而固定。而自适应PCM引入的自适应幅值变化概念使得量化误差可以匹配于输入信号方差,或是量化器增益G可以随着幅值而变化,从而使信号能量在量化前恒定。Q【·】编码器)(~nx)(nx)(nc)(n解码器)(nc)(~nx)(n匹配自适应编码器Q【·】X)(nx)(ny)(ˆny)(nc)(nG解码器)(nc)(ˆny+)(ˆnx)(nG匹配自适应G两种自适应方法的原理按照自适应参数划分Q【·】编码器)(~nx)(nx)(nc解码器)(nc)(~nx)(n自适应系统Q【·】编码器)(~nx)(nx)(nc自适应系统)(n解码器)(nc)(~nx自适应系统)(n后馈自适应前馈自适应其中,)(*)()(*)(00nGnGnn或mmnhmxn)()()(22mmnhmcn)()()(22自适应预测编码LPC计算)(zX)(zC)(zP)(zE-预测器系数发端)(zE)(zP收端自适应预测编码器(APC)利用线性预测来改进编码中的量化器性能,根据信号量化噪声比的定义:(n)]E[q(n)]E[e*(n)]E[e(n)]E[s(n)]E[q(n)]E[sSNR222222信号平均能量预测误差平均能量量化噪声平均能量由此可知引用线性预测后,SNR可得到成功的改善。自适应增量调制(ADM)增量调制的基本方案:增量调制方式将下一个语音信号与当前语音信号比较,如果高与当前值则系统则编码1,否则系统编码0.自适应增量调制的工作方式:自适应增量调制随输入波形自适应的改变量化阶梯的大小,在信号平均斜率大时自动增大量化阶梯,反之减小。自适应差分脉冲编码调制(ADPCM)差分脉冲编码调制(DPCM):不同于DM的一位编码,DPCM多位量化对两个采样之间的差分信号利用多位量化进行编码,使信息量得到压缩的同时降低了信道负载。+量化+预测发送端)(nx)(ndq)(ndq)(nxp)(nxr+预测)(nxp)(nxr接收端+但采用固定的高阶预测,改善效果并不明显,于是,高阶自适应预测作为相应的解决方式被提出,自适应预测器随着语音特征变化不断更新预测系数,从而获得更高的预测增益。)(nx-量化预测系数自适应+预测)(nxr)(nxq)(ne)(neq后向自适应预测编码结构框图:后向自适应预测作为ADPCM的常用编码方式,所采用的是序贯随机梯度算法,其预测系数满足:Niinxnennanarqiii....,2,1),()()()()1(其中N为预测器阶数。为较少传输误码的影响,可加入衰减因子,并采用符号梯度法简化硬件,于是又有:Niinxnenanarqiiii....,2,1)],(sgn[)](sgn[)()1(子带编码(SBC)子带编码原理:子带编码属于频域编码,它首先将语音信号通过带通滤波器分割为若干频带(子带),而后对子带信号进行频谱平移变为基带信号,再利用奈奎斯特速率抽样,最后进行编码处理。子带编码优点:分带后可去除信号相关性,获得与时域一样的效果。不同子带拥有不同比特数,可获得更佳主观听音质量。各子带间量化噪音相互独立互不干扰。而SBC在应用中一般采用整数带方法,即:MknWnfklk,...2,1,...,2,1,由带通信号采样定理可知,在时,子带信号不会发生混叠,可以直接进行对其采样。kskWf2子带分带数目越大,编码增益也会越大,实际应用中SBC一般采用4~8个子带。对已经采样的输入信号,抽取可实现频谱搬移,合成时通过插值恢复。带通抽取编译码插值带通)(nx)(nxk)(nlxkk)(nlykk)(nyck)(nyk第k个通道工作原理为减少混叠造成的失真,需要极高阶的滤波器,而此时采用正交镜像滤波器组(QMFB)既可解决失真问题,阶数要求也可得到降低。)(nx)(0nh)(1nh22)(0mx)(1mx+)(ˆ1mx)(ˆ0mx)(0ng)(1ng22其输入输出关系为:其中,理论上需满足:我们一般希望其满足理想条件:)()]()([)(ˆ)(22jwwjjwjweXeHeHeX)(jweH1|)()(|)(22wjjweHeH20,12,0)(wwjweH自适应变换编码(ATC)编码原理:自适应变换编码利用正交变换将信号由时域变换到另外一个域,使变换域系数密集化,从而使信号相邻样本间冗余度得到降低。正交变换DCT的优点:频域变换明显,较易控制量化噪声频率范围。兼顾性能与计算量,不需要传输特征矢量。