第3章音频信息处理技术第3章音频信息处理技术3.1基本概念3.2音频信号数字化3.3音频信号压缩编码3.4语音压缩编码标准3.5常见多媒体应用的语音编码器的选择3.6IP电话技术练习与思考题第3章音频信息处理技术3.1基本概念1.在人类听觉系统中,一个声音的存在会影响人们对其他声音的听觉能力,使一个声音在听觉上掩蔽了另一个声音,即所谓的“掩蔽效应”。由于掩蔽声的存在,使被掩蔽声的闻域(人刚好可听到声音的响度)必须提高的分贝数被定义为一个声音对另一个声音的掩蔽值。掩蔽效应受四种要素的影响:时间、频率、声压级、声音品质(例如,纯音和噪音)。第3章音频信息处理技术2.频谱掩蔽发生在高电平音调使附近频率的低电平声音不能被人耳听到的情况下。当频率离掩蔽音调越远时,掩蔽效应减弱的速度就越快。可以这样来解释这种效应,雪橇上的铃声可以掩蔽高音碰撞的声音,但不能掩蔽低音鼓的声音。第3章音频信息处理技术3.声音有一个冲击时间(即幅值随时间推移而增大的时间段)和一个衰退时间(即幅值随时间推移而减小的时间段)。拨小提琴所产生声音的冲击和衰退都很快,而拉小提琴所产生声音的冲击和衰退都很慢。此外,在冲击前和衰退后,声音都有掩蔽效应。前掩蔽时间为50~200ms,而后掩蔽时间约为该范围的1/10。第3章音频信息处理技术4.失真是用得非常广泛的概念,在这里主要用来描述重现声音和原来声音的相差程度。而表示这种相差程度的方法有两种:(1)失真的主观度量。失真的一个主观评价指标称为平均观点分(MeanOpinionScore,MOS)。听众根据系统质量的好坏使用N分制给系统打分。例如,在为HDTV选择音频压缩方案时就使用了这种度量方法。表3.1-1给出了一种常见的5分制系统。第3章音频信息处理技术表3.1-15分制平均观点分举例平均观点分质量等级主观感觉5极好觉察不到4好觉察得到,但不难听3一般有点难听2差难听,但不反感1极差难以忍受第3章音频信息处理技术一方面,MOS确实是度量音频重现的最低限度:听起来感觉怎么样?另外一方面,度量的结果随听众、测试位置和原材料的不同而不同,因此,很难将一组结果和另一组结果相比较。第3章音频信息处理技术(2)失真的客观度量。失真的客观度量是一种可以校准和重现的测试,它可对原始信号和重现信号之间的差别进行度量。这里有个问题,就是失真的绝对大小也许和失真声音使人厌烦的程度没有多大关系。现实生活中有一个失真的例子,我们几乎每天都会碰到,但它并不是那么令人厌烦,这个例子就是削波。如果一个纯音(正弦波)通过一个动态范围不足的放大器,那么,放大器也许会将该正弦波的波峰和波谷拉平,这样就产生了一组奇谐波。对于这种类型的失真,原始(或基波)信号和失真之间有一种一致的对应关系,因此,这种失真并不一定使你感到烦躁。第3章音频信息处理技术5.单声道(Monophonic)意味着单个声源,而立体声并不表示有两个声源,立体声(Stereophonic)指的是三维听觉效果。为了确定声源位置,大脑要将每个耳朵所听到声音的三个属性进行比较,这三个属性分别是:(1)幅值(Amplitude):如果左耳听到的声音比右耳的大,那么我们就认为声音在左边。第3章音频信息处理技术(2)相位(Phase):如果人的两耳听到的信号具有相同的相位,那么大脑就认为声音在中部;如果两耳听到信号有180°的相位差,那么声音就不包含方向信息了。(3)时序(Timing):声音的传播速度为1英尺每毫秒;如果声音到达右耳的时间比到达左耳的早,我们就认为声源就在右边。一般来说,如果听众所处的位置刚好是两个声源(例如两个扬声器)的中轴线上,则听众就可以享受三维立体声的效果;否则听众就会失去完全的立体声效果,因为他距离其中一个声源的距离更短。第3章音频信息处理技术声源位置可以通过添加一个中央通道的方法来确定。为此,Dolby公司在上个世纪70年代就实现了由四个声道产生三维立体声的效果,这四个声道分别是:左声道、右声道、中央声道、环绕声道。为了使声音更加丰富,现在的立体声剧院(包括家庭剧院)都增加了一个超低音声道,主要目的是增强低音。第3章音频信息处理技术3.2音频信号数字化音频信息处理主要包括音频信号的数字化和音频信息的压缩两大技术,图3.2-1为音频信息处理结构框图。音频信息的压缩是音频信息处理的关键技术,而音频信号的数字化是为音频信息的压缩作准备的。音频信号的数字化过程就是将模拟音频信号转换成有限个数字表示的离散序列,即数字音频序列,在这一处理过程中涉及到模拟音频信号的采样、量化和编码。对同一音频信号采用不同的采样、量化和编码方式就可形成多种形式的数字化音频。第3章音频信息处理技术图3.2-1音频信息处理框图模拟音频信号音频信号数字化采样量化编码按不同应用目标进行数字压缩第3章音频信息处理技术(1)采样过程。模拟音频信号是一个在时间上和幅值上都连续的信号。采样过程就是在时间上将连续信号离散化的过程,采样一般是按均匀的时间间隔进行的。目前常见的音频信号的频率范围如图3.2-2所示,由图可见:电话信号的频带为200Hz~3.4kHz,调幅广播(AM)信号的频带为50Hz~7kHz,调频广播(FM)信号的频带为20Hz~15kHz,高保真音频信号的频带为10Hz~20kHz。根据不同的音频信源和应用目标,可采用不同的采样频率,如8kHz、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz或48kHz等都是典型的采样频率值。第3章音频信息处理技术图3.2-2常见音频应用带宽示意图数字激光唱盘CD10205020034007k15k20k频率/HzFM无线电广播AM无线电广播电话第3章音频信息处理技术(2)量化过程。量化过程是指将每个采样值在幅度上再进行离散化处理。量化可分为均匀量化(量化值的分布是均匀的或者说每个量化阶距是相同的)和非均匀量化。量化会引入失真,并且量化失真是一种不可逆失真,这就是通常所说的量化噪声。(3)编码过程。编码过程是指用二进制数来表示每个采样的量化值。如果量化是均匀的,又采用自然二进制数表示,这种编码方法就是脉冲编码调制(PulseCodeModulation,PCM),这是一种最简单、最方便的编码方法。第3章音频信息处理技术3.3从20世纪30年代提出PCM(脉冲编码调制)原理以及声码器的概念以来,音频信息压缩编码技术主要是向基于波形和基于参数两个方向发展的,从这个角度出发,音频信息编码技术可分为三类:第3章音频信息处理技术(1)波形编码。这种方法主要基于语音波形预测,它力图使重建的语音波形保持原信号的波形状态。它的优点是编码方法简单、易于实现、适应能力强、语音质量好等,缺点是压缩比相对来说较低,需要较高的编码速率。常用的波形法编码技术有增量调制(DM)、自适应差分脉冲编码调制(ADPCM)、子带编码(SBC)和矢量量化编码(VQ)等等。第3章音频信息处理技术(2)参数编码。这种方法主要基于参数的编码方法。与波形编码不同的是,这类编码方法通过语音信号的数学模型对语音信号特征参数(主要是指表征声门振动的激励参数和表征声道特性的声道参数)进行提取及编码,力图使重建的语音信号尽可能保持原信号的语意,而重建的语音信号波形同原信号的波形可能会有较大的区别。基于这种编码技术的编码系统一般称为声码器,它主要用于在窄带信道上提供4.8kb/s以下的低速语音通信和一些对延时要求较宽的应用场合(如卫星通信等)。最常用的参数编码法为线性预测编码(LPC第3章音频信息处理技术(3)混合编码。这种方法克服了原有波形编码与参数编码的弱点,并且结合了波形编码的高质量和参数编码的低数据率,取得了比较好的效果。混合编码是指同时使用两种或两种以上的编码方法进行编码的过程。由于每种编码方法都有自己的优势和不足,若是用两种,甚至两种以上的编码方法进行编码,可以优势互补,克服各自的不足,从而达到高效数据压缩的目的。无论是在音频信号的数据压缩中,还是后面章节将要描述的图像信号的数据压缩中,混合编码均被广泛采用。第3章音频信息处理技术3.3.11.增量调制(DM)是一种比较简单且有数据压缩功能的波形编码方法。增量调制的系统结构框图如图3.3-1所示。在编码端,由前一个输入信号的编码值经解码器解码可得到下一个信号的预测值。输入的模拟音频信号与预测值在比较器上相减,从而得到差值。差值的极性可以是正也可以是负。若为正,则编码输出为1;若为负,则编码输出为0。这样,在增量调制的输出端可以得到一串1位编码的DM码。增量调制编码过程示意图如图3.3-2所示。第3章音频信息处理技术图3.3-1增量调制的系统结构框图输入信号+-比较器极性判别)(ty译码器调制器脉冲发生器信道第3章音频信息处理技术图3.3-2增量调制编码过程示意图1111111000011000100010u(模拟输入)输出码第3章音频信息处理技术在图3.3-2中,纵坐标表示输入的模拟电压,横坐标表示随时间增加而顺序产生的DM码。图中虚线表示输入的音频模拟信号。从图3.3-2可以看到,当输入信号变化比较快时,编码器的输出无法跟上信号的变化,从而会使重建的模拟信号发生畸变,这就是所谓的“斜率过载”。可以看出,当输入模拟信号的变化速度超过了经解码器输出的预测信号的最大变化速度时,就会发生斜率过载。增加采样速度,可以避免斜率过载的发生。但采样速度的增加又会使数据的压缩效率降低。第3章音频信息处理技术从图3.3-2中还能发现另一个问题:当输入信号没有变化时,预测信号和输入信号的差会十分接近,这时,编码器的输出是0和1交替出现的,这种现象就叫做增量调制的“散粒噪声”。为了减少散粒噪声,就希望使输出编码1位所表示的模拟电压Δ(又叫量化阶距)小一些,但是,减少量化阶距Δ会使在固定采样速度下产生更严重的斜率过载。为了解决这些矛盾,促使人们研究出了自适应增量调制(ADM)方法。第3章音频信息处理技术2.自适应增量调制(ADM)从前面分析可以看出,为减少斜率过载,希望增加阶距;为减少散粒噪声,又希望减少阶距。于是人们就想,若是能使DM的量化阶距Δ适应信号变化的要求,必须是既降低了斜率过载又减少了散粒噪声的影响。也就是说,当发现信号变化快时,增加阶距;当发现信号变化缓慢时,减少阶距。这就是自适应增量调制的基本出发点。第3章音频信息处理技术在ADM中,常用的规则有两种:一种是控制可变因子M,使量化阶距在一定范围内变化。对于每一个新的采样,其量化阶距为其前面数值的M倍。而M的值则由输入信号的变化率来决定。如果出现连续相同的编码,则说明有发生过载的危险,这时就要加大M。当0,1信号交替出现时,说明信号变化很慢,会产生散粒噪声,这时就要减少M值。其典型的规则为)1()(2/1)1()(2kykykykyM(3.3-1)第3章音频信息处理技术另一类使用较多的自适应增量调制称为连续可变斜率增量(CVSD)调制。其工作原理如下:如果调制器(CVSD)连续输出三个相同的码,则量化阶距加上一个大的增量,也就是说,因为三个连续相同的码表示有过载发生。反之,则量化阶距增加一个小的增量。CVSD的自适应规则为QkkykykyPkk)1()2()1()()1()(其他(3.3-2)第3章音频信息处理技术式中,β可在0~1之间取值。可以看到,β的大小可以通过调节增量调制来适应输入信号变化所需时间的长短。P和Q为增量,而且P要大于等于Q。第3章音频信息处理技术3.3.21.非均匀PCM(μ律压扩方法)若输入的音频信号是话音信号,使用8kHz采样频率进行均匀采样,而后再将每个样本编码为8位二进制数字信号,则我们就可以得到数据率为64kb/s的PCM信号,这就是典型的脉冲编码调制。这种编码方式对输入的音频信号进行均匀量化,不管输入的信号是大还是小,均采用同样的量化间隔。但是,对音频信号而言,大多数情况下信号幅度都很小,出现大幅度信号的概率很小。第3章音频信息处理技术然而,为了适应这种很少出现的大信号,在均匀量化时不得不增加二进