数字音频编码技术综述摘要:本文介绍了常用的数字音频编码方式,包括MPEG系列伴音标准及DolbyDigital标准的原理,并对这几种重要的音频编码技术的多方面性能进行了比较,最后,对数字音频压缩编码技术进行了展望。关键词:数字音频编码;MPEG;DolbyDigitalOverviewofDigitalAudioCodingTechnology【Abstract】Inthispaper,someusualdigitalaudiocodingmethodsarediscussed,includingMPEGstandardandDolbyDigitalstandard.Andcomparisonsinmanyaspectsaremadebetweentheseaudiocodingmethods.Finally,itdiscussedtheprospectofdigitalaudiocompression.【KeyWords】digitalaudiocoding;MPEG;DolbyDigital1引言数字音频是多媒体业务的重要组成部分,数字音频编码技术已经成为多媒体的一个重要研究领域,并已被广泛地应用于数字音频广播(DAB)、高清晰度电视(HDTV)、多媒体网络通信等领域中。数字音频编码技术按数据量的压缩性能可分为非压缩音频(如波形音频、MIMI音频和CD音频)和压缩音频(如MEPG音频、杜比AC-3等)两类。而在网络应用中,为了提高带宽的利用率,增强数据的安全性和传输的可靠性,往往需要对数字音频进行压缩处理。一般地,根据压缩后的音频能否完全重构出原始声音可将音频压缩技术分为无损压缩及有损压缩两大类。而按压缩方案的不同,又可讲其划分为时域压缩、变换压缩、自带压缩,以及多种技术相互融合的混合压缩等等。数字音频的发展最初是从无损压缩开始的,如70年代开始采用的类似PCM的瞬时压扩技术和块压扩技术,这种技术的编码效率低。80年代末至90年代初,研究者利用人耳的掩蔽效应和临界频带的特性来进行子带编码和变换编码,出现的系统有:MUSUCAM系统、128kps的AC-2系统、AC-3系统等。90年代至今,有损压缩把音频数据的压缩率提高到12:1,也带来了音频质量的下降。比较著名的是:MP3,AAC,RM等。2MPEG数字音频编码标准ISO/IEC的MPEG音频编码的标准采用了2种编码算法:MUSICAM和ASPEC。以这两种算法为基础形成了三个不同层次的音频压缩算法,三种算法对应不同的应用要求并具有不同的编码复杂度。子代掩蔽编码标准MUSICAM的编码器框图如图1所示。MUSICAM采用了多项滤波器,将信号分割成带宽统一的32个子带。它增强了心理声学模型分析,1024点FFT是心理声学模型时域分析工具。由于MUSICAM的音质好、合理的算法复杂度和适中的时延等有点,使得它被ISO/IEC选用为MPEG音频编码的主要算法。滤波器组32个子频带线性量化器块形成比例因子提取选择辅助信息编码FFT1024点心理声学模型动态比特分配数据帧比特流数据库Aux附加数据数字音频PCM信号取样频率48kHz输出码流图1MUSICAM编码器原理图2.1MPEG-1在MPEG-1的音频编码标准中,按照复杂度规定了三种模式(层I,层II,层III)。层I是MUSICAM编码方法的简单型(MP1),VCD的音频压缩方案即为层1。层II为MUSICAM标准型(MP2),典型码流128kps。广泛应用与数字音频广播、数字演播室等数字音频专业的制作、交流、存储和传送。层III是综合了层II和ASPEC的有点提出的混合压缩技术(MP3),它的复杂度相对较高,编码不利于实时,它是MUSUCAM和ASPEC两个算法的结合,典型码流是64kbps。低码率仍有高品质的音质,因此成为广泛应用于网络音频。MP3编码器的框图如图2所示。子带滤波器组MDCT比特和比特因子分配与编码哈夫曼编码FFT心理声学模型比特流组装边信息信掩比PCM音频采样信号已编码数据流图2MP3编码器的框图2.2MPEG-2MPEG-2的音频编码标准,是在MPEG-1音频编码标准的基础上由双声通道扩展到多通道。声道数扩展到5.1,即左中右三个主声道,左环、右环两个环绕声道和一个重低音(LEF)声道。为了与MPEG-1后向兼容(BC),MPEG-2帧基本结构对应于在MPEG-1中的规定,多声道扩展是插入到MPEG-1音频帧,用于传送附加数据的区域中,信号兼容利用多声道信号的矩阵组合来实现,如果需要更高比特率,则产生一个附加的第二个扩展比特流,为了降低整体比特流,MPEG-2采用了自适应预测、限制中心声道频率等措施。MPEG-2有一种AAC(AdvancedAudioCoding)模式,它不后向兼容MPEG-1。在MPEG-2的正式听音测试中,数据流速率为320kbps的AAC可以提供比数据流速率为640kbps的MPEG-2BC更好的音质。因此,AAC是一种比MPEG-2BC编码算法更好的音频压缩算法,而且可以使用于各种环境下,如可以做电视信号的伴音等。AAC的编码器框图如图2所示。图2AAC的编码器框图2.3MPEG-4MPEG-4音频编码对音频的低比特率编码进行了大幅度的强化。相对于MPEG-1,MPEG-2而言,MPEG-4增加了通信用途并设想应用与各种信息压缩率、各种传输线路形式(包括记录媒体)以及联系连接形式(1对1,N对1,1对N等)。3杜比数码DolbyDigitalDolbyDigital是一种多路数字音频格式,由Dolby公司研制开发。它可将音频与元数据以尽可能的数据率送至接收机,从而为视频数据与其他DTV服务项目保存宝贵的空中频谱。其中,AC-1用于卫星通信和数码有线广播,AC-2用于专业音频的传输和存储。AC-3是在AC-1和AC-2基础上发展起来的多通道编码技术,保留了原AC-2中如窗函数处理、指数变换编码、自适应比特分配等许多特点,还新增了运用立体声多声道的编码技术策略的coupling和rematrix算法。一般而言,立体声的左声道和右声道的信号在听觉上十分相似,存在着许多重复的冗余信息,将这两个声道的信号联合起来加以编码,便可除去冗余的信号且不会影响原来的音质。其编码器框图如图3所示。编码频谱包络滤波器组比特分配器核心比特分配器多路复用量化输入信号比特分配附加信息已编码的比特流图3AC-3编码器原理图AC-3又被称为感觉编码系统,它将每一声道的音频根据人耳听觉特性划分为许多最优的狭窄频段,利用音响心理学“听觉掩蔽效应”,删除人耳所听不到或可忽略的部分,并采用数字信号压缩编码。同时,利用狭窄频段的划分使部分频段噪声在编码时可被几乎全部滤除,使其余噪声的频谱靠近在信号频谱附近,而这些噪声可被信号所抑制。因此杜比AC-3系统实际上是一种具选择性及强抑噪的系统,以较低的码率支持全音频多声道,并具优良的回放音质和效果。AC-3采用全音域5.1声道运行方式,即左、右、中置、左环绕、右环绕,再加上一个超重低音的声道,故又称作5.1声道。其中前5个声道的频响范围都是音频全频带即3HZ-20kHz,而LEF声道的频响范围是3-120Hz,仅占整个频谱的十分之一,因此又称为5.1声道环绕声系统。AC-3传输速率为32-640kbit/s,动态范围为20bit,采样频率支持32kHz,44.1kHz和48kHz,输出声道数目可变。AC-3的压缩比可以达到1:12,能够以384kbit/s的速率播放5.1声道声音。可见,AC-3确是一种完善而又灵活的编码方案。3总结随着人类听觉特性理论的深入发展和数字化技术的广泛应用,以及市场对消费类音乐质量的趋高要求,数字音频编码技术已经成为多媒体的一个重要研究领域,并已被广泛地应用于数字音频广播(DAB)、高清晰度电视(HDTV)、多媒体网络通信等领域中。数字音频压缩算法种类繁多,从上文的分析中可以看出,根据不同的应用场合和对传输速率及音质的特殊要求,可以组合出不同的标准或规范。未来,一方面继续研究新的音频压缩算法,另一方面,根据不同的应用要求改进现行规范或提出新的技术方案。参考文献[1]PeterNoll.MPEGDigitalAudioCoding[J].IEEESignalProcessingMagazine,1997,(9).[2]StephenLi,JuneRowlands,etc.AnAC-3/MPEGMulti-standardAudioDecoderIC[C].IEEE1997CustomIntegratedCircuitsConference.[3]林胜,杨成军,全子一.MPEG声音编码标准简介[J].数字声频,2001,(2).[4]郑世宝.《网络多媒体》课程.上海交通大学.