音频编码技术与标准AVS音频工作组胡瑞敏高戈张勇武汉大学国家多媒体软件工程技术研究中心汇报提纲汇报提纲一、音频编码技术发展趋势二、AVS音频编解码标准三、AVS音频标准未来发展设想四、总结汇报提纲汇报提纲一、音频编码技术发展趋势二、AVS音频编解码标准三、AVS音频标准未来发展设想四、总结一、音频编码技术发展趋势一、音频编码技术发展趋势1、音频编码技术发展的历史2、主流音频编解码标准3、音频编码技术发展趋势11、音频编码技术发展的历史、音频编码技术发展的历史音频编码技术可以分为两类z语音编码技术和音频编码技术zPCM、ADPCM、SB-ADPCM、线性预测、CELP、ACELPz心理声学模型、时频变换、窗切换、时域噪声整形、带宽扩展、立体声编码、空间音频编码198019851990199520002005PCMADPCMCELPACELP带宽扩展心理声学模型时频变换参数立体声空间参数编码时域噪声整形语音编码技术发展历史语音编码技术发展历史时间编码算法体现的标准1972年PCM脉冲编码调制Pulse-CodeModulation每秒取样8000次;每次取样为8bit个位,总共64kbpsG.7111988年SB-ADPCM子带-自适应差分脉冲编码Sub-BandAdaptiveDifferentialPulseCodeModulationG.7221988年RPE-LTPRegularPulseExcited-LongTermPredition-LinearPredictiveCoding规则脉冲激励—长时预测—线性预测编码GSM1990年ADPCMG.726,7271991年VSELP向量和激励线性预测编码VSELP(VectorSumExcitedLinearPredictionIS-54、JDC(美数字蜂窝)1995年MPMLQ、ACELPMultiPulseMaximumLikelihoodQuantizationG.723.11996年CS-ACELP共扼结构—代数码激励线性预测编码ConjugateStructure-AlgebraicCodeExcitedLinearPredictionG.7292000年ACELPAMR-WB(G.722.2)音频编码技术发展历史音频编码技术发展历史时间编码算法体现的标准1982年PCMCD1992年感知音频编码MPEG-11997年感知音频编码MPEG-2AAC1999年感知音频编码MPEG-4AAC2004年ACELP/TCX、带宽扩展参数立体声AMR-WB+2006年空间音频编码MPEGSurround22、主流音频编解码标准、主流音频编解码标准ITU、MPEG、ETSI/3GPP、TIA/3GPP2等国际和地区标准化组织制订了一系列音频编码标准zITU:G.711、G.729等zMPEG:MP3、AAC等z3GPP:AMR、AMR-WB、AMR-WB+等z3GPP2:IS127等音频编码技术的企业标准zDolbyAC-3、DTS、WMA等22、主流音频编解码标准、主流音频编解码标准MPEG-1AudioLayerIII(MP3)DolbyAC-3ITUG.729MPEG-2AACWindowsMediaAudio(WMA)3GPPAMR-WB+22、主流音频编解码标准、主流音频编解码标准MPEG-1AudioLayerIII(MP3)DolbyAC-3ITUG.729MPEG-2AACWindowsMediaAudio(WMA)3GPPAMR-WB+MP3MP3((11))背景z为了在1.5Mbps码率对视频和伴音进行高质量压缩,MPEG于1992年制订完成了MPEG-1标准zMPEG-1音频编解码标准分为三层,复杂度和音质逐层提高,MP3即为其中的第三层,MPEG-1layer3技术指标z采样率:32、44.1、48kHzz码率:32kbps-160kbps/声道z声道:单声道、立体声MP3MP3((22))AnalysisFilterbankMaskingThresholdsScalefactorAndQuantizationFFTDynamicBitandScalefactorAllocatorandCoderSysthesisFilterbankDequantizerandDescalerDynamicBitandScalefactorDecoderMUXDigitalChannelDEMUXPCMInputPCMOutputScalefactorInformationSignal-to-MaskRatios技术框架MP3MP3((33))技术特点z采用PQMF滤波器组,近似对应人耳的临界频段z利用人耳对声音的感知特性,动态量化z采用“比特蓄水池”的buffer技术专利分布公司名称FraunhoferInstituteThomsonFranceTelcomPhilipsMPMP33((44))应用状况z便携式音频播放器•MP3播放器的年增长率100-200%,至2007年已达1000万台的总量z基于Internet的高质量音频传输•MP3编码格式的歌曲、音乐在互联网上得到迅速传播22、主流音频编解码标准、主流音频编解码标准MPEG-1AudioLayerIII(MP3)DolbyAC-3ITUG.729MPEG-2AACWindowsMediaAudio(WMA)3GPPAMR-WB+16DolbyACDolbyAC--33((11))背景zDolby公司的第三代音频编码算法z多声道信号的音频编码系统zDVD和HDTV的音频编码标准DolbyACDolbyAC--33((22))技术框架AnalysisFilterBankSpectralEnvelopeEncodingBitAllocationMantissaQuantizationAC-3FrameFormattingPCMTimeSamplesExponentsBitAllocationInformationMantissasQuantizedMantissasEncodedSpectralEnvelopeEncodedAC-3Bit-Stream132456DolbyACDolbyAC--33((33))应用状况z被超过60个公司接纳为音频压缩方案•计算机及主板制造商:ACE,ASUS(华硕),Intergra,Lenovo,MSI,TCL,Toshiba,VelocityMicro,Abit,FOXCONN,GIGABYTE,INTELz强制性音频编码器•DVD影碟•ATSC数字地面电视:ATSC(AdvancedTelevisionStandardsCommittee)•DLNA家庭互联:DLNA(DigitalLivingNetworkAlliance)•有线电视,卫星电视22、主流音频编解码标准、主流音频编解码标准MPEG-1AudioLayerIII(MP3)DolbyAC-3ITUG.729MPEG-2AACWindowsMediaAudio(WMA)3GPPAMR-WB+G.729G.729((11))背景z20世纪80年代末,为满足长途通信的需求,ITU制订8kbps的高质量低延时的语音编码标准z1996年,NTT、CNET、Sherbrooke大学、AT&T实验室提出的算法被采纳技术指标z采样率:8kHzz码率:8kbpsG.729G.729((22))技术框架固定码本搜索自适应码本搜索LPC分析滤波感知加权滤波+GGLPC合成滤波输入语音+最优准则+++-G.729G.729((33))技术特点z采用代数码本,码书简单、无需存储,恢复音质清晰z分析窗采用混合窗,LSP参数采用两级矢量量化z基音分析采用开环基音分析和自适应码本搜索结合,低运算复杂度、高精度z采用10ms分析帧,编码时延小G.729G.729((44))专利分布zSherbrooke大学z法国电信zNTT公司zAT&T应用状况zIP电话z视讯电话z视讯会议系统22、主流音频编解码标准、主流音频编解码标准MPEG-1AudioLayerIII(MP3)DolbyAC-3ITUG.729MPEG-2AACWindowsMediaAudio(WMA)3GPPAMR-WB+AACAAC((11))背景z1997年制订不兼容MPEG-1的音频标准MPEG-2NBC,即MPEG-2AACz1999年MPEG-2AAC增加LTP和PNS工具,形成MPEG-4AACv1z2002年MPEG-4AACv1增加了SBR和错误鲁棒性工具,形成MPEG-4HE-AACz2004年MPEG-4HE-AAC引入PS模块,提升低码率性能,形成EAAC+技术指标z采样率:8kHz-96kHzz码率:8kbps-576kbpsz声道:最多支持48个主声道,16个低频增强声道窗切换及滤波器组码流成型量化及熵编码增益控制频域处理工具心理声学计算编码码流时域信号图例:数据控制AACAAC((22))技术框架关键技术z心理声学计算z窗切换zMDCTz联合立体声zTNS(时域噪音整形)z双层循环量化AACAAC((33))技术特点z典型的感知音频编码,以心理声学为基础,在频域以主观不可感知为目标压缩信号;z可扩展性:增加SBR和PS的EAAC+在32kbps码率下,MOS分达到4.0以上z可配置性:通过不同工具集组合选择,形成针对具体应用的档次(profile),如LC(LowComplexity,低复杂度),LD(LowDelay,低延时),Main(高质量)AAC是一种具有可扩展性的音频编码体系MPEG-2AAC-LCMPEG-4AAC-LCMPEG-4HE-AACMPEG-4HE-AACv2感知噪音替代PNS频带复制SBR参数立体声PS1997199920032004AACAAC((44))EAAC+在48kbps码率能实现CD音质EAAC+zAAC编码器:下混信号的低频成分zSBR模块:下混信号的高频成分zPS模块:左右声道下混、提取立体声参数AAC单声道编码PS参数立体声SBR边带复制码流成型左声道右声道下混高频成分下混低频成分编码码流AACAAC((55))性能测试z96kbps的MPEG-2AAC==128kbps的MP3z引入SBR和PS后的EAAC+在32kbps达到优良的音质应用状况z互联网音乐下载AppleiTuneMusicStorez便携式播放器AppleiPod,多媒体手机,MP4播放器z移动通信3GPP将EAAC+作为移动多媒体音频编码方案之一z广播数字全球广播DRM采用EAAC+卫星广播XMRadio采用MPEG-4HE-AACz储存第二代DVD音频采用MPEG-4HE-AAC作为音频编码格式AACAAC((77))22、主流音频编解码标准、主流音频编解码标准MPEG-1AudioLayerIII(MP3)DolbyAC-3ITUG.729MPEG-2AACWindowsMediaAudio(WMA)3GPPAMR-WB+1WMAWMA((11))背景z微软公司为实现网络流媒体推出的音频压缩格式技术框架输入音频序列输入音频序列感知模拟码率控制MLT处理多声道转换加权因子量化分级编码复用比特流WMAWMA((22))技术性能z支持音频流技术z压缩比可以达到1∶18左右z96Kbps的WMA音质=128Kbps的MP3音质z低码率时压缩比和音质优于MP3应用状况z数字电台z在线音乐试听22、主流音频编解码标准、主流音频编解码标准MPEG-1AudioLayerIII(MP3)DolbyAC-3ITUG.729MPEG-2AACWindowsMediaAudio(WMA)3GPPAMR-WB+AMRAMR--WB+WB+((11))背景z2004年3GPP制订完成的