数字声音广播 2 数字音频信源编码

sorinwang
2 ℃
2020-03-18

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

1数字音频信源编码2信源编码在通信系统中的位置3（一）、信源编码的任务信源编码又称数据压缩（降低数字信号的数据率），其任务主要是解决数据存储、交换、传输的有效性问题。通过对信源数据率的压缩、力求用最少的数码传递最大的信息量。信源编码的一个主要目标是解决数字编码的数据率压缩问题。4信源编码、解码系统原理压缩的信号768kb/s约100kb/s768kb/sA/D编码器解码器D/A冗余与不相关部分（约600kb/s）5（二）、数据率压缩的必要性（带来的好处）1、减少传输要求的射频带宽，提高频谱利用率。例如：一套CD双声道立体声节目，取样率为44.1KHz，每样值按16比特量化，净数据率为2×16×44.1×103=1411.2kb/s，为确保传输的可靠性，设信道编码率R=1/2，则实际经信道传输的总数据率为：1411.2kb/s×2=2822.4kb/s若信道的频谱利用率为2（b/s）/Hz，则传输一套CD立体声节目所需的射频带宽为2822.4(Kb/s)/[2(b/s)/Hz]1.4MHz，相当于现在7个模拟FM广播电台占用的实际带宽。不进行数据压缩，要想实现传输的数字化是不切实际的。6经过压缩后，若将数据率降至原来的1/7，则利用一个FM电台所占的实际射频带宽就可以传送一套CD质量的立体声节目。数据压缩清除了广播电视节目传输数字化的最大障碍。由于数据压缩，在现有通信干线上可开通更多的并行业务。在带宽一定的信道上，可同时安排多套节目。2、较快地传输各种信源，降低信道占用费。3、紧缩数据存储容量，降低存储费用和空间。4、降低发射机功率消耗。7（三）、数据压缩的分类1、可逆压缩又称冗余度压缩、无失真压缩。例如去除重复的数据，根据压缩后的数据恢复原来的数据，无信息丢失。2、不可逆压缩又称“不相关”压缩，压缩时丢掉信号中的“不相关”部分，解码后不能恢复原来的“不相关”部分。8可逆压缩与不可逆压缩可借下图来理解：源编码器源解码器PCM信号768kb/s(每声道)+_PCM信号768kb/s96kb/sDSD=0时，为冗余压缩（可逆）D0时，为“不相关压缩”（不可逆）经源解码后，虽然数据率与压缩前相同，但信号的成分在可逆压缩时相同，不可逆压缩是不同的。S’9（四）、数据率压缩的可能性1、统计分析表明，声音信号中存在多种冗余度。编码时降低信号中的冗余度，解码时可以重建。2、利用人耳听觉的心理声学特性（频谱掩蔽特性和时间掩蔽特性）、人耳对信号幅度、频率、时间的有限分辨能力，凡是感觉不到的成分不编码、不传送。凡是人耳感觉不到的成分，对人耳辨别声音信号的强度、音调、方位没有贡献，称为“不相关部分”。10（五）、何谓与CD可比的质量将压缩后的节目与原版CD节目对比试听，若听不出区别，就可认为数据率压缩的节目有与CD可比的质量。原版节目A（数据率1411.2kb/s）压缩后的节目B（例如192kb/s）先在告知是原版节目节目A的情况下聆听，然后，在不告知是A还是B的情况下聆听A和B，听后由听者判断哪个是A，哪个是B，如果分不清A和B，说明B有与CD可比的质量。11（六）、MPEG音频编码标准1、MPEG1ISO/IEC—11172—31992年标准化取样频率：32KHz，44.1KHz，48KHz数据率：32Kb/s~384Kb/s声音模式：单声道、双声道立体声、联合立体声编码算法系列与关系：Layer1：MUSICAM的简化版本Layer2：MUSICAM（掩蔽型通用自适应子带综合编码与复用）Layer3：MUSICAM+Aspec(自适应频谱感知熵编码）编码复杂性层（Layer）号能力处理时延12能力：在相同的质量下，压缩率大。（压缩率：未压缩时的数据率/压缩后的数据率）或在相同的数据率下，有更好的质量。兼容性：层号高的解码器可对用本层和低层编码算法的数据流解码。不同Layer的应用：Layer1：DCCLayer2：DAB，电缆和卫星广播（ADR），电缆和卫星电视（DVB），计算机多媒体Layer3：通过ISDN传送广播节目1314不同Layer的比较LayerIIIIII在比较好的质量下每声道的数据率192kb/s128kb/s64kb/s所列出的比特率的压缩比1:3.61:5.61:11滤波器子频带编码子频带编码变换编码频谱分辨率32个子带32个子带32个子带，每子带18条特征基本(简单)算法最佳编码滤波器组和熵编码的联合应用152、MPEG2ISO/IEC—13818—31994年11月标准化,是对MPEG1的发展与扩展多声道环绕声和多语言编码低（半）取样频率低比特率编码取样频率：16KHz22.05KHz24KHzMPEG2也有Layer1Layer2Layer316标记MPEG1，Layer2取样频率：32、44.1和48kHzMPEG2，Layer2取样频率：16、22.05和24kHz0000自由格式自由格式000132kb/s8kb/s001048kb/s16kb/s001156kb/s24kb/s010064kb/s32kb/s010180kb/s40kb/s011096kb/s48kb/s0111112kb/s56kb/s1000128kb/s64kb/s1001160kb/s80kb/s1010192kb/s96kb/s1011224kb/s112kb/s1100256kb/s128kb/s1101320kb/s144kb/s1110384kb/s160kb/s1111禁用禁用MPEG1和MPEG2—LSF的数据率173、ISO/IECMPEG—2AAC(ISO/IEC13818—7)1997年4月公布非向下兼容音频编码标准正式称为AAC（先进音频编码）,已经成为MPEG4音频标准的核心。AAC把高分辨率滤波器、预测技术和霍夫曼编码结合一起，在极低数据率时实现广播级的音频质量。184、MPEG4(ISO/IEC14496-3)1999年标准化完全新的编码方法，提供新的可能性。支持新的功能：(1)由内容决定的交互性(2)通用存取（通过完全不同的网络）(3)编码效率的提高19支持的信号等级:（1）HiFi质量的音乐（上限频率至15KHz~20KHz，每声道64kb/s可达CD质量）（2）中等质量的音乐和语言（上限频率至5KHz~11KHz，每声道16~48kb/s）（3）宽带语言（7KHz，16~32kb/s）（4）电话质量的语言（3KHz，4~8kb/s）（5）很低比特率的语言（2kb/s）（6）合成音乐（低于16kb/s）（7）合成语言20MPEG-4音频编码标准的第一版本是在1998年10月起草的并且提供了所谓“工具”模块，对自然与合成音频对象进行编码以及将这些音频对象组合成一个音频景象。由于MPEG-4标准化特别短的时间安排，只考虑了在标准的第一版本中的模块，还有许多模块没有固定。然而由于在第一版本没有覆盖的这些模块提供重要的功能，MPEG决定继续开发这些模块作为标准的扩展，于1999年12月起草了MPEG-4音频标准的第二版本。第二版本是完全向下兼容的第一版本的扩展。2122MPEG-4的“型”与“层”不言而喻，一个MPEG-4音频解码器要实现所有模式并用于很多应用，那就会有相当高的复杂性，因此定义了所谓的“型”与“层”。一个型规定一组允许的模型，同时，最大的复杂性，即在解码器中所需要的计算能力和存储量，通过型的不同层来限制。据此，尽管由于MPEG-4标准的灵活性和复杂性，也可以实现良好的内部可操作性。23MPEG-4音频标准版本1的“型”在MPEG-4音频标准版本1中定义了四种型：（1）语言型包含所有用于自然和合成语言信号编码的模型：CELP（代码激励线性预测）、HVXC（谐波矢量激励编码）和TTSI（文本到语言接口）。24（2）分级型是建立是在语言型的基础上，补充了用于任意声音信号编码的模型：AACLC（先进音频编码低复杂度）、AACLTP（AAC长期预测）、AAC可分级和TwinVQ（变换域加权交织矢量量化）。25(3)合成型包含所有用于产生合成语言和合成声音信号的的模型：SAOL（结构音频管弦乐队语言）、SASBF（结构音频样品库格式）和TTSI。(4)主型包含MPEG-4音频版本1的所有模型。26MPEG-4音频标准版本2的“型”在MPEG-4音频标准版本2中定义了四种附加型：（1）高质量音频型：包含用于语言信号和声音信号编码的低复杂度的模型：CELP、AACLC、AACLTP和AAC可分级。27（2）低延时音频型：包含用于具有低的系统延时的语言信号和声音信号编码的模型：AACLD（AAC低延时）、CELP、HVXC和TTSI。28（3）移动音频互联网型：仅包含用于音频信号编码的以下模型：AACLC、AAC可分级、TwinVQ、AACLD和BSAC（比特切片运算编码）。29（4）自然音频型：包含版本1和2用于自然语言和声音信号编码的所有模型以及TTSI。在以上所有四种型中可以联合应用用来改善差错强壮性的模型。30（七）、信源编码的理论基础1、频谱掩蔽效应声音强度用声级L表示：L=20lg（P/P0）（dB）P：声压；P0：基准声压P0=2×10-5N/m2=20×10-6N/m2=20μpa31频谱掩蔽特性32相同频率、不同声级的信号对同听阈的影响33相同强度、不同频率的几个信号共同作用时的同听阈342、时间掩蔽效应同期掩蔽、后掩蔽、前掩蔽35时间掩蔽特性363、子频带编码编码端：使用带通滤波器组（分析滤波器)把输入音频信号分成许多连续的频段（子频带），对每子频带独立编码。信道上传送的是各子带编码复合数据流。解码端：从复合的数据流中，分解出各子带编码数据流分别解码，通过与编码器相应的带通滤波器组（综合滤波器）合成一个宽带的信号。37子频带编码3839优点：1、各子带分别控制实现有效压缩。2、各子带的量化噪声影响限制在本子带,避免能量较小频带内的输入信号被其它频段的量化噪声所掩蔽。40（八）、低取样频率低比特率编码取样频率减半16KHz、22.05KHz、24KHz带宽减半子带总数不变子带宽减半750Hz/2编码效率提高4142信号掩蔽比：SMR信噪比：SNR掩蔽噪声比：MNR关系：MNR=SNR-SMR43（九）、MUSICAM编码方法MUSICAM编码器MUSICAM解码器768kb/s传输线路768kb/s441、技术特征与特性•宽带信号等分为32个子频带，•每子带宽：750Hz45数据率、质量与应用每声道数据率压缩比质量应用例192Kb/s128Kb/s96Kb/s64Kb/s48Kb/s32Kb/s468121624最高很高高（CD）约FM约AM语言多次后处理后处理DAB/DVBISDN报道节目录音机462、MUSICAM编码器474849[1]、分析滤波器组作用：完成从时域到频域的映射取样频率48KHz时，分为32个子带，每子带带宽△f=（fs/2）/32=750Hz每子带的取样频率为1500Hz（=2×△f=fs/32）每24ms（相当于1个音频帧长）每子带有1500×24×10-3=36个样值，32个子带每24ms共有36×32=1152个样值。50分析滤波器组的运算步骤：（1）输入32个音频样值（2）建立有512个元素的矢量Ⅹ，标号为0，1，2······511。首先输入的第1组32个音频样值相当于标号为0，1······31元素。再输入32个音频样值后，第1组32个元素被移出，第2组32个元素的第1个元素处于标号0处，第32个元素处于标号31处。依此类推。（3）矢量Xi与系数Ci相乘，产生矢量Zi=Ci·Xi（i=0，1······511）（系数Ci可在规范中查表）51（4）计算64个中间量Yi(i=0,1,2······63)(5)通过矩阵运算得到32个子带的输出样值Si=Mik·Yk（i=0,1,2······31）其中系数Mik=cos[(2i+1)(k-16)π/64](i=0,1,2······31；k=0,1,2······63)706