mmlec-4

a323517
0 ℃
2020-02-11

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

SLIDE1SchoolofManagementTianjinUniversity多媒体数据压缩技术8563ASPECTRUMANALYZER9kHz-26.5GHz傅里叶变换X(t)=sin(2πnft)0t0f什么是信号的频域空间？信号频域分析是采用傅立叶变换将时域信号x(t)变换为频域信号X(f)，从而帮助人们从另一个角度来了解信号的特征。SLIDE2SchoolofManagementTianjinUniversity频域分析幅值时域分析频域分析信号频谱X(f)代表了信号在不同频率分量成分的大小，能够提供比时域信号波形更直观，丰富的信息。SLIDE3SchoolofManagementTianjinUniversity频域分析时域和频域的对应关系SLIDE4SchoolofManagementTianjinUniversity多媒体数据压缩技术音频压缩标准•电话质量的语音压缩标准－应用于数字移动通讯。语音信号的频率范围300HZ-3.4KHZ三种语音编译码器：波形编译码器音源编译码器混合编译码器普通编译码器的音质与数据率SLIDE5SchoolofManagementTianjinUniversity多媒体数据压缩技术•电话质量语音信号的频率范围是300HZ-3.4KHZ,采用标准的PCM：•采样频率为8KHZ，量化位数为8b，所对应的速率为64kb/s。•最简单的波形编码是脉冲编码调制(pulsecodemodulation，PCM)•电话质量的语音压缩标准：–G.711、G.721、G.723等（参见书P56）SLIDE6SchoolofManagementTianjinUniversity多媒体数据压缩技术•PCM是概念上最简单、理论上最完善的编码系统，是最早研制成功、使用最为广泛的编码系统，它仅仅是对输入信号进行采样和量化，但也是数据量最大的编码系统•下图中的“防失真滤波器”是一个低通滤波器，用来滤除声音频带以外的信号；“波形编码器”可暂时理解为“采样器”，“量化器”可理解为“量化阶大小(step-size)”生成器或者称为“量化间隔”生成器。SLIDE7SchoolofManagementTianjinUniversity多媒体数据压缩技术SLIDE8SchoolofManagementTianjinUniversity多媒体数据压缩技术•高保真立体声音频压缩标准－频率范围50HZ-20KHZ–目前国际上比较成熟的高保真立体声音频压缩标准为MPEG音频。–MPEG-1和MPEG-2的声音数据压缩编码不是依据波形本身的相关性和模拟人的发音器官的特性，而是利用人的听觉系统的特性来达到压缩声音数据的目的，这种压缩编码称为感知声音编码(perceptualaudiocoding)。SLIDE9SchoolofManagementTianjinUniversity多媒体数据压缩技术•进入20世纪80年代之后，尤其最近几年，人类在利用自身的听觉系统的特性来压缩声音数据方面取得了很大的进展，先后制定了MPEG-1Audio,MPEG-2Audio等标准•它们处理10Hz－20000Hz范围里的声音数据，使用“心理声学模型(psychoacousticmodel)”来达到压缩声音数据的目的。•心理声学模型中一个基本的概念就是听觉系统中存在一个听觉阈值电平，低于这个电平的声音信号就听不到，因此就可以把这部分信号去掉。SLIDE10SchoolofManagementTianjinUniversity多媒体数据压缩技术•心理声学模型中的另一个概念是听觉掩饰特性，意思是一种频率的声音阻碍听觉系统感受另一种频率的声音的现象。例如，同时有两种频率的声音存在，一种是1000Hz的声音，另一种是1100Hz的声音，但它的强度比前者低18分贝，因此，1100Hz的声音就会听不到•比如在一安静房间里的普通谈话可以听得很清楚，但在播放摇滚乐的环境下同样的普通谈话就听不清楚了。声音压缩算法也同样可以确立这种特性的模型来取消更多的冗余数据。SLIDE11SchoolofManagementTianjinUniversity多媒体数据压缩技术“听阈—频率”曲线SLIDE12SchoolofManagementTianjinUniversity多媒体数据压缩技术SLIDE13SchoolofManagementTianjinUniversity音频压缩标准•音频层根据压缩质量和编码复杂度分为Layer1、Layer2、Layer3三层SLIDE14SchoolofManagementTianjinUniversity音频压缩标准①层1的编码器最为简单，编码器的输出数据率为384kb/s，主要用于小型数字盒式磁带(digitalcompactcassette，DCC)。②层2的编码器的复杂程度属中等，编码器的输出数据率为256kb/s－192kb/s，其应用包括数字广播声音(digitalbroadcastaudio，DBA)、数字音乐、CD-I(compactdisc-interactive)和VCD(videocompactdisc)等。③层3的编码器最为复杂，编码器的输出数据率为64kb/s，广泛用于INTERNET传播。SLIDE15SchoolofManagementTianjinUniversity音频压缩标准•MPEG-1Audio(ISO/IEC11172-3)压缩算法是世界上第一个高保真声音数据压缩国际标准，并且得到了极其广泛的应用。虽然MPEG声音标准是MPEG标准的一部分，但它也完全可以独立应用。数据的输入/输出图如下：MPEG编码器32,44.1,48kHzPCM32kbps~384kbpsSLIDE16SchoolofManagementTianjinUniversity音频压缩标准•MPEG-1Audio的编码对象是20～20kHz的宽带声音，因此它采用了感知子带编码。或叫做子带编码(sub-bandcoding，SBC)。•利用子带编码达到既压缩声音数据又尽可能保留声音原有质量的目的。•这种方法的具体思想是首先把时域中的声音数据变换到频域中的多个子带当中，对每个子带里的信号分别进行量化和编码，根据心理声学模型确定样本的精度，从而达到压缩数据量的目的。SLIDE17SchoolofManagementTianjinUniversity音频压缩标准•输入声音信号经过一个“时间-频率多相滤波器组”变换到频域里的多个子带中。•滤波器组：实现时域到频域的转换，采用多相正交分解滤波器组将数字化的宽带音频信号分成32个子带位数据流辅助数据时间-频率变换多相滤波器组量化和编码心理声学模型(计算掩蔽特性)数据流帧包装PCM声音数据样本32,44.1,或48kHzISO11172-3SLIDE18SchoolofManagementTianjinUniversity音频压缩标准•利用心理学模型控制量化和编码的一组数据－人们利用模型来判断哪些频率中的音在整个音中对人们影响最大，因此编码时候决定分配给子带信号的量化位数•最后通过“数据流帧包装”将量化的子带样本和其他数据按照规定的称为“帧(frame)”的格式组装成位数据流。SLIDE19SchoolofManagementTianjinUniversity音频压缩标准•解码器对位数据流进行解码，恢复被量化的子带样本值以重建声音信号。由于解码器无需心理声学模型，只需拆包、重构子带样本和把它们变换回声音信号，因此解码器比编码器简单得多。32,44.1或48kHzPCM声音样本数据流帧包拆卸声音数据重构频率－时间逆变换位数据流辅助数据ISO11172-3SLIDE20SchoolofManagementTianjinUniversity音频压缩标准•MPEG的声音数据分成帧(frame)，层1每帧包含384个样本的数据，每帧由32个子带分别输出的12个样本组成。•层Ⅱ即称掩蔽模式通用子带集成编码与多路复用，层2对层1作了一些直观的改进，相当于3个层1的帧，每帧有1152个样本。它使用的心理声学模型除了使用频域掩蔽特性之外还利用了时间掩蔽特性，并且在低、中和高频段对位分配作了一些限制，对位分配、比例因子和量化样本值的编码也更紧凑。SLIDE21SchoolofManagementTianjinUniversity音频压缩标准•由于层2采用了上述措施，因此所需的位数减少了，这样就可以有更多的位用来表示声音数据，音质也比层1更高。•典型的码流为每通道128Kbit/S，广泛应用于数字音频广播、数字演播室等数字音频专业的制作、交流、存储和传送。SLIDE22SchoolofManagementTianjinUniversity音频压缩标准SLIDE23SchoolofManagementTianjinUniversity音频压缩标准ISO/MPEGaudio层1和层2编码器和解码器的结构SLIDE24SchoolofManagementTianjinUniversity音频压缩标准•MUX(多路复合器)相当上图中的“数据流帧包装”，它按规定的帧格式对声音样本和编码信息(包括比特分配合比例因子等)进行包装。•每帧都包含：①用于同步和记录该帧信息的同步头，长度为32位②用于检查是否有错误的循环冗余码(cyclicredundancycode，CRC)，长度为16位，③用于描述位分配的位分配域，长度为4位，④比例因子域，长度为6位，⑤子带样本域，⑥有可能添加的附加数据域，长度未规定。SLIDE25SchoolofManagementTianjinUniversity音频压缩标准SLIDE26SchoolofManagementTianjinUniversity音频压缩标准•层3使用比较好的临界频带滤波器，把声音频带分成非等带宽的子带，心理声学模型除了使用频域掩蔽特性和时间掩蔽特性之外，还考虑了立体声数据的冗余，并且使用了赫夫曼(Huffman)编码器。•虽然层3所用的滤波器组与层1和层2所用的滤波器组的结构相同，但是层3还使用了改进离散余弦变换(modifieddiscretecosinetransform，MDCT)，对层1和层2的滤波器组的不足作了一些补偿SLIDE27SchoolofManagementTianjinUniversity音频压缩标准•除了使用MDCT外，层3还采用了其他许多改进措施来提高压缩比而不降低音质。虽然层3引入了许多复杂的概念，但是它的计算量并没有比层2增加很多。增加的主要是编码器的复杂度和解码器所需要的存储容量•层Ⅲ是综合于层Ⅱ和ASPEC（自适应谱分析听觉熵编码）的优点提出的混合压缩技术，MP3的复杂度相对较高，典型码流为64Kbit/S，在低码率下有高品质的音质。