第11章MPEG声音MPEG声音的数据压缩编码,不是依据波形本身的相关性和模拟人的发声器官的特性,而是利用人的听觉系统的特性来达到压缩声音数据的目的,这种压缩编码称为感知声音编码(perceptualaudiocoding)上世纪80年代后,先后制定MPEG-1Audio,MPEG-2Audio,MPEG-2AAC和MPEG-4Audio等标准,它们统称为MPEG声音(1)声音的响度就是声音的强弱(2)在物理上,声音的响度使用客观测量单位来度量dyn/cm2(达因/平方厘米)(声压)或W/cm2(瓦特/平方厘米)(声强)(3)在心理上,主观感觉的声音强弱使用响度级“方(phon)”或者“宋(sone)”来度量(4)上述两种单位的概念不同,但又有一定的联系11.1听觉系统的感知特性11.1.1对响度的感知声音弱到人的耳朵刚刚可听见时,称此时的声音强度为“听阈”例如,1kHz纯音的声强达到10-16w/cm2时,即零dB声强级,主观响度级定为零方11.1听觉系统的感知特性11.1.1对响度的感知图11-1“听阈—频率”曲线11.1听觉系统的感知特性11.1.1对响度的感知图11-1“听阈—频率”曲线“零方等响度级”曲线,也称“绝对听阈”曲线,即在安静环境中,能被人耳听到的纯音的最小值。1kHz的纯音的声强级达到120dB左右时,人耳感到疼痛,这个阈值称为“痛阈”。“听阈—频率”和“痛阈—频率”曲线之间的区域就是人耳的听觉范围人耳对响度的感觉有一个范围,从听阈到痛阈人耳对频率的感觉也有一个范围,最低频率约20Hz,最高频率约18000Hz“音高—频率”曲线如图11-2所示11.1听觉系统的感知特性11.1.2对音高的感知图11-2“音高—频率”曲线一种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应前者称为掩蔽声音(maskingtone)后者称为被掩蔽声音(maskedtone)掩蔽可分成频域掩蔽和时域掩蔽11.1听觉系统的感知特性11.1.3掩蔽效应一个强纯音会掩蔽在其附近同时发声的弱纯音,这种特性称为频域掩蔽,也称同时掩蔽,如图11-3所示11.1听觉系统的感知特性频域掩蔽图11-3频域掩蔽声音频率在300Hz附近、声强约为60dB的声音被掩蔽声音频率在150Hz附近、声强约为40db的声音弱纯音离强纯音越近就越容易被掩蔽感知编码(perceptualaudiocoding)(1)频率为10~20000Hz的声音数据压缩技术依据是人耳朵的听觉特性方法是使用“心理声学模型”来取消人耳感觉不到的声音数据(2)MPEG声音主要采纳两种感知编码算法感知子带编码(perceptualsub-bandcoding)杜比实验室(DolbyLaboratories)开发的杜比数字(DolbyDigital)11.2感知声音编码(1)MPEGAudio标准处理10Hz~20000Hz的声音数据,依据人耳的听觉特性,使用“心理声学模型”实现压缩(2)心理声学模型中一个基本的概念就是听觉系统中存在一个听觉阈值电平,低于这个电平的声音信号就听不到,可去掉这部分信号(3)心理声学模型中的另一个概念是听觉掩饰特性,听觉阈值电平会随听到的不同频率的声音而发生变化大多数人的听觉系统对2~5kHz之间的声音最敏感(4)一个人是否能听到声音取决于声音的频率,以及声音的幅度是否高于这种频率下的听觉阈值11.2感知声音编码11.2.1MPEG声音的压缩依据(1)杜比数字前称为DolbyAC-3,简称AC-31992年杜比实验室开发,MPEG-2采纳的数字声音编码技术(2)多声道环绕声格式,现已作为国际标准1)杜比数字可提供6个声音通道,称为5.1声道即左、中、右、后左、后右5个主声道和1个低音加强声道11.2感知声音编码11.2.3杜比数字编码人们谈到“MP3”时,通常可理解为:(1)使用MPEG-1Audio第3层压缩技术压缩的音乐(2)MPEG-1Audio第3层压缩技术(3)使用MPEG-1Audio第3层压缩技术和存储格式的声音文件(.mp3)11.3MPEG-1AudioMPEG-1Audio(ISO/IEC11172-3)是世界上第一个高保真声音数据压缩国际标准,并广泛应用MPEG-1声音标准的主要性能如下:(1)MPEG编码器的输入信号为线性PCM信号,如图11-811.3MPEG-1Audio11.3.2声音的性能图11-8MPEG-1Audio编码器的输入/输出(4)层3有两种MDCT的块长:长块长度为18个样本,短块长度为6个样本(5)长块对平稳的声音信号可以得到更高的频域分辨率短块对跳变的声音信号可以得到更高的时域分辨率(6)在混合块长模式下:既保证低频区的频域分辨率(对音质有重大影响),又不牺牲高频区的时域分辨率(7)层3还采用了其他许多改进措施,来提高压缩比而不降低音质(8)相对层2,层3的计算量增加不大,增加的主要是编码器的复杂度和解码器所需的存储容量11.3MPEG-1Audio11.3.5编码层(1)MPEG-2标准委员会定义了两种声音数据压缩标准1)MPEG-2Audio(ISO/IEC13818-3)[12]也称MPEG-2MultichannelAudio与MPEG-1Audio兼容,又称为MPEG-2BC(BackwardCompatible)标准2)MPEG-2AAC(ISO/IEC13818-7)[22]与MPEG-1Audio格式不兼容,称为非后向兼容MPEG-2NBC标准11.4MPEG-2AudioMPEG-2Audio简介(1)5.1环绕声,也称3/2-立体声加LFE5表示播音现场的前可有3个声道(左、中、右),后可有2个环绕声声道.1是指低频音效(lowfrequencyeffects,LFE)加强声道,见图11-19(a)(2)7.1声道环绕立体声与5.1声道类似,见图11-19(b)11.4MPEG-2AudioMPEG-2Audio使用的环绕声图11-19MPEG-2Audio环绕声MPEG-4Audio标准可集成从话音到高质量的多通道声音,从自然声音到合成声音,编码方法还包括参数编码,码激励线性预测(CELP)编码,时间/频率T/F编码,结构化声音SA编码和文本-语音TTS系统的合成声音等。11.6MPEG-4AudioMPEG-4的译码器支持合成乐音和TTS声音合成乐音通常叫做MIDI乐音,是在乐谱文件或描述文件控制下生成的声音乐谱文件是按时间顺序组织的一系列调用乐器的命令,合成乐音传输的是乐谱而不是声音波形本身或者声音参数,数据率很低文-语转换TTS的输入可以是文本或者带有韵律参数的文本,编码器的输出数据率可在200bps~1.2kb/s11.6MPEG-4Audio11.6.2合成声音1.MIDI合成声音MIDI是1983年制定的乐器和计算机的标准语言,是一套指令即命令的约定,它指示乐器即MIDI设备要做什么和怎么做,如播放音符、加大音量、生成音响效果等在MIDI电缆上传送的不是声音,而是发给MIDI设备或其它装置让它产生声音或执行某个动作的指令MIDI具有控制设备的功能,它不仅用于乐器,越来越多的应用正在被发掘11.6MPEG-4Audio11.6.2合成声音2.文-语转换文-语转换是将文本形式的信息转换成自然语音的一种技术,使计算机像人一样,根据文本的内容可带各种情调来朗读任意的文本TTS很复杂,涉及语言学、语音学、信号处理、人工智能等诸多的学科TTS系统具有巨大的应用潜力和商业价值,许多研究机构都在研究目前的TTS系统一般能够较为准确清晰地朗读文本,但是不太自然自然度是衡量一个TTS系统好坏的最重要指标11.6MPEG-4Audio11.6.2合成声音2.文-语转换11.6MPEG-4Audio11.6.2合成声音图11-24TTS系统方框图文本分析部分(左边),通过对输入文本进行词法分析、语法分析,甚至语义分析,从文本中抽取音素和韵律等发音信息语音合成部分(右边),使用从文本分析得到的发音信息去控制合成单元的谱特征(音色)和韵律特征(基频、时长和幅度),送入声音合成器产生相应的语音输出