北京邮电大学信息与通信工程学院多媒体技术中心门爱东MenAidong,MultimediaCenter,SICE,BUPT1内容提要数字音频压缩技术引言听觉特性和声学基础性能评价和现有标准基于分析-综合的声码器MPEG音频压缩算法AC3音频压缩算法北京邮电大学信息与通信工程学院多媒体技术中心门爱东MenAidong,MultimediaCenter,SICE,BUPT2引言:数字化数字化是趋势信息量非常大,高传输带宽或存储容量5.1声道环绕立体声:6×48KHz×16bits=4.608Mbit/s频率范围(Hz)取样频率(Khz)每样值比特数码率(Kb/s)动态范围电话话音300~3400886448dB宽带话音50~700016812884dB中质量声音10~11000241638484dB高质量声音10~2200048(32,44.1)1676896dB环绕声音10~2200048(32,44.1)16460896dB减少代表原始声音信号的信息量更好利用现有频率资源便于计算机处理和存储宽带网中高质量传输北京邮电大学信息与通信工程学院多媒体技术中心门爱东MenAidong,MultimediaCenter,SICE,BUPT3引言:声音压缩编码理论基础冗余(Redundance)信号一部分可由另一部分重建或另外表达形式简单说明,称为信号有冗余去除冗余实现压缩编码信号冗余是变化的,故不能产生恒定码流输出不相关(Irrelevance)听觉不能感觉的那部分信号,它对声音信号的确定或音色和发音位置没有贡献不相关信号部分不传输利用掩蔽效应来掩盖量化失真人耳听觉特性人耳分辨能力人耳对不同频段声音的敏感程度不同,通常对低频比对高频更敏感人耳对语音信号的相位不敏感人耳掩蔽效应MaskingEffect…北京邮电大学信息与通信工程学院多媒体技术中心门爱东MenAidong,MultimediaCenter,SICE,BUPT4引言:语音信号的时域冗余度幅度非均匀分布小幅度样本出现的频率高样本之间的相关性当取样频率为8KHz时,相邻样本间的相关系数大于0.85;周期之间的相关性在特定瞬间,某段声音往往只是总频带300~3400Hz的少数几个频率分量在起作用象某些振荡波一些,在周期与周期之间存在一定的相关性基音之间的相关性男声基音周期为5~20ms,而典型的浊音持续100ms静止系数(话音间隙)全双工话路的典型效率约为40%(静止系数为0.6)长期相关性(longtermcorrelation)如几十秒内的相关性北京邮电大学信息与通信工程学院多媒体技术中心门爱东MenAidong,MultimediaCenter,SICE,BUPT5引言:语音信号的频域冗余度从频域考察语音信号的功率谱密度:非均匀的长时间功率谱密度长时间功率谱呈现强烈的非平坦性,高频能量较低时域上相邻样本相关语音特有的短时功率谱密度语音的短时功率谱,在某些频率出现峰值(该频率称为共振峰频率),在另外一些频率上出现谷值。出现共振峰的频率不止一个,最主要的是前两个,决定了不同的语音特征整个谱也随频率增加而递减功率谱的细节以基音频率为基础,形成高次谐波结构另外,人的声道形状及其变化规律是有限的按一定的时间段(帧)来计算声道滤波器的参数或语音谱包络北京邮电大学信息与通信工程学院多媒体技术中心门爱东MenAidong,MultimediaCenter,SICE,BUPT6引言:语音信号的短时功率谱浊音清音北京邮电大学信息与通信工程学院多媒体技术中心门爱东MenAidong,MultimediaCenter,SICE,BUPT7内容提要数字音频压缩技术引言听觉特性和声学基础性能评价和现有标准基于分析-综合的声码器MPEG音频压缩算法AC3音频压缩算法北京邮电大学信息与通信工程学院多媒体技术中心门爱东MenAidong,MultimediaCenter,SICE,BUPT8人类的发音器官人的发音器官由三个部分组成:(1)肺和气管产生气源;(2)喉和声带称为声门;(3)由咽腔、口腔、鼻腔组成的声道(从声带延展到嘴,成人平均声道长度为17cm)声带声道舌头嘴唇鼻腔通道肺当肺部中的受压空气通过声门沿着声道发出时就产生了话音声音的基音由声道的形状变化(主要通过移动舌头)和移动嘴唇控制。强度(响度)通过改变从肺部发出的气体的量改变。人的声音变化很慢,肺的操作很慢,声道的形状变化很慢,所以语音的基音和强度变化也很慢。表现在相邻样本间很相似,即使是帧(20ms)也是强相关的。这种相关性正是语音压缩的基础。北京邮电大学信息与通信工程学院多媒体技术中心门爱东MenAidong,MultimediaCenter,SICE,BUPT9人类的收音器官人的收音器官:外耳接受外界的声音,并沿着耳道引起鼓膜震动,中耳鼓膜的震动引起锤骨、镫骨和砧骨三块小骨相震动,将声音传到内耳,内耳可产生神经冲动,冲动沿听神经转为神经能,这样声音的信息就传到了大脑。一般情况下,音量达100dB时,时间较长可造成不可恢复性听力损伤;当音量高达110分贝时,足以使内耳毛细胞死亡,严重者会造成听力丧失。实际上,任何高于85分贝的声音都能造成听力损伤,每天8个小时90分贝,足以造成逐步和不可逆转的听力损伤北京邮电大学信息与通信工程学院多媒体技术中心门爱东MenAidong,MultimediaCenter,SICE,BUPT10声压听感强度12345678910111213141516(帕斯卡)(听感强度均匀增长)12345声压级(分贝)94100106112118听感强度(听感强度均匀增长)12345人对声音强度的生理感觉强弱与声音信号强度大体成对数关系,从而引出声压级、声强级概念听觉特性:对不同强度的感觉北京邮电大学信息与通信工程学院多媒体技术中心门爱东MenAidong,MultimediaCenter,SICE,BUPT1120401002004001k2k4k10k20k-20020406080稳态简谐信号频率(Hz)自由场声压级(dB)闻阈曲线”“闻阈曲线以下听觉察觉不到100120140020406080100120phon痛阈曲线”“人对不同频率的声音感受强度不同,引出等响曲线和响度级(phon,方值)参量。听觉特性:对不同频率的响应北京邮电大学信息与通信工程学院多媒体技术中心门爱东MenAidong,MultimediaCenter,SICE,BUPT12由等响曲线可以看出不同的声音强度,人的听觉频响不同!20401002004001k2k4k10k20k-70-60-50-40-30-20稳态简谐信号频率(Hz)听感强度(dB)0+10-10120dBSPL80dBSPL30dBSPL听觉特性:听觉频响北京邮电大学信息与通信工程学院多媒体技术中心门爱东MenAidong,MultimediaCenter,SICE,BUPT13将不同强度的听觉频响典型曲线规范成计权曲线,用于模拟听觉频响20401002004001k2k4k10k20k-70-60-50-40-30-20稳态简谐信号频率(Hz)传输响应(dB)0+10-10A计权B计权C计权听觉特性:计权曲线北京邮电大学信息与通信工程学院多媒体技术中心门爱东MenAidong,MultimediaCenter,SICE,BUPT14掩蔽效应掩蔽效应:一个声音的存在掩蔽了另一个声音的存在掩蔽效应是一个较为复杂的心理和生理现像掩蔽程度与两个声音的相关性有密切联系分为频域效应和时域掩蔽效应准稳态(短时稳态)信号特性,利用频域掩蔽效应对于声音的时域结构特性,利用时域掩蔽特性听觉特性:掩蔽效应(1)静音门限和掩蔽门限(灰色区域中的声音听不到)北京邮电大学信息与通信工程学院多媒体技术中心门爱东MenAidong,MultimediaCenter,SICE,BUPT15人的听觉生理掩蔽效应,声音听起来才不显得混乱!-20020406080自由场声压级(dB)20401002004001k2k4k10k20k稳态简谐信号频率(Hz)原来的闻阈曲线一个较强的信号抬升的闻阈曲线听不见的弱信号较弱的听不见的声音信息就可以舍弃!而不必再进行编码,这是数字声码压缩的生理基础之一。听觉特性:掩蔽效应(2)北京邮电大学信息与通信工程学院多媒体技术中心门爱东MenAidong,MultimediaCenter,SICE,BUPT16时域掩蔽效应(Temporalmaskingeffect):在时间上相邻的声音之间存在的掩蔽现象听觉特性:掩蔽效应(3)01020304050-50050100150200250300350后向同时掩盖前向掩盖掩盖时间(ms)dB后向掩蔽:一个声音影响了在时间上先于它的声音的听觉能力同时掩蔽:在一定时间内一个声音对另一个声音发生了掩蔽效应前向掩蔽:一个已经结束的声音,对另一个声音的听觉能力还起着影响利用时域掩蔽效应,将时间上相继的一些取样值并归成块,降低码率。三种时域掩蔽效应的时间关系北京邮电大学信息与通信工程学院多媒体技术中心门爱东MenAidong,MultimediaCenter,SICE,BUPT17人的听觉生理延时效应,声信号在时域上的听觉融合!声信号1声信号2声信号117ms声信号听觉反应情况一tt较弱的延迟声听不到!声信号2声信号1声信号217ms声信号听觉反应情况二tt较弱的先到声听不到!听不到声信号的数码当然可以舍弃,以压缩码率!听觉特性:掩蔽效应(4)北京邮电大学信息与通信工程学院多媒体技术中心门爱东MenAidong,MultimediaCenter,SICE,BUPT18频域掩蔽(Frequeneydomainmaskingeffect)同时发出的两个声音,一个较弱的信号被另一个相近频率的较强信号的声音所掩蔽两个声音频率相同时,掩蔽效应最明显在高频端,随着两者频率偏离,掩蔽效果缓慢减弱在低频端,随着两者频率偏离,掩蔽效应急剧减小例:1KHz的声音的掩蔽效应听觉特性:掩蔽效应(5)北京邮电大学信息与通信工程学院多媒体技术中心门爱东MenAidong,MultimediaCenter,SICE,BUPT19临界频带(CriticalBand):由于声音频率与掩蔽曲线不是线性关系,为从感知上统一度量声音频率,引入了“临界频带”的概念。一个声音可被另一个声音掩蔽的频率范围称为临界频带人耳不能区分临界频带内的频率听觉特性:掩蔽效应(6)临界频带的单位叫Bark(巴克),1Bark=一个临界频带的宽度北京邮电大学信息与通信工程学院多媒体技术中心门爱东MenAidong,MultimediaCenter,SICE,BUPT20时域和频域掩蔽效应的折衷稳态信号,滤波器组要有好的频谱分辨力,这意味着需要一个长的窗函数或长的FIR滤波器。瞬态信号,滤波器组要有好的时间分辨力,这就要求短的窗函数和FIR长度。听觉特性:掩蔽效应(7)北京邮电大学信息与通信工程学院多媒体技术中心门爱东MenAidong,MultimediaCenter,SICE,BUPT21量化噪声是模拟信号和数字样值之间的差值。听觉特性:掩蔽与量化NBits=2Nlevels北京邮电大学信息与通信工程学院多媒体技术中心门爱东MenAidong,MultimediaCenter,SICE,BUPT22随着量化电平数的增加,模拟信号的数字样值更逼近原始模拟信号,量化误差变的更小。听觉特性:掩蔽与量化3841653282561665536BitsLevels北京邮电大学信息与通信工程学院多媒体技术中心门爱东MenAidong,MultimediaCenter,SICE,BUPT23听觉特性:掩蔽与量化噪声北京邮电大学信息与通信工程学院多媒体技术中心门爱东MenAidong,MultimediaCente