多媒体技术基础与应用范铁生岳承君王军王丹华编著电子工业出版社高等院校计算机规划教材多媒体技术基础与应用第三章一维的音频信号理技术学习要点了解音频信号的基本概念理解人类的听觉特性理解时频域掩蔽效应理解音频信号压缩技术了解常见音频编码标准通过实例掌握常用的音频处理软件●●●●●●多媒体技术基础与应用•3.1音频信号的基本概念•3.1.1音频信号的特点•3.1.2音频信号的离散化•3.1.3音频信号的音质指标•3.1.4音频文件的格式•3.2人类听觉特性•3.2.1人耳的构造•3.2.2频率•3.2.3时域掩蔽效应•3.2.4频域掩蔽效应•3.2.5音频的有关定律•3.3音频信号的压缩技术•3.3.1脉冲编码调制•3.3.2感知编码•3.3.3子带编码•3.4音频编码标准•3.4.1CCITTG系列标准•3.4.2MP3压缩标准•3.4.3AC-3压缩标准•3.4.4MIDI标准•3.5应用实例多媒体技术基础与应用数字化声音压缩的必要性储存:计算一分钟未经压缩的CD高保真立体声数字声音文件的大小为10MB左右,必须进行压缩才能储存。经过MP3压缩编码后只有1MB左右。传输:音频压缩的目标是将数据传输率由1.5Mbit/s码率降低到100~400kbit/s。MP3音频文件通常码率为32kbit/s多媒体技术基础与应用•与视频压缩相似,音频压缩也有两种方式:–冗余度消除——省略多余信息,无损–不相关性消除——省去接收端(人耳)不能察觉的信息,有损•所有音频压缩方法基于心理声学模型,利用人耳的不足,消除音频信号中的不相关信息。–人耳不能察觉频域和时域中强声音脉冲邻近的声音–对人耳而言,某些声音可以掩盖其他低幅度的声音信号。多媒体技术基础与应用语音信号冗余几个方面:•1).幅度非均匀分布语音中小幅度样本比大幅度样本出现的概率要高。通话会有间隙,且实际语音信号的功率电平也趋向于出现在编码范围的较低电平端。2).样本之间的相关性对语音波形分析表明,采样数据的最大相关性存在于邻近样本之间。当采样速率为8KHz时,相邻采样值之间的相关系数大于0.85,甚至在相距十个样本之间,相关系数还有0.3左右的数量级。3).周期之间的相关性虽然电话语音信号的频率分布在300-3400Hz的频带内,但在特定的瞬间,某一声音却往往只是该频带内的少数频率起作用。当声音中只存在少数几个基本频率时,就会像某些振荡波形一样,在周期与周期之间存在着一定的相关性。4).基音之间的相关性语音可以分为清音和浊音两种基本类型.浊音是由声带振动产生,每一次振动使一股空气从肺部流进声道。激励声道的各股空气之间的间隔称为基音周期。浊音的波形对应于基音周期的长期重复波形。对浊音编码是对一个基音周期波形进行编码,并以它作为其它基音段的模板。多媒体技术基础与应用•冗余度降低(无损)和不相关性降低(有损)可以将原始声音信号码率降低90%。•不相关性降低依赖于人耳的心理声学模型——Zwicker教授•知觉编码----人耳不能分辨的声音分量不传输。•人耳剖面图,分为三个主要部分:外耳、中耳、内耳。人耳心理声学模型多媒体技术基础与应用人耳心理声学模型•外耳实现阻抗匹配功能,声音通过空气传输,类似3kHz区域回声递升滤波器。人耳灵敏度最高的范围正是:3kHz~4kHz。•耳膜或鼓膜将声波转换为机械振动,通过锤骨、砧骨、镫骨传送到通向感觉内耳的膜状窗.•内耳有平衡器官,由几个充满液体的弓形和耳蜗构成。•耳蜗是真正的听觉器官,直接听到声音。如果展开耳蜗会在其入口处发现高频传感器,然后是中频传感器,最末端是低频传感器。•内耳膜上分布着频率选择、声音采集传感器,将听觉神经连接到大脑。多媒体技术基础与应用与音频编码相关的人耳特性•人耳的灵敏度在很大程度上依赖于频率。•低于20Hz,高于20kHz的声音信号人耳无法听到。•人耳最敏感范围为3kHz~4kHz,在该范围之外,人耳敏感度向高频和低频两个方向降低。•低于某个阈值的声音人耳无法听到,该阈值取决于频率,声音信号中低于该阈值的分量无需传送,对人耳而言是不相关信息。图听觉阈值与频率关系多媒体技术基础与应用与音频编码相关的人耳特性•掩蔽现象:–例如一个测试人员听一个幅度固定的1kHz正弦波,同时添加其他不同频率和幅度的正弦波,发现在1kHz附近低于某个阈值的其他正弦信号听不到,该阈值取决于频率,称作掩蔽阈值。–掩蔽阈值曲线取决于掩蔽信号的频率,掩蔽信号的频率越高,被掩蔽的范围越大。这一特性叫做频域掩蔽。–在掩蔽阈值以下的声音分量不需传送。图4.7频域掩蔽图掩蔽阈值多媒体技术基础与应用与音频编码相关的人耳特性•时域掩蔽–时域中一个强脉冲会掩蔽该脉冲前后低于某个阈值的声音信号。–这种现象,尤其是前掩蔽,很难想象,但可以进行很好的解释。是由于人耳的有限时域分辨率,再加上信号通过听觉神经传输到大脑的方式。•目前的音频压缩方法只利用了频域掩蔽。图时域掩蔽多媒体技术基础与应用一、声音声音是传递信息的重要媒体,是多媒体技术研究中的一个重要内容;多媒体技术基础与应用声音的物理特性机械振动或气流等外力引起周围弹性媒质发生波动,产生声波。声波传到人耳经过人类听觉系统的感知就是声音声音是通过空气传播的一种连续的波,称为声波(soundwave)声波到达人耳鼓膜时,人会感到压力的变化,这就是声音(sound)多媒体技术基础与应用参数指标1)幅度(振幅):指声波波形的最高(低)点与时间轴之间的距离,反映声音信号的大小、强弱程度2)频率:信号在单位时间内变化的次数,HZ;多个频率声音的复合多媒体技术基础与应用人们对声音的感知不仅与声音幅度有关,还与声音的频率有关:可听声(audio):20HZ~20kHZ次音、亚音信号(subsonic):20HZ超音信号、超声(supersonic):20kHZ300HZ~3kHZ语音信号(speech)多媒体技术基础与应用模拟信号与数字信号模拟信号:时间或幅度上连续的信号•时间上“连续”是指在一个指定的时间范围内信号的幅值有无穷多个;•幅度上“连续”是指幅度的数值有无穷多个;多媒体技术基础与应用数字信号:幅值被限制在有限个数值之内,即幅值只能取有限的几个数值多媒体技术基础与应用3.1音频信号的基本概念1.声音是通过介质传播的一维的连续波(如图3.1所示),这种连续性表现在两个方面:一是时间上的连续性,二是幅度上的连续性。多媒体技术基础与应用音频信息的分类多媒体技术基础与应用规则音频•规则音频是一种连续变化的模拟信号,可用一条连续的曲线来表示,称为声波。模拟信号的曲线无论多复杂,在任一时刻t0都可分解成一系列正弦波的线性叠加:多媒体技术基础与应用3.1音频信号的基本概念2.声音的基本特点:(1)声音物理特性:频率、周期、声压、声强、动态范围、频谱;(2)声音心理特性:音调、响度、音色、掩蔽效应、方向感、空间感、阈、分贝;(3)声音的音质:频带宽度、信噪比、数据量。多媒体技术基础与应用声音心理特性•音箱、音源设备一样有着自己的特点,他们会对声音进行各式各样的处理,让他们和原始信息不一样,这样就形成了风格。•一个成熟的品牌会有自己倾向的风格,它会为旗下所有的型号或者一个系列的型号设计一个自认为满意的风格,并朝这个方向去校声。•感受声音,是很主观的,更现实的是,真正能分出声音好坏的消费者是极少的,因此音频设备厂商更乐意从心理角度去引导消费,我们使用引导这个中性词,因为有些引导是可接受的,而一些是完全的误导。多媒体技术基础与应用声音心理特性(一)•英国声:英国上层社会追求一种细致的高雅氛围,男宾要像绅士,女宾要像贵妇,对事情不能大惊大喜,要沉着镇定,讲究一些小情调,听一些小编制的音乐甚至独奏,声音无需很大,更不需要爆棚,能听清楚就行。整体来说,是一种较慢节奏的细致生活,他们对这种生活的一致认同。因此,一种中频较为突出,低频不多,高频不亮,比较松软而缓慢略暖的风格,声场较小,但不紧,细节丰富却不突出。这种声音取向得到了几乎所有英国音频设备厂商的认同,虽然它们之间的产品声音特征有差别,但基本特征都差不多,这种典型的风格化特点被称为英国声。浓郁的反转片风格多媒体技术基础与应用声音心理特性(二)•美国声:作为一个几乎没有历史的国家,美国对世界的看法是全新的,经过200多年的发展,美国成为了地球上最强大的国家,他们崇尚年轻和力量,喜欢大手笔,喜欢冒险,美国文化对于有悠久历史的国家来说,绝对是另类的。在对声音的理解上,他们也深受文化的影响。他们追求大动态、大声场、要求好的瞬态、低音要猛要有点硬,高频要亮,解析力要好,甚至要有金属光泽,这种声音有活力,很澎湃,但缺乏细致感。美国的音像行业发达,对外输出音像制品的时候也输出了这种声音的审美观,它获得了大量用户尤其年轻用户的认同,因此这种声音取向深深的影响了整个行业,不只是美国的音频厂家。带些颓废色彩的负冲效果多媒体技术基础与应用声音心理特性(三)•德国声和丹麦声:欧洲有着发达的现代文明以及较长的古代文明,它们有共同性也有差异,在对声音的理解方面,一样同大于异,因此法国、丹麦、瑞典、德国等国的对声音的理解被合并称为欧陆声。最大的共同点:就是偏中性、追求细致。对业界影响较大的是德国声和丹麦声,德国人以严谨著称,一丝不苟的精神同样体现到对声音的理解当中,德国声中性而严肃,带一点点冷色调,音染较少,感情色彩较少,而丹麦声者侧重中高频的表达,偏向端庄,注重感性的人情味。带沧桑意味的褪色风格多媒体技术基础与应用3.1音频信号的基本概念3.音频信号的离散化离散化实际上就是采样和量化,模拟信号转换为数字信号步骤如图3.2所示:多媒体技术基础与应用声音的层次24位的色彩显然要比8位层次细腻得多多媒体技术基础与应用采样•声音,也常常用到16位、24位这个词,某些发烧友嘴里念叨着的“2496”,24就指的24位。•采样率为16位时,表示声音(声压、响度)可以产生65536种大小变化。而发烧友追求的24位,则能产生16777216种声音大小变化,比16位要足足高出256倍。也就是说,层次要丰富得多。•8位的音乐,很多乐器都会混沌到一块,甚至分不出一个彼此来,层次感较差。这张图的横轴表示时间,竖轴表示能量多媒体技术基础与应用音频信号处理的方法•首先对声音进行在时间轴和幅度两个方面进行离散化。多媒体技术基础与应用概述数据压缩的主要依据是人耳朵的听觉特性,使用“心理声学模型”来达到压缩声音数据的目的:–听觉系统中存在一个听觉阈值电平–听觉掩饰特性多媒体技术基础与应用脉冲编码调制(波形编码)•脉冲编码调制PCM(PulseCodeModulation)是一种模数转换的最基本编码方法•模数转换有两个步骤:第一步是采样,就是每隔一段时间间隔读一次声音的幅度;第二步是量化,就是把采样得到的声音信号幅度转换成数字值。多媒体技术基础与应用采样(sampling)–采样:在某些特定的时刻对模拟信号进行测量,即每隔一定的时间测量一次声音信号的幅值;把时间连续的模拟信号转换成时间离散、幅度连续的采样信号;多媒体技术基础与应用采样(sampling)–样本:每次采样都记录下原始模拟声波在某一时刻的状态,称之为样本;将一系列的样本连接起来,就可以描述一段声波了–均匀采样:采样的间隔时间相等多媒体技术基础与应用采样频率•采样频率是指一秒钟内采样的次数。采样频率的选择应该遵循奈奎斯特(HarryNyquist)采样理论:如果对某一模拟信号进行采样,则采样后可还原的最高信号频率只有采样频率的一半,或者说只要采样频率高于输入信号最高频率的两倍,就能从采样信号系列重构原始信号多媒体技术基础与应用采样-采样频率–采样频率:一秒种采样的次数;HZ;采样频率越高,单位时间内采集的样本数越多,得到的波形越接近原始波形,音质越好,数字化声音的数据量也越大CD44.1kHz;语音8kHz11.025kHz语音信号22.02kHz要求不太严格的背景音乐多媒体技术基础与应用2.量化(quantization)–量化:是按“四舍五入”或其它方法将采样得到的数值限定在几个有限的数