第二章多媒体音频技术【教学目的与要求】理解:数字音频采集和量化的基本原理掌握:数字音频的文件格式了解:音频编码的原理、音乐合成和MIDI规范了解:多媒体计算机音频技术的应用第二章多媒体音频技术数字音频的采集和量化、数据量计算公式;声卡的构成、分类、主要性能指标;常用的压缩编码算法;【难重点】第二章多媒体音频技术Samplingrate:采样频率AudioCompression:音频压缩MIDI(MusicalInstrumentDigitalInterface):音乐设备数字接口【外语词汇】第二章多媒体音频技术§2.1数字音频基础§2.2声卡的组成与工作原理§2.3音乐合成与MIDI规范§2.4音频编码基础§2.5多媒体音频技术的应用§2.1数字音频基础一、声音心理学二、音频的数字化三、数字音频的文件格式一、声音心理学1.声音的量纲声音的振动是一种正弦波,声音的变化必须确定三件事:频率(变化的速度)、幅度(产生的压力)、相位(何时开始)。另外一方面,人们可以感觉到声音的强弱,可以感觉到歌唱家音调的高低。因此,声音的量纲分为声音的物理量纲和心理量纲。一、声音心理学物理量纲可以用精确的值来描述,但对某一具体声音得来的心理印象却不容易说明白,因为心理印象要由被测者的经验而定。声音的心理属性和物理属性不可等同,首先,这些关系不是线性的;其次这些关系不是孤立的;第三这些关系不是不变的。一、声音心理学2.听觉特性等响曲线描述的是响度与频率和强度的关系。从声音心理学考虑,对同一响度的声音在频率上和强度上可以有很大的差别,这对声音表现有重要意义。等响曲线由于响度与频率和强度有关,所以在不同频率上的强度是不同的。先设一个音为标准音,给予固定的频率、强度和持续时间,例如1000Hz、40分贝、持续0.5秒;再给一个音也持续0.5秒,但频率不同,通过调整使其响度听起来一样,得到的这样一组曲线称之为等响曲线。一、声音心理学掩蔽(masking)声音的响度不仅取决于自身的强度和频率,而且也依赖于同时出现的其它声音。各种声音可以互相掩蔽,也就是说一种声音的出现可能使得另一种声音难于听清。由于声音的掩蔽效果,可以欺骗人的听觉。例如,本来是多种频率的声音的复合,但听众以为是另一种声音。一、声音心理学相位从声音的波形来看,声音的起点和方向也要反映声音的特性,这就是声音的相位。当两个声音相同相位完全相反时,它们将相互抵消;当两个声音相同而且相位也相同时,声音就会得到加强。相位的确定对于多声道声音系统的设计非常重要,其可以应用在回声的消除、会议系统的声音设计上。一、声音心理学听觉空间人耳可听到来自各个方向的声音,并用不同的因素来判定声源的位置。声源的位置不论对于增进人们的感受还是增进对声音的理解,都是非常重要的。通过声音的精确再现,就可以构造出听觉空间。方位的线索是各种声音到达两耳的精确时间和强度。一、声音心理学声音的心理模拟通过人工真实的方法,可以对视觉空间的景物进行再造或虚构,同样也可以对听觉空间的声音进行心理的模拟,这就是所谓的可听化(audiolization)。利用声音属性可以表达出一些声音的效果。如以虚拟的湍流为例,用声音的高低可以表示流体的粘度,低音表示流体很粘,高音则不粘。二、音频的数字化声音的基本概念:声音是通过一定介质传播的一种连续波。t振幅周期A声波:二、音频的数字化声音按频率分类:次声波可听声波超声波20Hz20kHzf(Hz)人类说话声音频率范围:300Hz--3kHz1020502003.4k7k15k20kCD-DAFM广播AM广播电话f(Hz)频带(亚音信号)(音频信号)(超音频信号)声音质量的频率范围:二、音频的数字化声音信号的类型模拟信号(自然界、物理)数字信号(计算机)--模拟信号:在时间和幅度上都是连续的信号--数字信号:时间和幅度都用离散的数字表示的信号二、音频的数字化采样量化编码模拟信号数字信号模拟信号数字信号A/DADCD/ADAC声音信号的数字化过程二、音频的数字化声音数字化过程图示:连续的模拟声音信号声音信号的采样离散的音频信号顺序二、音频的数字化声音数字化的两个步骤:采样量化采样是每隔一段时间读一次声音信号的幅度。量化是把采样得到的声音信号幅度转换为数字值。声音的采样以及量化图二、音频的数字化均匀采样:–每隔相等的一小段时间采样一次线性量化:–如果对信号幅度的划分是等间隔的,就称为线性量化非线性量化–基本思想是,对输入信号量化时,大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔。二、音频的数字化与音频数字化相关的重要特性:采样频率指每秒钟所抽取声波幅度样本的次数。采样频率的计算单位是kHz。采样频率与声音的质量关系最为紧密。采样频率越高,声音质量越接近原始声音,所需的存储量便越多。标准的采样频率有三个:44.1KHz,22.05kHz,和11.025kHz。二、音频的数字化–奈奎斯特理论(Nyquisttheory):•采样频率不应低于声音信号最高频率的两倍,这样就能把以数字表达的声音还原成原来的声音,这叫做无损数字化(losslessdigitization)fs≥2fmax电话话音的信号频率约为3.4kHz,采样频率选为8kHz。二、音频的数字化采样精度(采样位数)—(bitpersample,bps)存放一个采样点所需的比特数。它反映了每个采样点能够表示的数据范围。一般的采样位数为8位或16位,即把声音采集为256等份或65536等分。量化位数越高音质越好,但数据量也大二、音频的数字化声道数纪录声音时,如果每次生成1个声波数据,称为单声道;每次生成2个声波数据,称为立体声(双声道),立体声更能反映人的听觉感受。有单声道、双声道和多声道。如多种语言音频混存时,需要多声道。二、音频的数字化数据量可以用下面的公式估算声音数字化后每秒所需的存储量:(采样频率×每点采样位数×声道数)数据量=8(字节/秒)二、音频的数字化例:数字激光唱盘(CD-DA,红皮书标准)的标准采样频率为44.1kHz,量化位数为16位,立体声(这就是所谓的CD音质),可以几乎无失真地播出频率高达22kHz的声音,这也是人耳所能听到的最高声音频率。1分钟CD-DA音乐所需要的存储量为多少?(44.1*1000*16*2*60)/8=10584000B二、音频的数字化声音数字化三要素:采样频率量化位数声道数每秒钟抽取声波幅度样本的次数每个采样点用多少二进制位表示数据范围使用声音通道的个数采样频率越高声音质量越好数据量也越大量化位数越多音质越好数据量也越大立体声比单声道的表现力丰富,但数据量翻倍11.025kHz22.05kHz44.1kHz8位=256个值16位=65536个值单声道立体声三、数字音频的文件格式1、波形音频波形音频是多媒体计算机获得声音最直接、最简便的方式。在这种方式中,声卡对输入源声音采样、量化,完成A/D转换,并以适当的格式存入硬盘。声音重放时,声卡再完成D/A转换……波形文件是windows所使用的标准数字音频文件,文件扩展名是.WAV三、数字音频的文件格式wav是Microsoft/IBM共同开发的PC波形文件。因未经压缩,文件数据量很大。特点:声音层次丰富,还原音质好缺点:文件太大,不适合长时间记录。2.MP3文件MP3(MPEGAudiolayer3)是一种按MPEG标准的音频压缩技术制作的音频文件。特点:高压缩比(11:1),优美音质三、数字音频的文件格式3.WMA文件WMA(WindowsMediaAudio)是WindowsMedia格式中的一个子集(音频格式)。特点:压缩到MP3一半4.MID文件MIDI(乐器数字接口)是由一组声音或乐器符号的集合。特点:数据量很小,缺乏重现自然音四、音频信号的特点1、音频信号是时间依赖的连续媒体。具有很强的连续性和时变性;2、计算机模拟自然声音时,理想的合成声音应是立体声。3、语音信号的处理四、音频信号的特点从人与计算机交互的角度看,音频信号的处理包括下述3点:计算机与人通信,也就是计算机输出音频。包括音乐合成、语音合成、声音的定位以及音频视频的同步。人-计算机-人通信。人通过网络与异地的人进行语音通信,相关的音频处理有语音采集、音频的编码和解码、音频的存储、音频的传输、基于内容的检索等。人与计算机通信,也就是计算机接收音频信号。包括音频获取、语音的识别和理解。§2.2声卡与音箱一、声卡的构成原理二、声卡的性能指标三、音箱声卡是负责录音、播音和声音合成的一种多媒体板卡。一、声卡(又称声音卡、音频卡)①录制、编辑和回放数字音频文件②控制和混合各声源的音量③记录和回放音频时进行压缩和解压缩④语音合成技术(朗读文本)⑤具有MIDI接口(乐器数字接口)1.声卡的主要功能2.声卡的组成原理线性输出总线接口芯片数字音频处理芯片音乐合成器A/D和D/AMIDI接口混音器CD接口计算机总线话筒输入线性输入扬声器输出3.声卡的性能指标⑴采样和量化能力衡量音响器材音质好坏。采样频率:11.025kHz(语音效果)22.05kHz(音乐效果)44.1kHz(高保真效果)量化等级:8位/256级(语音质量)16位/65536级(高保真质量)多媒体音频技术(2)FM合成与波形表大多数普及型声卡采用FM合成法(与家用电子琴类似),即通过正弦波相互调制来模拟真实的乐器声音。较好的声卡采用的是波形表合成技术来实现音乐合成(即所谓的波表卡)。波形表包含有真实乐器声音波形的数字记录,在演奏时将相应乐器的波形记录播放出来。(3)芯片类型-CODEC芯片(依赖CPU,价格便宜)-数字信号处理器DSP(不依赖CPU)(4)总线类型-ISA总线、PCI总线、USB接口(5)输出声道数-2声道(立体声)、2.1/4.1/5.1声道多通道声卡(营造杜比环绕立体声)(6)信噪比(SNR)-信噪比越高,声音听起来就越清晰4.声卡的外部接口二、音箱音箱是一种电声转换的发音设备,它由箱体、扬声器、电源和信号放大器等组成。分类:2.0→双声道立体声2.1/4.1/5.1/7.15.1→五声道+超重低音声道杜比环绕立体声技术练习与思考音频信号的频率范围大约是多少?话音信号频率范围大约是多少?什么是模拟信号?数字信号?采样、量化、线性量化、非线性量化采样频率根据什么原则来确定?选择采样频率为22.05kHz和样本精度为16位的录音参数。在不采用压缩技术的情况下,计算录制2分钟的立体声需要多少MB的存储空间?