§2多媒体技术基础及应用1第二章音频信息的获取与处理§2多媒体技术基础及应用2本章学习要点1.音频信号的特点;模拟音频与数字音频;音频采样与量化以及数字音频文件格式。2.音频卡的功能、分类及其基本工作原理。3.音频编码基本原理及标准。4.音乐合成及MIDI规范。5.语音识别与合成原理及分类。§2多媒体技术基础及应用3学习要求1.熟练掌握:音频卡的工作原理及应用开发。2.掌握:音频编码基础及标准;音乐合成及MIDI。3.了解:本章其他内容。§2多媒体技术基础及应用42.1数字音频基础§2.1数字音频基础多媒体技术基础及应用5声音是一种由机械振动引起并在弹性介质中传播的连续的波。声音的强弱体现在声波压力的大小上。声音的高低体现在声波的频率上。可将声波转换为电信号。代表声波的电信号在时间和幅度上都是连续的,即模拟信号。声音的产生§2.1数字音频基础多媒体技术基础及应用6声音信号a声音信号由许多不同频率的信号组成,称为复合信号。单一频率的信号称为分量信号。带宽是声音信号的一个重要参数,它描述复合信号的频率范围。§2.1数字音频基础多媒体技术基础及应用7声音信号b人耳的听觉范围是20Hz~20KHz,称为音频(Audio)信号。人说话的频率范围是300~3000Hz,称为话音(speech)信号。§2.1数字音频基础多媒体技术基础及应用8声音的听觉特性——声音三要素声音三要素即1.音调2.音强3.音色音色是由混入基音中的泛音所决定的。§2.1数字音频基础多媒体技术基础及应用9声音是一种弹性波,可分为周期性和非周期性信号。周期信号是单一频率的信号,是线性谱。非周期信号包含一定连续频带的所有频率分量,是连续谱。完全的连续谱(如平滑噪声)完全无调。自然界的声音大多是线性谱中混有一段段较弱的连续谱,听来既有调又饱满、生动。声音的听觉特性——声音中的连续谱§2.1数字音频基础多媒体技术基础及应用10声音的听觉特性——声音的方向性人能分辨出声音到达左右两耳的时差和强度差异,即能辨别声源方向。由于声波在空间来回反射,能产生空间效果。§2.1数字音频基础多媒体技术基础及应用11声音的听觉特性——声音是时基类媒体声音是时间连续的,人耳能感觉到25毫秒的延迟。没有时间就无法表现声音。声音是连续型时基媒体。§2.1数字音频基础多媒体技术基础及应用12声音的质量评判声音的质量与其频率范围(即频带)有关。一般,频带越宽,音质越好。对语音常用可懂度、清晰度和自然度衡量。对音乐,保真度、空间感和音响效果是重要指标。平均主观打分(MOS)是最简单的评判法。§2.1数字音频基础多媒体技术基础及应用13模拟声音的录制与播放模拟声音信号的录制一般是先将声波信号通过机电转换获得电信号,之后再通过电磁转换等方式记录到适当的介质上。模拟声音的播放即使把记录在介质上的信号通过电磁转换、机电转换等手段还原为声音信号。§2.1数字音频基础多媒体技术基础及应用14模拟信号的数字化在某个特定时刻对模拟信号进行测量称为采样。采样获得的信号称为离散时间信号。对幅值连续的采样信号限定取值范围,可以获得由有限个幅值组成的信号,称其为离散幅度信号。采样值在某个数值附近的一定范围内都用这个值表示,这种处理称为量化。§2.1数字音频基础多媒体技术基础及应用15细看采样和量化•均匀采样:每两次采样之间的间隔时间相等。否则为非均匀采样。•采样的时间间隔称为采样周期。•每秒钟采样的次数称为采样频率。•线性量化:量化的幅度间隔均等。否则为非线性量化。§2.1数字音频基础多媒体技术基础及应用16数字化音频a•在计算机内声音信息同其他信息一样也用一系列二进制数字表示,称其为数字音频。•数字音频是对模拟声音信号进行采样和量化得到的。§2.1数字音频基础多媒体技术基础及应用17数字化音频b•采样和量化的主要硬件是模数转换器(ADC)。•数字音频的回放需先进行数模转换(DAC)得到模拟电信号,然后再放大输出。§2.1数字音频基础多媒体技术基础及应用18采样定理a采样频率的高低应根据奈奎斯特理论和声音信号本身的最高频率决定。奈氏理论指出:如果采样频率不低于信号最高频率的两倍,则由此获得的离散信号能够完全确定被采样的连续信号。§2.1数字音频基础多媒体技术基础及应用19采样定理b设被采样信号的最高频率为f,则2/2TTffss或§2.1数字音频基础多媒体技术基础及应用20量化精度和量化误差a若量化后的值用B位二进制码表示。B位二进制码可以表示2B个不同的量化电平。显然,位数越多表示的精度就越高。§2.1数字音频基础多媒体技术基础及应用21量化精度和量化误差b存储数字音频信号的比特率为:设量化阶距(两个量化值的幅度差)为△则量化误差为:)/(sbfBIS2/§2.1数字音频基础多媒体技术基础及应用22数字音频文件存储量计算字节数=采样频率(Hz)*量化位数*声道数*录音时间(s)/8§2.1数字音频基础多媒体技术基础及应用23数字音频的文件格式多媒体技术中常见音频文件:•Wav文件:Microsoft的音频文件格式。对声音波形采样、量化后进行存储,故称波形文件。•Voc文件:是creative公司的波形文件格式。•Mid(midi)文件:是遵循乐器数字接口(midi)规范,产生数字乐音的文件。§2.2音频卡的工作原理多媒体技术基础及应用242.2音频卡的工作原理主要完成模数转换、音频信号压缩及解压缩、数模转换、音频接口以及与微机接口五大功能§2.2音频卡的工作原理多媒体技术基础及应用25音频卡的功能---录制与播放a•音频录放数字化采样频率范围:8~44.1kHz量化位数:8位/16位通道数:单声道/立体声自动动态滤波§2.2音频卡的工作原理多媒体技术基础及应用26音频卡的功能---录制与播放b•编码与压缩基本编码方法:PCM压缩编码方法:ADPCM实时硬件/软件压缩•录音声源:mic,line-in,CD§2.2音频卡的工作原理多媒体技术基础及应用27音频卡的功能---编辑与合成应用工具软件对数字音频进行编辑以及实现特殊效果处理,如:倒播、增加回音、静噪、淡入和淡出、往返播放、声道交换。§2.2音频卡的工作原理多媒体技术基础及应用28音频卡的功能---MIDI音乐合成利用软件通过音频卡的MIDI接口对电子乐器进行操作控制,产生声音。音乐合成的性能依赖于音频卡上合成芯片的性能。•合成方式:•调频方式(FM)•波形表方式§2.2音频卡的工作原理多媒体技术基础及应用29音频卡的功能---文语转换和语音识别•文语转换(texttospeech)是利用声卡提供的软件将机内文本转换为声音输出。•语音识别使用者通过软件利用声音控制计算机或执行一些命令。§2.2音频卡的工作原理多媒体技术基础及应用30音频卡的工作原理—混合信号处理器•内置数字/模拟混合器。完成对声音信号的混合处理;•输入声源:MIDI信号、CD音频、线路输入、麦克风输入等;•可以选择一个或多个声源进行混合。§2.2音频卡的工作原理多媒体技术基础及应用31音频卡的工作原理—功率放大器•用于对混合信号进行放大使之达到足够的功率去推动扬声器发声。§2.2音频卡的工作原理多媒体技术基础及应用32音频卡的工作原理—总线和控制器a•总线接口类型:早期是ISA,现在几乎都是PCI。•组成:数据总线双向驱动器、总线接口控制逻辑、总线中断逻辑和DMA控制逻辑。§2.2音频卡的工作原理多媒体技术基础及应用33音频卡的工作原理—总线和控制器b•可以通过软件或硬跳线设定基本I/O地址、中断向量(IRQ)和直接存储器存取(DMA)通道号这三个参数,以避免与其他设备发生冲突。§2.2音频卡的工作原理多媒体技术基础及应用34音频卡的工作原理—音频卡的安装a自动安装:现在的音频卡产品一般都是即插即用的。安装连接好之后,开启电源,WIN9X会提示找到新硬件,照屏幕提示一步步操作,即可完成软件安装,之后重启系统就能使用了。§2.2音频卡的工作原理多媒体技术基础及应用35音频卡的工作原理—音频卡的安装b手动安装:开始-设置-控制面板-添加新硬件驱动程序的安装需要WINDOWS系统盘。§2.2音频卡的工作原理多媒体技术基础及应用36声音工具请参阅《辅导与实验》之“实验一音频信号的获取与处理”§2.3音频编码基础和标准多媒体技术基础及应用372.3音频编码基础和标准本节内容:•学习音频编码的基本知识•学习音频编码的相关标准§2.3音频编码基础和标准多媒体技术基础及应用38音频编码的目的•音频编码的主要目的就是压缩数据,以节约存储空间和提高通信传输量。•数据压缩通常会降低音频质量。•数据压缩还会增大计算量。•因此,音频压缩时要综合考虑数据量、声音质量和计算的复杂度。§2.3音频编码基础和标准多媒体技术基础及应用39压缩编码的可能性•只有当信源本身具有冗余度时才能对其进行压缩。•统计分析表明,语音信号中存在多种冗余度:时域信息冗余和频域信息冗余•根据人的听觉机理,语音也是可以压缩的。§2.3音频编码基础和标准多媒体技术基础及应用40时域信息冗余1.幅度的非均匀分布1.幅度的非均匀分布统计表明,语音中的小幅度样本出现概率要高一些。又,通话中存在间歇,必然出现大量的低电平;此外,实际的讲话信号器功率电平也趋向于出现在编码范围的较低电平端。§2.3音频编码基础和标准多媒体技术基础及应用41时域信息冗余2.样本间的相关2.样本间的相关对于音信号的分析表明,取样数据的最大相关存在于临近样本之间。当采样率为8KHz是相邻样本间相关系数大于0.85。如果采样率提高,样本见的相关性将会更高。§2.3音频编码基础和标准多媒体技术基础及应用42时域信息冗余3.周期之间的相关3.周期之间的相关话音带宽为300~3400Hz,但在某特定瞬间,一个声音信号却往往只是该频带内的少数几个频率成分在起作用。当声音中只有少数几个频率时,就会象某些振荡波形一样,在周期和周期之间存在一定的相关性。§2.3音频编码基础和标准多媒体技术基础及应用43时域信息冗余4.基音之间的相关4.基音之间的相关人的说话声音可分为清音和浊音两类。浊音波形不仅表现出周期相关性,而且还具有对应于音调间隔的长期重复波形。因此,对音浊音部分的编码最有效的方法之一就是只对一个音调间隔的波形进行编码,并把它作为同样本中其它基音段的模板。§2.3音频编码基础和标准多媒体技术基础及应用44时域信息冗余5.静止系数5.静止系数静止系数:两人在通话时,平均每人的讲话时间占总通话时间的一半,且存在字词句之间的停顿。分析表明:话音间歇使得全双工话路的典型效率约为通话时间的40%。显然话音间歇(波形静止段)本身就是一种冗余。§2.3音频编码基础和标准多媒体技术基础及应用45时域信息冗余6.长时自相关6.长时自相关上述相关性都是在短时(20ms)间隔内作出的统计分析。如果在较长时间内进行统计就可以得到长时自相关函数。长时间统计表明,如采样频率为8kHz,则话音相邻样本间的相关系数高达0.9。§2.3音频编码基础和标准多媒体技术基础及应用46频域信息冗余•非均匀的长时功率谱密度呈现强烈的非平坦性;高频能量较低;直流分量并非最大。•语音特有的短时功率谱密度存在共振峰频率,其第一、第二个共振频率决定了语音特征;整个谱密度随频率的增加而递减;整个功率谱的细节以基音的频率为基础,形成高次谐波结构。§2.3音频编码基础和标准多媒体技术基础及应用47人的听觉感知机理•人的听觉具有掩蔽效应强音能掩蔽弱音,分同时掩蔽和异时掩蔽。•人耳对不同频段声音的敏感度不同对低频声的敏感度高于对高频声的敏感度。•人耳对语音信号的相位变化不敏感§2.3音频编码基础和标准多媒体技术基础及应用48音频编码的分类•波形编码•音源编码•基于人的听觉特性进行编码•利用人耳掩蔽效应,设计心理声学模型实现高效音频压缩。(图3.5)•基于音频数据的统计特性,目标是使生成的波形尽可能与原始波形保持一致;•音质高,数据率也很高;•编译码器的复杂程度较低。•它企图从声音波形中