第4章多媒体音频信号处理第4章多媒体音频信号处理4.1音频信号概述4.2音频信号的获取与处理4.3话音信号的参数编码4.4乐器数字接口MIDI4.5声卡概述第4章多媒体音频信号处理4.1音频信号概述4.1.1信号的描述及分类1.确定信号及随机信号能够用一确定的时间函数来表示的信号就是确定信号。这种信号对应某一时刻都有一个确定的信号值。有一些信号具有不可预知的不确定性,这种信号就是随机信号。我们将要研究的音频信号、视频信号以至计算机中的数字信号均为确定信号。第4章多媒体音频信号处理2.周期信号与非周期信号按一定时间间隔周而复始重复的信号就是周期信号,而在时间上不具有周而复始的重复特性的信号就是非周期信号。3.连续信号与离散信号信号随时间的取值是连续的,这样的信号就是连续信号。如果信号在时间上的取值是离散的,则这种信号就称为离散信号。可见,离散信号在时间上是离散的,但信号在幅度上可以是连续的,也可以是离散的。第4章多媒体音频信号处理4.模拟信号与数字信号如果信号在时间上和幅度上都是连续的,那么这样的信号就是模拟信号。模拟信号以一定时间间隔取值,则可获得离散信号,又称之为采样信号。若将离散信号进行二进制编码,以二进制编码来表示离散值的幅度,那么这种二进制编码信号叫做数字信号。在本书后面的讨论中可以看到,话筒或摄像机产生的信号为模拟信号。模拟信号经过采样可获得离散信号,离散信号经A/D转换变成二进制的数字信号,数字信号就可以由计算机直接进行处理了。模拟信号、离散信号与二进制编码的数字信号之间的关系表示在图4-1上。第4章多媒体音频信号处理图4-1模拟信号、离散信号及数字信号0000000100100011010001010110011110011010幅度100008910111213141516171234576时间第4章多媒体音频信号处理图4-1中,用连续变化的曲线表示模拟信号;用圆点表示以相等时间间隔取值而得到的离散信号;图4-1的纵坐标上标的是幅度的二进制编码值。4.1.2采样定理及信号重构1.采样定理设输入信号是带宽有限的信号,最高信号频率为fm,则从采样得到信号序列(离散信号)重构(复现)连续信号的条件是采样频率fs≥2fm,否则,将产生混迭效应,而使信号失真。频率2fm称为奈奎斯特(Nyquist)频率fq,fq=2fm。时域信号与它的傅立叶变换频谱密度如图4-2所示。第4章多媒体音频信号处理图4-2时域信号及其频谱密度fx(t)tOX(f)O-/2/2取fm=1/为信号上限频率第4章多媒体音频信号处理2.信号重构设时域信号为x(t),对应的频谱密度为X(f),若时域采样脉冲序列为是等间隔(T)的单位脉冲序列,由信号理论可知对应的频谱为是一个等间隔(fs)频域冲激序列。其中T是时域采样序列的周期,即采样频率n)nTt()t(pms)mff(T1)f(T1fs第4章多媒体音频信号处理可以写出时域采样序列的表达式,即x*(t)就是x(t)在t=nT处的离散序列。由卷积定理,时域的乘积对应频域的卷积,即因为是一个冲激序列,卷积的结果相当于X(f)搬移至序列出现的地方,从而成为周期函数。x(t)在时域的采样与X(f)在频域卷积(搬移)的关系如图4-3所示。n*)nTt()t(x)t(p)t(x)t(xms)mff(T1)f(X)f()f(X第4章多媒体音频信号处理图4-3时域采样与频域卷积x(t)tp(t)TtfO-fm(f)fOOx(t)·p(t)tOX(f)Ofm……-fsT/1fs-fsX(f)(f)fs……*Of第4章多媒体音频信号处理可见,若fs=1/T不是足够大,采样以后对应的频谱就会产生混迭,用矩形(带通)滤波器滤波所得的主频谱就会失真,恢复到时域以后,时域连续信号也将失真。因此,采样频率fs必须满足采样定理的要求,即fs≥2fm。图4-4音频信号的带宽数字激光唱盘(CD)FM无线电调频广播AM无线调幅广播0.017电话f/kHz0.020.050.23.41520第4章多媒体音频信号处理4.2音频信号的获取与处理4.2.1音频信号1.常见音频信号常见的音频信号主要有电话音频信号、调频、调幅无线电广播音频信号和高保真数字的立体声音频信号。由于用途不同,这些音频信号频带宽度也各不相同,而且,在音响设备中,通常以音频信号的带宽来衡量声音的质量。图4-4中表示了这4种常见音频信号的带宽。第4章多媒体音频信号处理图4-4表示了人们公认的音频信号的质量标准。其中,等级最高的是激光唱盘的音频信号;其次是调频无线电广播,调幅无线电广播;最低的是电话话音的频带,从0.2kHz到3.4kHz,带宽只有3.2kHz。2.声音的特性1)声音的波动性任何物体的振动通过空气的传播都会形成连续或间断的波动,这种波动引起人的耳膜的振动,变为人的听觉。因此,声音是一种连续或间断的波动。第4章多媒体音频信号处理2)声音的三要素音调、音强和音色称为声音的三要素。其中,音调与声波的频率相关,频率高则音调高,频率低则音调低。音调高时声音尖锐,俗称高音;音调低时声音沉闷,俗称低音。人的耳朵对于声音的感知频率范围为20Hz~20kHz之间。低于20Hz的声波为次声波,高于20kHz的声波称为超声波。音强取决于声波的幅度,振幅高时音强强,振幅低时音强弱。音色则由叠加在声音基波上的谐波所决定,一个声波上的谐波越丰富,音色越好。第4章多媒体音频信号处理3)声音的连续谱声音信号一般为非周期信号,包含有一定频带的所有频率分量,其频谱是连续谱。声波的连续谱成分使声音听起来饱满、生动。4)声音的方向性声音的传播是以弹性波形式进行的,传播具有方向性,人通过到达左右两耳声波的时间差及声音强度差异来辨别声音的方向。声音的方向性是产生立体声效果和空间效果的基础。第4章多媒体音频信号处理3.音频的种类在自然界中,声音包含声响、语音和音乐等三种形式。在多媒体系统中,声音不论是何种形式都是一种装载信息的媒体,统称为音频。由产生音频的方式不同音频被分为波形音频,MIDI音频和CD音频三类。1)波形音频以声波表示的声响、语音、音乐等各种形式的声音经过声音获取设备(例如麦克风)和声音播放设备(例如录音机、CD唱机等)输入,并通过声卡控制采样,由A/D转换将模拟信号转变成数字信号,然后以*.WAV文件格式存储在硬盘上,这种声音媒体称为波形音频。波形音频重放时,必须经过D/A转换将数字信号转换成模拟信号,由声卡上的混音器混合后生成声波,再由音箱输出声音。第4章多媒体音频信号处理波形音频的*.WAV文件中记录的是数字信号,可以使用计算机对*.WAV文件进行各种处理,并像其他数据文件一样被存取、复制和传输。2)MIDI音频将电子乐器演奏时的指令信息(例如音高、音长和力度等)通过声卡上的MIDI控制器输入计算机,或者利用一种称为音序器的计算机音乐处理软件编辑产生音乐指令集合,以*.MID文件格式存储在硬盘上,这种声音媒体称为MIDI音频。MIDI音频重放时,必须经过合成器将MIDI指令译成相应的声音信号,再由声卡上的混音器混合后生成声波,最后由音箱播出音乐。第4章多媒体音频信号处理MIDI音频的*.MID文件中可以包含多达16种不同乐器的声音定义。MIDI文件记录的不是乐曲本身,而是一些描述乐曲演奏过程中的指令,因此,MIDI音频是乐谱的数字化描述。MIDI文件的存储量比较小,因此,它可以满足较长时间音乐播放的要求,但是MIDI文件的录制工作较为复杂,需要使用MIDI创作并改编作品的专业知识以及专门化工具,例如键盘合成器等。3)CD音频CD音频是指以44.1kHz频率、16位精度采样而获得的一种立体声数字化声音。第4章多媒体音频信号处理4.2.2音频信号的获取与处理1.音频信号的获取音频信号的获取框图如图4-5所示。图4-5音频信号获取框图话筒放大滤波采样保持A/D接口微型机采样脉冲第4章多媒体音频信号处理2.音频信号的处理在第3章里已经提到,不管多媒体信息是音频信号还是视频信号,其数据量都是十分巨大的。如果像图4-5所示的那样,经A/D转换的数字化音频信号直接进入计算机进行存储(记录)或进行传送,是不可取的。3.音频信号的回放经压缩的音频信号以一定的格式记录在有关的媒体上,例如,磁带、磁盘及光盘等,或者以一定的格式传送到接收端。在音频信号接收端或由媒体回放音频信号时,首先由专用的硬件或软件对压缩数据进行解压缩,恢复音频数字信号,然后,经由图4-6所示的电路框图对音频信号进行放音。第4章多媒体音频信号处理图4-6音频信号的回放框图滤波音箱功放压放D/A接口微型机第4章多媒体音频信号处理4.有关音频信号的标准及规范在第1章中,已经特别说明标准及规范在多媒体世界中的重要性。这里,首先阐明数字电话音频信号的数据压缩标准。在表4-1中列出了国际电报电话咨询委员会(CCITT),欧洲移动通信专家组(GSM),美国移动通信标准(CTIA)及美国国家安全局各自制定的有关电话通信的编码标准。表中还给出了各种标准的大致使用领域以及它们的质量,其中,质量是以最高为5.0分来表示的。第4章多媒体音频信号处理除了上面所提到的数字电话编码标准外,调幅广播的音频信号范围为50Hz~7kHz,又称“7kHz音频信号”,其最高频率为7kHz,当使用16kHz对其采样并进行14位二进制编码时,其数据的传送速率为224KB/s。为了对最高频率进行压缩,CCITT于1988年为其制定了G.722标准,标准规定这种信号的数据传送率为64KB/s。第4章多媒体音频信号处理表4-1数字电话的编码标准组织ISOCCITT标准G.711G.712G.728制定时间1992197219841992传送速率(Kb/s)128643216编码算法PCMADPCMLD–CELP质量5.04.34.14.0使用场合CD长途电话网络第4章多媒体音频信号处理GSMCTIANSAGSMGIA19831989198919821384.82.4RPE–LTVSELPCELPLPC3.73.83.22.5移动通信保密电话第4章多媒体音频信号处理5.常用语音文件格式在多媒体计算机的语音处理或在后面将要说明的声卡中所用到的操作系统或工具软件为我们提供了语音文件。这些语音文件都有各自的标准,以便于用户使用和相互转换。在这里将简要介绍目前最常见的语音文件格式。1)VOC语音文件格式VOC语音文件由文件头和数据块两大部分组成。其中VOC语音文件的文件头如表4-2所示。第4章多媒体音频信号处理表4-2VOC语音文件的文件头偏移地址内容00~13H文件类型14~15H从VOC文件开始到数据块的偏移量16~17HVOC文件版本号18~19HVOC文件标志1AHVOC文件的数据块标志1B~1DH数据块长度1EH数据采样率第4章多媒体音频信号处理由表4-2看到,VOC文件的文件头主要是对VOC文件的类型、版号及标志做出说明,同时,指出了数据块的起始地址、数据块长度及采样率。VOC文件中数据块由性质不尽相同的子块组合而成。各子块的功能及其长度也各不相同,例如有语音数据子块、静音标志子块、ASCII码字符子块、循环重复子块、终止子块及用于立体声音响的扩展子块等。VOC文件中数据子块的长度及主要功能列于表4-3中。第4章多媒体音频信号处理表4-3VOC文件中数据子块的长度及主要功能数据子块号长度功能01B(字节)终止块17B+?语音数据25B+?语音数据37B静音46B标志56B+?ASCII字符66B循环重复74B循环结束87B+?扩展块第4章多媒体音频信号处理不同子块的开始几个字节除前面4个如上所述外,剩下的就不太相同,表4-3中用?表示。例如,1号数据子块的开始字节中,有规定本数据块的数据压缩比的字节。知道了压缩比,就可以解压缩恢复原始的语音数据。2)WAV语音文件格式在多媒体应用中被广泛使用的是RIFF(ResourceInterchangeFileFormat)标准给出的