1第二章多媒体音频处理技术本章主要学习:了解声音的基本概念及其属性特征、声音的数字化原理、常见的音频文件及其特点,等等。需要掌握的内容:CoolEditPro2.0声音编辑软件的使用方法。第一节数字音频基础一、声音的基本概念声音是因为物体的振动而产生的。机械振动或气流扰动引起周围弹性媒介发生波动,产生声波。产生声波的物体称为声源,如乐器、音箱等。声波所及的空间范围称为声场。声波传入到人耳,经过人类听觉系统的感知就是声音。声音主要具有以下3种属性。1.音调音频信号可分为语音信号和非语音信号两类。语音信号包含清楚、丰富的意义和内涵,是人类进行信息交流特有的形式;非语音信号主要包括音乐和自然界存在的其他声音,非语音信号的特点是不具有复杂的语义和语法信息,识别较简单。2.音色音色,即声音的特色。声音分纯音和复音两种类型,纯音是指振幅和周期均固定的声音;复音则是指具有不同频率和不同振幅的声音混合。大自然中存在的声音绝大部分是复音。在复音中,最低频率的声音是“基音”,它是声音的基调,其他频率的声音称为“谐音”,也叫泛音。基音和谐音是构成复音音色的重要因素。各种声源都具有自己独特的音色,例如各种乐器的声音、人的话语、动物的叫声等,人们绝大部分情况下是依据音色来辨别声源种类的。23.音强音强是声音的强度,也称为声音的响度,即常说的“音量”。音强与声波的振幅成正比,振幅越大,强度越大。磁带、CD光盘等声音载体中的声音强度是一定的,但是可以通过播放设备的音量控制来改变聆听时的响度。由于物体在振动的时候并不总是规则的,所以声音又有“乐音”和“噪音”之分。规则振动发出的是乐音,反之则称为噪音。二、声音的质量有3种常用方法可以衡量声音的质量:一是用声音信号的带宽来度量,二是客观度量,三是主观度量。评价语音质量时,经常采取复合法评估,即采取两种以上的方法综合评估。1.带宽度量图1显示了几种常见的声音带宽,带宽越大,声音的质量越好。其质量等级由高到低依次是CD、FM、AM和电话。图1几种觉的声音带宽对比2.客观度量声音客观质量的度量主要用信噪比(SignaltoNoiseRatio,SNR)来度量。信噪比是指声源产生最大不失真声音信号强度与同时发出噪音强度的比率,通常以S/N表示,以分贝(dB)为单位,信噪比越高,表示声音的质量越好。3.主观度量与客观度量相比较,应该说人的感觉更具有决定意义。感觉上的、主观上的印象应该成为评价声音质量不可缺少的部分。有的学者认为,在语音信号编码中使用主观度量比使用客观度量更加直接和恰当,更有意义。三、数字音频压缩标准3(1)音频压缩方法概述在多媒体音频处理中,一般需要对数字化后的音频信号进行压缩编码,使其成为具有一定字长的二进制数字序列,并以这种形式在计算机内传输和存储,最后由解码器将二进制编码恢复成原来的音频信号播放,如图2所示。图2音频压缩处理流程所谓压缩编码技术,就是指用某种方法使数字化信息的编码率降低的技术。音频信号能进行压缩编码的基本依据有两个:一是声音信号中存在很大的冗余度,通过识别和去除这些冗余度,便能达到压缩编码率的目的;二是人的听觉具有一个强音能抑制一个同时存在的弱音的现象,这样就可以抑制与信号同时存在的量化噪声。另外,人耳对低频端比较敏感,而对高频端不太敏感,由此引出了“子带编码技术”。一般来说,音频信号的压缩编码主要分为无损压缩编码和有损压缩编码两大类,无损压缩编码包括不引入任何数据失真的各种熵编码;有损压缩编码又分为波形编码、参数编码和混合编码。1.熵编码这是以信息论变长编码定理为理论基础的编码方法,如霍夫曼编码、算术编码和行程编码等。2.波形编码波形编码是利用采样和量化过程来表示音频信号的波形,使编码后的音频信号与原始信号的波形尽可能匹配。它主要根据人耳的听觉特性进行量化,以达到压缩数据的目的。波形编码的特点是适应性强,音频质量好,在较高码率的条件下可以获得高质量的音频信号,适合于高质量的音频信号,也适合于高保真语音和音乐信号。由于易受量化噪声影响,进一步降低编码率较困难。波形编码方法有全频带编码(脉冲编码调制(PCM)、差分脉冲编码调制(DPCM)、自适应差分脉冲编码调制(ADPCM)、子带编码(自适应变换编码(ATC)、心理学模型)和矢量量化编码等。3.参数编码参数编码是将音频信号以某种模型来表示,利用特征提取的方法抽取必要的模型参数和激励信号的信息,并对这些信息编码,最后在输出端合成原始信号。其目的是重建音频,保持原始音频的特性。参数编码的压缩率很大,但计算量大,保真度不高,适合于语音信号的编码。参数编码方法有线性预测(LPC)声码器、通道声码器、共振峰声码器等。44.混合编码混合编码是在参数编码方法的基础上,引用波形编码准则优化激励源信号的一种方案,可以在较低的码率上得到较高的音质。混合编码方法有多脉冲线性预测编码(MPLPC)、码本激励线性预测编码(CELP)、短延时码本激励线性预测编码(TDCELP)、长延时线性预测规则码激励(RPELTP)等。(2)音频压缩技术标准1.电话质量的音频压缩标准电话质量语音信号的频率范围是200~3400Hz,采用标准的脉冲编码调制(PCM),当采样频率为8kHz、量化位数为8位时,对应的数据速率为64kb/s。为了压缩音频数据,国际上从CCITT最初的G.711标准开始,已制定了一系列的语音压缩编码的标准。表1所列是ITU建议的用于电话质量的语音压缩标准。表1ITU建议的用于电话质量的语音压缩标准随着数字移动通信的发展,人们对于低速语音编码有了更迫切的要求。1989年美国公布的数字移动通信标准CTIA,采用矢量和激励线性预测技术(VSELP),速率为8kb/s。为了适应保密通信的要求,美国国家安全局NSA分别于1982年和1989年制定了基于LPC、速率为2.4kb/s和基于CELP、速率为4.8kb/s的编码方案。2.调幅广播质量的音频压缩标准调幅广播质量音频信号的频率范围是50~7000Hz,当使用16kHz的采样频率和14位的量化位数时,信号速率为224kb/s。1988年,ITU制定了G.722标准,它可把信号速率压缩成64kb/s。G.722标准采用基于子带的ADPCM技术,将现有的带宽分成两个独立的子带信道,使输入信号进入滤波器组分成高子信号和低子信号,然后分别进行ADPCM编码,最后进入混合器形成输出码流。利用G.722标准,可以在窄带ISDN的一个B信道上传输调幅广播质量的音频信号。由于这种压缩方法能够在8kb/s的存储量下给出相当好的音乐信号,因此也适合于需要存储大量高质量音频信号的多媒体系统使用。3.高保真立体声音频压缩标准5高保真立体声音频信号的频率范围是50~20000Hz,在44.1kHz采样频率下用16位量化,信号速率为每声道705kh/s。目前,世界上第一个高保真立体声音频压缩标准为MPEG音频压缩算法,虽然MPEG音频标准是MPEG标准的一部分,但它也完全可以独立使用。MPEG音频标准提供了3个独立的压缩层次,用户对层次的选择可在复杂性和声音质量之间进行权衡第一层的编码器最为简单,编码器的输出数据率为384kb/s,主要用于小型数字合式磁带(DigitalCompactCassette,DCC);第二层的编码器的复杂程度属于中等,编码器的输出数据率为192~256kb/s,其应用包括数字广播音频、数字音乐、CD-I和VCD等;第三层的编码器最为复杂,编码器的输出数据率为64kb/s,主要应用于ISDN上的声音传输。(3)音频压缩工具MP3、WMA、RA格式都是比较流行的音频压缩文件格式,而Yamaha公司曾推出一款音频压缩文件格式VQF。无论在音频压缩率还是音质上,VQF比起MP3都有很大的优势,但由于推广不得力,加之MP3早已深入人心,VQF格式的音乐文件在Internet上已经逐渐销声匿迹了。下面介绍豪杰公司出品的MP3压缩工具,即豪杰超级解霸3000中的一个实用工具——MP3格式转换器。运行MP3格式转换器,出现的界面如图3所示。图3MP3格式转换器单击【设置】按钮,在弹出的【MP3设置】对话框中可以对压缩层次、位率、频率和输出路径等6进行调节。通过【添加目录】、【添加文件】、【删除所选】等操作,可以把需要压缩的各种音频文件(wav、mid、mpg、dat、ra和rm等)添加到左侧的列表框中,右边列表框自动出现相应的MP3文件。单击【开始压缩】按钮,则压缩进度栏会显示当前的进程。压缩完毕后,所压缩的文件即可保存到设置的目录中。总之,MP3压缩工具能方便地将各种音频格式文件转换成MP3文件,也能转换成波形文件。第二节音频处理软件一、音频处理软件CoolEdit概述(1)CoolEditPro2.O简介CoolEditPro2.0是一个音频编辑兼多轨音频混音软件,由美国Syntrillium软件公司开发,CoolEdit是一个非常出色的数字音乐编辑器和MP3制作软件,可同时处理多达128个音频文件,轻松地在多个音频文件中进行剪切、粘贴、合并、重叠等操作;它还提供多种特效,对音频进行放大、降低噪音、压缩、扩展、回声、失真、延迟等处理;并可以模拟生成噪音、低音、静音、电话信号等。该软件包含有CD播放器,还包括支持可选的插件、崩溃恢复、自动静音检测和删除、自动节拍查找、录制等功能。另外,它还可以在AIF、AU、MP3、RawPCM、SAM、VOC、VOX、WAV等文件格式之间进行转换,并且能够保存为RealAudio格式。CoolEdit的主要特性:128轨增强的音频编辑能力,超过40种音频效果器,mastering和音频分析工具,以及音频降噪、修复工具、音乐CD烧录、实时效果器和EQ32-bit处理精度,支持最高达32bit/192kHz精度的编辑、混音,支持视频,多轨状态下支持MIDI输入。(2)CoolEdit2.0的基本操作CoolEdit2.0的操作界面如图4所示。其常用菜单命令简介如下。1.File(文件)此菜单中包含了常用的新建、打开、关闭、保存、另存为等命令。其中需要注意的几个命令是:①Close关闭当前波形文件;②CloseAll(WavesandSession)关闭所有的波形文件和任务,包括驻留在内存中的未关闭波形文件;③CloseOnlyNon-SessionWavefrom关闭当前未使用波形文件,打开的波形多了,可以用这个命令来释放一部分内存;④SaveSelection保存任务,如果任务中有未保存的波形也一起保存,但会提示;7⑤FreeUpSpaceinTempFiles删除临时文件,释放部分硬盘空间。图4CoolEdit2.0的操作界面2.Edit(编辑)此菜单中包含了常用的拷贝、剪切、粘贴、调整采样速率、转换采样格式等命令,在多轨状态下,还有缩混命令。其中需要注意区分的几个命令是:①ZeroCrossings零点穿越,使选中区域的开始和结尾调整到最近的零点位置,方便音轨的对齐、剪切、拼贴等操作;②AdjustSampleRate调整采样率,这个操作不能改变波形的采样率,而是调节声卡播放该波形时用的采样率;③ConvertSampleType转换采样格式,这个操作可以改变当前波形的采样率,文件大小也会改变。3.View(视图)此菜单中包含了一些常用视图的选择设置。其中需要注意的几个命令是:①MuititrackView选中则就切换到多轨编辑状态;②WaveformView波形显示;③SpectralView频谱显示;④ShowLevelMeters显示电平;⑤StatusBars显示状态条。4.Effect(效果)此菜单包含了在编辑音频时用的一些功能,如反相、静音、放大、延时、混响、均衡、降噪、失真、8变调以及调用Directx的插件。其中需要注意的几个命令是:①Reverse将波形反相,可以制造一些奇妙的音效;②DelayEffects延迟,包括有合唱、延迟、动态、回声、镶边等几个效果器;③DirectX打开DirectX的效果器插件,它支持绝大多数的插件,每次安装新的插件后,