第4章数字音频技术4.1数字音频概述声音是一种波形,它由许多不同频率的谐波所组成,谐波的频率范围称为声音的带宽(bandwidth)多媒体技术处理的声音信号主要是人耳可听到的20~20kHz的音频信号人的说话声音是一种特殊的声音,其频率范围约为300~3400Hz,称为言语(speech)幅度随时间连续变化的信号称为模拟信号4.1.1数字音频数字音频是指用一连串二进制数据来保存声音信号。声音信号在存储和传输及处理过程中,不再是连续的信号,而是离散的信号。在坐标轴上描述信号的波形和振幅时,模拟信号是用无限个点去描述,而数字信号是用有限个点去描述。4.1.2音频数字化声音是一种模拟信号。为了使用计算机进行处理,必须将它转换成数字编码的形式,这个过程称为声音信号的数字化。将模拟声音数字化需要经过采样、量化、编码三个步骤。将模拟信号经过采样、量化和编码,得到一些离散的数值连续时间的离散化通过采样来实现,如果每隔相等的一小段时间采样一次,称为均匀采样连续幅度的离散化通过量化来实现,把信号的强度划分成一小段一小段,如果幅度的划分是等间隔的,就称为线性量化,否则就称为非线性量化4.2音频压缩音频信号的压缩编码主要分为无损压缩编码和有损压缩编码两大类。有损压缩编码又分为波形编码、参数编码和同时利用这两种技术的混合编码。数字音频压缩技术标准分为电话语音压缩、调幅广播语音压缩和调频广播及CD音质的宽带音频压缩3种。4.2.1波形声音的主要参数波形声音的主要参数包括:取样频率,量化位数,声道数目,使用的压缩编码方法以及数码率(Bitrate)。数码率也称为比特率,简称码率,它指的是每秒钟的数据量。数字声音未压缩前,其计算公式为:波形声音的码率=取样频率×量化位数×声道数4.2.2全频带声音的压缩编码以CD盘片上所存储的立体声高保真的全频带数字音乐为例,1小时的数据量大约是635MB。为了降低存储成本和提高通信效率(降低传输带宽),对数字波形声音进行数据压缩是十分必要的。全频带数字声音的第1代编码技术采用的是PCM(脉冲编码调制)编码,它主要是依据声音波形本身的信息相关性进行数据压缩,代表性的应用是CD唱片。第2代全频带声音的压缩编码不但充分利用声音信息本身的相关性,而且还充分利用人耳的听觉特性,即使用“心理声学模型”来达到大幅度压缩数据的目的,这种压缩编码方法称为感知声音编码4.2.3几种常用的音频压缩格式1.WAV格式2.MIDI格式3.AIFF格式4.AU格式5.MP3格式6.WMA格式7.MP4格式1.WAV格式WAV格式是微软公司开发的一种声音文件格式,也叫波形声音文件,是最早的数字音频格式,由于Windows本身的影响力,这个格式事实上已经成为通用的音频格式。WAV记录的是声音本身,所以它占的硬盘空间很大。2.MIDI格式MIDI是MusicalInstrumentDigitalInterface的缩写,又称作乐器数字接口,是数字音乐与电子合成乐器的统一国际标准。MIDI文件本身只是一串数字信号而已,不包含任何声音信息,它记录的是在音乐什么时间用什么音色发多长的音等等,把这些指令发送给声卡,由声卡按照指令将声音合成出来。正因为这样,通常的MIDI文件都非常小。3.AIFF格式AIFF是苹果电脑中的标准音频格式,属于QuickTime(苹果公司提供的系统及代码的压缩包)技术的一部分。AIFF远不如WAV流行,但由于苹果电脑在多媒体领域里的领先地位,所以,大部分音频编辑软件和播放软件都对它提供了支持。4.AU格式AU则是Unix平台下一种常用的音频格式,起源于Sun公司的Solaris系统。AU格式本身也支持多种压缩方式,但其文件结构的灵活性就比不上AIFF和WAV。由于Unix平台应用较少,因而,它得到的支持和应用也远不如AIFF和WAV。5.MP3格式MP3是一种音频压缩技术,是利用MPEGAudioLayer3的技术,将音乐以1:10甚至1:12的压缩率,压缩成容量较小的文件,MP3能够在音质丢失很小的情况下把文件压缩到更小的程度。而且还非常好的保持了原来的音质。正是因为MP3体积小,音质高的特点使得MP3格式几乎成为网上音乐的代名词。每分钟音乐的MP3格式只有1MB左右大小,这样每首歌的大小只有3-4MB。使用MP3播放器对MP3文件进行实时的解压缩(解码),这样,高品质的MP3音乐就播放出来了。6.WMA格式WMA的全称是WindowsMediaAudio,是微软在互联网音频领域力推的一种音频格式。WMA格式是以减少数据流量但保持音质的方法来达到更高的压缩率目的,其压缩率一般可以达到1:18,生成的文件大小只有相应MP3文件的一半。这对只装配32M的机型来说是相当重要的,支持了WMA和RA格式,意味着32M的空间在无形中扩大了2倍。此外,WMA还可以通过DRM(DigitalRightsManagement)方案加入防止拷贝,或者加入限制播放时间和播放次数,甚至是播放机器的限制,可有力地防止盗版。7.MP4格式MP4与MP3之间其实并没有必然的联系,MP3是一种音频压缩的国际技术标准,而MP4是一个商标的名称,它采用的音频压缩技术与MP3也不同。MP4采用的是美国电话电报公司所研发的,以“知觉编码”为关键技术的a2b音乐压缩技术,压缩比成功的提高到15:1,最大可达到20:1而不影响音乐的实际听感,同时mp4在加密和授权方面也做了特别设计,它有如下特点。4.2.4数字语音的压缩编码语音信号的带宽有300~3400Hz,这是一种特殊的波形声音,它是人们交换信息的主要媒体。因此对数字语音进行专门的压缩编码处理,既十分必要也完全可能。1.常用的三类压缩编码(1)波形压缩编码数字语音可以采用像全频带声音那样的基于感觉模型的压缩方法(称为波形编码)(2)参数编码数字语音的另一类压缩编码方法称为参数编码或模型编码,它使用一种所谓“声源—滤波器”模型来模拟人的发声过程,从原始的语音波形信号中使用线性预测方法提取语音生成的参数,把这些参数作为该语音压缩编码的结果,因此码率很低,但声音质量较差,一般应用于保密通信。(3)混合编码这类语音压缩编码方法是上述两种方法的结合,称为混合编码。2.三类音频编码标准(1)电话语音压缩标准电话质量语音信号频率规定在300Hz-3.4kHz范围内,采用标准的脉冲编码调制PCM,主要有CCITT的G.711(64kb/s)、G.721(32kb/s)、G.728(16kb/s)等建议,用于数字电话通信。(2)调幅广播(50Hz-7kHz)语音压缩标准主要采用CCITT的G.722(64kb/s)建议,用于优质语音、音乐、音频会议和视频会议等。(3)调频广播(20Hz-15kHz)及CD音质(20Hz-20kHz)的宽带音频压缩标准3.最新的音频编码MPEG-1声音压缩编码是国际上第一个高保真声音数据压缩的国际标准,它分为三个层次:层1(Layerl)的编码较简单,主要用于数字盒式录音磁带;层2(Layer2)的算法复杂度中等,其应用包括数字音频广播(DAB)和VCD等;层3(Layer3)的编码最复杂,主要应用于因特网上的高质量声音的传输。最近几年流行起来的所谓“MP3音乐”就是一种采用MPEG-1层3编码的高质量数字音乐,它能以10倍左右的压缩比降低高保真数字声音的存储量,使一张普通CD光盘上可以存储大约100首MP3歌曲。MPEG-2的声音压缩编码采用与MPEG—1声音相同的编译码器,层1、层2和层3的结构也相同,但它能支持5.1声道(声卡其实有六个声道输出,其中有一个是超低音声道)和7.1声道(支持四个环绕声道,两个主声道,一个中置声道和一个低音声道的音频输出)的环绕立体声。4.3声音波形的编辑在制作多媒体文档时,人们越来越多地需要自己录制和编辑数字声音。目前使用的声音编辑软件有多种,它们能够方便直观地对波形声音(wav文件)进行各种编辑处理。1.基本编辑操作2.声音的效果处理3.格式转换功能4.其他功能