第4章数字音频技术.

dw★影子
3 ℃
2019-12-18

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第４章数字音频技术４.1数字音频概述声音是一种波形，它由许多不同频率的谐波所组成，谐波的频率范围称为声音的带宽（bandwidth)多媒体技术处理的声音信号主要是人耳可听到的20~20kHz的音频信号人的说话声音是一种特殊的声音，其频率范围约为300~3400Hz,称为言语(speech)幅度随时间连续变化的信号称为模拟信号4.1.1数字音频数字音频是指用一连串二进制数据来保存声音信号。声音信号在存储和传输及处理过程中，不再是连续的信号，而是离散的信号。在坐标轴上描述信号的波形和振幅时，模拟信号是用无限个点去描述，而数字信号是用有限个点去描述。４.１.２音频数字化声音是一种模拟信号。为了使用计算机进行处理，必须将它转换成数字编码的形式，这个过程称为声音信号的数字化。将模拟声音数字化需要经过采样、量化、编码三个步骤。将模拟信号经过采样、量化和编码，得到一些离散的数值连续时间的离散化通过采样来实现，如果每隔相等的一小段时间采样一次，称为均匀采样连续幅度的离散化通过量化来实现，把信号的强度划分成一小段一小段，如果幅度的划分是等间隔的，就称为线性量化，否则就称为非线性量化４.２音频压缩音频信号的压缩编码主要分为无损压缩编码和有损压缩编码两大类。有损压缩编码又分为波形编码、参数编码和同时利用这两种技术的混合编码。数字音频压缩技术标准分为电话语音压缩、调幅广播语音压缩和调频广播及CD音质的宽带音频压缩3种。4.2.1波形声音的主要参数波形声音的主要参数包括：取样频率，量化位数，声道数目，使用的压缩编码方法以及数码率（Bitrate）。数码率也称为比特率，简称码率，它指的是每秒钟的数据量。数字声音未压缩前，其计算公式为：波形声音的码率＝取样频率×量化位数×声道数4.2.2全频带声音的压缩编码以CD盘片上所存储的立体声高保真的全频带数字音乐为例，1小时的数据量大约是635MB。为了降低存储成本和提高通信效率（降低传输带宽），对数字波形声音进行数据压缩是十分必要的。全频带数字声音的第1代编码技术采用的是PCM（脉冲编码调制）编码，它主要是依据声音波形本身的信息相关性进行数据压缩，代表性的应用是CD唱片。第2代全频带声音的压缩编码不但充分利用声音信息本身的相关性，而且还充分利用人耳的听觉特性，即使用“心理声学模型”来达到大幅度压缩数据的目的，这种压缩编码方法称为感知声音编码4.2.3几种常用的音频压缩格式１．WAV格式２．MIDI格式３．AIFF格式4．AU格式5．MP3格式6．WMA格式7.MP4格式１．WAV格式WAV格式是微软公司开发的一种声音文件格式，也叫波形声音文件，是最早的数字音频格式，由于Windows本身的影响力，这个格式事实上已经成为通用的音频格式。WAV记录的是声音本身，所以它占的硬盘空间很大。２．MIDI格式MIDI是MusicalInstrumentDigitalInterface的缩写，又称作乐器数字接口，是数字音乐与电子合成乐器的统一国际标准。MIDI文件本身只是一串数字信号而已，不包含任何声音信息，它记录的是在音乐什么时间用什么音色发多长的音等等，把这些指令发送给声卡，由声卡按照指令将声音合成出来。正因为这样，通常的MIDI文件都非常小。３．AIFF格式AIFF是苹果电脑中的标准音频格式，属于QuickTime（苹果公司提供的系统及代码的压缩包）技术的一部分。AIFF远不如WAV流行，但由于苹果电脑在多媒体领域里的领先地位，所以，大部分音频编辑软件和播放软件都对它提供了支持。4．AU格式AU则是Unix平台下一种常用的音频格式，起源于Sun公司的Solaris系统。AU格式本身也支持多种压缩方式，但其文件结构的灵活性就比不上AIFF和WAV。由于Unix平台应用较少，因而，它得到的支持和应用也远不如AIFF和WAV。5．MP3格式MP3是一种音频压缩技术，是利用MPEGAudioLayer3的技术，将音乐以1:10甚至1:12的压缩率，压缩成容量较小的文件，MP3能够在音质丢失很小的情况下把文件压缩到更小的程度。而且还非常好的保持了原来的音质。正是因为MP3体积小，音质高的特点使得MP3格式几乎成为网上音乐的代名词。每分钟音乐的MP3格式只有1MB左右大小，这样每首歌的大小只有3-4MB。使用MP3播放器对MP3文件进行实时的解压缩(解码)，这样，高品质的MP3音乐就播放出来了。6．WMA格式WMA的全称是WindowsMediaAudio，是微软在互联网音频领域力推的一种音频格式。WMA格式是以减少数据流量但保持音质的方法来达到更高的压缩率目的，其压缩率一般可以达到1:18，生成的文件大小只有相应MP3文件的一半。这对只装配32M的机型来说是相当重要的，支持了WMA和RA格式，意味着32M的空间在无形中扩大了2倍。此外，WMA还可以通过DRM（DigitalRightsManagement）方案加入防止拷贝，或者加入限制播放时间和播放次数，甚至是播放机器的限制，可有力地防止盗版。7.MP4格式MP4与MP3之间其实并没有必然的联系，MP3是一种音频压缩的国际技术标准，而MP4是一个商标的名称，它采用的音频压缩技术与MP3也不同。MP4采用的是美国电话电报公司所研发的，以“知觉编码”为关键技术的a2b音乐压缩技术，压缩比成功的提高到15:1，最大可达到20:1而不影响音乐的实际听感，同时mp4在加密和授权方面也做了特别设计，它有如下特点。4.2.4数字语音的压缩编码语音信号的带宽有300~3400Hz，这是一种特殊的波形声音，它是人们交换信息的主要媒体。因此对数字语音进行专门的压缩编码处理，既十分必要也完全可能。１.常用的三类压缩编码（１）波形压缩编码数字语音可以采用像全频带声音那样的基于感觉模型的压缩方法（称为波形编码）（２）参数编码数字语音的另一类压缩编码方法称为参数编码或模型编码，它使用一种所谓“声源—滤波器”模型来模拟人的发声过程，从原始的语音波形信号中使用线性预测方法提取语音生成的参数，把这些参数作为该语音压缩编码的结果，因此码率很低，但声音质量较差，一般应用于保密通信。（３）混合编码这类语音压缩编码方法是上述两种方法的结合，称为混合编码。２.三类音频编码标准（1）电话语音压缩标准电话质量语音信号频率规定在300Hz-3.4kHz范围内，采用标准的脉冲编码调制PCM，主要有CCITT的G.711(64kb/s)、G.721(32kb/s)、G.728(16kb/s)等建议，用于数字电话通信。（2）调幅广播（50Hz-7kHz)语音压缩标准主要采用CCITT的G.722(64kb/s)建议，用于优质语音、音乐、音频会议和视频会议等。（3）调频广播（20Hz-15kHz)及CD音质(20Hz-20kHz)的宽带音频压缩标准３.最新的音频编码MPEG-1声音压缩编码是国际上第一个高保真声音数据压缩的国际标准，它分为三个层次：层1(Layerl)的编码较简单，主要用于数字盒式录音磁带；层2(Layer2)的算法复杂度中等，其应用包括数字音频广播（DAB）和VCD等；层3(Layer3）的编码最复杂，主要应用于因特网上的高质量声音的传输。最近几年流行起来的所谓“MP3音乐”就是一种采用MPEG-1层3编码的高质量数字音乐，它能以10倍左右的压缩比降低高保真数字声音的存储量，使一张普通CD光盘上可以存储大约100首MP3歌曲。MPEG-2的声音压缩编码采用与MPEG—1声音相同的编译码器，层1、层2和层3的结构也相同，但它能支持5.1声道(声卡其实有六个声道输出，其中有一个是超低音声道)和7.1声道（支持四个环绕声道，两个主声道，一个中置声道和一个低音声道的音频输出）的环绕立体声。4.3声音波形的编辑在制作多媒体文档时，人们越来越多地需要自己录制和编辑数字声音。目前使用的声音编辑软件有多种，它们能够方便直观地对波形声音（wav文件）进行各种编辑处理。1.基本编辑操作2.声音的效果处理3.格式转换功能4.其他功能