第2章音频处理技术(二)西安交通大学计算机教学实验中心2007多媒体技术及应用基础雷达物位计|82页问题的提出数字音频信息如何处理?用什么工具可以处理?有哪些处理?我能处理吗?……下一页上一页第3|82页二、数字音频数字音频原理回顾…………下一页上一页第4|82页声音的数字化声音的数字化数字化就是将连续信号变成离散信号。对音频信号,首先在时间上离散,取有限个时间点,称为采样。然后在幅度上离散,取有限个幅度值,称为量化。再将得到的数据表示成计算机容易识别的格式,称为编码。下一页上一页第5|82页声音的A/D与D/A转换模拟信号很容易受到电子干扰,因此用数字信息代替声音信号成为音频信息处理的一种方法。A/D转换和D/A转换技术便应运而生。A表示Analog”(类比、模拟),D代表“Digital”(数字),A/D转换就是把模拟电信号转换成由“0”和“1”组成数字信号的过程。这样做的好处是显而易见的,声音存储质量得到了加强,数字化的声音信息使计算机能够进行识别、处理和压缩,这也就是为什么如今磁带逐渐被淘汰,CD唱片却趋于流行的原因。A/D转换的一个关键步骤是声音的采样和量化,得到数字音频信号,它在时间上是不连续的离散信号。下一页上一页第6|82页PCM编码1939年法国工程师AlecReeves发明了将连续的模拟信号变换成时间和幅度都离散的二进制码代表的脉冲编码调制信号(PulseCodeModulation-PCM),并申请了专利。PCM首先开始应用于电话系统,但一直到1962年美国Bell实验室才为AT&T制成了国际上第一套商用PCM电话系统(T1系统),这标志了通信开始步入数字化。PCM编码是对连续语音信号进行空间采样、幅度值量化及用适当码字将其编码的总称。下一页上一页第7|82页PCM编码主要优点抗干扰能力强;失真小;传输特性稳定,尤其是远距离信号再生中继时噪声不累积,而且可以采用压缩编码、纠错编码和保密编码等来提高系统的有效性、可靠性和保密性。下一页上一页第8|82页8位可编程A/D转换芯片A/D和D/A转换示意图8位可编程A/D转换芯片示意图下一页上一页第9|82页模拟声音信号的采样和量化过程示意模拟声音信号的波形采样得到的离散时间信号再量化得到的数字信号下一页上一页第10|82页数字音频的技术指标采样频率采样精度声道数音频数据传输率编码算法与音频数据压缩比下一页上一页第11|82页采样频率采样频率是指一秒钟采样的次数。采样频率越高,单位时间内采集的样本数越多,得到波形越接近于原始波形,音质就越好。根据奈奎斯特(HarryNyquist)采样理论:如果采样频率高于输入信号最高频率的两倍,重放时就能从采样信号序列无失真地重构原始信号。下一页上一页第12|82页采样的3个常用频率分别为:11.025kHz——AM(调幅)广播22.05kHz——FM(调频)广播44.1kHz——CD高保真音质声音现在声卡的采样频率一般为48kHz甚至96kHz。下一页上一页第13|82页采样精度采样精度用每个声音样本的位数表示,也叫样本精度或量化位数,反映度量声音波形幅度的精度。例如,每个声音样本用16位表示,则量化样本值在0~65535之间,它的精度是输入信号的1/65536。采样精度决定了模拟信号数字化以后的动态范围。采样精度影响到声音的质量位数越多,声音的质量越高,而需要的存储空间也越多;位数越少,声音的质量越低,需要的存储空间越少。下一页上一页第14|82页声道数单声道(mono)信号一次产生一组声波数据。双声道或立体声(stereo)一次产生两组声波数据。双声道在硬件中占两条线路,一条是左声道,一条是右声道。立体声不仅音质、音色好,而且能产生逼真的空间感。但立体声数字化后所占空间比单声道多一倍。下一页上一页第15|82页其他因素除采样频率、采样精度、声道数影响声音质量外,声音录制时环境噪声、声卡内部噪声以及采样数据丢失等都会造成声音质量的下降。实际收听时,音响(功率放大器、扬声器等)的质量对音质的表现也起很大作用。下一页上一页第16|82页音频数据传输率音频信号数字化后,产生大量数据。产生数据的速度或播放声音时需要传输数据的速度影响声音的播放质量。数据传输率用每秒钟传输的数据位数表示,记为bps(bitpersecond)。未经压缩的数字音频数据传输率为:数据传输率(bit/s)=采样频率(Hz)×量化位数(bit)×声道数下一页上一页第17|82页声音质量和数字化指标质量采样频率(kHz)样本精度(bit)单道声/立体声数据率(kB/s)(未压缩)频率范围电话*88单道声8200~3400HzAM11.0258单道声11.050~7000HzFM22.05016立体声88.220~15000HzCD44.116立体声176.420~20000HzDAT4816立体声192.020~20000Hz下一页上一页第18|82页编码算法与音频数据压缩比未压缩的音频数据量非常大,因此在编码的时候常采用压缩的方式。实际上,编码的作用一是记录数字数据,二是采用一定的算法来压缩数据以减少存储空间和提高传输效率。压缩编码的基本指标之一就是压缩比,一般为数据压缩前后的数据量之比:下一页上一页第19|82页数据压缩说明采用不同的数字化指标实际上也是进行了不同比例的数据压缩。如果PCM编码采用4bit量化对CD音质信号压缩,其压缩比为4:1。压缩算法包括有损压缩和无损压缩;有损压缩解压后数据不能完全复原,要丢失一部分信息。无损压缩不丢失任何信息,能较好地复原原始信号。下一页上一页第20|82页数字音频文件格式数字声音文件格式是数字音频在磁盘文件中的存放形式,相同的数据可以有不同的文件格式,而不同的数据也可以有相同的文件格式。WAVE格式MP3格式RA格式下一页上一页第21|82页WAVE文件格式WAVE文件是一种通用的音频数据文件,文件扩展名为“.WAV”,Windows系统和一般的音频卡都支持这种格式文件的生成、编辑和播放。CD激光唱盘中包含的就是WAVE格式的波形数据。一般说来,声音质量与其WAVE格式的文件大小成正比。WAVE文件的特点是易于生成和编辑,但在保证一定音质的前提下压缩比不够,不适合在网络上播放。下一页上一页第22|82页MP3文件MP3文件是采用MP3算法压缩生成的数字音频数据文件,以“.MP3”为文件后缀。MP3利用MPEG制定的MPEG-1Audiolayer3的压缩标准,将音频信息用10:1甚至12:1压缩率变成容量较小的数据文件。虽然MP3是一种利用了人类心理声学特性的有损压缩,人耳基本不能分辨出失真,音质几乎达到了CD音质标准。按照这种算法,10张CD-DA的内容可以压缩到l张CD-ROM中,而且视听效果相当好。下一页上一页第23|82页RA文件RealAudio是Realnetworks推出的一种音乐压缩格式,它的压缩比可达到96:1,因此在网上比较流行。经过压缩的音乐文件可以在通过速率为14.4kb/s的MODEM上网的计算机中流畅回放。其最大特点是可以采用流媒体的方式实现网上实时播放,即边下载边播放。下一页上一页第24|82页五、多媒体数据的编码技术自然现象:我们了解的东西,描述它用的信息量少,不了解的东西,描述它用的信息量大。在信息论中,可以说:信息是用不确定的度量来定义的;一个消息的可能性越小,其信息含量越大;消息的可能性越大,则信息含量越小。下一页上一页第25|82页(1)信息和熵香农(C.E.Shannon)信息论应用概率来描述不确定性。事件出现的概率小,不确定性越多,信息量就大,反之则少。在数学上,所传输的消息是其出现概率的单调下降函数。所谓信息是指从N个相等可能事件中选出一个事件,所需要的信息度量或含量,也就是在辨识N个事件中某个特定事件过程中所需提问“是”或“否”的最少次数。如从64个数中选定某一个数,提问:“是否大于32?”,则不论回答是与否,都消去了半数的可能事件,如此下去,只要问6次这类问题,就可以从64个数中选定一个数。因此,可以用二进制的6个位来记录这一过程,就可以得到这条信息。下一页上一页第26|82页信息源x的熵下一页上一页第27|82页例2-10下一页上一页第28|82页例2-11下一页上一页第29|82页香侬理论的要点信源中含有自然冗余度,这些冗余度既来自于信源本身的相关性,又来自于信源概率分布的不均匀性,只要找到去除相关性或改变概率分布不均匀性的手段和方法,也就找到了信息熵编码的方法。但信源所含有的平均信息量(熵)是进行无失真编码的理论的极限,只要不低于此极限,就能找到某种适宜的编码方法,去逼近信息熵,实现数据压缩。下一页上一页第30|82页(2)信息冗余多媒体数据中大的数据量并不完全等于它们所携带的信息量。在信息论中,称为冗余。冗余是指信息存在的各种性质的多余度。减少数据冗余可以节省存储空间,有效利用网络带宽。下一页上一页第31|82页数据冗余的类型⑴空间冗余物理特性具有相关性。⑵时间冗余相邻帧图像之间有较大的相关性。⑶信息熵冗余自然编码的比特分配不能达到最佳。⑷视觉冗余人眼不能察觉图像中的所有变化。⑹知识冗余数据的理解与先验知识有很大的关系。例如,当接收到一个成语的前三个字“大惊小”时,就知道下一个字肯定是“怪”。⑸听觉冗余人耳不能察觉所有频率的变化。下一页上一页第32|82页数据压缩的基本原理数据压缩的对象是数据。数据是信息的载体,用来记录和传送信息。真正有用的不是数据本身,而是数据所携带的信息。大的数据量并不代表含有大的信息量。而对于去掉冗余的数据对信息没有本质的影响称为压缩。下一页上一页第33|82页(3)压缩算法的分类从信息量有无损失划分:可逆编码和不可逆编码。可逆编码也叫无失真编码、冗余度压缩、熵编码等。其原理是减少数据中的冗余度,而不损失任何信息。解压时可以完全恢复出原来的数据,亦称无损压缩。典型的无损压缩有Huffman编码、算术编码和行程编码等。可逆编码由于不会产生失真,因此在多媒体技术中常用于文本、数据的压缩,它能保证完全地恢复原始数据。但这种方法的压缩比较低,一般在2:1~5:1之间。下一页上一页第34|82页不可逆编码不可逆编码是有失真压缩,信息论中叫熵压缩。由于压缩了熵,会减少信息而不能再恢复。因此这种压缩又称有损压缩。在语音和图像中,由于存在视觉冗余和听觉冗余,减少这种信息并不影响人们的听觉效果和视觉效果,所以经常采用这种方法,有损压缩常用于数字化存储的模拟数据,并且主要应用于图像、声音、动态视频等数据的压缩。如果用混合编码的JPEG标准,对自然景物的彩色图像,压缩比可达到几十倍甚至上百倍。下一页上一页第35|82页压缩算法分类根据压缩原理划分有预测编码、变换编码、矢量编码、子带编码、熵编码等。下一页上一页第36|82页1)预测编码对于语音,就是通过预测去除语音信号时间上的相关性。而对于图像,帧内预测去除了空间上的冗余,帧间预测则可以去除时间上冗余。目前大多数语音、图像编码中都采用了预测技术。例如语音中的LPC(linearPredictiveCoding,线性预测)、CELP(码激励线性预测)、图像中的ADPCM(自适应差分脉冲编码调制)等。下一页上一页第37|82页2)变换编码变换编码首先把要压缩的数据变换到某个变换域中,然后再进行编码。变换域中表现为能量集中在某些区域,就可以利用这一特点在不同区域间有效地分配量化比特数,或者去掉这些能量很小的区域,从而达到数据压缩的目的。例如声音中的频谱分析实际上是对语音波形进行了快速傅里叶变换(FFT),将时域信号变到了频域中,可以清楚地看到能量集中在哪些频率范围内。下一页上一页第38|82页3)矢量量化矢量量化是利用相邻数据间的相关性,将数据序列分组进行量化的一种压缩