回顾与补充:音频信号的数字化及压缩技术4.0.1模拟音频的数字化过程数字化的声音易于用计算机软件处理,现在几乎所有的专业化声音录制、编辑器都是数字方式。对模拟音频数字化过程涉及到音频的采样、量化和编码。采样和量化的过程可由A/D转换器实现。A/D转换器以固定的频率去采样,即每个周期测量和量化信号一次。经采样和量化后声音信号经编码后就成为数字音频信号,可以将其以文件形式保存在计算机的存储介质中,这样的文件一般称为数字声波文件。模拟信号的数字化过程100101100011101信息论的奠基者香农(Shannon)指出:在一定条件下,用离散的序列可以完全代表一个连续函数,这是采样定理的基本内容。为实现A/D转换,需要把模拟音频信号波形进行分割,这种方法称为采样(Sampling)。采样的过程是每隔一个时间间隔在模拟声音的波形上取一个幅度值,把时间上的连续信号变成时间上的离散信号。该时间间隔称为采样周期,其倒数为采样频率。采样频率是指计算机每秒钟采集多少个声音样本。1.采样采样频率与声音频率之间有一定的关系,根据奈奎斯特(Nyquist)理论,只有采样频率高于声音信号最高频率的两倍时,才能把数字信号表示的声音还原成为原来的声音。2ffs采样只解决了音频波形信号在时间坐标(即横轴)上把一个波形切成若干个等分的数字化问题,但是还需要用某种数字化的方法来反映某一瞬间声波幅度的电压值大小。该值的大小影响音量的高低。我们把对声波波形幅度的数字化表示称之为“量化”。量化的过程是先将采样后的信号按整个声波的幅度划分成有限个区段的集合,把落入某个区段内的样值归为一类,并赋于相同的量化值。如何分割采样信号的幅度呢?我们还是采取二进制的方式,以8位(bit)或16位(bit)的方式来划分纵轴。也就是说在一个以8位为记录模式的音效中,其纵轴将会被划分为8个量化等级,用以记录其幅度大小。2.量化以下图所示的原始模拟波形为例进行采样和量化。假设采样频率为1000次/秒,即每1/1000秒A/D转换器采样一次,其幅度被划分成0到9共10个量化等级,并将其采样的幅度值取最接近0~9之间的一个数来表示,如下图所示。图中每个正方形表示一次采样。D/A转换器从上图得到的数值中重构原来信号时,得到下图中蓝色(直线段)线段所示的波形。从图中可以看出,蓝色线与原波形(红色线)相比,其波形的细节部分丢失了很多。这意味着重构后的信号波形有较大的失真。失真在采样过程中是不可避免的,如何减少失真呢?可以直观地看出,我们可以把上图中的波形划分成更为细小的区间,即采用更高的采样频率。同时,增加量化精度,以得到更高的量化等级,即可减少失真的程度。在下图(左)中,采样率和量化等级均提高了一倍,分别为2000次/秒和20个量化等级。在下图(右)中,采样率和量化等级再提高了一倍,分别达到4000次/秒和40个量化等级。从图中可以看出,当用D/A转换器重构原来信号时(图中的轮廓线),信号的失真明显减少,信号质量得到了提高。3.编码模拟信号量经过采样和量化以后,形成一系列的离散信号——脉冲数字信号。这种脉冲数字信号可以已一定的方式进行编码,形成计算机内部运行的数据。所谓编码,就是按照一定的格式把经过采样和量化得到的离散数据记录下来,并在有用的数据中加入一些用于纠错、同步和控制的数据。在数据回放时,可以根据所记录的纠错数据判别读出的声音数据是否有错,如在一定范围内有错,可加以纠正。编码的形式比较多,常用的编码方式是PCM——脉冲调制。脉冲编码调制(PCM)是把模拟信号变换为数字信号的一种调制方式,即把连续输入的模拟信号变换为在时域和振幅上都离散的量,然后将其转化为代码形式传输或存储。4.0.2音频信号压缩技术音频信号压缩编码的主要依据是人耳的听觉特性,主要有两点:1.人的听觉系统中存在一个听觉阈值电平,低于这个电平的声音信号人耳听不到.2.人的听觉存在屏蔽效应。当几个强弱不同的声音同时存在时,强声使弱声难以听到,并且两者之间的关系与其相对频率的大小有关.声音编码算法就是通过这些特性来去掉更多的冗余数据,来达到压缩数据的目的。(一)脉冲编码调制1.编码的原理它的原理框图下图所示模拟信号数字化一般有三个步骤:第一步是采样,就是每隔一段时间间隔读一次声音的幅度;第二步是量化,就是把采样得到的声音信号幅度转换成数字值。但那时并没有涉及如何进行量化。量化有好几种方法,但可归纳成两类:一类称为均匀量化,另一类称为非均匀量化。采用的量化方法不同,量化后的数据量也就不同。因此,可以说量化也是一种压缩数据的方法;第三步是编码,就是按一定格式记录采样和量化后的数据。2.均匀量化采用相同的“等分尺”来度量采样得到的幅度,也称为线性量化,如图3-4所示。量化后的样本值Y和原始值X的差E=Y-X称为量化误差或量化噪声。3.非均匀量化对输入信号进行量化时,大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔,如图3-5所示。一个CD—DA采用脉冲编码调制PCM编码的实例首先用一组脉冲采样时钟信号与输入的模拟音频信号相乘,相乘的结果即输入信号在时间轴上的数字化。然后对采样以后的信号幅值进行量化。最简单的量化方法是均衡量化,这个量化的过程由量化器来完成。对经量化器A/D变换后的信号再进行编码,即把量化的信号电平转换成二进制码组,就得到了离散的二进制输出数据序列x(n),n表示量化的时间序列,x(n)的值就是n时刻量化后的幅值,以二进制的形式表示和记录。(二)增量调制(DM调制)它是一种预测编码技术,是PCM编码的一种变形。DM是对实际的采样信号与预测的采样信号之差的极性进行编码,将极性变成“0”和“1”这两种可能的取值之一。如果实际的采样信号与预测的采样信号之差的极性为“正”,则用“1”表示;相反则用“0”表示,或者相反。图3-7DM波形示意图从上图中可以看到,在开始阶段增量调制器的输出不能保持跟踪输入信号的快速变化,这种现象称为增量调制器的“斜率过载”(slopeoverload)。在输入信号缓慢变化部分,即输入信号与预测信号的差值接近零的区域,增量调制器的输出出现随机交变的“0”和“1”。这种现象称为增量调制器的粒状噪声(granularnoise),这种噪声是不可能消除的。在输入信号变化快的区域,斜率过载是关心的焦点,而在输入信号变化慢的区域,关心的焦点是粒状噪声。第4章多媒体硬件基础本章内容数字音频处理接口数字视频处理接口多媒体输入/输出设备多媒体存储技术4.1数字音频处理接口一、声卡的功能与工作原理(P68)1.声卡的功能(数字化声音,合成音乐,CD音频)(1)播放数字音乐(2)录音(3)语音通信(全双工)(4)实时的效果器(5)接口卡(SB1394)(6)音频解码(7)合成器(波表)2.声卡的基本原理(1)结构模/数转换电路数/模转换电路(2)组成MIDI输入/输出电路MIDI合成器芯片模/数转换器压缩芯片语音合成器语音识别电路输出电路3.声卡的类型(1)板卡式(2)集成式(3)外置式声卡二、音乐合成和MIDI接口规范(P70)1.音乐合成与MIDI目前,声卡的音乐合成主要有两种方法:一种是常用的调频(FM)合成法;另一种就是波表(WaveTable)合成法。衡量声卡的音乐合成器性能好坏的参数:(1)音色数目(2)发音数(3)音乐的兼容性2.MIDI术语(见表4.1)3.MIDI接口(1)MIDIIn(输入口)(2)MIDIOut(输出口)(3)MIDIThru(转发口)4.MIDI技术规范MIDI规定合成器、音序器、微机和鼓乐等能通过一个标准的接口连接。二、音乐合成和MIDI接口规范三、语音合成(P73)1.概述计算机话语输出按其实现功能可分为:1)有限词汇的计算机语音输出(报时、报站)2)基于语音合成技术的文字—语音转换(TTS)2.合成方法1)发音器官参数语音合成2)声道模型参数语音合成3)波形编辑语音合成技术PSOLA(基音同步叠加)算法(P74)(1)对原始波形进行分析,产生非参数的中间表示;(2)对中间表示进行修改;(3)将修改过的中间表示重新合成为语音信号。3.语音基元数据库的构建(1)基元的选择①选择音节②选择双音素和三音素(2)语音数据的存储形式①波形存储方式存储②参数存储方式存储4.韵律模拟1)自然语言中的韵律特征2)韵律合成及方法3)韵律模拟的问题4.1.4音频编码标准(一)CCITTG系列声音压缩标准CCITT和ISO先后提出了一系列有关语音数据编译码标准,下面简要介绍几种音频编码技术标准。1.电话质量的音频压缩编码技术标准信号频率规定在300Hz~3.4kHz,采用标准的脉冲编码调制(PCM),当采样频率为8kHz,进行8bit量化时,所得数据速率为64kb/s,即一个数字电话。1972年CCITT为电话质量和语音压缩制定了PCM标准G.711,其速率为64Kb/s,使用非线性量化技术,主要用于公共电话网中。2.调幅广播质量的音频压缩编码技术标准频率在50Hz一7kHz范围。G.722标准是采用16kHz采样,14bit量化,信号数据速率为224kbit/s,采用子带编码方法,将输入音频信号经滤波器分成高子带和低子带两个部分,分别进行ADPCM编码,再混合形成输出码流,224kbit/s可以被压缩成64kbit/s,最后进行数据插入(最高插入速率达16kbit/s),因此利用G.722标准可以在窄带综合服务数据网N-ISDN中的一个B信道上传送调幅广播质量的音频信号。3.高保真度立体声音频压缩编码技术标准高保真立体声音频信号频率范围是50Hz~20kHz,采用44.1kHz采样频率,16bit量化进行数字化转换,其数据速率每声道达705kbit/s。1991年国际标准化组织ISO和CCITT开始联合制定MPEG标准,其中ISOCDlll72-3作为“MPEG音频”标准,成为国际上公认的高保真立体声音频压缩标准。MPEG音频第一和第二层次编码是将输入音频信号进行采样频率为48kHz,44.1kHz,32kHz的采样,经滤波器组将其分为32个子带,同时利用人耳屏蔽效应,根据音频信号的性质计算各频率分量的人耳屏蔽门限,选择各子带的量化参数,获得高的压缩比。MPEG第三层次是在上述处理后再引入辅助子带,非均匀量化和熵编码技术,再进一步提高压缩比。MPEG音频压缩技术的数据速率为每声道32~448kbit/s,适合于CD-DA光盘应用。(二)MP3压缩技术MP3的全名是MPEGAudioLayer-3,简单地说就是一种声音文件的压缩格式。ISO/MPEG音频压缩标准里包括了三个使用高性能音频数据压缩方法的感知编码方案,按照压缩质量(每Bit的声音效果)和编码方案的复杂程度分别是Layer1、Layer2、Layer3。所有这三层的编码采用的基本结构是相同的。它们在采用传统的频谱分析和编码技术的基础上还应用了子带分析和心理声学模型理论。也就是通过研究人耳和大脑听觉神经对音频失真的敏感度,在编码时先分析声音文件的波形,利用滤波器找出噪音电平(NoiseLevel),然后滤去人耳不敏感的信号,通过矩阵量化的方式将余下的数据每一位打散排列,最后编码形成MPEG的文件。而音质听起来与CD相差不大。MPEG的层次与压缩比率Layer1(相当于384kbps立体声信号)4:1Layer2(相当于192~256kbps立体声信号)6:1~8:1Layer3(相当于112~154kbps立体声信号)10:1~12:1(三)MP4压缩技术MP4并不是MPEG-4或者MPEG-1Layer4,它的出现是针对MP3的大众化、无版权的一种保护格式,由美国网络技术公司开发,美国唱片行业联合会倡导公布的一种新的网络下载和音乐播放格式。MP4使用的是MPEG-2AAC技术也就是俗称的a2b或AAC。其中,MPEG-2是MPEG于1994年11月针对数码电视(数码影像)提出的。它的特点就是,音质更加完美而压缩比更加大(1:15)。MPEG-2AAC(ISO/IEC138