上一页下一页返回首页第一章多媒体技术基础4.1音频编码基础4.2音频信号处理的方法4.3音频编码标准4.4声卡的组成和工作原理4.5语音合成技术及应用4.6语音识别技术及应用上一页下一页返回首页4.1音频编码基础声音根据其内容可分为波形声音、语音和音乐。波形声音实际上是数字化了的声音,实际上它包括了所有的声音形式。计算机处理的声音信号都是经过离散化了的信号,因此通常又称为音频信号。4.1音频编码基础上一页下一页返回首页1、声音是一种连续的波时间和幅度上的连续性由于人的耳朵能够判别出声波达到左右耳的相对时差、声音强度,声音能够判别出声音的来源。同时由于声音的来回反射,而造成声音的空间效果。例如我们在剧场中听到的声音和在公园中听到的声音效果是不一样的。4.1.1声音信号的特点上一页下一页返回首页2.声音的分类不规则音频一般指不包含任何信息的噪声。4.1.1声音信号的特点上一页下一页返回首页2.声音的分类规则音频是一种连续变化的模拟信号,可用一条连续的曲线来表示,称为声波。因声波是在时间和幅度上都连续变化的量,我们称之为模拟量。用声音录制软件记录的英文单词“Hello”的语音实际波形4.1.1声音信号的特点上一页下一页返回首页规则音频通常又分为语音、音乐和音效。语音是指具有语言内涵和人类约定俗成的特殊媒体。音乐是规范的、符号化了的声音。音效是特指人类熟悉的其它声音,如动物和机器产生的声音、自然界的风电的声音等。4.1.1声音信号的特点上一页下一页返回首页3.声音的三要素1)音调:代表了声音的高低。音调与频率有关,频率越高,音调越高,反之亦然。读者也许有这样的经验,当提高磁带录音机的转速时,其旋转加快,声音信号的频率提高,其喇叭放出来声音的音调提高了。同样,在使用音频处理软件对声音的频率进行调整时,也可明显感到音调随之而产生的变化。各种不同的声源具有自己特定的音调,如果改变了某种声源的音调,则声音会发生质的转变,使人们无法辨别声源本来的面目。上一页下一页返回首页2)音色:即特色的声音。声音分纯音和复音两种类型。所谓纯音,是指振幅和周期均为常数的声音;复音则是具有不同频率和不同振幅的混合声音。大自然中的声音绝大部分是复音。在复音中,最低频率的声音是“基音”,它是声音的基调。其他频率的声音称为“谐音”,也叫泛音。基音和谐音是构成声音音色的重要因素。各种声源都具有自己独特的音色,例如各种乐器的声音、每个人的声音、各种生物的声音等,人们就是依据音色来辨别声源种类的。上一页下一页返回首页3)音强:声音的强度,也被称为声音的响度,常说的“音量”也是指音强。音强与声波的振幅成正比,振幅越大,强度越大。唱盘、CD激光盘以及其他形式声音载体中的声音强度是一定的,通过播放设备的音量控制,可改变聆听时的响度。上一页下一页返回首页4.1.2音频信号的处理方法•模拟信号与数字信号•数字域内对声音处理的优点-不受时间和环境变化影响-表示部件功能的数学运算容易实现-可以方便实现对数字运算部件的编程•数字化的概念(a)采样(b)量化上一页下一页返回首页4.1.3音频文件的存储格式•1、WAV文件:又称为波形文件,文件的扩展名是“.wav”。是Windows系统上使用最广泛的音频文件格式。通常用于保存无压缩的音频信息,它可以重现各种声音,但产生的文件很大,多用于存储简短的声音片断。WAV符合资源互换文件格式(RIFF),因此该文件里面的每段数据可以有单独的标识,通过这些标识,计算机就知道它真实的数据格式,所以WAV存放的音频压缩格式有许多种。当用Windows里的媒体播放器放一个WAV文件,如果无法播放,这往往是因为此文件使用了其他的压缩编码格式。上一页下一页返回首页4.1.3音频文件的存储格式•2、VOC文件:VOC文件是Creative公司所使用的标准音频文件格式,多用于保存CreativeSoundBlaster(创新声霸)系列声卡所采集的声音数据,被Windows平台和DOS平台所支持。VOC文件也是一种数字声音文件,与波形文件相似,可以方便地互相转换。上一页下一页返回首页4.1.3音频文件的存储格式3、MPEG音频文件——.MP1/.MP2/.MP3:这里的音频文件格式指的是MPEG标准中的音频部分,即MPEG音频层(MPEGAudioLayer)。MPEG音频文件的压缩是一种有损压缩,根据压缩质量和编码复杂程度的不同可分为三层(MPEGAudioLayer1/2/3),分别对应MP1、MP2和MP3这三种声音文件;MPEG音频编码具有很高的压缩率,MP1和MP2的压缩率分别为4∶1和6∶1~8∶1,而MP3的压缩率则高达10∶1~12∶1,也就是说一分钟CD音质的音乐,未经压缩需要10MB存储空间,而经过MP3压缩编码后只有1MB左右,同时其音质基本保持不失真。上一页下一页返回首页4.1.3音频文件的存储格式4、RealAudio文件——.RA/.RM/.RAMRealAudio文件是RealNetworks公司开发的一种新型流式音频(StreamingAudio)文件格式;它包含在RealNetworks所制定的音频、视频压缩规范RealMedia中,主要用于在低速率的广域网上实时传输音频信息;网络连接速率不同,客户端所获得的声音质量也不尽相同:对于28.8kb/s的连接,可以达到广播级的声音质量;如果拥有ISDN或更快的线路连接,则可获得CD音质的声音。上一页下一页返回首页4.1.3音频文件的存储格式5、AIFF文件——.AIF/.AIFFAIFF是音频交换文件格式(AudioInterchangeFileFormat)的英文缩写,是苹果计算机公司开发的一种声音文件格式;被Macintosh平台及其应用程序所支持,其他专业音频软件包也同样支持这种格式。上一页下一页返回首页4.1.3音频文件的存储格式6、非波形文件属于合成声音文件,即通过语音合成器产生相应声音的非波形格式的MIDI(MusicalInstrumentDigitalInterface)文件(.MID)。上一页下一页返回首页•声音按频率分类:次声波可听声波超声波20Hz20kHzf(Hz)人类说话声音频率范围:300Hz-3kHz声音质量的频率范围:1020502003.4k7k15k20kCD-DAFM广播AM广播电话f(Hz)频带4.1.4声音质量的度量上一页下一页返回首页质量采样频率(kHz)样本精度(bit/s)单道声/立体声数据率(kB/s)(未压缩)频率范围电话*88单道声8200~3400HzAM11.0258单道声11.0FM22.05016立体声88.220~15000HzCD44.116立体声176.420~20000HzDAT4816立体声192.020~20000Hz数字音频的质量与采样频率和量化精度有关。数字音频可分以下几个等级声音质量的度量(用带宽度量)声音质量和数据率50~7000Hz上一页下一页返回首页对于音频质量的评价分为客观评定和主观评定。客观评定是通过测量一些特性来评价度量,主要用信噪比(signaltonioseratio,SNR)。广泛使用的是主观评定,以主观意见打分(MeanOpinionScore—MOS)来度量:分数质量级别失真级别5优(Excellent)无察觉4良(Good)(刚)察觉但不讨厌3中(Fair)(察觉)有点讨厌2差(Poor)讨厌但不反感1劣(Bad)极讨厌(令人反感)声音质量的度量另外两种方法(主/客观评价)上一页下一页返回首页4.2音频信号压缩技术音频信号压缩编码的主要依据是人耳的听觉特性,主要有两点:1.人的听觉系统中存在一个听觉阈值电平,低于这个电平的声音信号人耳听不到.2.人的听觉存在屏蔽效应。当几个强弱不同的声音同时存在时,强声使弱声难以听到,并且两者之间的关系与其相对频率的大小有关.声音编码算法就是通过这些特性来去掉更多的冗余数据,来达到压缩数据的目的。上一页下一页返回首页4.2.1脉冲编码调制1.编码的原理它的原理框图下图所示上一页下一页返回首页•模拟信号数字化一般有三个步骤:第一步是采样,就是每隔一段时间间隔读一次声音的幅度;第二步是量化,就是把采样得到的声音信号幅度转换成数字值。但那时并没有涉及如何进行量化。量化有好几种方法,但可归纳成两类:一类称为均匀量化,另一类称为非均匀量化。采用的量化方法不同,量化后的数据量也就不同。因此,可以说量化也是一种压缩数据的方法;第三步是编码,就是按一定格式记录采样和量化后的数据。4.2.1脉冲编码调制上一页下一页返回首页均匀量化•采用相同的“等分尺”来度量采样得到的幅度,也称为线性量化,如图所示。量化后的样本值Y和原始值X的差•E=Y-X称为量化误差或量化噪声。上一页下一页返回首页非均匀量化•对输入信号进行量化时,大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔,如图3-5所示。上一页下一页返回首页一个CD—DA采用脉冲编码调制PCM编码的实例上一页下一页返回首页•首先用一组脉冲采样时钟信号与输入的模拟音频信号相乘,相乘的结果即输入信号在时间轴上的数字化。然后对采样以后的信号幅值进行量化。最简单的量化方法是均衡量化,这个量化的过程由量化器来完成。对经量化器A/D变换后的信号再进行编码,即把量化的信号电平转换成二进制码组,就得到了离散的二进制输出数据序列x(n),n表示量化的时间序列,x(n)的值就是n时刻量化后的幅值,以二进制的形式表示和记录。上一页下一页返回首页4.2.2增量调制它是一种预测编码技术,是PCM编码的一种变形。DM是对实际的采样信号与预测的采样信号之差的极性进行编码,将极性变成“0”和“1”这两种可能的取值之一。如果实际的采样信号与预测的采样信号之差的极性为“正”,则用“1”表示;相反则用“0”表示,或者相反。DM波形示意图上一页下一页返回首页•从上图中可以看到,在开始阶段增量调制器的输出不能保持跟踪输入信号的快速变化,这种现象称为增量调制器的“斜率过载”(slopeoverload)。•在输入信号缓慢变化部分,即输入信号与预测信号的差值接近零的区域,增量调制器的输出出现随机交变的“0”和“1”。这种现象称为增量调制器的粒状噪声(granularnoise),这种噪声是不可能消除的。•在输入信号变化快的区域,斜率过载是关心的焦点,而在输入信号变化慢的区域,关心的焦点是粒状噪声。•上一页下一页返回首页4.2.3自适应脉冲编码调制•是根据输入信号幅度大小来改变量化阶大小的一种波形编码技术。这种自适应可以是瞬时自适应,即量化阶的大小每隔几个样本就改变,也可以是非瞬时自适应,即量化阶的大小在较长时间才发生变化。•改变量化阶大小的方法有两种:一种称为前向自适应,后向自适应。前者是根据未量化的样本值的均方根值来估算输入信号的电平,以此来确定量化阶的大小,并对其电平进行编码作为边信息(sideinformation)传送到接收端。后者是从量化器刚输出的过去样本中来提取量化阶信息。上一页下一页返回首页•(a)前向自适应上一页下一页返回首页(b)后向自适应上一页下一页返回首页4.2.4差分脉冲编码调制•是利用样本与样本之间存在的信息冗余度来进行编码的一种数据压缩技术。差分脉冲编码调制的思想是,根据过去的样本去估算(estimate)下一个样本信号的幅度大小,这个值称为预测值,然后对实际信号值与预测值之差进行量化编码,从而就减少了表示每个样本信号的位数。它与脉冲编码调制(PCM)不同的是,PCM是直接对采样信号进行量化编码,而DPCM是对实际信号值与预测值之差进行量化编码,存储或者传送的是差值而不是幅度绝对值。上一页下一页返回首页•差分脉冲编码调制的概念示于图3-9。图中的差分信号d(k)是离散输入信号s(k)和预测器输出的估算值se(k-1)之差。注意,se(k-1)是对s(k)的预测值,上一页下一页返回首页4.2.5自适应差分脉冲编码调制•综合了APCM的自适应特性和DPCM系统的差分特性,是一种性能比较好的波形编码。它的核心想法是:①利用自适