语音编码陈虎声音概述声音是携带信息的重要媒体音乐和解说使静态图像更加丰富多彩、音乐和视频的同步使视频图像更具真实性传统计算机与人交互是通过键盘和显示器,人们通过键盘或鼠标输入,通过视觉接收信息。多媒体计算机为计算机增加音频通道,采用人们最熟悉、最习惯的方式与计算机交换信息为计算机装上“耳朵”(麦克风),让计算机听懂、理解人们的讲话--语音识别为计算机安上嘴巴和乐器(扬声器),让计算机能够讲话和奏乐--语音和音乐合成声音概述声音是听觉器官对声波的感知,而声波是通过空气或其他媒体传播的连续振动声音的强弱体现在声波压力的大小上,音调的高低体现在声音的频率上声音用电表示时,声音信号在时间和幅度上都是连续的模拟信号,如图3-1所示声波具有普通波所具有的特性,例如反射、折射和衍射等声音概述人的听觉器官能感知的声音频率大约是20~20kHz,在这种频率范围里感知的声音幅度大约在0~120dB语音信号(speech):人说话的信号频率通常为300~3400Hz亚音信号(subsonic):小于20Hz的信号超声波信号(ultrasonic):高于20KHz的信号声音概述在组合声音信号的一系列分量信号音波中,最低频的音波称为基音,其余音波称为泛音声音的三要素:音调、音色、音强音调(音高):取决于基频的高低。直观感受:“唱不上去了”,“跑调了”音色:是由混入基音的泛音所决定的,如果中高泛音丰富音色就明亮,反之音色就暗淡。不同的乐器、不同人的语音音色不同音强(响度):取决于声音的幅度(分贝)声音的数字化模拟音频:时间和幅度上都是连续的模拟磁性录音技术,受电磁性能影响较大数字音频:时间和幅度上都是离散的计算机、数字CD、数字磁带(DAT)A/D转换模拟音频数字音频声音的数字化采样(sampling):时间上的离散化量化(quantization):幅度上的离散化声音的数字化采样定理(Nyquisttheory)奈奎斯特理论指出:采样频率不应低于声音信号最高频率的两倍,这样就能把以数字表达的声音还原成原来的声音人类听觉的频率范围大约为:20~20kHz,为保证不失真,采样频率应在40kHz左右常用的采样频率有:8kHz,11.025kHz,22.05kHz,16kHz,37.8kHz,44.1kHz,48kHzfs=2fmax声音的数字化采样精度:度量声音波形幅度的精确程度,用每个声音样本的位数(即bps)表示,例如每个声音样本用16位表示,测得的声音样本值是在[0~65535]范围里的数,它的精度是1/65536•例如每个声音样本用16位表示,测得的声音样本值是在[0~65535]范围里的数,它的精度是1/65536•精度是在模拟信号数字化过程中度量模拟信号的最小单位,因此也称量化阶(quantizationstepsize)•0~1V的电压用256个数表示,量化阶等于1/256V声音的数字化样本位数的大小影响到声音的质量,位数越多,声音质量越高,所需存储空间也越多;位数越少,声音质量就越低,所需存储空间也越少电压范围量化编码0.5~0.730110.3~0.520100.1~0.31001-0.1~0.10000-0.3~-0.1-1111-0.5~-0.3-2110-0.7~-0.5-3101-0.9~-0.7-41008位:256个量化级(0~255)16位:65536个量化级16位量化级足以表示从人耳刚刚听得见的极细微的声音到感觉难以忍受的巨大噪声这样大的声音范围声音的数字化采样精度的另一种表示方法是信号噪声比,简称为信噪比其中,Vsignal表示信号电压,Vnoise表示量化噪声电压(模拟信号的采样值和与它最接近的数字数值之间的差值),SNR的单位为分贝(db)声音编码声音信号经过数字化以后将产生大量的数据。为了降低存储和传输成本,有必要对数字音频数据进行压缩编码如:CD音频数据(未经压缩):数据率:44.1×1000×16×2=1.41Mbit/s1小时CD音频的数据量约为635M音频编码的可能性声音信号中包含大量的冗余信息声音编码从信息保持角度讲,只有当信源本身具有冗余度(redundancy),才能对其进行压缩时、频域信息的冗余如幅度的非均匀分布、样本间的相关等等人的听觉感知机理语音最终是给人听的,要避免做“即使记录了,人耳也听不见”的无用功声音编码编码算法的评价声音的清晰度和自然度难以度量,评价十分困难具有重要意义评价的主要依据音频质量数据率计算复杂度音频编码目标低码率、短延时、高质量声音编码音频质量评价方法分为两类:客观测量法:信噪比(SNR)主观测量法:主观平均判分法(meanopinionscore,MOS),一般采用5分制分数质量级别失真级别5优无察觉4良(刚)察觉但不讨厌3中(察觉)有点讨厌2差讨厌但不反感1劣极讨厌(令人反感)语音的形成原理肺中的空气受到挤压形成气流,气流通过声门(声带)沿着声道(由咽、喉、口腔等组成)释放出去,就形成了话音。气流、声门可以等效为一个激励源,声道可以等效为一个时变滤波器(共振峰)。话音信号具有很强的相关性(长期相关、短期相关)。语音的分类浊音(voicedsounds):声道打开,声带在先打开后关闭,气流经过使声带要发生张驰振动,变为准周期振动气流。浊音的激励源被等效为准周期的脉冲信号。清音(unvoicedsounds):声带不振动,而在某处保持收缩,气流在声道里收缩后高速通过产生湍流,再经过主声道(咽、口腔)的调整最终形成清音。清音的激励源被等效为一种白噪声信号。爆破音(plosivesounds):声道关闭之后产生压缩空气然后突然打开声道所发出的声音。语音技术的研究热点话音压缩编码(SpeechCoding)话音识别(SpeechRecognition)文本话音转换(TextToSpeech)语音编译码器A/D话音编码信道编码信道信道译码话音译码D/A衡量语音编码器的参数数据输出速率延迟时间话音质量价格(实现代价)语音质量等级划分广播质量:带宽为7000Hz的高质量话音长途电话质量:带宽为3400Hz,信噪比为30db,有失真通信质量:完全可以听懂,但和长途电话质量相比有明显的失真。合成质量:80%-90%的可懂度,听起来象机器讲话,失去了讲话者的特征语音编码器的分类语音编码的分类基于数据的统计特性进行编码•波形编码:目标是使重建语音波形保持原波形的形状,如PCM、DPCM、APCM、ADPCM等算法。•特点:音质好、但数据率较大基于声学参数进行参数编码•音源编码:目标是使重建音频保持原音频特性,如LPC•特点:数据率低、质量差、保密性好(军事)混合编码•将波形编码和音源编码很好的结合起来,如CELPC•特点:在较低的码率上得到较高的音质语音编码器的对比三种编译码器的话音质量和数据率的关系语音信号的冗余度幅度非均匀分布样本之间的相关性周期之间的相关性基音之间的相关性静止系数(话音间隙)长期相关性(longtermcorrelation)PCMPCM是pulsecodemodulation的缩写概念上最简单、理论上最完善、最早研制成功、使用最为广泛、数据量最大的编码系统PCM图中输入是模拟信号,输出是PCM样本。防失真滤波器:低通滤波器,用来滤除声音频带以外的信号波形编码器:可理解为采样器量化器:可理解为“量化阶大小(step-size)”生成器或者称为“量化间隔”生成器PCM实际上是模拟信号数字化模拟声音数字化的两个步骤:第一步是采样,就是每隔一段时间间隔读一次声音的幅度第二步是量化,就是把采样得到的声音信号幅度转换成数字值PCM时分多路复用PCM编码早期主要用于话音通信中的多路复用时分多路复用是在同一条通信线路上使用不同时段“同时”传送多个独立信号的通信方法时分多路复用的核心思想是将时间分成等间隔的时段,为每对用户指定一个时间间隔,每个间隔传输信号的一部分•例如,话音信号的采样频率f=8000Hz/s,它的采样周期=125s,这个时间称为1帧(frame)。在这个时间里可容纳的话路数有两种规格24路制•30路制PCM时分多路复用24路制的重要参数如下:每秒钟传送8000帧,每帧125μs12帧组成1复帧(用于同步)。每帧由24个时间片(信道)和1位同步位组成每个信道每次传送8位代码,1帧有24×8+1=193位(位)数据传输率R=8000×193=1544kb/s每一个话路的数据传输率=8000×8=64kb/sPCM时分多路复用30路制的重要参数如下:每秒钟传送8000帧,每帧125s16帧组成1复帧(用于同步)每帧由32个时间片(信道)组成每个信道每次传送8位代码数据传输率:R=8000×32×8=2048kb/s每一个话路的数据传输率=8000×8=64kb/s线路利用率使用时分多路复用技术时,由于当信道无数据传输时仍给那个信道分配时间槽,因此线路利用率较低为解决这个问题,开发了统计时分多路复用技术(statisticaltimedivisionmultiplexing,STDM)。STDM是按照每个传输信道的传输需要来分配时间间隔的时分多路复用技术,可提高传输线路的效率PCM时分多路复用数字通信线路的数据传输率为反映PCM信号复用的复杂程度,通常用“群(group)”这个术语来表示,也称为数字网络的等级传输容量由一次群(基群)的30路(或24路),增加到二次群的120路(或96路),三次群的480路(或384路),……下图表示二次复用的示意图。图中的N表示话路数,无论N=30还是N=24,每个信道的数据率都是64kb/s,经过一次复用后的数据率就变成2048kb/s(N=30)或1544kb/s(N=24)•在数字通信中在北美,具有1544kb/s数据率的线路叫做“T1远距离数字通信线路”,提供这种数据率的服务级别称为T1等级•在欧洲,具有2048kb/s数据率的线路叫做“E1远距离数字通信线路”,提供这种数据率的服务级别称为E1等级T1/E1,T2/E2,T3/E3,T4/E4和T5/E5的数据传输率PCM时分多路复用PCM时分多路复用T1/E1,T2/E2,T3/E3,T4/E4和T5/E5的数据传输率增量调制△调制(deltamodulation,DM),是一种预测编码技术对实际的采样信号与预测的采样信号之差的极性进行编码。如果实际的采样信号与预测的采样信号之差的极性为“正”,则用“1”表示;相反则用“0”表示,或者相反由于DM编码只须用1位对话音信号进行编码,所以DM编码系统又称为“1位系统”比较:PCM是对每个采样信号的整个幅度进行量化编码增量调制自适应增量调制根据输入信号斜率的变化自动调整量化阶Δ的大小,以使斜率过载和粒状噪声都减到最小。在检测到斜率过载时开始增大量化阶Δ,而在输入信号的斜率减小时降低量化阶Δ•例如,宋(Song)在1971描述的ADM技术中提出:每当输出不变时量化阶增大50%;每当输出值改变时,量化阶减小50%•又如,由格林弗基斯(Greefkes)在1970年提出的连续可变斜率增量调制(CVSD)的基本方法是:如果连续可变斜率增量调制器的输出连续出现三个相同值时,量化阶加一个大的增量,反之,就加一个小的增量。自适应增量调制Motorola公司于20世界80年代初期开发了实现CVSD算法的集成电路芯片,如MC3417/MC3517用于一般的数字通信,MC3418/MC3518用于数字电话。MC3417/MC3418用于民用,MC3517/MC3518用于军用APCM中文术语为自适应脉冲编码调制,adaptivepulsecodemodulation的缩写根据输入信号幅度大小来改变量化阶大小的一种波形编码技术自适应–瞬时自适应,即量化阶的大小每隔几个样本就改变–音节自适应,即