摘要随着数字移动通信的高速发展,尤其是第三代移动通信的发展,使得当今的信道环境变得极其复杂。如何在日趋恶劣的通信环境中保持良好的通话质量,增加通信系统容量,使人们能更加有效地产生、传输、存储和获取语言信息,这对于促进社会发展具有十分重大的意义。语音编码技术可以有效地压缩语音信号的传输带宽,增加通信系统的容量,给解决这一问题提供了一个有效的途径。本文首先简单介绍了语音编码技术的数学基础、基本概念和发展现状,并简单地分析了数字移动通信的特点,总结了适合数字移动通信的语音编码技术的特点。结合目前大家使用的中国移动(GSM)和中国联通(CDMA)数字移动通信系统,对其使用的RPE-LTP和QCELP编码技术做了详细的讨论。并对正处于产业化发展阶段的3G三大主流技术拟采用的编码技术做了简单的介绍。关键词:数字移动通信,语音编码,变速率编码,3GABSTRACTWiththerapiddevelopmentofthedigitalmobilecommunication,especiallythedevelopmentofthe3G,thechannelbecomeextremecomplex.Howtokeepagoodqualityofcallinthemoreandmoreworsencommunicationconditionandimprovethecapacityofthesystem,itisveryimportantforthedevelopmentofthesociety.whichmakepeopletoproducetransfer,storeandcapturetheinformationmoreefficient.Thetechnologyofspeechcodingoffersawaytomeetthischallenge.Itcanefficientlycompressthetransmissionbandwidthofspeechsignals,toimprovethecapacityofthesystem.Firstthistextintroducedthemathematicsfoundation,basicconceptandthedevelopmentconditionsofspeechcodinginbrief,andanalyzedthecharacteristicsofthedigitalmobilecommunication.Atthefoundationthistextputforwardthecharcateristicsofspeechcodingthatfitforthedigitalmobilecommunicationsystem.BondwithCHINAMOBILE(GSM)andCHINAUNICOM(CDMA)wearecurrentlyusing,anddiscusstheRPE-LTPandQCELPspeechcoderstheyusedindetail.Atlastthistextsimpleintroducedthespeechcodersofthreeessentialtechniquesin3G.KEYWORDS:DigitalMobileCommunication,SpeechCoding,VariableRateSpeechCoding,3G前言现代社会已步入信息时代,世界各国都在致力于现代通信技术的开发以及现代综合通信网的建设。数字移动通信是现代通信技术中不可缺少的部分。在移动通信中传输最多的信息是语音信号,因而语音编码的技术在数字移动通信中具有相当关键的作用。自八十年代末开始,我国的移动通信事业发展极为迅速,经历了第一代的模拟移动通信和第二代数字移动通信,到现在使用的二代半移动通信,还有即将投入使用的第三代数字移动通信。目前介绍移动通信原理的文章、书籍很多,但都很少涉及信源编码这个方面。总结数字移动通信系统中使用的各种语音编码技术,全面,系统地分析它们的原理,技术及应用,不仅能够更好地了解当前的移动通信系统原理,还对促进通信和信号处理事业的发展,具有重要意义。本论文以具体所使用的数字移动通信系统为依据,以编码器和译码器为单元,主要以原理框图的形式,对所使用的各种语音编码技术的原理进行讨论。在讨论过程中,以各个语音编码标准的公布时间先后为线索,以编码技术的不同特点为切入点进行详细的讨论。本论文可分为三个单元,第一单元包括一、二章,主要对语音编码技术作一个简要的描述,在此基础上简单分析了移动通信的特点,总结了适合数字移动通信的语音编码技术的特点。第二单元为三、四章,结合目前大家使用的中国移动(GSM)和中国联通(CDMA)数字移动通信系统,对其使用的RPE-LTP和QCELP编码技术做了详细的讨论。最后一个单元对正处于产业化发展阶段的3G三大主流技术拟采用的编码技术做了简单的介绍。第一章语音编码概述在现代通信中,信息的传输都是以数字信号的形式进行的,因而在通信的发送端必须将模拟信号转换为数字信号,在接收端再将数字信号还原成模拟信号。随着科学技术的迅速发展,图像、数据等非话音信息在通信信息总量中所占的比例大大提高,而且这种提高的趋势仍然会继续下去。但是,到目前为止,在大多数通信系统中,传输最多的信息仍然是语音信号。在可以预见的未来的通信中,尽管语音信号在通信信息总量中所占的比例会有所下降,但仍然会是传输最多的信息。因而语音编码技术在数字移动通信中具有相当关键的作用。语音编码为信源编码,它将模拟信号变成数字信号以便在信道中传播。这是数字移动通信网中的至关重要的一步。语音编码技术本身已发展多年,随着科学技术的迅速发展尤其是随着计算机技术、微电子技术、信号处理技术以及编码理论的发展和进步,语音编码技术取得许多突破性进展,研究出许多实用的编码技术,这些技术在不断研究、改进和应用中日趋成熟,形成了各种实用的语音编码技术,在各类通信网中得到了广泛的应用。1.1语音信号的特性要对语音信号进行压缩,就要了解语音信号的一些特性,根据这些对设计编码有用的特性,提出合适的编码技术。其中最常用的包括语音幅度的非均匀概率分布、连续语音抽样信号之间的非零相关性、语音频谱的非平坦特性、语音中的清音和浊音成分的存在、语音信号的类周期性。最基本的特性是语音信号是带限的。一个有限的带宽意味着它可以以一定的速率抽样,当抽样频率大于或等于2倍的信号最高频率成分fm时,就可以从抽样值中完全恢复原来的信号。语音信号的带限特性使信号的模数转换成为可能,同时前面提及的各种特性使量化操作(另一个在语音编码中很重要的处理)能以很高的效率实现。1.1.1概率分布密度函数(PDF)语音幅度的非均匀概率分布密度函数是另一个重要的语音信号特性。语音信号的PDF的一般特性是:在近零幅度处高概率分布,在幅度很高处低概率分布。在这两个极端之间单调递减。但是确切的分布依赖于输入带宽和录音条件。式(1-1)的双边指数函数,是电话质量语音信号的长时概率分布密度函数()px很好的近似表达式。1()exp(2/)2xxpxx(1-1)注意到这个函数表明在零值时有一个最大值,这是由于语音经常性的暂停以及低频语音成分的存在。语音成分的短时PDF也是单峰函数,通常近似地认为是高斯分布。为了保持输入信号的PDF与量化电平分布相匹配,采用非均匀量化(包括矢量量化)方法,在高概率分布的地方安排更多的量化电平,而在概率低的地方安排较少的电平。1.1.2自相关函数(ACF)自相关函数是另一个语音信号中非常有用的特性,即在语音相连的抽样值之间存在很大的相关性。这就表明了,对每一个语音抽样,有很大的成分可以从以前的抽样值中预测,而且仅有很小的随机误差。所有的差分编码及预测编码的技术都是以研究该特性为基础的。自相关函数(ACF)是信号抽样值之间的作为抽样时间间隔函数相似性的定量测试。该函数的表达式如式(1-2)所示:101()()()NknCkxnxnkN(1-2)其中()Xk表示第k个语音抽样。自相关函数按照语音信号的方差归一化,这样,它的值在{-1,1}范围内,且(0)1C。典型的信号存在一个连续抽样值的相关性,(1)C为0.85到0.9之间。1.1.3功率谱密度函数(PSD)语音功率谱密度的非平坦特性,能够用来在频域内明显低压缩语音编码。PSD非平坦特性基本上是非零自相关特性在频域中的典型表现。典型语音的长期平均PSD表明高频部分对整个语音能量作用很小。这说明在不同的频域上分别编码,可以产生明显的编码增益。虽然高频部分对能量作用不显著,但它也携带了语音信息,这样也需要在编码中充分表现出来。利用频谱平坦检测(SFM)研究语音频谱的非均匀特性方法,可以得到理论上最大的编码增益的定量分析。SFM被定义为PSD在频域轴上均匀间隔抽样点的算术平均与几何平均的比值。数学表达式为如式(1-3)所示:211211NKKNNKKSNSFMS(1-3)其中KS是语音信号PSD在频域轴上第k个抽样值。语音信号的长期SFM的典型值为8,而短期值在2-500之间。1.1.4语音中的清音和浊音根据发音的机制不同,语言的声音可分为浊音和清音两大类。浊音有称为有声音,英语中的元音和汉语中的韵母都是浊音。当气流通过声门时,如果声带振动并产生一个准周期的空气脉冲,这一空气脉冲激励声道,就得到浊音。声带振动的频率称为基音频率bf,周期为基音周期pT,基音频率bf一般在70~300Hz的范围之内,相当于pT为3~15ms。基音周期pT时语音信号的主要特征之一。清音又称无声音,英语中的大多数辅音和汉语拼音中的大多数声母都是清音。如果声道在某处发生收缩,同时迫使空气以高速冲过这以收缩部分而产生湍流,就得到清音。发清音时声带不振动,此时是由湍流建立的宽带噪音源激励着声道。清音波形类似于噪音。1.2语音编码的基本概念语音编码技术通常分为三类:波形编码、参数编码和混合编码,其中波形编码和参数编码是两类基本类型。1.2.1波形编码波形编码是将时间域信号直接变换成数字代码,其目的是尽可能精确地再现原来的话音波形。波形编码的基本原理是在时间轴上对模拟信号按奈奎斯特定律所确定的速率进行抽样,然后将幅度样本分层量化,并用二进制代码表示。在量化过程中,充分利用语音信号幅度的非均匀概率分布、连续语音抽样信号之间的非零相关性、语音频谱的非平坦等特性,提高了量化效率,改善了量化性能。解码是其反过程,将收到的数字序列经过解码和滤波恢复成模拟信号。对于比特速率较高的编码信号(例如从16kbit/s到64kbit/s),波形编码技术能够提供相当好的话音质量。但对于低速率语音编码信号(即是比特率低于16kbit/s),波形编码的话音质量显著下降。脉冲编码调制(PCM)和增量调制(M)以及它们的各种改进型都属于波形编码技术。1.2.2参数编码参数编码,又称为声源编码或声码器,有时又称为分析—综合编码,它是将信源信号在频率域或其他正交变换域提取特征参数,并将其变换成二进制数字代码进行传输。这些参数主要包括基音周期、共振峰频率、语音强度、浊音\清音判决。解码实为反过程,将接收到的数字信号经变换恢复特征参数,根据这些特征参数重建语音信号。具体来说,参数编码是以发音机制的模型作为基础,用一套模拟声带频谱特性的滤波器系数和若干声源参数来描述这个模型。在发送端从模拟信号中提取各个特征参数并进行量化编码。在接收端,根据接收到的数字信号经变换恢复的滤波器系数和声源参数重建语音信号。参数编码通过对语音信号特征参数的提取和编码,力求使重建语音信号具有尽可能高的可懂度,即保持原语音信号的语意,但重建语音信号的波形与原语音信号波形却相差甚远。这种编码技术可实现低速率语音编码,比特速率可低至2.4kbit/s以下,但语音质量中等,自然度较低,即使是熟人一般也听不出讲话人是谁。线性预测编码(LPC)及其各种改进型都属于参数编码。基于上述两种编码技术,可对现有的语音编码器作如图1