超低速率的语音编码M.J.Ovens,K.M.PontingandM.E.Turner摘要在很多情况下,短波无线设备用于长距离或者大范围的通信。在强调短波信道的条件下,现有的低比特率语音编码算法可支持把数据速率降低到要求以下。本文介绍的是在DERAMalvern研究开发一个运用自动语音识别(ASR)和合成技术来实现把语音编码数据率低于300bps的实时语音编码系统。一个持续的语音识别器是用来转录进来的以字为单位声音片断的讲话。韵律信息(音调和音长)结合在语音片断识别码里以形成适合传输的持续的数据流。在接收端一个并行结构的语音识别器利用特定的人的语音建立讲话者的模型来识别语音。1引言本文介绍的是在DERAMalvernand20120SpeechLtd研究开发一个运用自动语音识别(ASR)和合成技术来实现把语音编码数据率低于300bps的实时语音编码系统。论文结构如下:第二部分描述研究如此低数据率的动机;第三和第四部分分别概述在300和75bps超低比特率编码器的结构;第五部分描述该体系是基于隐藏的Markov模型;第六部分分析迄今所达到的效果。2为什么要对语音进行超低速率编码?什么是语音编码?在很多情况下,短波无线广播设备用于长距离或者大范围的通信。应用范围从遥远的两个城市之间的点对点联系到地对高速的喷气式飞机之间的军事通信。在许多情况下,首选的通信方式是通过语音的,这就要求语音编码算法能够使语音在有效带宽内通信。短波数据通信目前这一代短波数据调制解调器的运作的数据传输速率高达2400bps(4800bps无差错保护编码)。最近技术的发展,使得通信的数据传输速率最高可达9600bps,随着研究工作的深入,现在已经可扩展到和超过16kbps。这些高数据传输率的调制解调器用于提高短波通信管理(AHFCM)系统是可行的。对于数字语音系统,考虑ARQ协议和长交换技术引入的时间延迟是不可接受的,因此在用高数据率调制解调时只会考虑用最多原始信道。在另一端的数据传输率的频谱,技术进步已使调制解调器变得相当的强劲。这些调制解调器可用在低数据传输率(75bps),但在拥挤的短波条件下提供高可用性信道。它大致可显示调制解调器性能(即鲁棒性),是直接关系到数据传输速率,增加了在数据速率从而减少在鲁棒性渠道的条件。在大多数情况下,增加了鲁棒性将导致增加通信的可用性。因此,这是不可取的,以减少数据传输速率的要求,一数字语音系统,以增加系统可用性,如果可以这样做,同时保留可懂度。2.3传统的语音编码器其中一种压缩语音信号的方法是利用已知性能的讲话,只传送信息本质内容信号。例如,如果只关心讲话的内容,那么就没有必要对个人特定的发音信号进行编码。传统的基于模型的语音编码器利用线性预测编码的或相似的分析来从语音信号中识别声音部分把音调和音长分离出来。这两部分的信号是独立编码的,这更为有效。利用不同编码方法成功的开发出一种广泛的基于LPC的语音编码方案。数据传输率低至600-800bps的方法已经提出来,但目前基于LPC的语音编码器是运作在2400bps或更高的速率。3300bps的编码合成识别图一所描述的是超低比特率编码系统的数字部分,输入语音是用音调估测和连续语音识别分析以获得连续语音序列的描述(音节),包括相应的音调和音长长短等信息。这些参数将在通信通道中被传输出去,并用于接收端的语音合成。图1300bps音频编码器的流程图3.1音节在许多语音自动识别(ASR)系统中,语音被识别成一连串的音素,音素是特定语言中声音的实现对比的最小单元。比如,/p/和/t/是英文音素,因为它们在成对的单词钢笔pen十ten中相反,当一个谈话者读出这些单词的自然声音就是音素[p]和[t]。为了从一系列可识别的音素中重新合成可理解的语音,之前的叙述已经表明,一个音素80%~85%的准确识别是必须的。然而,本文描述的系统像语音片音节串一样描述话,音节是适合描述音素产生事件的声音的微小单元。本文描述的系统使用音节而不是音素去识别和重新合成语音,那是因为这两种发音中更容易实现编码,例如使用更小的单元的可变的吸气模式。举例说,单词ten的首音素/t/可以作为一系列三音节的原型,相当于闭气、释放再吸气的步骤。实际上44个音素中的28个仅仅被组成一个音节,而其它则由语音的长短分为两个或者三个音节,如表1所示。声音类型音节数发音分类浊音2Beedengon清音3Peatenkey塞擦音2Chinjudge双元音2Hayhightoyhoehowheretheremoor表格1音韵要求多余一个音节3.2信号处理语音波形采用8KHz采样,512点的窗口的快速傅氏转换(FFT),有472点采样重叠用于给出的200帧8KHz数据每秒,这些都直接为音调提取所用。语音识别每隔一定丢失的帧后,会产生一个速率为100Hz的帧。基于对数的语音提取由每5ms语音估值和语音可信值的形成发展而来,这些信息将被编码区缓存。3.3语音识别用采样率下降到100Hz的FFT表示的语音识别,由变帧率的分析进一步决定。变帧率分析的输出被转换成20个线性频率余弦系数(lfccs),这些参数集中了语音练习和识别的的能量、变帧率数目和特征向量的特性等信息。这一阶段噪声跟踪算法也开始实现了。语音识别器是AURIX语音有限公司连续语音识别的20/20的标准版本。它使用了定向搜索与部分追踪技术,支持编码系统最小延时得到的尽可能快的识别结果的连续操作和实时报道。追踪进程反映的是跟音节序列一样的时间信息,支持音节被观测。对于超低比特率的编码,系统被配置成前后三音节的模型以用于语音语境对声音变化的强烈影响。为防止概念表达进行中推导过程中的干扰,已经强制添加了一些限制。所用的模型都是对训练要求的简单性的说话依赖和任务依赖,进一步说,现在的识别是间接字,就是说所识别的音节序列是局限于符合已知词汇(500单词)词时序。同样很可能字时序又局限于匹配某个语法模型识别的任务。而这些局限有系统成功操作中没有一个是固定需要的。3.4传输对于每个已经识别的音节,5ms语音估测的平均值是通过所有那些语音可信度高于某个门限值的帧来计算得到的。适当的选择这些门限值是为了防止使用无声时的寄生语音音调。任何没有经过语音简单估计的音节需要从前面的音节中重新估测。语音抽取器和识别器的输出被编码成一个十八位数的音节。每位数有三个部分,每六位中的一位反映所识别音节的类型和时间长短,这些都综合在一个音节中。现在,不管音素有没有被传送,音节都是有声的,即使音素没有在无声音节合成中用到。请注意,发声的程度来自合成模型而不是输入信号。译码过程就不用细说了,把那十八位数据音节值、音长和音素。3.5合成本合成系统是基于如图二所示的联合语音研究单元和并行共振语音合成器的。它通过模拟激励源声道的滤波效应进行工作。如何选择恰当的激励信号,取决于声音中声带振动和摩擦的数量。这种激励信号要先经过一组并行的能模拟最先三个共振峰和低频和高频频带的效果滤波器,这些滤波器的每个输出接着合成一起得出一个最终输出信号。只要给定合适的参数,这个系统就能产生极高质量的语音。图2平行共振合成器音节编码系统的初始工具来自每个音节的控制参数,而这些参数又来自由一个说话者辛苦所得的典型参数表“说话者表”。目前系统的一个主要优点是基于遵守这些参数的马尔可夫隐藏模型的自动训练机理的应用,如第五段所述。该模型使用了三阶的马尔可夫模型,每一阶均值向量的参数都根据需要被简单复制很多次(与音长相对应的阶)来确保合成的音长与传输的音长相匹配。表面上这种简单的线性复制会很原始的出现,纠正这种用时差异的一种方法是调查研究。共振轨道上出现平滑滤波的结果,但重新合成的信号中没有出现可察觉的差异,很可能因为如图二所示的最终参数波形合成系统的平滑作用。4比特率的进一步降低在音节编码框架中,仍有很多进一步减少比特速率的可能。还没有研究过的一个主要领域是利用熵编码以及数据代表什么的知识的更成熟的策略的应用。例如:·随着时间的推移音调以及音长可以被增量编码;·无声音节中的音调信息是多余的,因此可以省略;·随时间推移的音高可以被相应的小数位分层和描述。当前,爆破音部分,如[t],被编码成三个音节段,因为一个甚至多个爆破音在某些说话者的语境中可能会被省略掉。这给更匹配特定语音的实现上留有余地。然而,仅爆破音就足够传输到接收端,那些音节用于从前后声音中识别出来的并且音节的音长关系可以从模型得出的地方。这点对比特率的最高值是很重要的,因为三部分都是很短的。通过从合成模型导出音长的估算值而不是传输音长信息来更进一步减少数据速率也是可行的,同理音调信息也可以由模型或已经用过的单调音调导出而不是传输音调估值。综合这些方法,一个75bps的语音传输系统正在酝酿中。5制备模型无论是识别还是合成,原始数据的培训过程代表当前任务的15分钟语音。在标签语水准和字典的数据将用于转换音相到重估时序的音节。5.1特征向量特性识别模型包含FFT的20个线性频率余弦系数,集合了能量和VFR的帧数量。合成模型的特征是共振分析器的输出,包括:固定的低频带宽功率;前三个共振峰的中心频率和振幅;固定高频带宽功率和声带振动次数。75bps的模型有十分之一的元素包含在代表音调的向量中。5.2重新估算无论是识别不是合成,每个马尔可夫隐藏模型都有三个发射状态,除此没有别的捷径。这些单音节模型的案例都被三十个Baum-Welch迭代算法训练。然后这些模型将用于生成前后相关的单一Baum-Welch迭代算法的三音节的规律。特殊状态方差一直都被使用,除非当三段识别模型重估时,那些主要方差被用于减轻数据少带来的问题。6性能6.1数据速率因为编码器使用音长可变的音节,传输要求的数据速率也是可变的。通过一组十个空载探测任务报告产生262bps的平均数据速率。在一定条件下,这是几乎没有可能发生的条件,理论上最大的比特率为600bps。这种数据速率只有在说话者又快又清晰时才能达到,因此每个音节占有可能的最小时间为30ms。通常语音的音长都是极易变化的,但它们还比这个时间要长得多。一个辅音音素的典型音长为60ms左右(爆破音和塞擦音的音节会比这个短是因为各个单音有多于一个音节的存在),但它可能短至20ms或者长达200ms。对元音音节的音长估算将更为困难,但200ms音长的元音并不常见。报告中6个斜线表示四二折线(脉冲A);图中相关的目标重复积分即积分增量1088(脉冲B);视觉时间为2112(脉冲C);新的逻辑范畴(误差D-可认作“23“)一个音调码没有明显变化(停顿E)一些没有卸载的被隐藏(误差F-可认作”否定码“)防卫(停段G)。图3数据速率为测试提供的空载探测任务报告图3显示一些在传输空载探测任务的样本中的数据传输速率变化相对迅速。数据传输率是通过一个窗口计算并且每100ms更新一次。平均数据率超过整份报告是255.3bps。文本发音的是空载任务的报告102–识别输出包含两项误差和7个重要的停顿作为显示评论楷体字。对比图3中文字识别与数据传输速率,这是明确表示暂停对应局部极小和该识别错误对应的局部极大值。在这种情况下,识别字节顺序错误部分包含了若干连续阶层的最低可能的周期。最近开发出在20/20语音中不仅应提高识别的准确率,但也要通过丢弃减少高峰期的比特率。6.2清晰度合声的清晰度依赖于辨识度的精确性,但是一般给定了一个不错的噪声比率。高级别的噪声可能会使辨识能力下降,结果会导致修改重新合成的语音的清晰度。6.3噪声补偿除了作为标准执行的AURIX噪声追踪算法外,通过结合使用一种合适的噪声补偿技术可以减轻高级别的噪声影响。6.4质量目前还没有完成针对该系统的评价。然而,非正式的听众测试暗示,特定的讲话者的特性得到了保留,并且再合成的声音比基于使用2400vbps的LPC系统更加自然。7结论根据合理的非正式的听力测试结果,低于300bps的可理解的语音传输已经得到证实。由于正常的技术拓展,75bps的传送技术已经得到发展。参考文献1.J.S.Bridle,M.D.Brown,andR.M.C