基于B_W算法训练连续语音的关键技术

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

基于B_W算法训练连续语音的关键技术李军1,刘晓明,李龙(大庆石油学院计算机与信息技术学院,黑龙江大庆,163318)摘要:B_W算法是基于隐含马尔科夫模型所采用的技术。探讨了B_W算法的连续语音建模的关键技术,计算溢出及差异样本训练问题。提出了解决方法。对计算溢出可采用对数变换的方法扩展计算机所能表示的数值范围给予解决;差异样本训练可在训练中消除特定样本句子单元信息给予解决。关键词:语音识别;B_W算法;计算溢出;模型参数中图分类号:TN912.34文献标识码:A文章编号:0引言语音建模是开发语音识别系统的一项基本而又重要的技术。建模通常可分为两大类,一是基于规则的语音建模,由于具有局限性,其应用并不普遍;二是基于统计的语音建模,这是根据大量的语音训练样本确定统计参数的建模方法,只要有较多具有代表性的样本,并且模型足够精细,统计建模通常能获得较好的结果。目前最常用的是基于隐含马尔可夫模型(HMM)的统计建模方法。又可细分为三类:离散HMM(DHMM)、连续HMM(CHMM)和半连续HMM(SCHMM)。本文中从提高语音建模精度的角度,以SCHMM[1]为例探讨建立语音模型的几个关键技术。1语音建模方法及问题基于HMM的语音建模过程可以采用B_W算法[2]实现,但使用该算法建立语音模型应注意:⑴计算溢出问题。采用B_W算法计算前后项系数时,状态转移概率是介于0和1的数,而概率密度输出函数通常都小于1,如果初始模型和训练语音存在较大的偏差,概率密度输出函数结果甚至远远小于1。因此经过多次递推的结果将导致前后项系数变得非常小,以至超出了计算机表示数值范围的下限,将本来非零的数值表示为机器零,从而造成计算的下溢,导致归一化结果出现错误[3]。⑵训练样本差异问题。在连续语音训练中,要评估的语音单位参数是嵌在长短各异、内容千差万别的句子中,而B_W算法是从总体上评估语音帧序列对各状态的影响,因此对于不同的训练样本,计算出来的同一语音单位参数必然存在差异[4]。如果不采取适当的措施解决此问题,就无法训练出准确的语音模型参数。针对这两个问题提出了解决方案。2计算溢出问题以基于SCHMM训练码本高斯均值为例,介绍如何在B_W算法中解决计算溢出问题,为讨论简单起见,只使用单模型和单样本进行训练。设模型有L个状态S1-SL,训练样本帧数为N,记为n21y,...,y,yY,码本数为J,输入语音的状态序列为X,la为第l个状态的初始状态概率,Auv为u状态向v状态的转移概率,)(ypl为l状态的概率密度函数,jl为l状态第j个高斯函数的权重。根据HMM参数的定义,计算高斯均值jM的B_W算法可采用如下步骤:⑴为模型参数评估出一定的初值,这些初值可能是粗糙的。⑵利用前后项算法求前项系数)(ln和后项系数)(ln,递推公式为收稿日期:2004-12-18;审稿人:李从信;编辑:陆雅玲作者简介:李军(1969-),男,硕士,讲师,主要从事语音技术及其应用方面的研究,}][{)(111Jjljljlpaly.~2,)(}][{)(111NnupAlnLuJjljljulnny(1),1)(lN.1~1,)(}][{)(111NnvpAlnJjvjvjLvlvnny⑶计算第n帧在l状态对j码本产生的概率密度nljP,公式为.1,)(][],,/[11nlpaBAaPljljlnljyY.~2,)()(][],,/[11NnlipABAaPnnLiljljilnljnyY(2)⑷计算第j个码本高斯函数的均值jM,公式为.],,/[}],,/[{1111LlNnnljLlNnnljjBAaPBAaPMYyYn(3)⑸以新的均值(及其它新参数)为初值反复执行⑵~⑸步,直到模型收敛。公式⑴的前项系数和后项系数可能溢出,使得nljP为0,导致在第⑷步归一化时失败。为解决此问题,可采用对数变换策略。对数域和实数域相比,对数值的表示范围大大增加,在实数域溢出的数值,在对数域可确保不会发生溢出。因此在利用B_W计算SCHMM参数时,可以把公式⑴~⑶转换为在对数域完成,这样就不会出现溢出的问题。实数域和对数域间的变换公式为,log11PPb.loglog2121PPPPbb,loglog2121PPPPbb.)1(loglog21loglog121PPbbbbbPPP(4)值得注意的是最后一个加法公式,其计算是相当耗时的。为减少计算代价,可以在一个表中预先存储)1(logxbb所有可能的值,通过查表求出对数加的结果。3训练样本差异的问题采用B_W算法进行连续语音训练,除要解决溢出问题外,还需解决由训练样本差异而导致的问题。通过分析高斯均值的计算过程,给出句子单元信息的定义,并研究句子单元信息对模型参数的影响及解决办法。计算高斯均值,主要是求],,/[BAaYPnlj,结合实际物理意义进一步推导它的求解。首先计算第n帧通过状态l的所有路径的输出权值,可采用如下公式:.}][]{[],,/[,11,lntsxNtJjjsxljnlpPBAaPXtyXY(5)式(5)为对于模型BAa,,,第n帧ny通过状态lS的概率密度,由于这一概率密度是用J个高斯分布线性叠加而成的,为求ny对每一高斯分布的影响,应限定:.}][{][][],,/[,,1,lntsxntNJqqsxlqjljnljppPBAaPXtnyyXY(6)式(6)从第n帧经过l状态的总概率中除去了n帧在l状态的概率的影响,又加入了n帧在l状态j高斯的影响。继续对该式做变换,得到.][][],,/[],,/[],,/[][][],,/[][][}][]{[],,/[111,11,JqlqlqljljLnlnlLnlJqlqlqljljnlJqlqlqljljlxNtJqqsxlqnljppBAaPBAaPBAaPppBAaPpppPBAaPntnnnnnnXtyyYYYyyYyyyXY(7)由(7)式可看到,第n帧在l状态j高斯产生的概率密度分为3个部分:第1部分是模型对训练样本帧ny的整体输出概率密度,第2部分是ny处于ls状态的概率,第3部分是所求高斯函数占整个状态概率密度输出的概率。将第1部分定义为帧ny在j高斯的句子单元信息。依此类推,可以得到帧ny在l状态的句子单元信息及样本Y的句子单元信息。样本Y的句子单元信息实际上就是模型对样本Y产生的概率密度。表1是采用不同训练样本得到的“师”字模型参数。例如:短句“老师”和长句“上海的工人师傅克服困难”中“师”的发音相近,但由于长句的句子单元信息远远小于短句的句子单元信息,两句中极相似的语音帧却计算出了相差很远的权值。使得B_W算法无法得到正确的语音单位参数。为有效地解决这个问题,一是采取选择性训练,就是把语音单位序列相同的句子放在一起训练,这种方法在使用中有一定的局限性。另一种方法是不要句子单元信息,也就是从语音单位参数中除去特定样本的句子单元信息,消除句子单元信息的影响。特定样本的句子单元信息可通过前后项系数直接求得,较简单的公式形式为.)(],,/[1lBAaPLlNY(8)此方法可在计算完前后项系数后进行。只要把所有前项或后项系数除以句子单元信息,即可消除句子单元信息的影响。4结论在B_W算法中解决计算溢出和差异样本训练的有效方法是:(1)计算溢出可通过采用基于对数变换的方法扩展计算机表示数值的范围加以解决。(2)差异样本训练可通过在训练中消除特定样本句子单元信息而得到有效地解决。参考文献[1]HuangXD,JackMA..Semi-continuoushiddenMarkovmodelsforspeechsignals[J].ComputerSpeechandLanguage,1989,3(2):239-251.[2]杨行峻,迟惠生.语音信号数字处理[M].北京:电子工业出版社,1995.129-160.[3]贾宾.语音识别的声学建模及其应用研究[D].北京:清华大学计算机系,2000.93-103.[4]王东.上下文相关的连续语音识别系统的研究与构造[D].北京:清华大学计算机系,2002.7-10.表1:不同训练样本对模型参数的影响语句句子单元信息“师”字模型部分权重权重1权重2权重3老师-1673.4×10-12.9×10-17.3×10-2北京师范大学-3426.8×10-193.4×10-2243.5×10-14上海的工人师傅克服困难-8272.6×10-605.2×10-23.1×10-82TheCriticalTechnologyofContinuousSpeechTrainingBasedonB_WLiJun,LiuXiaoMing,LiLong(CollegeofComputerandInformationTechnology,DaqingPetroleumInstitute,Daqing,heilongjiang163318)【Abstract】Baum-WelchalgorithmisatechnologybasedonHMM.ThispaperdiscusstheprimarytechnologythattrainscontinuousspeechModelsbasedonBaum-Welchalgorithm.calculationoverflowanddifferentsampletraining;andprovidescompletedandflexibleresolution.logarithmtransformthatexpanddatarangeincomputerisappliedtosolvethequestionofcalculationoverflow,anddifferentsampletrainingisovercomedtoeliminatesentenceunitinformation.【Keywords】Speechrecognition,B_Walgorithm,Calculationoverflow,Modelparameter

1 / 4
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功