HMM在语音识别中的应用

klmy2008
1 ℃
2020-06-16

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

在语音识别中的应用报告人：林常志HMM语音识别声学信息论语音语言学信号处理人工智能模式识别数理统计听写机查询系统电话拨号残疾人用品消费电子……实际应用学科基础语音识别技术基础与应用信息获取预处理特征提取分类器设计分类决策训练过程模式识别系统的基本构成analysisPatterntrainingTemplatesormodelsPatternclassifierDecisionlogicspeechRecognizedspeechLPCCMFCCTestpatternReferencepatternSearchalgorithm语音识别系统的基本构成1.语者无关/相关2.词表大小3.孤立词vs.连续语音4.环境噪声等语音识别的几个关键因素1.DynamicTimeWarping(DTW)2.HiddenMarkovModelling(HMM)3.Multi-layerPerceptron(MLP)常用模式匹配方法AndreiA.MarkovRussianstatistician1856–1922马尔可夫链理论s1s2s3N=3t=0q0=s3有N个状态，S1,S2…SN一阶离散马尔可夫模型下一个时刻所处的状态是随机出现的在每个时刻t，系统只能处于唯一一个状态qt存在一个离散的时间序列t=0,t=1……当前状态]|[,...],|[121iqjqPkqiqjqPttttt当前状态qt只与前面相邻的一个状态qt-1有关，与其他状态无关s1s2s3一阶离散马尔可夫模型11/21/21/32/3s1s2s3一阶离散马尔可夫模型11/21/21/32/3NjiiqjqPattij,1,]|[1aij---转移概率并且满足如下的标准随机约束条件:下雨多云晴天0.30.20.60.40.20.10.30.10.8下雨---状态1多云---状态2晴天---状态3一阶离散马尔可夫模型问题：连续8天的天气状况为“晴天-晴天-晴天-下雨-下雨-晴天-多云-晴天”的概率是多少？4223321311312333210*536.1)2.0)(1.0)(3.0)(4.0)(1.0()8.0)(0.1()(]2|3[]3|2[]1|3[]1|1[]3|1[]3|3[]3[]|]3,2,3,1,1,3,3,3[)|(aaaaaaPPPPPPPModelPModelOP一阶离散马尔可夫模型晴天晴天晴天下雨下雨晴天多云晴天0.80.80.10.40.30.10.2晴天晴天一阶离散马尔可夫链晴天下雨下雨tt+1晴天-晴天-晴天-下雨-下雨-晴天-多云-晴天晴天多云晴天t-1马尔可夫链信号统计理论模型起源于60年代后期Baum和他的同事首先提出Baker(CMU)和Jelinek(IBM)在70年代早期实现在语音处理上的应用隐马尔可夫链（HMM）理论123a12a21a22a11a23a32a13a31a33每个硬币代表一个状态;每个状态有两个观测值:正面H和反面T;每个状态产生H的概率为P(H);每个状态产生T的概率为1-P(H))...()...(21THHHTHHToooOT隐马尔可夫链—三个硬币隐马尔可夫模型对比两个模型可见：马尔可夫模型的观测序列本身就是状态序列；隐马尔可夫模型的观测序列不是状态序列；隐马尔可夫链—三个硬币隐马尔可夫模型状态总数N；每个状态对应的观测事件数M；状态转移矩阵每个状态下取所有观测事件的概率分布起始状态}{ijaA)}({kbBji隐马尔可夫模型的参数问题一：给定模型参数和观测序列，如何快速求出在该模型下，观测事件序列发生的概率？——估计问题问题二：给定模型参数和观测序列，如何找出一个最佳状态序列？——解码问题问题三：如何得到模型中的五个参数？——学习问题),,,,(BAMN)...(21ToooO)|(OP隐马尔可夫模型的三个基本问题估计问题:前向算法和后向算法解码问题:Viterbi算法学习问题：Baum-Welch算法如何解决三个基本问题估计问题—前向算法)|,...()(21iqoooPittt定义前向变量：表示模型下，在时刻t，观测事件为Ot，状态为i的概率。s1s2sNsj时刻tt+1a1ja2jaNj)(it)(1tjob)(])([)(111tjijNittobij)|,...()(11211jqoooPjttt估计问题—前向算法NjTtobijtjijNitt1;11),(])([)(111)1)(()(11Niobiii)()(1iOPNiT递归求解：1.初始：2.递归：3.中止：StateT123123N2(1)2(2)2(3)2(N)3(1)3(2)3(3)3(N)1(1)1(2)1(N)1(3)T(N)T(3)T(2)T(1)估计问题—后向算法定义后向变量：),|...()(21iqoooPitTttt表示从终止时刻T到时刻t+1的观测事件序列是，并且时刻t的状态是i的概率)...(21Tttooos1s2sNsi时刻tt+1ai1ai2aiN)(1tjobNjttjijtjobai111)()()()(it)(1jt估计问题—后向算法递归求解：1.初始：2.递归：)1(,1)(NiiTNiTTtjobaiNjttjijt1111;1,...,2,1),()()(解码问题—Viterbi算法]|...,,...[max)(21121...,121tttqqqtoooiqqqqPit找一个状态序列，这个状态序列在t时状态为i，并且状态i与前面t-1个状态构成的状态序列的概率值最大s1s2sNsj时刻tt+1a1ja2jaNj)(1tjob)(it)(1jt)(].)(max[)(11tjijtitobaij三硬币隐马尔可夫模型状态1状态2状态30.50.750.250.50.250.75P(H)P(T)观测序列O=(HHHHTHTT)设初始状态概率和状态转移概率都是1/3，忽略这些概率s1s2s3s1s2s3s1s2s3s1s2s3s1s2s3s1s2s3s1s2s3s1s2s30.50.75)(itt0.250.75*0.50.7520.75*0.250.752*0.50.7530.752*0.250.753*0.50.7540.753*0.250.754*0.50.754*0.250.7550.755*0.50.7560.755*0.250.756*0.50.756*0.250.7570.757*0.50.757*0.250.758三硬币隐马尔可夫模型状态1状态2状态30.50.750.250.50.250.75P(H)P(T)观测序列O=(HHHHTHTT)设初始状态概率和状态转移概率都是1/3，忽略这些概率s1s2s3s1s2s3s1s2s3s1s2s3s1s2s3s1s2s3s1s2s3s1s2s30.50.75)(itt0.250.75*0.50.7520.75*0.250.752*0.50.7530.752*0.250.753*0.50.7540.753*0.250.754*0.50.754*0.250.7550.755*0.50.7560.755*0.250.756*0.50.756*0.250.7570.757*0.50.757*0.250.758学习问题—Baum-Welch算法),(jit表示t时状态为i以及t+1时状态为j的概率),|,(),(1OjqiqPjitttNiNjttjijtttjijtttjijttttjobaijobaiOPjobaiOPOjqiqPji111111111)()()()()()()|()()()()|()|,,(),(Njttjii1),()(表示t时状态为i的概率学习问题—Baum-Welch算法)(1~ii1111~)(),(TttTttijijiaTttTvottjjjkbkt11~)()()(表示时刻1经过状态i次数；表示在时刻T内，状态i转移到状态j的总次数，除以在时刻T内，状态i被经过的总次数；表示在时刻T内，经过状态j，并且状态j对应的观测事件为vk的总数除以时刻T内，经过状态j的总数。1.前向后向算法计算P(O|λ)；2.Baum-Welch算法求出最优解λ*=argmax{P(O|λ)}；3.Viterbi算法解出最佳状态转移序列；4.根据最佳状态序列对应的λ给出候选音节或声韵母5.通过语言模型形成词和句子经典HMM语音识别一般过程Baum-WelchRe-estimationSpeechdatabaseFeatureExtractionConverged?127HMMwaveformfeatureYesNoend经典HMM语音识别训练过程SelectmaximumRecognizedwordSpeechFeatureextractionLikelihoodcomputation1LikelihoodcomputationV...P(X|1)P(X|V)HMM1HMMV经典HMM语音识别识别过程1.语音信号预处理与特征提取2.声学模型与模式匹配3.语言模型与语言处理HMM语音识别系统的实现语音信号预处理与特征提取振动在空气中形成压力波动传感器的动作时变的电压信号语音信号预处理与特征提取语音信号预处理与特征提取语音信号预处理与特征提取特征选取：1)幅度(或功率)2)过零率3)LPC预测系数特征矢量4)LPC倒谱特征矢量（LPCC）5)Mel倒谱参数（MFCC）6)前三个共振峰F1、F2、F3以梅尔刻度式倒频谱参数（MFCC）为例：语音信号预加重分帧加窗快速傅立叶变换三角带通滤波器逆傅立叶变换特征参数计算短时能量语音信号预处理与特征提取模型基元声韵母：声母22个，韵母38个音节：412个音节，1282个有调音节词模型的结构选取各态历经从左至右1s2s3s声学模型与模式匹配参数初始化：起始状态概率(π)状态转移概率(A)观测序列概率(B)根据观测序列概率表示方法的不同：离散的HMM（DHMM）连续的HMM（CHMM）半连续的HMM（SCHMM）声学模型与模式匹配DHMM：离散的符号作为观测量bj(x)bj(k)bj(x)CHMM：观测量为连续概率密度函数每个状态有不同的一组概率密度函数SCHMM：观测量为连续概率密度函数所有状态共享一组概率密度函数声学模型与模式匹配采用统计语法的语言模型基本原理：采用大量的文本资料，统计各个词的出现概率及相互关联的条件概率，并将这些知识与声学模型结合进行结果判决，减小误识。设W=w1,w2,…,wQ,其概率表示为：P(W)=P(w1,w2,…,wQ)=P(w1)P(w2|w1)……P(WQ|W1,W2,…WQ-1)UnigramBigramTrigram语言模型与语言处理anwhatthinhasawhatthinkhadwatchthinawhenseeare组合t(frame)13040100140注：只有一个候选HasanwhatthinHasawatchthinHas为首词有2种选择：trigramHasawatchthinP(hasawatchthin)=p(hasawatch)*p(awatchthin)IstheMaxprobability!谢谢!