隐马尔科夫模型HMM自学(1)介绍崔晓源翻译我们通常都习惯寻找一个事物在一段时间里的变化规律。在很多领域我们都希望找到这个规律,比如计算机中的指令顺序,句子中的词顺序和语音中的词顺序等等。一个最适用的例子就是天气的预测。首先,本文会介绍声称概率模式的系统,用来预测天气的变化然后,我们会分析这样一个系统,我们希望预测的状态是隐藏在表象之后的,并不是我们观察到的现象。比如,我们会根据观察到的植物海藻的表象来预测天气的状态变化。最后,我们会利用已经建立的模型解决一些实际的问题,比如根据一些列海藻的观察记录,分析出这几天的天气状态。GeneratingPatterns有两种生成模式:确定性的和非确定性的。确定性的生成模式:就好比日常生活中的红绿灯,我们知道每个灯的变化规律是固定的。我们可以轻松的根据当前的灯的状态,判断出下一状态。非确定性的生成模式:比如说天气晴、多云、和雨。与红绿灯不同,我们不能确定下一时刻的天气状态,但是我们希望能够生成一个模式来得出天气的变化规律。我们可以简单的假设当前的天气只与以前的天气情况有关,这被称为马尔科夫假设。虽然这是一个大概的估计,会丢失一些信息。但是这个方法非常适于分析。马尔科夫过程就是当前的状态只与前n个状态有关。这被称作n阶马尔科夫模型。最简单的模型就当n=1时的一阶模型。就当前的状态只与前一状态有关。(这里要注意它和确定性生成模式的区别,这里我们得到的是一个概率模型)。下图是所有可能的天气转变情况:对于有M个状态的一阶马尔科夫模型,共有M*M个状态转移。每一个状态转移都有其一定的概率,我们叫做转移概率,所有的转移概率可以用一个矩阵表示。在整个建模的过程中,我们假设这个转移矩阵是不变的。该矩阵的意义是:如果昨天是晴,那么今天是晴的概率为0.5,多云的概率是0.25,雨的概率是0.25。注意每一行和每一列的概率之和为1。另外,在一个系统开始的时候,我们需要知道一个初始概率,称为向量。到现在,我们定义了一个一阶马尔科夫模型,包括如下概念:状态:晴、多云、雨状态转移概率初始概率(待续)隐马尔科夫模型HMM自学(2)马尔科夫模型也需要改进!崔晓源翻译当一个隐士不能通过直接观察天气状态来预测天气时,但他有一些水藻。民间的传说告诉我们水藻的状态与天气有一定的概率关系。也就是说,水藻的状态与天气时紧密相关的。此时,我们就有两组状态:观察状态(水藻的状态)和隐含状态(天气状态)。因此,我们希望得到一个算法可以为隐士通过水藻和马尔科夫过程,在没有直接观察天气的情况下得到天气的变化情况。更容易理解的一个应用就是语音识别,我们的问题定义就是如何通过给出的语音信号预测出原来的文字信息。在这里,语音信号就是观察状态,识别出的文字就是隐含状态。这里需要注意的是,在任何一种应用中,观察状态的个数与隐含状态的个数有可能不一样的。下面我们就用隐马尔科夫模型HMM来解决这类问题。HMM下图是天气例子中两类状态的转移图,我们假设隐状态是由一阶马尔科夫过程描述,因此他们相互连接。隐状态和观察状态之间的连线表示:在给定的马尔科夫过程中,一个特定的隐状态对应的观察状态的概率。我们同样可以得到一个矩阵:注意每一行(隐状态对应的所有观察状态)之和为1。到此,我们可以得到HMM的所有要素:两类状态和三组概率两类状态:观察状态和隐状态;三组概率:初始概率、状态转移概率和两态对应概率(confusionmatrix)隐马尔科夫模型HMM自学(3)HMM定义崔晓源翻译HMM是一个三元组(,A,B).thevectoroftheinitialstateprobabilities;thestatetransitionmatrix;theconfusionmatrix;这其中,所有的状态转移概率和混淆概率在整个系统中都是一成不变的。这也是HMM中最不切实际的假设。HMM的应用有三个主要的应用:前两个是模式识别后一个作为参数估计(1)评估根据已知的HMM找出一个观察序列的概率。这类问题是假设我们有一系列的HMM模型,来描述不同的系统(比如夏天的天气变化规律和冬天的天气变化规律),我们想知道哪个系统生成观察状态序列的概率最大。反过来说,把不同季节的天气系统应用到一个给定的观察状态序列上,得到概率最大的哪个系统所对应的季节就是最有可能出现的季节。(也就是根据观察状态序列,如何判断季节)。在语音识别中也有同样的应用。我们会用forwardalgorithm算法来得到观察状态序列对应于一个HMM的概率。(2)解码根据观察序列找到最有可能出现的隐状态序列回想水藻和天气的例子,一个盲人隐士只能通过感受水藻的状态来判断天气状况,这就显得尤为重要。我们使用viterbialgorithm来解决这类问题。viterbi算法也被广泛的应用在自然语言处理领域。比如词性标注。字面上的文字信息就是观察状态,而词性就是隐状态。通过HMM我们就可以找到一句话上下文中最有可能出现的句法结构。(3)学习从观察序列中得出HMM这是最难的HMM应用。也就是根据观察序列和其代表的隐状态,生成一个三元组HMM(,A,B)。使这个三元组能够最好的描述我们所见的一个现象规律。我们用forward-backwardalgorithm来解决在现实中经常出现的问题--转移矩阵和混淆矩阵不能直接得到的情况。总结HMM可以解决的三类问题1.Matchingthemostlikelysystemtoasequenceofobservations-evaluation,solvedusingtheforwardalgorithm;2.determiningthehiddensequencemostlikelytohavegeneratedasequenceofobservations-decoding,solvedusingtheViterbialgorithm;3.determiningthemodelparametersmostlikelytohavegeneratedasequenceofobservations-learning,solvedusingtheforward-backwardalgorithm.隐马尔科夫模型HMM自学(4-1)ForwardAlgorithm找到观察序列的概率崔晓源翻译Findingtheprobabilityofanobservedsequence1、穷举搜索方法对于水藻和天气的关系,我们可以用穷举搜索方法的到下面的状态转移图(trellis):图中,每一列于相邻列的连线由状态转移概率决定,而观察状态和每一列的隐状态则由混淆矩阵决定。如果用穷举的方法的到某一观察状态序列的概率,就要求所有可能的天气状态序列下的概率之和,这个trellis中共有3*3=27个可能的序列。Pr(dry,damp,soggy|HMM)=Pr(dry,damp,soggy|sunny,sunny,sunny)+Pr(dry,damp,soggy|sunny,sunny,cloudy)+Pr(dry,damp,soggy|sunny,sunny,rainy)+....Pr(dry,damp,soggy|rainy,rainy,rainy)可见计算复杂度是很大,特别是当状态空间很大,观察序列很长时。我们可以利用概率的时间不变性解决复杂度。2、采用递归方法降低复杂度我们采用递归的方式计算观察序列的概率,首先定义部分概率为到达trellis中某一中间状态的概率。在后面的文章里,我们把长度为T的观察状态序列表示为:2a.Partialprobabilities,(‘s)在计算trellis中某一中间状态的概率时,用所有可能到达该状态的路径之和表示。比如在t=2时间,状态为cloudy的概率可以用下面的路径计算:用t(j)表示在时间t时状态j的部分概率。计算方法如下:t(j)=Pr(observation|hiddenstateisj)*Pr(allpathstostatejattimet)最后的观察状态的部分概率表示,这些状态所经过的所有可能路径的概率。比如:这表示最后的部分概率的和即为trellis中所有可能路径的和,也就是当前HMM下观察序列的概率。Section3会给出一个动态效果介绍如何计算概率。2b.计算初始状态的部分概率我们计算部分概率的公式为:t(j)=Pr(observation|hiddenstateisj)xPr(allpathstostatejattimet)但是在初始状态,没有路径到达这些状态。那么我们就用probability乘以associatedobservationprobability计算:这样初始时刻的状态的部分概率就只与其自身的概率和该时刻观察状态的概率有关。隐马尔科夫模型HMM自学(4-2)ForwardAlgorithm崔晓源翻译书接上文,前一话我们讲到了ForwardAlgorithm中初始状态的部分概率的计算方法。这次我们继续介绍。2c.如何计算t1时刻的部分概率回忆一下我们如何计算部分概率:t(j)=Pr(observation|hiddenstateisj)*Pr(allpathstostatejattimet)我们可知(通过递归)乘积中第一项是可用的。那么如何得到Pr(allpathstostatejattimet)呢?为了计算到达一个状态的所有路径的概率,就等于每一个到达这个状态的路径之和:随着序列数的增长,所要计算的路径数呈指数增长。但是在t时刻我们已经计算出所有到达某一状态的部分概率,因此在计算t+1时刻的某一状态的部分概率时只和t时刻有关。这个式子的含义就是恰当的观察概率(状态j下,时刻t+1所真正看到的观察状态的概率)乘以此时所有到达该状态的概率和(前一时刻所有状态的概率与相应的转移概率的积)。因此,我们说在计算t+1时刻的概率时,只用到了t时刻的概率。这样我们就可以计算出整个观察序列的概率。2d.复杂度比较对于观察序列长度T,穷举法的复杂度为T的指数级;而ForwardAlgorithm的复杂度为T的线性。=======================================================最后我们给出ForwardAlgorithm的完整定义WeusetheforwardalgorithmtocalculatetheprobabilityofaTlongobservationsequence;whereeachoftheyisoneoftheobservableset.Intermediateprobabilities(‘s)arecalculatedrecursivelybyfirstcalculatingforallstatesatt=1.Thenforeachtimestep,t=2,...,T,thepartialprobabilityiscalculatedforeachstate;thatis,theproductoftheappropriateobservationprobabilityandthesumoverallpossibleroutestothatstate,exploitingrecursionbyknowingthesevaluesalreadyfortheprevioustimestep.Finallythesumofallpartialprobabilitiesgivestheprobabilityoftheobservation,giventheHMM,.=======================================================我们还用天气的例子来说明如何计算t=2时刻,状态CLOUDY的部分概率怎么样?看到这里豁然开朗了吧。要是还不明白,我就.....................还有办法,看个动画效果: