中南大学硕士学位论文基于HMM的孤立词语音识别系统的研究姓名:王明奇申请学位级别:硕士专业:电工理论与新技术指导教师:覃爱娜20070520基于HMM的孤立词语音识别系统的研究作者:王明奇学位授予单位:中南大学相似文献(10条)1.学位论文胡磊基于隐马尔科夫模型的语音识别技术研究2007语音识别是机器通过识别和理解过程把人类的语音信号转变为相应的文本或命令的技术。其根本目的是研究出一种具有听觉功能的机器,这种机器能直接接受人的语音,理解人的意图,并做出相应的反应。语音识别以语音信号为研究对象,是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到语言学、计算机科学、信号处理以及生理学、心理学等诸多领域,甚至还涉及到人的体态语言,其最终目标是实现人与机器进行自然语言通信。语音识别具有广阔的应用前景,已经在听写机、电话查询系统、家电控制等诸多领域获得到了充分的应用。目前说话人识别领域主流的算法是基于隐马尔科夫模型(HiddenMarkovModel)。隐马尔科夫模型用隐含状态对应声学各层相对稳定的发音单元,并通过状态的驻留,转移描述发音变化。为了研究方便,隐马尔科夫模型假设连续段长分布的时间是服从几何分布,但这与真实的分布规律并不相符。本课题试采用的基于段长分布的隐马尔科夫模型更准确的描述语音信号的时间相关性。本文以HTK(HMMtoolkit)工具作为语音信号处理平台,建造一个简单的基于特定人的连续汉语语音识别系统。利用该系统分别对采用不同类型的特征参数的识别效果进行比较,通过实验方式找出最合适该汉语识别系统的模型参数设定。实验发现将汉语中的声母和韵母作为基本的声学单元来建立HMM模型,将声母韵母状态数分别设为3和5,输出观察值混合高斯维数为7时,识别的准确率可以达到较好的效果,继续增加状态数和高斯维数后,识别结果没有明显提高而且使识别速度变慢。实验最后通过修改HTK源代码实现基于段长分布的隐马尔科夫模型,结果表明,改进的隐马尔科夫模型在噪音环境下能获得更好的识别效果。2.会议论文彭子平.张严虎.潘露露隐马尔科夫模型原理及其重要应用2008隐马尔科夫模型是一种由马尔科夫模型发展起来的统计模型,它能够更好地反映现实世界中所发生的事件。该模型最早被应用在语音识别领域,随着模型的不断发展和新的应用领域不断涌现出来,隐马尔科夫模型已经成为应用最广泛、最成功的统计模型之一。这篇文章的主要目的是介绍隐马尔科夫的基本原理和它的一些重要应用。为此该文章在介绍其原理之后,选择了该模型应用最为成功的三个领域(词性标注、语音识别和生物基因序列分析)来进行进一步介绍。3.学位论文刘悦基于隐马尔科夫模型的语音识别新算法的研究2005本文总结和分析了在语音识别建模中广泛应用的隐马尔科夫模型的基础理论。同时,为了将该模型引入语音识别的实际应用,主要讨论该模型中评估、搜索和参数最优化三个问题;介绍了连续密度隐马尔科夫模型的原理和隐马尔科夫模型的种类。本文首先利用隐马尔科夫模型对汉语孤立字进行识别,对一些具体的算法细节,例如Mel倒谱参数、多观测序列隐马尔科夫模型参数、计算中的溢出问题,进行了改进。其次,本文研究了在连续语音识别训练语料库的创建中,如何进行音节的自动标注,并根据汉语语音的特点,提出了一种连续汉语语音中声韵母自动切分的新算法;该算法根据音素单元结构确定HMM模型中的状态数,利用HMM模型进行音素切分,再对切分结果进行合并,得到最终的声韵母子词单元。实验仿真结果表明,该算法在产生子词单元的稳定性和准确性方面均达到了较好的性能,且与话者无关;该算法与传统手工的方法相比优点在于整个算法是计算机自动进行,不用人工干预,从而大大节省了人力和物力,有广阔的发展与应用前景。4.会议论文魏峰.徐成.曾祺基于HMM的语音识别技术研究2006嵌入式系统正逐渐成为语音识别实际应用的首选平台.文中首先介绍语音识别的基本原理,然后从特征提取,声学模型和模式匹配三个方面阐述隐马尔科夫模型的基本原理和算法,最后介绍了基于隐马尔科夫模型的嵌入式语音识别系统的实现.5.学位论文宫晓梅中等词汇量汉语连续语音识别技术研究2007语音识别的目的是让机器理解人的语言,实现更方便直接的人机交互。经过几十年的研究和发展,语音识别技术已日渐成熟并逐渐走向实用。越来越多具有语音识别功能的产品进入人类的日常生活。然而语音识别技术对环境的依赖性很强,语音识别系统通常是将在安静环境下训练得到的模板应用于实际环境中。而实际环境中一般都存在噪声,随着环境噪声的加大,识别性能将会急剧下降,这是因为噪声对语音识别的影响很大,而对噪声的处理比较困难,如何建立鲁棒性识别系统成为语音识别领域的重要研究课题。本文介绍了语音识别的主要应用领域,国内外发展历史与研究现状,简要介绍了语音识别的基本方法及涉及到的关键技术,包括语音识别系统的分类、识别基元的选取以及模板训练与模式匹配的主要方法等。分析语音识别系统的基本结构及涉及到的各种主要技术,讨论了语音信号的预处理及语音信号各种主要时、频域特征参数的提取,重点分析研究常用且效果良好的、反映语音倒谱特征的线性预测倒谱系数(LPCC)和美尔倒谱系数(MFCC)的提取方法。隐马尔科夫模型用统计原理建立语音识别的声学模型,是目前语音识别的主流声学建模技术,本文重点介绍了隐马尔科夫模型的原理及其在语音识别中的应用,并探讨了其局限性。最后在HTK平台上实现了中等词汇量特定人汉语连续语音识别的实验,验证了语音识别各个步骤的工作,提取出多种语音特征参数并对其进行对比实验以比较不同特征参数的识别效果;通过实验讨论HMM状态数的不同对识别率的影响;讨论基于最小统计谱减法的语音增强技术对加性噪声的抑制效果。6.学位论文杨帅聋儿语音恢复系统的语音识别研究2009聋儿康复训练系统主要是将受训者所发语音进行处理后提取出语音的特征,然后再进行语音的识别训练,让受训者将自己的发音和标准音的特征参数进行比较,逐步纠正自己的发音。语音识别是该系统的核心技术。本文主要论述了该系统的语音识别原理,包括语音的预处理和端点检测,特征参数的提取,包括基音频率,LPCC参数和MFCC参数,隐马尔科夫识别原理,最后用HTK工具包进行了语音识别的实验。在语音的预处理阶段,主要论述了语音去噪和端点检测。在去噪方面,本文提出一种新的阈值设定的小波去噪的方法,这种阈值参数介于软阈值和硬阈值之间,具有良好的连续性和可导性,可以更加有效的抑制高斯噪声。在端点检测方面,对传统的双门限方法进行了改进,通过对受训语音设定三个端点值包括音节起始端、浊音段起始端及音节结束端三个端点,然后应用时域特征参数即可准确检测出语音的端点。在语音的共性特征参数提取方面是本系统的关键所在,首先对语音的基音频率进行了提取,在提取方法上对传统的平均幅度差方法(AMDF)法进行了改进,对语音幅度值进行差值平方,然后进行归一化,再对提取的语音基音频率进行搜索试探和中值平均的方法进行后处理,有效地抑制了孤立点的存在,提高了精确度。然后详细介绍了LPCC和MFCC参数的特点及提取方法,以及两者各自的优缺点。隐马尔科夫模型是用统计原理建立语音识别的声学模型,是目前语音识别的主流声学建模技术,本文随后介绍了隐马尔科夫模型的原理及其在语音识别中的应用。最后在HTK平台上进行了特定人连续语音识别的实验,详细阐述了实验步骤和命令语句。引入了基于上下文相关的三音素模型,解决了协同发音的问题。使用了HTK的决策树理论,通过绑定三音素,修补哑音等方法,不断地调整系统模型,使实验的识别率最大化;通过提取多种语音特征参数并对其进行了对比试验以比较不同特征参数的识别结果;通过试验不同的HMM模型的状态数对不同识别率的影响,确定出最优的模型的状态数。7.期刊论文王朋.陈树中基于混合模型HMM/RBF的数字语音识别-计算机工程2002,28(12)提出一种离散隐马尔科夫模型(hiddenMarkovmodel,HMM)和径向基函数(radialb:asisfunction,RBF)神经网络相结合应用于汉语数码语音识别(MmandarinDdigitSpeechRecognition,MDSR)的方法.同时采用了一系列改进方法,使汉语数码语音的识别率达到了997%.8.学位论文侯震语音识别鲁棒性方面的研究2002该文主要探讨语音识别鲁棒性问题中语速和语调这两方面的内容.首先在语速方面,分析不同语速的语音对识别结果的影响.然后,在使用隐马尔科夫模型的识别系统中引入惩罚因子这一概念.并通过实验说明惩罚因子可以有效改善删除错误和插入错误的数量.针对不同语速的语音,使用最佳的惩罚因子可以使识别错误率最低.接着作者分析各种速度语音识别结果,得出最佳的惩罚因子和语速之间的数学关系.根据这种的关系,又提出五种方法利用惩罚因子来提高识别系统对语速的鲁棒性.在语调方面,先介绍语调的变化对识别结果的不利影响.并且目前的识别系统常常无法解决这样的问题.进而根据语调和基音之间的紧密联系.作者希望可以提取出对语调变化鲁棒性更好的声学参数.接下来,在讨论一些语音信号中基音的提取方法之后,确定谐波求和的方法可以最高效和最方便的在我们的实验系统中提取基音.利用提取的基音,我们提出动态的提升美尔刻度倒谱系数中滤波器组低端截止频率的方法,即适当改变滤波器组覆盖的频段.9.期刊论文刘放军.王仁华.LIUFang-Jun.WANGRen-Hua语音识别前端鲁棒性问题综述-计算机科学2006,33(4)随着手持设备的日益小型化以及一些特殊场合的限制,使用语音识别这种自然的人机接口技术愈发显得迫切.基于HMM架构的语音识别技术经过几十年的发展,在实验室环境下已经取得了很高的识别率.当前已经取得的技术要想走向实用化,所面临的最大障碍来自于语音识别前端的鲁棒性问题.本文对语音识别的前端鲁棒性问题做了比较深入细致的分析,并在此基础上比较全面地介绍了解决这些棘手问题所采取的一些措施.文章最后对语音识别前端鲁棒性问题给出了一定的讨论和展望.10.学位论文张耀兰语音识别技术在导航设备中的应用2009随着我国车辆的迅速增加和公路交通网建设的增强,人们对车辆自身定位及路况信息获取的需求变得日益迫切,而GPS导航定位系统很好地满足了这一要求。常用的GPS导航系统需要手动输入目的地,引入语音识别技术后改变了该现状。作为人机交互的有效手段,语音识别技术的研究日渐成熟、实用。使用具备语音识别技术的车载导航系统,驾驶者无需双手便可以与其交互,使得车载导航定位更加方便、快捷。本文即设计了一套应用于GPS导航仪的语音识别系统。首先,本文阐明了本课题的研究背景和意义,总结了语音识别系统的发展历史及现状,介绍了车载GPS导航系统,并在此基础上对语音识别技术在GPS导航系统中的应用进行了分析。接着,本文介绍了语音识别原理的两部分内容:语音信号分析和识别方法。语音信号分析包括语音信号预处理、语音信号的端点检测与特征提取,本文的端点检测采用基于短时能量和短时平均过零率的双门限检测法,并选用了梅尔频率倒谱参数作为特征参数;识别方法部分,本文介绍了隐马尔科夫模型和矢量量化模型的原理和基本算法,并根据GPS导航仪资源受限的特性,最终选择离散隐马尔科夫模型作为本文的基本识别算法。本文的主体部分是基于离散隐马尔科夫模型的语音识别系统的原理设计、功能实现与性能分析。本文从语音数据读取、预处理、特征提取、码本设计、系统实现五部分分析了系统的设计思路及流程,并在实验室环境下实现了系统功能。接着,本文在导航仪实际应用环境下建立小型语音库,对语音识别系统的性能及其在导航仪中应用的可行性进行测试分析,并根据车载语音识别导航系统对识别的正确率、实时性、资源占用等方面的要求,通过对码本数量和离散隐马尔科夫状态数选取的分析,最终确定本识别系统的码本容量和离散隐马尔科夫状态数。本文最后对全文工作进行了总结,指出当前工作中的不足,为以后的研究工作指明了努力方向。本文链接:下载时间:2010