苏州大学硕士学位论文基于听觉特性和神经网络的汉语数字语音识别研究姓名:张晓俊申请学位级别:硕士专业:检测技术与自动化装置指导教师:陶智20070501基于听觉特性和神经网络的汉语数字语音识别研究作者:张晓俊学位授予单位:苏州大学相似文献(10条)1.学位论文黄颖噪声环境下汉语数字语音识别研究2004噪声环境下汉语数字语音识别是当前汉语数字语音识别走向商业化的必由之路,由于其巨大的应用前景,因而这方面的研究成为国内外语音识别的热点.该文利用语音增强和汉语数字语音识别的方法构造一个噪声环境下的汉语数字语音识别系统.实验过程中,语音识别部分所用的语音采用的是干净语音加噪后经语音增强后输出的语音.该文针对传统ANC系统收敛慢,系统稳定性不高的缺点,提出了一种新的双自适应噪声抵消系统,该系统用NLMS算法作主滤波器的控制算法,用DLMS作为从滤波器的控制算法,由于采用变步长控制算法,系统的稳定性和收敛性明显得到改善.在实验中,该系统能很好地抵消语音中的噪声,提高语音信噪比,为下面的语音识别率提高提供保证.在语音识别中,大词汇量、非特定人、连续语音识别一直是一个难以攻克的问题.该文采用26维特征(包括12维MFCC参数、1维归一化能量和它们的一阶差分)和HMM模型进行建模,对非特定人和汉语数字语音识别进行实验,共作了如下工作:1.探讨了训练数据对模型的二个重要参数—状态数和混合度的影响.当模型训练不足时,状态数的增加和输出概率混合度的增加会增加系统误识率;模型训练充足时,状态数的增加和输出概率混合度的增加会减少系统误识率.2.在一般的汉语数字语音识别系统中,由于易混淆数字对1(yi1)和4(si4)、3(san1)和4(si4),6(liu4)和9(jiu3)的存在,系统替代错误(如1被4替代)较高,实验结果表明部分概率识别法能降低这种系统替代错误.3.该文采用静默音模型来简化端点算法,减少了在大量语料的情况下,自动端点检测计算量大,手工标注端点检测工作量大的问题.4.在非特定人、连续语音识别中,基元的选择关系到模型的规模,识别的准确率和系统的可扩展性,该文通过实验比较,得出声韵母模型更适合汉语数字建模.5.汉语数码中,由于2、5是单音素构成,连续时易造成删除错误,该文利用持续时间模型减少了这种错误率.6.该文针对训练数据稀疏进行了探讨,在状态空间共享时,训练数据的稀疏问题得到很好的解决.2.期刊论文杨建华.赵力.YangJianhua.ZhaoLi基于VQ与HMM相结合的汉语数字语音识别-南京航空航天大学学报(英文版)2000,17(1)提出了一种新的语音识别方法,它结合了VQ-误差和离散HMM两种方法,用VQ-误差全面替代了在离散HMM中运用的离散输出.这种方法被看作是由Burton等人提出识别方法的VQ-误差的一种改进型,但也被认为是混合的分散密度HMM的一种特殊情况.文中不仅描述了基于HMM的VQ-误差,并且通过实验,在语音识别性能方面将之与传统的HMM方法进行了比较,证实其优于传统的HMM方法.3.学位论文陶世焰汉语数字语音识别2000该文重点在三个方面对汉语数字语音识别进行研究和分析:(1)特征参数的提取.通过对线性预测系数、自相关系数、声道面积比系数和对数面积比系数、PARCOR系数、Mel倒谱、LPC倒谱等特征参数的提取加以比较,选择对于汉语数字语音识别最有效的特征参数;(2)识别方法的选择.对于孤立汉语数字语音识别,研究人员分别用了DTW方法和HMM方法进行识别,为了提高训练集外说话者的正确识别率,一种可能是进一步提高参与训练者的数量,另一种可能是为每个数字建立多套HMM参数;(3)全文总结了汉语数字语音识别的发展现状,分析了汉语数字语音识别中的高混淆度所导致的识别困难,比较了各种实现方法,介绍了作者在实验基础上的一些基本参数以及提出了一些改进方法.4.学位论文张静亚基于HMM的汉语连续数字语音识别2005连续数字语音识别在现实中具有广泛的应用前景。在互连网、通信、军事、国防、人机交互等方面都有着重要的应用价值。 多年来,许多学者都致力于连续数字语音识别的研究。但是,同英语连续数字语音识别情况相比,汉语连续数字语音识别的现状同实际应用的要求还存在一定的差距。主要难点在于,首先汉语是单音节字,音节越少语音间的混淆程度越高,存在一些容易混淆的数字对,如“2”和“8”,并且汉语数字中还存在一些单元音数字,如“1”、“2”和“5”,这些数字的连续发音序列(如“55”)的识别相当困难,识别过程中很容易引起数字“误插入”和“误删除”。 为了得到一个高性能、低运算量的非特定人连续数字语音识别系统,本文在识别算法中做了多种分析和改进,研究了结合韵律特征信息来提高HMM连续数字语音识别性能的算法。实验证明,该算法是有效的。 系统的各算法由VC编程实现,其中包括语音信号的预处理、信号特征参数的提取、HMM模型训练、连续数字的切割算法、识别算法、以及后处理部分,并利用汉语的韵律信息来提高识别率。本文的研究采取渐进的方式,在研究连续数字语音识别之前,先研究了孤立数字的语音识别;在研究基于CHMM的语音识别之前,先研究了基于DHMM的语音识别。5.学位论文周茉基于HMM和ANN的汉语数字语音识别算法研究2006本文对现有的语音识别技术发展现状进行了分析,介绍了语音识别的基本理论,包括数字语音信号生成的数学模型、预处理、端点检测和特征参数提取。在此基础上,讨论了数字语音识别系统实现的主要技术,重点对HMM模型和自组织神经网络(SOFM)原理及其在语音识别中的应用进行了研究,并且分析比较了它们的识别特性与应用特点,提出了基于CDHMM和SOFM的混合模型原理及算法,该模型由CDHMM产生语音信号的最佳状态序列后,对同一状态应用时间规整网络生成等维的语音特征矢量,并加入到SOFM分类器进行语音识别,HMM-ANN模型既具有HMM对动态时间序列极强的建模能力,又具有ANN极强的静态分类能力。在MATLAB6.5和VC++6.0环境下对HMM模型和HMM-ANN模型的算法进行了孤立数字和连续数字语音识别系统的实验仿真。结果表明,与HMM模型方法相比,HMM-ANN模型提高了语音识别系统的准确率,充分体现出改进模型的可行性和有效性,最后指出了本文研究未来改进的方向。6.期刊论文王朋.陈树中基于混合模型HMM/RBF的数字语音识别-计算机工程2002,28(12)提出一种离散隐马尔科夫模型(hiddenMarkovmodel,HMM)和径向基函数(radialb:asisfunction,RBF)神经网络相结合应用于汉语数码语音识别(MmandarinDdigitSpeechRecognition,MDSR)的方法.同时采用了一系列改进方法,使汉语数码语音的识别率达到了997%.7.学位论文蒋正锋基于HTK的汉语连续数字语音识别研究2009随着计算机与信息技术的继续发展,语音交互技术必将成为人机交互的必要手段。语音识别技术就是让机器听懂人类的语音并执行相关的动作,是一个研究的热点。连续数字语音识别是语音识别的一个重要分支,它在现实中具有广泛的应用前景,在互联网,通信,军事,国防,人机交互等方面都有重要的应用价值。虽然这方面的研究有很多,但目前仍有许多问题有待进一步探索。本文主要研究的是基于HTK的汉语连续数字的识别以及相关研究,首先对HTK(HiddenMarkovModelToolkit)的软件结构以及HTK工具包进行了分析,搭建出基于HTK的汉语连续数字语音识别系统,测试了声学模型,高斯混合分量和MFCC维数对系统识别率的影响。接着,在理解了基于HTK的语音识别系统的搭建过程的基础上,实现了基于HTK的语音拨号系统,是对电话号码和人名的语音识别。然后,进行了基于ATK(APIofHTK)的实时语音识别的初步研究。讨论了使用ATK建立一套实时语音识别系统的过程,并且实现了基于ATK的实时语音拨号系统,但是识别效果不理想。对较为复杂的语音识别网络,开展了HTK中语音识别网络的研究,导出了一种优化语音识别网络的方法,并且从理论上证明和实验上验证了其正确性。最后,针对语音识别和因特网传输技术的特点,设计出简单的语音识别网络传输方案:采用客户/服务器模式,在客户端提取出语音信号的特征参数,采用TCP协议把特征参数传输给服务器,由服务器完成识别与训练的工作。系统使用HTK和VisualC++编程工具,使用MFC中封装的WindowsSockets类完成了语音特征参数和识别结果的网络传输,实现了一个初步的基于网络传输的连续数字语音识别系统。8.学位论文孙玲汉语数字语音识别技术与实现方法研究2004本文研究了汉语数字语音识别技术及其实现的方法。本文基于语音信号产生的数学模型,从时域、频域、倒谱域出发,对语音信号进行分析,论述了语音识别的基本理论。在此基础上,讨论了语音识别系统的主要技术及其在本课题中的应用,并重点讨论了本课题中语音信号特征参数的提取,并在其中加入RASTA滤波抗噪。在比较三种模式匹配方法的基础上,本文选择隐马尔可夫(HMM)模型作为本课题中模式匹配的方法,并讨论了经典齐次隐马尔可夫(HMM)模型的基本原理及其用于语音识别的训练和识别算法。接着用Matlab6.5对模型训练和识别算法进行了仿真,并分别给出了主要仿真结果。然后讨论了基于C++的数字语音识别系统的程序设计,给出了系统的软件结构图,设计了其类库规划并实现了人机交互界面。本文还介绍了本课题组自己设计的录音软件,建立了用于训练和测试模型的数字语音数据库,并对系统算法的实时性和准确性进行了测试,结果表明,采用改进算法的DDBHMM模型准确性高于经典的HMM模型,但实时性低于经典的HMM模型。最后指出了本课题研究未来的改进方向。9.学位论文杨福涛基于HMM的汉语数字语音识别系统研究与实现2007语音是人与机器之间进行交流的重要工具,语音识别技术就是让机器听懂人类的语音并执行相关动作,具有广泛的应用背景。虽然在这方面的研究有很多,但目前仍有许多问题有待进一步探索。语音的基本声学模型和基本识别理论是构建语音识别系统的基础,也是进行进一步科学实践活动的理论指导和依据,所以,本文首先介绍了语音识别系统的概况和语音的声学模型结构,然后按照语音识别系统的处理步骤详细地分析了各个过程的重点知识和不同理论算法间的联系,并对他们进行了比较。因为特征参数的选取对整个语音识别系统的实时性、鲁棒性等都有很大的影响,所以文中对语音信号的短时时域特征和语谱图进行介绍后,详细阐述了目前本领域中最常用的线性预测分析系数(LPC)、线性预测倒谱系数(LPCC)及Mel频率倒谱系数((MFCC)等特征参数的提取方法,理论依据,性能比较等,并对与它们的性能关系最重要的失真测度进行了讨论。文中论述了动态时间归整理论(DTW)和隐马尔可夫模型(HMM)原理,用MATLAB语言编程研究了它们在语音识别系统中的应用。用DTW理论进行孤立词语音识别时比较了特定人的语音和非特定人的语音的识别及特征参数的选择对识别率的影响。此外,实际构建了基于HMM模型的非特定人小型孤立词语音识别的整个系统,该系统可选用不同的特征参数,并具有较好的鲁棒性。用该系统对“0至9”十个数字进行了识别实验,实验发现用LPCC参数时,选取12维的识别效果最好;26维的MFCC参数的识别率比12维的LPCC参数的识别率高10%左右。在实验中还发现,一些容易使识别系统弄混的数字对整个系统的识别率有一定负面影响,针对此问题,本文提出了一种识别易混数字的利用韵律信息的识别方法,并将此方法用于了本系统的实验中,在实验中使识别的效果有了一些提高。10.期刊论文张静亚.俞一彪.ZHANGJingya.YUYibiao利用韵律信息的CHMM连续数字语音识别-电子工程师2006,32(12)提出了一种结合韵律信息的高性能汉语连续数字语音识别算法,该识别算法基于CHMM(连续隐马尔可夫模型),采用MFCC(MEL频率倒谱系数)为主要语音特征参数,结合韵律信息进行连续数字精确分割