语音识别改进方法及难点分析——《模式识别》结课小论文学院:化工与环境学院学号:2120151177姓名:杜妮摘要:随着计算机技术的不断发展,人工智能程度也越来越高,作为人工智能的一部分——模式识别也在模型和算法上愈发成熟。本文根据近105年文献,分析最新声音识别的方法和应用。关键字:模式识别声音识别方法应用随着人工智能的迅速发展,语音识别的技术越来越成为国内外研究机构的焦点。人们致力于能使机器能够听懂人类的话语指令,并希望通过语音实现对机器的控制。语音识别的研究发展将在不远的将来极大地方便人们的生活。语音识别大致的流程包括:特征提取、声学模型训练、语音模型训练以及识别搜索算法。作为一项人机交互的关键技术,语音识别在过去的几十年里取得了飞速的发展,人们在研究和探索过程中针对语音识别的各部流程进行了各种各样的尝试和改造,以期发现更好的方法来完成语音识别流程中的各步骤,以此来促进在不同环境下语音识别的效率和准确率。本文通过查阅近10年国内外文献,分析目前语音识别流程中的技术进展和趋势,并在文章最后给出几项语音识别在日常生活中的应用案例,从而分析语音识别之后的市场走势和实际利用价值。一、语音识别的改进方法(一)特征提取模块改进特征提取就是从语音信号中提取出语音的特征序列。提取的语音特征应该能完全、准确地表达语音信号,特征提取的目的是提取语音信号中能代表语音特征的信息,减少语音识别时所要处理的数据量。语音信号的特征分析是语音信号处理的前提和基础,只有分析出可以代表语音信号本质特征的参数,才能对这些参数进行高效的语音通信,语音合成,和语音识别等处理,并且语音合成的好坏,语音识别率的高低,也都取决于语音特征提取的准确性和鲁棒性。目前,针对特定应用的中小词汇量、特定人的语音识别技术发展已较为成熟,已经能够满足通常应用的要求,并逐步投入了实用。而非特定人、大词汇量、连续语音识别仍是目前阶段语音识别研究的重点和难点【1】。由于考虑到人耳的听觉特性,Mel倒谱系数或感知线性预测系数【2】已经成为目前主流的语音特征向量提取方法之一,加上它们的一阶、二阶差分以及对特征向量进行归一化处理以后,在大词汇量连续语音识别问题上取得不错的结果。语音识别技术中最流行的特征参数时基于声道模型和听觉机理的LPCC(LinearPredictiveCepstralCoeficients)和MFCC(MelFrequencyCepstralcocficients)参数,而MFCC在低频段具有较高的谱分辨率,对噪声的鲁棒性优于LPCC,更适合语音识别。但与人听觉系统非凡的感知能力比较,不管是LPCC还是MFCC参数,在不利的噪声环境下,其鲁棒性都会急剧下降。如何在特征提取过程中抽取保持语音信号最重要的特征参数,成为一个急需解决的问题。对语音识别实际应用过程中的噪声问题,付丽辉给出了一种新的抗噪声的特征提取算法,即先利用小波变换将语音信号进行小波子带分解,再根据人耳的听觉掩蔽效应,由谱压缩的技术,将小波变换后的子带语音信号进行压缩,从而提取其对应的语音特征。通过MATLAB软件建立实验平台,仿真实验结果表明该语音特征可以在噪声环境下得到较高的识别率。新的特征参数即充分利用了小波的抗噪声特性又有效地降低了语音识别中的训练环境和识别环境间的失配,具有抗噪声的特点【3】。为克服FIR滤波器存在的通阻带特性差、滤波器阶次高等缺点给语音识别系统带来的不利影响,黄丽霞等人采用Laguerre滤波器组代替过零峰值幅度特征提取中使用的FIR滤波器组进行前端处理。在仔细研究FIR滤波器参数确定方法的基础上,详细介绍了La-guerre滤波器原理及参数计算方法,并给出了计算结果。孤立词、非特定人语音识别实验结果表明,使用Laguerre滤波器不仅使识别系统抗噪性能优于使用FIR滤波器,而且滤波器阶数也大为下降【4】。陈斌等人提出了一种基于最小分类错误(Minimumclassificationerror,MCE)准则的线性判别分析方法(Lineardiscriminantanalysis,LDA),并将其应用到连续语音识别中的特征变换。该方法采用非参数核密度估计方法进行数据概率分布估计;根据得到的概率分布,在最小分类错误准则下,采用基于梯度下降的线性搜索算法求解判别分析变换矩阵。利用判别分析变换矩阵对相邻帧梅尔滤波器组输出拼接的超矢量变换降维,得到时频特征。实验结果表明,与传统的MFCC特征相比,经过本文判别分析提取的时频特征其识别准确率提高了1。41%,相比于HLDA(HeteroscedasticLDA)和近似成对经验正确率准则(Approximatepairwiseempiricalaccuracycriterion,aPEAC)判别分析方法,识别准确率分别提高了1.14%和0.83%【5】。(二)声学模型训练改善声学模型是语音识别系统的底层模型,是语音识别系统中最为关键的一部分。其目标就是提供一种有效的方法,计算语音的特征矢量序列和每一个发音模板之间的距离。传统的声学建模方式大都基于隐马尔科夫框架,采用混合高斯模型(Guassianmixturemodel,GMM)来描述语音声学特征的概率分布。针对传统的“隐马尔科夫模型-高斯混合模型”声学模型,目前常用的解决方案有:结构化协方差矩阵/精度矩阵建模方法【6】,即假设不同协方差矩阵或其精度矩阵由若干个低秩(通常是秩为1的)基矩阵的线性叠加得到,各高斯混元通过某种方式共享一组相同的基矩阵;本征三音子(Eigentriphone)建模方法【7】,将上下文相关状态进行聚类,将每一类状态的均值矢量限定在一个线性子空间中,通过估计子空间中的低维坐标矢量来重构状态的均值矢量,从而得到更为精确的参数估计;子空间高斯混合模型(SubspaceGaussianmixturemodel,SGMM)【8】,将高斯混元的均值和权重限制在一个全局参数子空间中,因此每一个状态可以用一个或若干个低维参数子空间中的矢量来表示,从而提高模型参数估计的稳健性。与传统的高斯混合模型相比,SGMM声学模型大大压缩了模型尺寸,并且可以利用集外数据对参数子空间进行估计,因此特别适用于训练数据量受限条件下的语音识别【9】。张文林等人提出从语音信号声学特征空间的非线性流形结构特点出发,利用流形上的压缩感知原理,构建新的语音识别声学模型。将特征空间划分为多个局部区域,对每个局部区域用一个低维的因子分析模型进行近似,从而得到混合因子分析模型。将上下文相关状态的观测矢量限定在该非线性低维流形结构上,推导得到其观测概率模型。最终每个状态由一个服从稀疏约束的权重矢量和若干个服从标准正态分布的低维局部因子矢量所决定。基于RM语料库的连续语音识别实验表明,相比于传统的高斯混合模型(Gaussianmixturemodel,GMM)和子空间高斯混合模型(SubspaceGaussianmixturemodel,SGMM),新声学模型在测试集上的平均词错误率(Worderrorrate,WER)分别相对下降了33。1%和9。2%【10】。由于隐马尔科夫属于典型的浅层学习结构,仅含单个将原始输入信号转换到特定问题空间特征的简单结构,而目前识别挑战越来越严峻,在大量的数据下其性能将会受到限制。随着人工智能的进一步发展,人们开始利用人工神经网络(artificialneuralnetwork,ANN)来模拟人类大脑存储及处理信息的相应模型。目前,微软、IBM、Goolge等许多国际知名语音研究机构都投入了大量的经历开展深层神经网络的研究。近年来,微软利用上下文相关的深层神经网(contextdependentdeepneuralnetwork,CD-DNN)进行声学模型建模,并在大词汇连续语音识别上取得相对于经鉴别性训练HMM系统有句错误率相对下降23.2%的性能改善,掀起了深层神经网络在语音识别领域的热潮【11】。为了克服经典语音识别建模方式在大数据环境下的局限性,张晴晴等人提出利用卷积神经网络来完成海量数据下的语音识别。她提出,音识别中,卷积神经网络(Convolutionalneuralnetworks,CNNs)相比于目前广泛使用的深层神经网络(deepneuralnetwork,DNNs),能在保证性能的同时,大大压缩模型的尺寸。她在文章中深入分析了卷积神经网络中卷积层和聚合层的不同结构对识别性能的影响情况,并与目前广泛使用的深层神经网络模型进行了对比。在标准语音识别库TIMIT以及大词表非特定人电话自然口语对话数据库上的实验结果证明,相比传统深层神经网络模型,卷积神经网络明显降低模型规模的同时,识别性能更好,且泛化能力更强【11】。(三)语音模型训练改进随着语音识别技术的不断发展,语言模型在语音识别中的作用也显得越来越重要。由于声学信号的动态时变、瞬时和随机性,单靠声学模式的匹配与判断不可能完成语音的无误的识别和理解。一些较高层次的语言知识的利用可以在声学识别的层次上减少模式匹配的模糊性,从而提高识别的准确性。并且一个大词汇量连续语音识别系统必须在每一时刻检测是否遇到语音发音边界,这样许多不同的字或词将会从不同的语音流中识别出来。为了消除这些字或词之间的模糊性,语言模型是必不可少的。语言模型可以提供字或词之间的上下文信息和语义信息。语言模型不仅用在语音识别系统中,而且可以用在机器翻译、信息检索等研究领域【13】【14】。基于隐马尔科夫模型的参数语音合成系统,在采用线谱对参数表征语音频谱特征时,传统MGE训练中使用的欧氏距离生成误差计算方法并不能较好地反映生成频谱与自然频谱之间的真实距离。因此雷鸣等人提出一种基于感知加权线谱对(LineSpectralPair,LSP)距离的最小生成误差(MinimumGenerationError,MGE)模型训练方法,采用与谱参数无关的对数谱间距(LogSpectralDistortion,LSD)定义的生成误差函数来改善这一问题,但改进后主观效果不明显,且运算复杂度很高【15】。为了克服语音身份确认中语音分割、特征提取和鲁棒性差的困难,朱秉诚等人在深入分析叩齿声音波形特性后,提出一种了一种利用叩齿声音进行身份确认的方法.这种方法使用二阶微分方程建立齿震动发声的近似模型,以此为基础提出基于叩齿声音信号的身份确认方法。经过实验证明,叩齿声音信号稳定性强,处理复杂度低于声纹信号,应用于身份识别性能优良。该方法和经典的支持向量机、最近邻算法相比,运算量低,所需训练样本少。【15】(四)识别搜索算法改进搜索就是在由语句构成的空间当中,按照一定的优化准则,寻找最优句子的过程,也就是利用已掌握的知识(声学知识、语音学知识、词典知识、语言模型知识以及语法语义知识等),在状态(指的是词组、词、建模单元或HMM的状态)空间中找到最优的状态序列。近年来,由于信息技术和互联网技术的飞速发展,人们越来越多地利用嵌入式便携设备作为获取信息的工具。而语音识别技术作为自然方便的人机交互手段,也已经应用于越来越多的嵌入式设备上。但是由于嵌入式设备的系统资源配置与PC有着很大的不同,其对计算复杂度和内存消耗有着更为苛刻的限制,尤其是嵌入式设备为满足其低功耗一般都采用尽可能小的动态内存。所以一些较成熟的PC上的语音识别任务往往受限于嵌入式设备自身有限的计算能力和存储量。【17】目前世界上主流的语音识别系统基本是采用HMM框架。基于HMM的语音识别系统通常由声学模型、发音词典、搜索空间、搜索算法模块组成。其中搜索算法是决定系统性能的关键,它决定了如何使用各种资源,而搜索算法又和搜索空间密不可分,搜索空间的构造不仅本身影响着内存的占用,而且也影响着搜索的效率。传统的状态树搜索算法[18]是让每个词条通过查找发音字典取得音素序列,音素序列根据声学模型里面的决策树[19]得到相应的音素状态序列。状态搜索树的合并策略是如果两个单词的音素状态序列前缀一致,合并相同的部分,虚节点不允许合并。解码搜索过程中采用基于时间同步的令牌传递(tokenpassing)算法[20]。开始识别时在root节点