语音信号处理第9章

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

9.1概述9.2语音识别原理和识别系统的组成9.3动态时间规整(DTW)9.4孤立字(词)识别系统9.5连续语音识别系统9.6连续语音识别系统的性能评测9.1概述语音识别(SpeechRecognition)主要指让机器听懂人说的话,即在各种情况下,准确地识别出语音的内容,从而根据其信息,执行人的各种意图。它是一门涉及面很广的交叉学科,与计算机、通信、语音语言学、数理统计、信号处理、神经生理学、神经心理学和人工智能等学科都有着密切的关系。一般语音识别系统按不同的角度有下面几种分类方法。孤立词、连接词、连续语音识别系统以及语音理解和会话系统。大词汇、中词汇和小词汇量语音识别系统。特定人和非特定人语音识别系统。语音识别所采用的方法也可以作为语音识别系统分类的依据,因此,也有从识别方法上来对语音识别系统进行分类的。语音识别方法一般有模板匹配法、随机模型法和概率语法分析法三种。实用语音识别研究中存在的几个主要问题和困难如下:(1)语音识别的一种重要应用是自然语言的识别和理解。(2)语音信息的变化很大。(3)语音的模糊性。(4)单个字母及单个词语发音时语音特性受上下文环境的影响,使相同字母有不同的语音特性。(5)环境的噪声和干扰对语音识别有严重影响。9.2语音识别原理和识别系统的组成语音识别系统是建立在一定的硬件平台和操作系统之上的一套应用软件系统。语音识别一般分两个步骤。第一步是系统“学习”或“训练”阶段。第二步是“识别”或“测试”阶段。语音识别技术加上各种外围技术的组合,才能构成一个完整的实际应用的语音识别系统。从语音识别系统的各个功能划分的角度出发,语音识别系统可分为语音信号的预处理部分、语音识别系统的核心算法部分以及语音识别系统的基本数据库等几部分。一般语音识别系统框图9.2.1预处理和参数分析语音信号预处理部分包括:语音信号的电压放大、反混叠滤波、自动增益控制、模/数变换、去除声门激励及口唇辐射的影响等。这里仅对个别需要注意的地方做一些介绍。话筒自适应和输入电平的设定:输入语音信号的品质对语音识别性能的影响很大,因此,对话筒的耐噪声性能要求很高。选择好的麦克风,不仅能提高输入语音质量,而且,还有助于提高整个系统的鲁棒性。为了保持高精度的语音分析,A/D变换的电平必需正确的设定。同时还要通过AGC来自动的调整输入电平放大的倍数或者通过对于输入数据进行规整处理来控制语音数据幅度的变化。抗噪声:环境噪声不可能完全消除。对于手自由的语音识别(Hand-Free),话筒与嘴有一定距离的时候,以及在汽车里或户外等周围环境噪声大的时候必须对输入信号进行降噪处理。对于平稳噪声,传统的谱相减(SS)降噪声技术是有效的,对于非平稳噪声也有通过两个话筒分别输入语音和噪声相互抵消加以消除的方法。语音区间的端点检测:端点检测的目的是从包含语音的一段信号中确定出语音的起点以及终点。有效的端点检测不仅能使处理时间减到最小,而且能排除无声段的噪声干扰,从而使识别系统具有良好的识别性能。传统的端点检测方法是将语音信号的短时能量与过零率相结合加以判断的。但这种端点检测算法如果运用不好,将会发生漏检或虚检的情况。为了克服传统端点检测算法的缺点,已有很多改进方法被提出来。例如,可以考虑采用基于相关性的语音端点检测算法。语音参数分析:经过预处理后的语音信号,就要对其进行特征参数分析,其目的是抽取语音特征,以使在语音识别时类内距离尽量小,类间距离尽量大。识别参数可以选择下面的某一种或几种的组合:平均能量、过零数或平均过零数、频谱、共振峰、倒谱、线性预测系数、PARCOR系数(偏自相关系数)、声道形状的尺寸函数,以及音长、音高、声调等超声短信息函数。现在,经过FFT变换或者LPC得到功率谱以后再经过对数变换和傅立叶反变换得到的倒谱参数是常用的语音识别特征参数。9.2.2语音识别语音识别是语音识别系统的核心部分。除包括语音的声学模型以及相应的语言模型的建立、参数匹配方法、搜索算法、话者自适应算法,还包括增添新词的功能、数据库管理和友好的人机交互界面等等。语音模型:语音模型一般指的是用于参数匹配的声学模型。语音声学模型的好坏对语音识别的性能影响很大,现在公认的较好的概率统计模型是HMM模型。因为HMM可以吸收环境和话者引起的特征参数的变动,实现非特定人的语音识别。识别模型的基元单位的选择对于识别性能也有很大的影响。对于日语和英语,以半音节、环境依存音素为模型的研究例子较多。对于汉语,则可用“声母---韵母”,也可用音节字、词等识别基元。连续语音的自动分段:连续语音的自动分段,是指从语音信号流中自动地分割出识别基元的问题。把连续的语音信号分成对应于各音的区间叫做分割(Segmentation),分割的结果产生的区间叫做分割区间(Segment),给分割区间付与表示音种的符号叫做符号化。汉语自动分段是指根据汉语特点及其参数的统计规律,设置某些参数的阈值,用计算机程序自动的进行分段。通常可用的参数有:帧平均能量、帧平均过零数、线性预测的第一个反射系数或其残差序列、音调值等。从简单、快速的要求而言,最好采用前两种时域参数即帧平均能量FN和帧平均过零数ZN。语音识别方法:当今语音识别技术的主流算法,主要有基于参数模型的隐马尔可夫模型(HMM)的方法和基于非参数模型的矢量量化(VQ)的方法。另外,基于人工神经网络(ANN)的语音识别方法,也得到了很好的应用。传统的基于动态时间伸缩的算法(DTW),在连续语音识别中仍然是主流方法。同时,在小词汇量、孤立字(词)识别系统中,也已有许多改进的DTW算法被提出。用于语音识别的距离测度有多种,如欧氏距离及其变形的欧氏距离测度、似然比测度、加权的识别测度等。选择什么样的距离测度与识别系统采用什么语音特征参数和什么样的识别模型有关,计算量和存储量的削减:对于在有限的硬件和软件资源下动作的语音识别系统,降低识别处理的计算量和存储量非常重要。当用HMM作为识别模型时,特征矢量的输出概率计算以及输入语音和语音模型的匹配搜索将占用很大的时间和空间。为了减少计算量和存储量,可以进行语音或者标准模式的矢量量化和聚类运算分析,利用代表语音特征的中心值进行匹配。在HMM语音识别系统中,识别运算时输出概率计算所消耗的计算量较大,所以可以在输出概率计算上采用快速算法。另外为了提高搜索效率,可以采用线搜索方法以及向前向后的组合搜索法等。拒识别处理:由于用户发音的错误,可能出现系统词汇表以外的单词或者句子,同时,在噪声环境下由噪音引起的语音区间检测错误也可能产生许多误识别的结果。所以在实际语音识别系统中,对信赖度低的识别结果的Rejection处理也是一个很重要的课题,可以考虑利用音节识别得到的得分补偿的方式进行拒识别处理,在这种方式中,利用在不限定识别对象的条件下求得的参考得分来补偿的识别结果,并用补偿过的识别得分进行拒识别判定。识别结果确认,候补选择:为了避免由于误识别而产生的Application的误动作,可以让用户对识别结果进行确定,或者给用户提供复数个识别结果侯选,让用户自己选择正确的结果。用户设定:一台识别系统被多个用户使用的场合。系统必须具有记忆和选择每个用户特定模型的功能。同时,每个用户可以随时在自己的词典里增加或删减单词的功能,以及系统根据一定的特征信息自动进行不同用户间的Application识别程序的切换的功能。9.2.3语音识别系统的基本数据库语音识别系统中包括大量的控制参数信息,这些参数以数据库的方式存储在计算机内,构成了语音识别系统的基本数据库。它们是通过“训练”(或叫“学习”)的方法,从单讲话者或多讲话者的多次重复发音的语音参数以及大量的语法规则中,经过长时间的训练而聚类得到的。需要指出的是,一个成功的语音识别系统的建立,一定要结合其具体的应用背景,选择不同的识别策略、以及硬件平台和软件平台。另外,更应注意的是,语音识别系统的建立应当结合语言的自然特点,否则,将很难达到较高的水平。单词词典和文法:一般来说,在多任务环境中,对于一个Application,要定义相应的单词集合,根据识别结果或Application的动作进行单词集之间的切换。在文上法要根据具体的Application,首先设定和分析输入语句的语义内容;然后,根据语义内容的句法表现、主、谓语的种类、语序、语的省略等,构造单词字典以及文法,同时,文法上的单词间的语义依存关系可以利用依存关系表格表示。通过单词词典、文法以及声学模型(如HMM)和句法分析搜索算法的共同编译,得到用于识别的系统网络。词典编辑、文法开发工具:高效的单词词典编辑、文法制作工具的开发是很重要的。可以根据不同用户的能力或具体的Application的复杂程度,提供最佳的用户接口和最适应的工具性能。API:为了使语音识别和Application更紧密的结合,实现对语音识别系统的自动控制,API是必须的。可以通过API来实现语音识别环境的切换,识别开始、终止等对识别系统的控制。9.3动态时间规整(DTW)实际上不能简单地将输入参数序列和相应的参考模板直接作比较,因为语音信号具有相当大的随机性,即使是同一个人在不同时刻所讲的同一句话、发的同一个音,也不可能具有完全相同的时间长度。在进行模板匹配时,这些时间长度的变化会影响测度的估计,从而使识别率降低,因此时间伸缩处理是必不可少的。日本学者板仓(Itakura)将动态规划(DP)算法的概念用于解决孤立词识别时的说话速度不均匀的难题,提出了著名的动态时间伸缩算法(DTW)。DTW是把时间规正和距离测度计算结合起来的一种非线性规正技术。如设:测试语音参数共有I帧矢量,而参考模板共有J帧矢量,且I不等于J,则动态时间规正就是要寻找一个时间归正函数,它将测试矢量的时间轴i非线形地映射到模板的时间轴j上,并使该函数满足:由于DTW不断地计算两矢量的距离以寻找最优的匹配路径,所以得到的是两矢量匹配是累积距离最小的规整函数,这就保证了它们之间存在最大的声学相似特性。)(ijIiiiRiTdD1)())],((),([min通常,规整函数被限制在一个平行四边形内,它的一条边的斜率为2,另一条边的斜率为1/2。规整函数的起始点为(1,1),终止点为(I,J)。的斜率为0,1或2;否则就为1或2。这是一种简单的路径限制。我们的目的是寻找一个规整函数,在平行四边形内有点(1,1)到点(I,J)具有最小代价函数。由于已经对路径进行了限制,所以计算量可相应的减少。总代价函数的计算式为:式中,为匹配点本身的代价,是在以前所有允许值(由路径限制而定)中最小的一个。因此,总代价函数是该点本身的代价与带到该点的最佳路径的代价之和。)(i)(i)]1([min)]([)]([kcDkcdkcD)]([kcd)(kc)]1([minkcD)(kc9.4孤立字(词)识别系统孤立字(词)识别系统,顾名思义是识别孤立发音的字或词。由于在孤立字(词)识别中,单词之间有停顿,可使识别问题简化;单词之间的端点检测比较容易;单词之间的协同发音影响较小;一般对孤立单词的发音都比较认真等。所以这种系统存在的问题较少,较容易实现。由于此系统本身用途甚广,且其许多技术对其他类型系统有通用性并易于推广,所以稍加补充一些知识即可用于其他类型系统(如在识别部分加用适当语法信息等,则可用于连续语音识别中)。孤立字(词)识别系统,一般是以孤立字(词)为识别单位,即直接取孤立字(词)为识别基元。它们的识别方法大致有以下几种:(1)采用判别函数或准则的方法。最典型的是贝叶斯(Bayes)准则。它是一种概率统计的方法。(2)采用DTW的方法。字音的起始点相应于路径的起始点。最优路径起点至终点的距离即为待识别语音与模板语音之间的距离。与待识语音距离最小的模板对应的字音即判为识别结果。(3)采用矢量量化技术的方法。(4)采用HMM技术的方法。(5)采用人工神经网络技术的方法。(6)采用混合技术的方法。无论何种方案,孤立

1 / 48
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功