第四章语音识别技术---语音识别系统语音识别技术是让机器接收,识别和理解语音信号,并将其转换成相应的数字信号的技术音别技术是门涉相应的数字信号的技术语音识别技术是一门涉及面很广的交叉学科。它与声学、语音语言学、数理统计、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。应用本章主要内容(1)阐述语音识别的基本原理,包括语音识别的特征提取模式库的建立模式匹配等过程特征提取,模式库的建立,模式匹配等过程。(2)详细介绍了语音识别目前常用的算法,模板匹配法、动态时间规整、隐马尔可夫模型、人工神经网络。(3)利用微软提供的语音程序开发包,基于VisualBasic高级语言开发环境,实现了对语音文Vsuaasc高级语言开发环境,实现了对语音文件的识别和麦克风语音录入的识别4.1语音识别的基本原理开始于1950’s,贝尔实验室实现了第一个可识别十个英文数字的语音识别系统——Audry系统。数字的语音识别系统Audry系统。60年代深远影响,提出了动态规划(DP)和线性预测分析技术(LP),后者较好地解决了语音信号产生模型的问题。析技术(LP),后者较好地解决了语音信号产生模型的问题。70年代有所突破,实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。80年代进一步深入,其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。进入90年代高速发展时期,在某些领域渐渐成熟并迅速市场化,许多发达国家的著名公司都为语音识别系统的实用化开发研究投以巨资化开发研究投以巨资。语音识别系统分类从不同的角度对进行:从说的式来看根据说时与间有停顿从说话的方式来看,根据说话时词与词之间有无停顿而分为孤立词识别和连续词识别;根据使用的对象不同分为针对特定人的识别系统和面根据使用的对象不同,分为针对特定人的识别系统和面向所有人的识别系统;根据词汇表的大小分为小词汇表(词汇量小于100)根据词汇表的大小分为小词汇表(词汇量小于100)、中词汇表(词汇量在100和1000之间)和大词汇表(1000词以上);(000词以上);按照识别的方法分为:模板匹配法、概率模型法、基于人工神经网络、支持向量机等。人类的语音过程分为:语音产生和信源传输过程。语音识别器恰好是人类的语音识别的逆过程:声学特征抽取和语音解码。语音识别过程一般分为两个步骤:学习阶段和识别阶段。学习阶段的任务是建立识别基本单元的声学模型以及语言模型以及语言模型。识别阶段是将输入的目标语音的特征参数和模型进行比较得到识别结果比较,得到识别结果。语音识别过程声学模式字典语言模型语音采预处理数字化逐帧模式匹配识别结果识别采集预处理数字化特征提取模型库训练别前端后端前端后端)(nS采样1.82矩形窗0.91hanming窗分帧11.21.41.6w(n)0.50.60.70.8w(n)加窗020406000.20.40.60.8020406000.10.20.30.4端点检测0204060sample0204060sample{1,00,()nNwn≤=其他0.540.46cos(2),010,()nnNNwnπ−≤−⎧⎨⎩其他=端点检测⎩特征提取后端是个跨数据库的搜索过程,分为训练和识别。训练,是在识别之前通过让讲话者多次重复语音,训练是在识别之前通过讲话者多次重复语音从原始语音样本中去除冗余信息,保留关键数据,再按照一定规则对数据加以聚类,形成模式库。识别部分是根据一定规则(如某种距离测度)计算输入特征与库存模式之间的相似度(如匹配距离、似然概率),判断出输入语音的语意信息。识别是在声学模型、语言模型和字典的基础上,识别特定用户的语音模型和发音环境的特征。语言模型是对语言库单词规则化的概率模型。字典列出了大量的单词及发音规则。总体上说,语音识别是一个模式识别匹配的过程。计算机首先要根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的模式库。然后,在识别过程中,将计算机中已经存有的语音模,,式与输入语音信号的特征进行比较,并根据一定的搜索和匹配策略找出一系列最优的与输入语音匹配的模式。最后通过查表和判决算法给出识别结果。显然,识别结果与语音特征的选择、语音模型和语言模型的好坏、模板是否准确都有直接的关系。4.1.2特征提取特征提取就是要从语音波形中提取出重要的反映语音特征的相关信息而去掉那些相对无关的信息语音特征的相关信息,而去掉那些相对无关的信息,如背景噪声、信道失真等,并把这些信息转换为一组离散的参数矢量组离散的参数矢量。目前比较常用的两种方法是基于声道模型的线性预测倒谱技术(LinearPredictiveCepstralCoefficientsLPCC)和基于听觉机理的Mel频率倒谱技术(MelFrequencyCepstralCoefficientsMFCC)。(1)线性预测倒谱技术线性预测分析的基本思想在于:语音信号相邻的采样点之间有很强的相关性因此每个语音信号的采样值可以用间有很强的相关性。因此,每个语音信号的采样值,可以用它前面的若干个采样值的加权和(线性组合)来近似表示:预测误差定义为真实采样值和预测值之差,根据预测误差预测误差定义为真实采样值和预测值之差,根据预测误差均方值最小准则,可以唯一确定一组线性预测系数(预测系数即为线性组合的加权值)。预处理LPC计算LPCC计算参数输出预处理LPC计算LPCC计算LPC计算如果利用P个取样值来进行预测,则称为P阶线性预测。假设用过去P个取样值的加权之和来预测()()(){}12SnSnSnp假设用过去P个取样值的加权之和来预测信号当前取样值,则预测信号()()(){}1,2,SnSnSnp−−−K()Sn)()(ˆkSSp∑)(min)(ˆ)()()()(21nenSnSneknSanSkk⇒−=−=∑=误差)(min)()()(nenSnSne⇒误差显然,误差越接近于零,线性预测的准确度在均方误差最小的意义上为最佳,由此可以计算出预测系数。通过LPC分析,由若干帧语音可以得到若干组C参数每组参数形成个描绘该帧语音特征LPC参数,每组参数形成一个描绘该帧语音特征的矢量,即LPC特征矢量。由LPC特征矢量可以进步得到很多种派生特征矢量如线性预测倒进一步得到很多种派生特征矢量,如线性预测倒谱系数11111ncak−=⎧⎪⎨⎛⎞≤⎜⎟⎪∑11,1nnknkkcaacnpn−=⎛⎞=−−≤⎜⎟⎪⎝⎠⎩∑(2)Mel频率倒谱Mel频率倒谱充分考虑了人耳的听觉特性,MFCC参数表示人对声音高低的感受是种主观感受用客数表示人对声音高低的感受是一种主观感受。用客观度量来表征这种主观感受就采用了Mel标度。参数与相比的优点MFCC参数与LPCC相比的优点:1)语音的信息大多集中在低频部分,而高频部分易受环境噪声干扰参数将线性频标转化为基于境噪声干扰。MFCC参数将线性频标转化为基于Mel标度的非线性频谱,强调语音的低频信息,从而突出了有利于识别的信息屏蔽了噪声干扰了有利于识别的信息,屏蔽了噪声干扰。2)MFCC没有任何前提假设,在各种情况下均可使用。识别性能和噪声鲁棒性优于LPCC识别性能和噪声鲁棒性优于LPCC。预加重DFT、FFTLogMEL频率滤波DCT求倒谱预加重g率滤波器组求倒谱MFCC的计算过程的具体步骤如下:首先将一帧语音信号经过预加重后再通过FFT变换,取模的平方得其功率谱S(n)。计算S(n)通过M个三角滤波器(Hm(n))后所得到的功率值。功率值再对其取自然对数,得到Lm,m=0,1……m-1进行DCT离散余弦变换得到d0d1d2dm再进行DCT离散余弦变换,得到d0,d1,d2……dm,再舍去其直流成分d0,将d0,d1,d2……dm-1作为MFCCMFCC。4.1.3模型库的建立该模块发生在训练阶段,用户输入若干次语音训练样本系统经过上述预处理和特征提取后得到特征矢量本,系统经过上述预处理和特征提取后得到特征矢量参数,从原始语音样本中去除冗余信息,保留关键数据按照一定规则对数据加以聚类形成模型库据,,按照一定规则对数据加以聚类,形成模型库。4.1.4模式匹配技术模式匹配又称相似度度量,是指根据一定准则,使未知模式与模型库中某模型获得最佳匹配未知模式与模型库中某一模型获得最佳匹配。该模块是在语音识别阶段,将输入语音的特征矢量参数和参考模式库中的模式进行相似度量比较,将相似度最高的模式所属的类别作为识别的中间候选结果输出。4.2语音识别的主要算法语音识别常用的算法主要有模式匹配法、动态时间规整(DynamicTimeWarping,DTW)、基于统计的隐马尔可夫模型(HiddenMarkovModel简称HMM)、Model简称HMM)、人工神经网络法(ArtificialNeuralNet,ANN)等等等等4.2.1模式匹配法多维模式识别中最常用的一种相似度计算方法。在训练过程中,经过特征提取和特征维数的压缩,并采用聚类方法或其他的方法,针对每个模式类各产生一个或几个模板。识别阶段将待识别模式的特征矢量与各个模板进识别阶段将待识别模式的特征矢量与各个模板进行相似度的计算,然后判断它属于那一个类。模式匹配法一般将语音或单词作为识别单元,一般适用于词汇表较小的场合般适用于词汇表较小的场合。采用聚类方法或其他方法,针对每个模式类各产生一个或几个模板。识别阶段将待识别的语音模式的特征参数与各模板进行相似度的计算,将最高相似者作为识别结果。但由于用户在不同时刻发同一个音的时间长度有但由于用户在不同时刻发同个音的时间长度有较大随意性,所以识别时必须对语音时间进行伸缩处理。缩处理4.2.2动态时间规整由日本学者板仓在上世纪七十年代提出的,能较好的解决小词汇量孤独词识别时说话速度不均匀的难题解决小词汇量、孤独词识别时说话速度不均匀的难题。是一种柔性的模式匹配算法,可用于对两个动态样本进行比较这两个样本可能是不完全匹配的具有扩进行比较。这两个样本可能是不完全匹配的、具有扩展或压缩了的相关性。采用动态规划原理对两个样本进行非线性规整DTW采用动态规划原理对两个样本进行非线性规整,对其相似之处进行匹配,以得到两个样本之间的最小距离所采用的技术是对两个样本中的些向量进距离。所采用的技术是:对两个样本中的一些向量进行移动、压缩或扩展,最终使两个样本间的距离达到极小极小。目前来看,动态时间规整(DynamicTime)可能是个最为小巧的语音识别Warping,DTW)可能是一个最为小巧的语音识别的算法。其系统开销小,识别速度快,在对付小词量的音命令控制系统中是个非常有效的算汇量的语音命令控制系统中是一个非常有效的算法。但是,如果系统稍微复杂一些,这种算法就显得力不从心了。423基于统计的隐马尔可夫模型4.2.3基于统计的隐马尔可夫模型(HiddenMarkovModel简称HMM)由Markov链发展而来,Markov链是隐马尔可夫模型的基础模型的基础。Markov链是马尔可夫随机过程的特殊情况,马尔可夫链是状态和时间都离散的Markov过程。程这类随机过程中,随机变量所处的某一个时刻的状态只与前面一时刻的状态有关。刻的状态只与前面时刻的状态有关。Markov过程过程X(t):如右图所示时间时刻时间:tn时刻状态:xn,为X(tn)的所有可能取值状态空间状态空间:I={x1,x2,……xn-1,xn}马尔可夫过程具有如下属性(马尔可夫性)n+1n+1nnn-1n-111n+1n+1nnP{X(t)=x|X(t)=x,X(t)=x,,X(t)=x}=P{X(t)=x|X(t)=x}Kn1n1nn12n-1nn+1WheretttttKMarkov链离散的时间对应离散的状态n1122n-1n-1nn-1n-1P{X=j|X=i,X=i,,X=i}=P{X=j|X=i}n=1,2,3,LL状态空间I={i1,i2,……in1,in}n