语音识别

coolkyubi
3 ℃
2020-03-04

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

数字语音处理及MATLAB仿真张雪英编著1第十章语音识别10.1概述110.2HMM基本原理及在语音识别中的应用2数字语音处理及MATLAB仿真张雪英编著210.1概述语音识别以语音为研究对象，涉及到生理学、心理学、语言学、计算机科学，以及信号处理等诸多领域，最终目的是实现人与机器进行自然语言通信，用语言操纵计算机。语音识别系统可以分为孤立字(词)语音识别系统、连接字语音识别系统以及连续语音识别系统。数字语音处理及MATLAB仿真张雪英编著3语音识别系统分为两个方向：一是根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统；二是根据词汇量大小，可以分为小词汇量、中等词汇量、大词汇量，以及无限词汇量语音识别系统。不同的语音识别系统，尽管设计和实现的细节不同，但所采用的基本技术是相似的。一个典型的语音识别系统如下页图所示。主要包括预处理、特征提取和训练识别网络。数字语音处理及MATLAB仿真张雪英编著4输入预处理特征提取训练识别网络输出语音识别系统组成部分图示数字语音处理及MATLAB仿真张雪英编著510.1.1预处理在语音识别系统中，语音信号预处理主要包括抗混叠滤波、预加重及端点检测等。1．抗混叠滤波与预加重语音信号的频谱分量主要集中在300～3400Hz范围内。因此需用一个防混叠的带通滤波器将此范围内的语音信号的频谱分量取出，然后对语音信号进行采样，得到离散的时域语音信号。数字语音处理及MATLAB仿真张雪英编著6抗混叠滤波根据采样定理，如果模拟信号的频谱的带宽是有限的，那么用等于或高于2fm的取样频率进行采样，所得到的信号能够完全唯一的代表原模拟信号，或者说能够由取样信号恢复出原始信号。因此，为了防止混叠失真和噪声干扰，必须在采样前用一个锐截止模拟低通滤波器对语音信号进行滤波。该滤波器称为反混叠滤波器或去伪滤波器。数字语音处理及MATLAB仿真张雪英编著7预加重语音从嘴唇辐射会有6dB/oct的衰减，因此在对语音信号进行处理之前，希望能按6dB/oct的比例对信号加以提升(或加重)，以使得输出信号的电平相近似。可采用以下差分方程定义的数字滤波器：()()(1)ynxnaxn(10-1)式中，系数常在0.9至1之间选取。数字语音处理及MATLAB仿真张雪英编著82．端点检测语音信号起止点的判别是任何一个语音识别系统必不可少的组成部分。常用的端点检测方法有下面两种。数字语音处理及MATLAB仿真张雪英编著9(1)短时平均幅度端点检测中需要计算信号的短时能量，由于短时能量的计算涉及到平方运算，而平方运算势必扩大了振幅不等的任何相邻取样值之间的幅度差别，这就给窗的宽度选择带来了困难，而用短时平均幅度来表示语音能量，在一定程度上可以克服这个弊端。数字语音处理及MATLAB仿真张雪英编著10(2)短时平均过零率当离散信号的相邻两个取样值具有不同的符号时，便出现过零现象，单位时间内过零的次数叫做过零率。如果离散时间信号的包络是窄带信号，那么过零率可以比较准确的反应该信号的频率。在宽带信号情况下，过零率只能粗略的反映信号的频谱特性。数字语音处理及MATLAB仿真张雪英编著1110.1.2语音识别特征提取特征提取，也称为前端处理，与之相关的内容则是特征间的距离度量。特征提取：即对不同的语音寻找其内在特征，由此来判别出未知语音，所以每个语音识别系统都必须进行特征提取。特征的选择对识别效果至关重要。同时，还要考虑特征参数的计算量。数字语音处理及MATLAB仿真张雪英编著12孤立词语音识别系统的特征提取一般需要解决两个问题：一个是从语音信号中提取(或测量)有代表性的合适的特征参数(即选取有用的信号表示)；另一个是进行适当的数据压缩。对于非特定人语音识别来讲，希望特征参数尽可能多的反映语义信息，尽量减少说话人的个人信息(对特定人语音识别来讲，则相反)。从信息论角度讲，这也是信息压缩的过程。数字语音处理及MATLAB仿真张雪英编著13语音信号的特征主要有时域和频域两种。时域特征：短时平均能量、短时平均过零率、共振峰、基音周期等；频域特征：线性预测系数(LPC)、LP倒谱系数(LPCC)、线谱对参数(LSP)、短时频谱、Mel频率倒谱系数(MFCC)等。目前已有结合时间和频率的特征，即时频谱，充分利用了语音信号的时序信息；以及基于听觉模型的特征参数提取，如感知线性预测(PLP)分析。数字语音处理及MATLAB仿真张雪英编著141．线性预测系数（LPC）线性预测分析从人的发声机理入手，通过对声道的短管级联模型的研究，认为系统的传递函数符合全极点数字滤波器的形式，从而某一时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方误差(MSE)最小，即可得到线性预测系数LPC。数字语音处理及MATLAB仿真张雪英编著15根据语音产生的模型，语音信号S(z)是一个线性非移变因果稳定系统V(z)受到信号E(z)激励产生的输出。在时域中，语音信号s(n)是该系统的单位取样响应v(n)和激励信号e(n)的卷积。语音产生的声道模型是一个可用下式阐述的全极点模型：pkkkzazH111)(数字语音处理及MATLAB仿真张雪英编著16根据最小均方误差对该模型参数ak进行估计，就得到了线性预测编码(LPC)算法，求得的即为LP系数(p为预测器阶数)。对LPC的计算方法有自相关法(Levinson-Durbin莱文逊-杜宾法)、协方差法、格型法等。计算上的快速有效保证了这一声学特征的广泛使用。paˆ数字语音处理及MATLAB仿真张雪英编著172．LPC倒谱系数(LPCC)倒谱系数是信号的z变换的对数模函数的逆z变换，一般先求信号的傅里叶变换，取模的对数，再求傅里叶逆变换得到。主要优点：比较彻底地去掉了语音产生过程中的激励信息，反映了声道响应，而且往往只需要几个倒谱系数就能够很好地描述语音的共振峰特性。数字语音处理及MATLAB仿真张雪英编著183．Mel频率倒谱系数(MFCC)Mel频率倒谱系数是先将信号频谱的频率轴转变为Mel刻度，再变换到倒谱域得到倒谱系数。其计算过程如下：(1)将信号进行短时傅立叶变换得到其频谱。(2)求频谱幅度的平方，即能量谱，并用一组三角滤波器在频域对能量进行带通滤波。(3)对滤波器的输出取对数，然后作2M点傅立叶逆变换即可得到MFCC。数字语音处理及MATLAB仿真张雪英编著19这里，MFCC系数的个数L通常取最低的12～16。在谱失真测度定义中通常不用0阶倒谱系数，因为它是反映倒谱能量的。上面所说的在频域进行带通滤波是对能量谱进行滤波，这样做的根据是考虑到一个多分量信号的总能量应该是各个正交分量的能量之和。1log()cos[(0.5)/]1,2,MnkCXkknMnL数字语音处理及MATLAB仿真张雪英编著204.过零峰值幅度(ZCPA)特征参数的好坏直接决定着系统的识别性能。要想使识别系统有好的鲁棒性，必须要求提取的特征参数有很强的抗噪性。人类的听觉系统在噪音环境下能够很好工作，所以如果语音识别系统能模拟人类听觉感知的处理特点，噪音环境下识别率一定会提高。数字语音处理及MATLAB仿真张雪英编著21近年来，基于听觉模型的语音特征提取方法在语音识别领域日益受到重视。过零峰值幅度特征ZCPA就是基于人类听觉特性的一种特征。下图给出了基于人耳听觉特性的ZCPA特征提取原理图：数字语音处理及MATLAB仿真张雪英编著22ZCPA原理框图x(n)耳蜗滤波器M…………耳蜗滤波器2耳蜗滤波器1ZCPA(t,f)……耳蜗滤波器i过零点检测器频率接收器峰值检测器非线性处理∑数字语音处理及MATLAB仿真张雪英编著23该系统由带通滤波器组、过零检测器、峰值检测器、非线性压缩和频率接收器组成。带通滤波器组由16个FIR滤波器组成，用来仿真耳蜗基底膜；过零检测器、峰值检测器、非线性压缩部分则仿真听觉神经纤维。从过零检测器获得频率信息，峰值检测器获得强度信息，经非线性压缩后，用频率接收器合成频率信息和强度信息，最后将16路所获得的信息合成为语音信号的特征。数字语音处理及MATLAB仿真张雪英编著2410.1.3语音识别方法一般来说，语音识别的方法有四种：基于声道模型和语音知识的方法模式匹配的方法统计模型方法人工神经网络的方法基于声道模型和语音知识的方法起步较早，没有达到实用的阶段。目前常用的方法是后三种方法，目前它们都已达到了实用阶段。数字语音处理及MATLAB仿真张雪英编著25模式匹配常用的技术有矢量量化（VQ）和动态时间规整（DTW）；统计型模型方法常见的是隐马尔可夫模型(HMM)；语音识别常用的神经网络有反向传播（BP）网络、径向基函数网络（RBF）及小波网络。本书重点介绍经典的隐马尔可夫模型及其在语音识别中的应用。数字语音处理及MATLAB仿真张雪英编著26模式匹配法用于语音识别共有四个步骤:特征提取、模板训练、模板分类、判决。其原理框图如下：识别结果识别语音信号预处理特征提取模式匹配参考模式判决规则S训练数字语音处理及MATLAB仿真张雪英编著27训练过程：输入语音经过预处理后，语音信号的特征被提取出来，首先在此基础上建立所需的模板，这个建立模板的过程称为训练过程。识别过程：根据语音识别整体模型，将输入的语音信号特征与存在的语音模板（参考模式）进行比较，找出一系列最优的与输入的语音相匹配的模板。然后，根据此模板号的定义，通过查表就可以给出计算机的识别结果。数字语音处理及MATLAB仿真张雪英编著28动态时间规整（DTW）算法的思想：把未知量均匀地伸长或缩短，直到它与参考模式的长度一致时为止。在时间规整过程中，未知单词的时间轴要不均匀地扭曲或弯折，以便使其特征与模型特征对正。DTW应用动态规划方法在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统，目前已被HMM模型和ANN替代。数字语音处理及MATLAB仿真张雪英编著29隐马尔可夫模型是对语音信号的时间序列结构建立统计模型，将之看作一个数学上的双重随机过程：一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程，另一个是与Markov链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来，但前者的具体参数是不可测的。数字语音处理及MATLAB仿真张雪英编著30基于HMM的孤立词语音识别原理图用于训练语音信号用于识别语音信号训练识别训练语音的特征矢量K均值聚类分析矢量量化器HMM参数Viterbi计算判决规则待识别语音的特征矢量码本元素识别结果训练识别特征提取数字语音处理及MATLAB仿真张雪英编著31采用HMM进行语音识别，实质上是一种概率运算。根据训练集数据计算得出模型参数后，测试集数据只需分别计算各模型的条件概率（Viterbi算法），取此概率最大者即为识别结果。除训练时需运算量较大外，识别时的运算量仅有模式匹配法的几分之一。数字语音处理及MATLAB仿真张雪英编著32人工神经网络（ANN）在语音识别中的应用是当前研究的热点。人工神经网络本质上是一个自适应非线性动力学系统，模拟了人类神经元活动的原理，具有自适应性、并行性、鲁棒性、容错性和学习特性。目前用于语音识别的神经网络有多层感知机，Kohonen自组织神经网和预测神经网。数字语音处理及MATLAB仿真张雪英编著33由于神经网络反映了人脑功能的基本特征，具有自组织性、自适应性、和连续学习的能力。这种网络是可以训练的，即可以随着经验的积累而改变自身的性能。同时由于高度的并行性，它们能够进行快速判决并具有容错性，特别适合于解决象语音识别这类难以用算法来描述而又有大量样本可供学习的问题。数字语音处理及MATLAB仿真张雪英编著34基于神经网络的语音识别原理图待识别的语音数据权值w根据标号训练网络得出权值已有神经网络模型输出结果特征提取用于训练的语音数据数字语音处理及MATLAB仿真张雪英编著35神经网络的语音识别方法与传统方法差异：提取了语音的特征参数后，靠神经网络中大量的连接权对输入模式进行非线性运算，产生最