数字语音处理及MATLAB仿真张雪英编著1VoiceRecognition010203技术简介应用领域发展前景2018年1月数字语音处理及MATLAB仿真张雪英编著2数字语音处理及MATLAB仿真张雪英编著3数字语音处理及MATLAB仿真张雪英编著4人机交互方式图形用户界面GraphicUsersInterface多点触控MultiTouch数字语音处理及MATLAB仿真张雪英编著5应用领域数字语音处理及MATLAB仿真张雪英编著6SiriGooglenow车载导航智能PDA……数字语音处理及MATLAB仿真张雪英编著7语音搜索歌曲识别语音控制家电遥控语音搜索早先的模式是我们可以通过打电话的方式查一些专项的资讯,比如天气预报或者打12315。随着服务的延伸呢,很多的企业都尽力了自己的客户专线,实际上这个时候语音信息的服务就由企业为他的用户提供,主要是产品或者服务的资讯或者售后服务。常见的有Apple的Siri和Google的GoogleNow。数字语音处理及MATLAB仿真张雪英编著8语音搜索歌曲识别语音控制家电遥控生活中,时常听到很熟悉的旋律,却想不出歌曲的名字。这个时候我们就可以直接利用语音识别功能来查找相关歌曲,常见的有微信摇一摇搜歌,以及其他音乐播放软件的搜索功能。数字语音处理及MATLAB仿真张雪英编著9语音搜索歌曲识别语音控制家电遥控由于在汽车的行驶过程中,驾驶员的手必须放在方向盘上,因此在汽车上拨打电话,需要使用具有语音拨号功能的免提电话通信方式。此外,对汽车的卫星导航定位系统(GPS)的操作,汽车空调、照明以及音响等设备的操作,同样也可以由语音来方便的控制。数字语音处理及MATLAB仿真张雪英编著10语音搜索歌曲识别语音控制家电遥控用语音可以控制电视机、DVD、空调、电扇、窗帘的操作,而且一个遥控器就可以把家中的电器皆用语音控起来,这样,可以让令人头疼的各种电器的操作变得简单易行。数字语音处理及MATLAB仿真张雪英编著11数字语音处理及MATLAB仿真张雪英编著12数字语音处理及MATLAB仿真张雪英编著13发展前景语音识别系统的出现,会让人更加自由的沟通,让人在任何地方,任何时间,对任何事都能够通过语音交互的方式,方便地享受到更多的社会信息资源和现代化服务。这必然会成为语音识别技术研究和应用的重要发展趋势。数字语音处理及MATLAB仿真张雪英编著14发展前景但任何技术的成熟都会经历一段很长时间的发展期,所以目前依然有识别率、可靠性及成本等问题亟待人们去克服。数字语音处理及MATLAB仿真张雪英编著15数字语音处理及MATLAB仿真张雪英编著16数字语音处理及MATLAB仿真张雪英编著17主要问题⒈对自然语言的识别和理解。首先必须将连续的讲话分解为词、音素等单位,其次要建立一个理解语义的规则。⒉语音信息量大。语音模式不仅对不同的说话人不同,对同一说话人也是不同的,例如,一个说话人在随意说话和认真说话时的语音信息是不同的。一个人的说话方式随着时间变化。数字语音处理及MATLAB仿真张雪英编著18主要问题⒊语音的模糊性。说话者在讲话时,不同的词可能听起来是相似的。这在英语和汉语中常见。4.环境噪声和干扰对语音识别有严重影响,致使识别率低。数字语音处理及MATLAB仿真张雪英编著19语音识别概述1HMM基本原理及在语音识别中的应用2数字语音处理及MATLAB仿真张雪英编著2010.1概述语音识别以语音为研究对象,涉及到生理学、心理学、语言学、计算机科学,以及信号处理等诸多领域,最终目的是实现人与机器进行自然语言通信,用语言操纵计算机。语音识别系统可以分为孤立字(词)语音识别系统、连接字语音识别系统以及连续语音识别系统。数字语音处理及MATLAB仿真张雪英编著21语音识别系统分为两个方向:一是根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统;二是根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量,以及无限词汇量语音识别系统。不同的语音识别系统,尽管设计和实现的细节不同,但所采用的基本技术是相似的。一个典型的语音识别系统如下页图所示。主要包括预处理、特征提取和训练识别网络。数字语音处理及MATLAB仿真张雪英编著22输入预处理特征提取训练识别网络输出语音识别系统组成部分图示数字语音处理及MATLAB仿真张雪英编著2310.1.1预处理在语音识别系统中,语音信号预处理主要包括抗混叠滤波、预加重及端点检测等。1.抗混叠滤波与预加重语音信号的频谱分量主要集中在300~3400Hz范围内。因此需用一个防混叠的带通滤波器将此范围内的语音信号的频谱分量取出,然后对语音信号进行采样,得到离散的时域语音信号。数字语音处理及MATLAB仿真张雪英编著24抗混叠滤波根据采样定理,如果模拟信号的频谱的带宽是有限的,那么用等于或高于2fm的取样频率进行采样,所得到的信号能够完全唯一的代表原模拟信号,或者说能够由取样信号恢复出原始信号。因此,为了防止混叠失真和噪声干扰,必须在采样前用一个锐截止模拟低通滤波器对语音信号进行滤波。该滤波器称为反混叠滤波器或去伪滤波器。数字语音处理及MATLAB仿真张雪英编著25预加重语音从嘴唇辐射会有6dB/oct的衰减,因此在对语音信号进行处理之前,希望能按6dB/oct的比例对信号加以提升(或加重),以使得输出信号的电平相近似。可采用以下差分方程定义的数字滤波器:()()(1)ynxnaxn(10-1)式中,系数常在0.9至1之间选取。数字语音处理及MATLAB仿真张雪英编著262.端点检测语音信号起止点的判别是任何一个语音识别系统必不可少的组成部分。常用的端点检测方法有下面两种。数字语音处理及MATLAB仿真张雪英编著27(1)短时平均幅度端点检测中需要计算信号的短时能量,由于短时能量的计算涉及到平方运算,而平方运算势必扩大了振幅不等的任何相邻取样值之间的幅度差别,这就给窗的宽度选择带来了困难,而用短时平均幅度来表示语音能量,在一定程度上可以克服这个弊端。数字语音处理及MATLAB仿真张雪英编著28(2)短时平均过零率当离散信号的相邻两个取样值具有不同的符号时,便出现过零现象,单位时间内过零的次数叫做过零率。如果离散时间信号的包络是窄带信号,那么过零率可以比较准确的反应该信号的频率。在宽带信号情况下,过零率只能粗略的反映信号的频谱特性。数字语音处理及MATLAB仿真张雪英编著2910.1.2语音识别特征提取特征提取,也称为前端处理,与之相关的内容则是特征间的距离度量。特征提取:即对不同的语音寻找其内在特征,由此来判别出未知语音,所以每个语音识别系统都必须进行特征提取。特征的选择对识别效果至关重要。同时,还要考虑特征参数的计算量。数字语音处理及MATLAB仿真张雪英编著30孤立词语音识别系统的特征提取一般需要解决两个问题:一个是从语音信号中提取(或测量)有代表性的合适的特征参数(即选取有用的信号表示);另一个是进行适当的数据压缩。对于非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息(对特定人语音识别来讲,则相反)。从信息论角度讲,这也是信息压缩的过程。数字语音处理及MATLAB仿真张雪英编著31语音信号的特征主要有时域和频域两种。时域特征:短时平均能量、短时平均过零率、共振峰、基音周期等;频域特征:线性预测系数(LPC)、LP倒谱系数(LPCC)、线谱对参数(LSP)、短时频谱、Mel频率倒谱系数(MFCC)等。目前已有结合时间和频率的特征,即时频谱,充分利用了语音信号的时序信息;以及基于听觉模型的特征参数提取,如感知线性预测(PLP)分析。数字语音处理及MATLAB仿真张雪英编著321.线性预测系数(LPC)线性预测分析从人的发声机理入手,通过对声道的短管级联模型的研究,认为系统的传递函数符合全极点数字滤波器的形式,从而某一时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方误差(MSE)最小,即可得到线性预测系数LPC。数字语音处理及MATLAB仿真张雪英编著33根据语音产生的模型,语音信号S(z)是一个线性非移变因果稳定系统V(z)受到信号E(z)激励产生的输出。在时域中,语音信号s(n)是该系统的单位取样响应v(n)和激励信号e(n)的卷积。语音产生的声道模型是一个可用下式阐述的全极点模型:pkkkzazH111)(数字语音处理及MATLAB仿真张雪英编著34根据最小均方误差对该模型参数ak进行估计,就得到了线性预测编码(LPC)算法,求得的即为LP系数(p为预测器阶数)。对LPC的计算方法有自相关法(Levinson-Durbin莱文逊-杜宾法)、协方差法、格型法等。计算上的快速有效保证了这一声学特征的广泛使用。paˆ数字语音处理及MATLAB仿真张雪英编著352.LPC倒谱系数(LPCC)倒谱系数是信号的z变换的对数模函数的逆z变换,一般先求信号的傅里叶变换,取模的对数,再求傅里叶逆变换得到。主要优点:比较彻底地去掉了语音产生过程中的激励信息,反映了声道响应,而且往往只需要几个倒谱系数就能够很好地描述语音的共振峰特性。数字语音处理及MATLAB仿真张雪英编著363.Mel频率倒谱系数(MFCC)Mel频率倒谱系数是先将信号频谱的频率轴转变为Mel刻度,再变换到倒谱域得到倒谱系数。其计算过程如下:(1)将信号进行短时傅立叶变换得到其频谱。(2)求频谱幅度的平方,即能量谱,并用一组三角滤波器在频域对能量进行带通滤波。(3)对滤波器的输出取对数,然后作2M点傅立叶逆变换即可得到MFCC。数字语音处理及MATLAB仿真张雪英编著37这里,MFCC系数的个数L通常取最低的12~16。在谱失真测度定义中通常不用0阶倒谱系数,因为它是反映倒谱能量的。上面所说的在频域进行带通滤波是对能量谱进行滤波,这样做的根据是考虑到一个多分量信号的总能量应该是各个正交分量的能量之和。1log()cos[(0.5)/]1,2,MnkCXkknMnL数字语音处理及MATLAB仿真张雪英编著384.过零峰值幅度(ZCPA)特征参数的好坏直接决定着系统的识别性能。要想使识别系统有好的鲁棒性,必须要求提取的特征参数有很强的抗噪性。人类的听觉系统在噪音环境下能够很好工作,所以如果语音识别系统能模拟人类听觉感知的处理特点,噪音环境下识别率一定会提高。数字语音处理及MATLAB仿真张雪英编著39近年来,基于听觉模型的语音特征提取方法在语音识别领域日益受到重视。过零峰值幅度特征ZCPA就是基于人类听觉特性的一种特征。下图给出了基于人耳听觉特性的ZCPA特征提取原理图:数字语音处理及MATLAB仿真张雪英编著40ZCPA原理框图x(n)耳蜗滤波器M…………耳蜗滤波器2耳蜗滤波器1ZCPA(t,f)……耳蜗滤波器i过零点检测器频率接收器峰值检测器非线性处理∑数字语音处理及MATLAB仿真张雪英编著41该系统由带通滤波器组、过零检测器、峰值检测器、非线性压缩和频率接收器组成。带通滤波器组由16个FIR滤波器组成,用来仿真耳蜗基底膜;过零检测器、峰值检测器、非线性压缩部分则仿真听觉神经纤维。从过零检测器获得频率信息,峰值检测器获得强度信息,经非线性压缩后,用频率接收器合成频率信息和强度信息,最后将16路所获得的信息合成为语音信号的特征。数字语音处理及MATLAB仿真张雪英编著4210.1.3语音识别方法一般来说,语音识别的方法有四种:基于声道模型和语音知识的方法模式匹配的方法统计模型方法人工神经网络的方法基于声道模型和语音知识的方法起步较早,没有达到实用的阶段。目前常用的方法是后三种方法,目前它们都已达到了实用阶段。数字语音处理及MATLAB仿真张雪英编著43模式匹配常用的技术有矢量量化(VQ)和动态时间规整(DTW);统计型模型方法常见的是隐马尔可夫模型(HMM);语音识别常用的神经网络有反向传播(BP)网络、径向基函数网络(RBF)及小波网络。本书重点介绍经典的隐马尔可夫模型及其在语音识别中的应用。数字语音处理