吉林工程技术师范学院课程设计论文1第一章语音信号处理概述1.1语音信号处理简介语音识别技术以语音信号处理为研究对象,涉及语言学、计算机科学、信号处理、生理学、心理学等诸多领域,是模式识别的重要分支。该技术有非常广阔的应用前景,从60年代至今,世界许多著名公司不惜投入巨资进行开发研究。我国的北京大学和中科院声学研究所一直紧跟国际水平,进行汉语语音识别技术的研究工作。50年代,是语音识别研究工作的开始时期,它以贝尔实验室研制成功可识别十个数字的系统为标志。60年代,计算机广泛应用于语音识别的研究工作中,动态规划和线性预测分析技术是这一时期的重要成果。70年代,语音识别的研究取得了突破性进展。基于线性预测倒谱和动态时间规整技术的特定人孤立语音识别系统被研制成功,提出了矢量量化和隐马尔可夫模型理论。80年代,语音识别的研究工作进一步深入。其标志是人工神经元网络在语音识别中的成功应用。90年代,随着计算机技术的飞速发展,语音识别正从研究走向实用,其研究成果已达到相当高的水平。2000年,正象美国微软公司总裁所说的那样,语音识别技术将使计算机丢掉键盘和鼠标。这无疑将改变我们许多人的工作和生活方式。1.2语音信号处理的前景尽管语音识别的研究工作迄今已近50年,但仍未有突破性进展,主要原因如下:语音识别系统的适应性差。全世界有近百种官方语言,每种语言有多达几十种方言,同种语言的不同方言在语音上相差悬殊,这样,随着语言环境的改变,系统性能会变得很差。在强噪声干扰环境下语音识别困难。由于语音数据大部分都是在接近理想的条件下采集的,语音识别的编码方案在研制时都要在高保真设备上录制语音,尤其要在无噪环境下录音。然而,当语音处理由实验室走向实际应用时,环境噪声的存在所带来的问题就变得越来越重要。特别是线性预测作为语音处理技术中最有效的手段,恰恰是最容易受噪声影响的。体态语言难以识别。有人在讲话时习惯用眼神、手势、面部表情等动作协助表达自己的思想。由于这种体态语言的含义与个人习惯、文化背景、宗教信仰及生存地域等因素有关,其信息提取非常困难。吉林工程技术师范学院课程设计论文2对于人类由中枢神经控制的记忆机理、听觉理解机理、联想判断机理等,人们目前仍知之甚少。1.3语音识别系统根据对说话人说话方式的要求,可分为孤立词语音识别系统,连接词语音识根据对说话人的依赖程度,可分为特定人语音识别系统和非特定人语音识别系统。根据词汇量大小,可分为小词汇量、中等词汇量、大词汇量及无限词汇量语音识别系统。孤立单词识别系统,孤立单词指单词之间有停顿,这可使识别问题大为简化。因为单词的端点检测(即检测单词的起点和终点)比较容易,而且单词之间协同发音影响可减至最低。此外,一般对孤立单词发音比较认真,由于单词之间必须有停顿,读起来就不能太流利。鉴于以上原因,孤立单词识别系统存在的问题最少,其许多技术可以用于单词挑选和连续语音识别系统。连续语音识别系统有两个重要问题是孤立单词识别系统所没有的:切分,即对单词之间边界位置的确定。因为语言中短语的数量太大,对整个短语进行识别显然是不可能的,必须把输入的语流切分为更小的组成部分。这就要求系统必须能够识别单词之间的边界。这一点比较困难,因为确定单词之间的边界位置没有现成的方法。发音变化,即关联语言的发音比孤立单词发音更随便,受协同发音的影响更为严重。解决上述问题通常采用扩展动态时间规整技术。语音理解一词出自美国远景研究计划局资助的一个庞大的连续语音识别研究项目,其目标称为语音理解系统。众所周知,只有人才能很好地识别语音,因为人对语音有广泛的知识,人对要说的话有预见性和感知分析能力,因此,指望机器对语言的识别能力超过人是不现实的,最好的办法是使机器也能“理解”语言,并且能象人一样运用这种理解力。由于在人工智能领域对知识的应用和知识的表示问题更加感性趣,这对语音识别来说无疑是有力地鼓舞。运用这种理解力可以指望系统:能排除噪声和嘈杂声(即含糊不清或无关的语言);能理解上下文的意思并能用它来纠正错误,澄清不确定的语义;能够处理不合语法或不完整的语句。由此看来,语音理解系统的主要问题是知识的表示和系统的组织问题。与其它语音处理问题相比,该系统更加依赖于人工智能研究。吉林工程技术师范学院课程设计论文31.4语音识别的关键技术语音识别的关键技术包括特征参数提取技术、模式匹配准则及模型训练技术、语音识别单元选取。特征参数提取技术:所谓特征参数提取,就是从语言信号中提取用于语音识别的有用信息。研究人员已对许多可以表征说话人个人特征的语音特征进行了探讨,大多数特征选取方案不是试图集中在声道构造的个体差异方面,就是试图集中在说话习惯的个人特征方面。特征参数提取所考虑的参数为:(1)单词中选定位置上的基音;(2)鼻辅音的频谱特性;(3)选定元音的频谱特性;(4)激励频谱的估计斜率;(5)擦音的频谱特性;(6)选定元音的时长;(7)选定语言环境中提前发声的存在。采用试验句进行录音时所考虑的特征参数为:元音的共振峰频率和共振峰带宽以及声门源的极点(由12阶线性预测分析来计算);鼻辅音中极点频率的位置;选定实验句的基音轮廓;时变特性,尤其是在复合?音的整个发音期间和音位的收尾阶段第二共振峰的变化率。线性预测分析是应用较广的特征参数提取技术,其核心是由信号的过去值预测其将来值。线性预测的概念早在本世纪40年代就已被提出,然而将其应用于语音识别,不仅希望利用其预测功能,而且要求它为我们提供一个非常好的声道模型,而这样的声道模型对于理论研究和实际应用都是相当有用的。此外,声道模型的优良性能不仅意味着线性预测是语音编码的特别合适的编码方法,而且意味着预测参数是语音识别的非常重要的信息来源。模式匹配及模型训练技术:模式匹配是指根据一定准则,使未知模式与模型库中某一模型获得最佳匹配。模型训练是指按照一定准则,从大量已知模式中提取表示该模式特征的模型参数。语音识别所应用的模式匹配和模型训练技术有:动态时间规整技术、隐马尔克夫模型、人工神经网络。ANN在语音识别中的应用是目前研究的热点。该网络本质上是一个自适应非线性动力学系统,模拟了人类大脑神经元活动的基本原理,具有学习、记忆判断、联想、对比、推理、概括等能力。与HMM和ANN相比,DTW是较早的一种模式匹配和模型训练技术,它应用动态规划法成功地解决了在语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好的性能。但由于它不适合吉林工程技术师范学院课程设计论文4连续语音大词汇量语音识别系统,目前已被HMM和ANN所代替。语音识别单元的选取是语音识别研究工作很重要的第一步,语音识别单元有单词、音节、音素三种,具体选哪种,由研究任务决定。单词单元适用于中小词汇语音识别系统,不适合于大词汇系统。因为庞大的模型库意味着繁重的模型训练任务和复杂的模型匹配算法,这难以满足实时性要求。音节单元多见于汉语识别,主要因为汉语是单音节结构的语言,而英语等语言是多音节。如果不考虑声调的话,汉语大约有400个音节,这个数量相对较少。所以,对于大词汇量汉语语音识别系统而言,以音节为识别单元是较为合适的。音素单元多用于英语语音识别研究,因为英语是多音节语言。但大、中词汇汉语语音识别系统也在越来越多地采用。毫无疑问,飞速发展的计算机技术推动了语音识别技术的突破性进展,语音识别技术又反过来作用于计算机。假如微软公司的语音识别技术真正能使计算机彻底丢掉键盘和鼠标的话,这将不仅是计算机发展史上的又一场革命,而且将改变我们的生活。吉林工程技术师范学院课程设计论文5第二章系统设计2.1语音信号的短时分析实验目的:在理论学习的基础上,进一步地理解和掌握语音信号短时分析的意义,短时时域分析的基本方法;进一步理解和掌握语音信号短时平均能量函数及短时平均过零数的计算方法和重要意义。实验原理及方法:一定时宽的语音信号,其能量的大小随时间有明显的变化。其中清音段(以清音为主要成份的语音段),其能量比浊音段小得多。短时过零数也可用于语音信号分析中,发浊音时,其语音能量约集中于3kHz以下,而发清音时,多数能量出现在较高频率上,可认为浊音时具有较低的平均过零数,而清音时具有较高的平均过零数,因而,对一短时语音段计算其短时平均能量及短时平均过零数,就可以较好地区分其中的清音段和浊音段,从而可判别句中清、浊音转变时刻,声母韵母的分界以及无声与有声的分界。这在语音识别中有重要意义。2.2分析语音信号的短时谱特性实验目的:熟悉语音信号的短时分析特性;画出对一个语音信号的短时频谱;比较窗长、窗口形状对语音短时谱的影响。周期性声门波可表示为:u[n]=g[n]*p[n](2-1)其中,g[n]是声门波的单周期的波形,p[n]是间隔为P的周期采样序列。当u[n]通过线性非时变声道,且该声道的单位冲击响应为h[n]时,声道输出为:x[n]=h[n]*(g[n]*p[n])(2-2)为了观察一段语音,需要将声道输出乘以一个以时刻τ为中心的窗函数w[n,τ],即得到:x[n,τ]=w[n,τ]{h[n]*(g[n]*p[n])}(2-3)这段语音信号的频域表达式为:])()()([),(1),(kk(2-4)即语音信号的谱包络为)()(wGwH语谱图就是显示时变频谱幅度特征的图形表达式为吉林工程技术师范学院课程设计论文62),(),(wXwS(2-5)语谱图分析语音又称语谱分析,与谱图中显示了大量的语音的语句特性有关的信息,它综合了频谱图和时域波形的优点,明显地显示出语音频谱随时间的变化情况。预铺土实际上是一种三维频谱,即同时在实践和频率上显示出语音的特性,或者说是一种动态的频谱。窄带语谱图可以得到较好的频域分辨率(即以较窄的频域间隔观察频域上的正弦波成分),窗长通常为至少两个基音周期的“长窗”;而宽带语谱图可以给出较好的时域分辨率(即以较窄的时域间隔观察时域波动),窗长为小于一个基音周期的“短窗”。2.3语音信号倒谱与复倒谱的分析实验目的:熟悉语音信号求其倒谱与复倒谱的方法;计算一段语音信号的频谱、倒谱与复倒谱,并进行相应的比较;比较由加窗语音信号求得的对数幅度谱与倒谱域滤波后得到的对数幅度谱的各自特点。实验内容:上机前用Matlab语言完成程序编写工作;程序应具有加窗(分帧)、计算、以及绘制曲线等功能;上机实验时先调试程序,通过后进行信号处理;对录入的语音数据进行处理,并显示运行结果;依据曲线对该语音段进行所需要的分析,并作出结论。2.4运用自相关方法估计语音信号的声道参数实验目的:理解线性预测分析方法原理,掌握其经典解法中的自相关法,理解lpc谱的特点。实验原理及方法:由均方预测误差最小的得到正则方程pknnkpiikia1,...3,2,1],0,[],[(2-6)其中,mnnnpkikmsimski,1],[][],[(2-7)在最佳解时的误差为pknknnkaE1],0[]0,0[(2-8)在自相关法中变为吉林工程技术师范学院课程设计论文7pknnkpiirkira1,...3,2,1],0[][(2-9)pknknnkRaRE1][]0[(2-10)由式4-4可列出方程组式4-6][]3[]2[]1[]0[]3[]2[]1[...]3[...]0[]1[]2[]2[...]1[]0[]1[]1[...]2[]1[]0[421pRRRRRpRpRpRpRRRRpRRRRpRRRRnnnnnnnnnnnnnnnnnnnn(2-11)解方程组式4-6求出线性预测系数,通过误差式4-5可求出增益GpknknnkRREG12][]0[(2-12)2.5基音周期检测实验实验目的:理解基音检测方法原理;掌握其经典检测方法中的自相关法、中心消波法、三电平中心消波法的算法实现过程并对比检测效果。实验内容:实验数据为浊音语音信号speec