语音信号的采集与分析文献综述

mutongyu
2 ℃
2019-12-31

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

注：该文档为原创，仅提供参考语音信号的采集与分析的研究现状与进展学生姓名：陈静波指导教师：张石清班级：11级电子信息2班学号：1130220060摘要：语音信号的采集与分析技术是一门涉及面很广的交叉科学，它的应用和发展与语音学、声音测量学、电子测量技术以及数字信号处理等学科紧密联系。其中语音采集和分析仪器的小型化、智能化、数字化以及多功能化的发展越来越快，分析速度较以往也有了大幅度的高。本文简要介绍了语音信号采集与分析的发展史以及语音信号的特征、采集与分析方法，主要运用Matlab以及DSP等一些电脑软件进行仿真分析，最后加入噪声进行滤波处理，比较滤波前后的变化关键词：语音信号，采集与分析，Matlab1.课题背景ThespeechprocessingstudieshaveadvancedrapidlyinrecentyearsspurredonbygreatprogressesintheVLSItechnologiesandinthedigitalizationofthenetworks.Thispaperoffersanoverviewofthemostattractivetechniqueswhichhavefocusedtherecentresearchsanddevelopmentsinspeechcoding,recognitionandsynthesisareas.Forspeechcompression,theemphasisisputonafamilyoftechniquesnamedcode-excitedlinearprediction(CELP)whichdominatescurrentstudiesforratesintherangeof4to16kbit/s.Intermsofspeechrecognition,particularemphasisisplacedontheollowingthreeelementswhichareessentialinordertoincreasetherobustnessofthesystems:telephonelineadaptation,rejectionofparasitenoiseandout-of-vocabularywords,andkeywordspotting.Intermsoftext-to-speechsynthesis,thePSOLA(pitchsynchronousoverlapandadd)techniqueisoutlinedherein.Thisechniquegivesrisetoanewgenerationofsynthesissystemswhichproducespeechwithverynaturaltimbre.Theanalysisofcurrenttendenciesforeachareaallowstosuggestattractivedirectionsforfutureresearch.语音信号采集与分析是以语音语言学和数字信号处理为基础而形成的一门涉及面很广的综合性学科，与心理学、生理学、通信与信息科学、计算机科学以及模式识别和人工智能等学科都有着非常密切的关系。对语音信号进行采集与分析的研究一直是数字信号处理技术发展的重要推动力量，这是因为许多新的处理方法的提出，首先是在语音信号处理中获得成功，然后再推广到其他领域。语音信号的分析与处理作为一个重要的研究领域，随着通信技术的发展，语音采集和分析仪器的数字化、智能化、小型化和多功能化的发展越来越快，其分析速度也有了大幅度的提高。但现在市场上的语音分析系统价格昂贵、操作复杂，且仅能用于特定的测量分析项目。基于上述不足，设计一款基Maflab的语音信号采集与分析系统[1]，其具有价格便宜、使用方便、通用性强等优点。2.研究现状语音信号的采集与分析作为一个重要的研究领域，已经有很长的研究历史。但是它的快速发展可以说是从1940年前后Dudley的声码器(vocoder)和potter等人的可见语音VisibleSpeech)开始的[1]。1952年贝尔(Bell)实验室的Davis等人首次研制成功能识别十个英语数字的实验装置。1956年Olson和Belar等人采用8个带通滤波器组提取频谱参数作为语音的特征，研制成功一台简单的语音打字机。20世纪60年代初由于Faut和Steven的努力，奠定了语音生成理论的基础，在此基础上语音合成的研究得到了扎实的进展。20世纪60年代中期形成的一系列数字信号处理方法和技术，如数字滤波器、快速傅里叶变换(FFT)等成为语音信号数字处理的理论和技术基础。在方法上，随着电子计算机的发展，以往的以硬件为中心的研究逐渐转化为以软件为主的处理研究。然而，在语音识别领域内，初期有几种语音打字机的研究也很活跃，但后来已全部停了下来，这说明了当时人们对话音识别难度的认识得到了加深，所以1969年美国贝尔研究所的Pierce感叹地说“语音识别向何处去?”。到了1970年，好似反驳Pierce的批评，单词识别装置开始了实用化阶段，其后实用化的进程进一步高涨，实用机的生产销售也上了轨道[2]。此外社会上所宣传的声纹(VoicePrint)识别，即说话人识别的研究也扎扎实实地开展起来，并很快达到了实用化的阶段.到了1971年，以美国ARPA(AmericanResearchProjectsAgency)为主导的“语音理解系统”的研究计划也开始起步。这个研究计划不仅在美国国内，而且对世界各国都产生了很大的影响，它促进了连续语音识别研究的兴起。历时五年的庞大的ARPA研究计划，虽然在语音理解、语言统计模型等方面的研究积累了一些经验，取得了许多成果，但没能达到巨大投资应得的成果，在1976年停了下来，进入了深刻的反省阶段。但是，在整个20世纪70年代还是有几项研究成果对语音信号处理技术的进步和发展产生了重大的影响。这就是20世纪70年代初由板仓(Itakura)提出的动态时间规整(DTW)技术，使语音识别研究在匹配算法方面开辟了新思路；20世纪70年代中期线性预测技术(LPC)被用于语音信号处理，此后隐马尔可夫模型法(HNMM)也获得初步成功，该技术后来在语音信号处理的多个方面获得巨大成功；20世纪70年代未，Linda、Buzo、Gray和Markel等人首次解决了矢量量化(VQ)码书生成的方法，并首先将矢量量化技术用于语音编码获得成功。从此矢量量化技术不仅在语音识别、语音编码和说话人识别等方面发挥了重要作用，而且很快推广到其他许多领域。因此，20世纪80年代开始出现的语音信号处理技术产品化的热溯，与上述语音信号处理新技术的推动作用是分不开的。20世纪80年代，由于矢量量化、隐马尔可夫模型和人工神经网络(ANN)等相继被应用于语音信号处理，并经过不断改进与完善，使得语音信号处理技术产生了突破性的进展。其中，隐马尔可夫模型作为语音信号的一种统计模型，在语音信号处理的各个领域中获得了广泛的应用。其理论基础是1970年前后，由Baum等人建立起来的，随后，由美国卡内基梅隆大学(CMU)的Baker和美国IBM公司的Jelinek等人将其应用到语音识别中。由于美国贝尔实验室的Babiner等人在20世纪80年代中期，对隐马尔可夫模型深人浅出的介绍，才使世界各国从事语音信号处理的研究人员了解和熟悉，进而成为一个公认的研究热点，也是目前语音识别等的主流研究途径[2]。进入20世纪90年代以来，语音信号采集与分析在实用化方面取得了许多实质性的研究进展。其中，语音识别逐渐由实验室走向实用化。一方面，对声学语音学统计模型的研究逐渐深入，鲁棒的语音识别、基于语音段的建模方法及隐马尔可夫模型与人工种经网络的结合成为研究的热点。另一方面，为了语音识别实用化的需要，讲者自适应、听觉模型、快速搜索识别算法以及进一步的语言模型的研究等课题倍受关注。目前语音信号的采集和处理主要基于仿真软件如：MATLAB仿真，以及基于DSP数字化模块处理、小波变换对语音信号的时域和频域的分析处理2.1基于MATLAB语音信号的采集过程以及分析过程MATLAB中提供了强大的数据采集工具箱[3]可满足控制声卡对数据进行采集的要求。语音数据采集过程如图1所示在Matlab环境中，可以通过多种编程方法驱动声卡实现对语音信号的采集与播放[4]，它的信号处理和分析工具箱为语音信号的分析提供了丰富的功能函数，利用这些功能函数可以快捷地完成语音信号的分析和处理。使用Matlab语言编程可以将声音文件变换为离散的数据文件，然后利用其强大的矩阵运算能力处理数据，如数字滤波、时域和频域分析、傅里叶变换、各种分析图的呈现和声音回放等。在Matlab环境中，可以通过以下3种方法驱动声卡：一是将声卡作为对象处理采集语音信号；二是调用Wavrecord功能函数采集语音信号；三是运用Audiorecorder对象采集语音信号语音信号是一种非平稳的时变信号，它携带着各种信息。在语音编码、语音识别语音合成和语音增强等一系列语音处理中都需要提取语音信号中包含的各种信息。语音信号分析的目的在于方便而有效地提取并表示语音信号所携带的各种信息。语音信号分析可以分为时域和变换域等处理方法[5]。信号的频域分析是研究信号特征的重要手段之一，通常是对信号进行傅里叶变换，这一方法在许多领域都发挥了重要的作用。在进行时域分析时，要对输入的信号进行预加重，其目的是为了对语音的高频部分进行加重，去除口唇辐射的影响，增加语音的高频分辨率。一段语音信号预加重前后的频谱如2图所示。图2一段语音滤波前后的频谱对比预加重前和预加重后的语音信号频谱，可以看出，预加重后的频谱在高频部分的幅度得到了提升，信号的频谱变得平坦。语音是一个受准周期脉冲或随机噪声源激励的线性系统的输出，输出频谱是激励源频谱与声道系统频率响应的乘积。激励源和声道系统的频率响应都是随时间变化的，因此一般标准的傅里叶变换虽然适用于周期和平稳随机信号的表示，但不能直接用于语音信号。由于语音信号可以认为在短时间内近似不变，因而可以采用短时分析法。我们将每个短时的语音称为一个分析帧。一般帧长取10m8—30m8。我们采用一个长度有限的窗函数来截取语音信号形成分析帧。通常会采用矩形窗和汉明窗，图3是加不同窗函数时的语音波形及频谱图图3加不同窗函数时的语音波形及频谱图通过对比矩形窗和汉明窗及其频谱可知，采用矩形窗时，整个频谱图显得比较破碎，而当加汉明窗时，得到的短时频谱要平滑得多。因而在语音频谱分析中汉明窗用得比较普遍数字滤波器的设计处理：采用数字滤波器来对语音信号进行去噪处理，可选用窗函数法设计FIR数字滤波器。图4为窗函数法对语音信号进行去噪前后的波形及频谱图，也可选用双线性变换法设计巴特沃斯滤波器，图5为双线性变换法对语音信号进行去噪前后的波形及频谱图图4窗函数法去噪前后语音信号波形及频谱图对比图5双线性变换法去噪前后语音信号波形及频谱图对比对比以上两种方法设计的滤波器，可得出以下结论：窗函数法中相位响应有严格的线性，不存在稳定性问题，设计简单。双线性变换法中不会出现由于高频部分超过折叠频率而混淆到低频部分去的现象，但会产生频率混跌现象，使数字滤波器的频响偏移模拟滤波器的频响。在对语音信号进行滤波的时候，由于人的语音信号的能量主要集中在低频部分，双线性低通滤波器的滤波效果最好，滤波后的语音信号失真比较小[6]。结论：本系统运用Matlab软件实现了对语音的采集与分析[7]，分别对语音信号的时域与频域进行了分析，对所采集的语音信号加人干扰噪声，对加入噪声的信号进行播放，并进行时域和频域分析。最后设计了滤波器，对有噪的语音信号进行去噪处理，充分利用了Matlab强大的数值计算功能、方便的声卡控制功能和信号分析能力，完成了设计的目的。该系统在语音信号的采集与分析的实际应用中取得了良好的效果，具有较好的应用前景2.2基于DSP语音信号的采集以及分析过程系统采用1片TMS320VC5402芯片和2片T