语音识别论文(长文档排版)

mchoip
1 ℃
2019-12-16

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

摘要语音作为人机交互的新方法，因其灵活性、便捷性备受关注。语音识别在工业、金融、商业、文化、教育通信、医疗、家庭服务、消费电子产品等诸多领域都有广阔的应用前景，已经成为计算机领域非常活跃的课题之一。本论文从语音识别的过程出发做了以下几方面研究：1)简明介绍了语音识别技术的发展历程和趋势，分析了当前语音识别面临的主要问题。2)研究语音信号处理的关键技术，包括预处理、端点检测、特征参数提取等。端点检测作为语音识别的前端预处理部分，其正确性直接影响语音识别的准确率。本文讨论了基于双门限算法语音信号端点检测算法。通过实验仿真可看出该算法的有效性。在特征提取方面，着重研究了LPCC和MFCC两种特征参数。由于特征向量都是高维的，需要对数据作降维处理，这里介绍了SVD、PCA、ICA和特征选择四种方法。3)为了改善小样本情况下语音识别的效果，引入基于支持向量机的语音识别方法，讨论了支持向量机多类分类策略和训练算法。4)分析现实需求，设计一个基于微软的SpeechSDK5.1的语音家庭辅助护理系统，完成系统并做出了改进总结。关键词：语音识别，端点检测，特征提取，支持向量机，语音辅助护理系统AbstractAsanewmethodforhuman-computerinteraction,thevoicesystemhasdrawnextensiveattentionsbecauseofitsflexibilityandconvenience.Boastingbrilliantprospectofapplicationinspheresincludingindustry,finance,business,culture,educationalcommunication,medicine,homecare,ande-products,etc,thevoicesystemhasbecomeoneofthehotsubjectsforthecomputercircle.Thispapermainlycarriesoutresearchesonthefollowingaspectsinthespeechrecognitionprocess:1）Thispaperbrieflyintroducesthedevelopingprocessandtendencyofspeechrecognitiontechnology,andanalyzesthemajorproblemsfacingthespeechrecognitiondevelopment.2)Thispaperresearchesonthekeytechnologiesofvoicesignalprocessing,includingpreprocessing,endpointdetection,andfeatureparameterextraction,etc.Asapartofpreprocessingofthefrontendofspeechrecognition,thecorrectnessofendpointdetectiondirectlyimpactsontheaccuracyofspeechrecognition.Thispaperdiscussesthedetectionmethodofvoicesignalendpointbasedondouble-thresholdalgorithm.Throughsimulativeexperiments,wecanseetheeffectivenessofthisalgorithm.Inregardtothefeatureextraction,thispapergivestheemphasistotwofeatureparameterswhichareLPCCandMFCC.Asfeaturevectorsareallhigh-dimensional,thedimensionalityreductionofdatashouldbeprocessed.Altogether4methodsincludingSVD,PCA,ICAandfeatureselectionareintroducedhereby.3)Inordertoimprovetheeffectofspeechrecognitionofsmallsample,thespeechrecognitionmethodbasedonsupportvectormachineisintroduced.Thispaperdiscussestheclassificationstrategyandtrainingalgorithmofsupportvectormachine.4）Byanalyzingpracticalneeds,thispaperdesignsaMicrosoft-basedSpeechSDK5.1voicehomeauxiliarycaresystem,completesthesystemandmakestheimprovementconclusion.5）Keywords:speechrecognition;endpointdetection;featureextraction;supportforvectormachine;voiceauxiliarycaresystem.目录第一章绪论1.1选题背景语音识别是语音信号处理的重要分支[1][2][3][4]。从计算机诞生之日起至今，人与计算机系统的交互过程中绝大多数输入方式采用的是手动输入。随着计算机技术的不断发展，计算机应用越来越普遍化、日常化。传统的输入方式占用了人们的双手和视线，极大限制了计算机系统的使用灵活性。传统的人机交互模式已经不能满足人们的需要，人们希望能在保证信息质量的前提下，能将信息以更自然、更方便、更快捷的方式输入到计算机及其他相关信息处理设备中。建立良好的人机交互界面逐渐成为计算机应用技术的一个重要研究方向。语音识别技术就是在这样的大背景下被提出并发展起来的。语音是人类日常生活中进行交流的主要方式和媒介，它在人机交互方面拥有天生的优势——自然、灵活、方便。通过语音直接对计算机系统进行信息输入，把人们的双手从枯燥繁琐的输入活动中解放出来，提高了计算机系统的使用灵活性。同时，使得盲人、上肢残疾人等特殊人群也可以方便的与计算机系统进行信息交流，扩大了计算机系统的使用人群范围。语音识别在工业、金融、商业、文化、教育通信、医疗、家庭服务、消费电子产品等诸多领域的应用前景广阔，具有深远的实际意义。另一方面，语音识别技术具有极强的理论研究价值。人类语音信号与其他自然界信号、人工信号在很多方面存在共性。语音信号处理技术的研究成果可以运用到其他领域，促进信息技术的全面发展。语音识别作为人工智能的一个分支，与其他更广泛的识别模式具有很多相似性，研究中的一些思想和方法可以推广到更广泛的领域。1.2论文选题与结构作为一种新的语音识别方法，基于支持向量机语音识别尚处于发展阶段，人们抱着积极的态度对其进行各项研究探索。本论文旨在探讨支持向量机（SVM）理论在语音识别上的应用，研究基于支持向量机（SVM）语音识别的关键问题，并将其拓展到实际应用领域。选题意义包括以下几点：探讨语音识别新方法，丰富语音识别理论体系，促进语音识别发展；探讨支持向量机对语音识别的理论支持，改善小样本情况下语音识别系统的识别效果；将基于支持向量机的语音识别新技术拓展到应用领域，为实际应用提供新的方法论和实用技术。本文系统阐述基于支持向量机（SVM）的语音识别关键技术及实现方法，对实际问题提出改进方法。论文的安排如下：第一章介绍了语音识别技术的选题背景和研究应用，可以看成本文的研究意义。第二章对简述了语音识别技术的发展历程和当前主要面临的问题，并介绍了语音识别的主要原理和识别流程。第三章研究语音信号的预处理技术，包括信号数字化、预加重、分帧和加窗等，介绍了时域声学参数短时能量E、短时平均幅度M及短时过零率Z，并探讨了基于双门限算法语音信号端点检测算法。第四章研究语音特征的提取算法，介绍线性特征倒谱系数（LPCC）和美尔特征参数（MFCC）的提取方法。并讨论了包括SVD，PCA，ICA和特征选择等特征降维的方法。第五章研究了基于支持向量机（SVM）语音识别方法，介绍了相关统计学习理论，讨论了多类分类和训练方法。第六章分析当前社会需求，设计了一套基于微软的SpeechSDK5.1语音家庭辅助护理系统。具体介绍了语音库的建立、识别模块、系统实现等关键步骤，并总结了系统需改进的地方。第七章对论文的主要工作进行了简要总结，指出了研究过程的不足，并对进一步的工作做出展望。第二章语音识别技术综述语音识别（SpeechRecognition）是将自然语音转换成机器能够识别的文本或命令，最终实现采用自然语音与计算机进行流畅交互的目的。语音识别是一门涉及面很广的学科，与声学、语音学、计算机、信息处理、模式识别、心理学等学科均有密切关系。它的应用十分广泛，如语音拨号、语音导航等。此外，语音识别技术还可以和其他技术结合在一起，如自然语言处理，语音合成等。2.1语音识别技术的发展及现状对语音识别的研究始于20世纪50年代，AT&Bell实验室基于共振峰提取技术开发了特定人孤立英文数字语音识别系统Andry，揭开了语音识别技术研究的序幕。经历了半个多世纪的发展，语音识别研究经历了三个大的阶段[1][5]：60～70年代：语音信号线性预测编码（LPC）技术和动态时间规整（DTW）技术被提出并逐渐发展成熟，有效解决了语言信号特征提取和不定长时间动态匹配的问题，并被运用到特定人语音识别中，取得了良好效果。这一时期的语音识别研究多以孤立词识别为主。80年代：语音识别研究进一步深入。MFCC提取技术开始被普遍采用。此时语音识别研究最显著的特点是——从基于模板的方法转向统计模型的方法。隐马尔可夫（HMM）模型理论被成功应用到语音识别中。而HMM模型的运用，使得连续词识别成为可能。大词汇量连续语音识别成为逐渐成为语音识别研究的重点。90年代之后：语音识别技术愈加成熟，一些市场化的产品开始出现。理论研究方面，人们开始探究如何将其他领域的思维方法运用到语音识别领域。人工神经元网络（ANN），支持向量机（SVM）等思想被引入到语音识别领域。自然语言的识别研究也开始发展。我国语音识别研究工作起步较晚，直到20实际80年代初才逐渐兴起，但是这并不影响中国在这一领域紧跟国际步伐，短时间内已经在汉语音节识别方面取得进展。国家对此也相当重视，把语音识别相关课题列入“863”计划。近年来，我国在汉语语音识别研究方面更是取得了突飞猛进的发展，在某些方面已经处于世界领先水平。从孤立词识别到大词汇量连续词识别，从基于模板模型到基于统计模型，语音识别发展到今天，人们的研究重点主要集中在三个方面：识别系统鲁棒性，如抗噪处理、识别系统自适应性、拒识算法研究等；识别拓展，如大词汇量连续词识别、语音情感识别、地域性口音语音识别等；识别方法，如HMM的改进、矢量量化(VQ)算法、人工神经网络(ANN)的引入、支持向量机(SVM)的引入等。对于其他方面，识别方法是基础，是决定识别系统性能的重要因素。目前语音识别系统的识别方法主要包括四种[6][7][8]：基于声道模型和语音知识的方法、模板匹配的方法、人工神经网络的方法以及基于统计分析的方法。隐马尔科夫的基础理论[9][10][11][12]是1970年前后由Baum等人建立了，后被运用到语音识别领域。这一识别方法在过去的一段时间内很流行，流行的原因可以归功于它简单的算法结构和它相对于其它语音识别方法的清晰高效性。性能，特别是精度，是评价一个语音识别系统实际价值的关键因素。隐马尔科夫（HMM）算法的特点是引入了概率统计模型，用概率密度函数来计算语音特征参数对隐马尔科夫模型的输出概率，以最大后验概率为识别准则，这更有利于连续语音识别。语音识别系统经常根据它的需求，如是处理特定