哈尔滨工业大学数字信号处理报告题目:DSP在语音识别中的应用院(系)电子与信息工程学院学科信息与通信工程(51)学生学号提交报告日期2013年9月16日DSP在语音识别中的应用摘要近年来,数字信号处理成为一个不断更新和飞速发展的领域,DSP芯片的出现以及广泛应用为人们的生产和生活提供了很大的方便。语音识别是一个比较活跃的研究领域,使用语音作为人机交互的途径,对于使用者来说是一种很方便、很自然的方式,同时设备的小型化也要求省略以节省体积。基于DSP的语音识别系统正逐步成为语音识别的一个重要发展方向。本文详细介绍了数字信号处理技术以及DSP芯片的发展,然后讨论了语音识别的优点和难点,明确了DSP应用于语音识别的优势,最后对语音识别系统中DSP的应用前景做了分析。关键词:数字信号处理器语音识别AbstractInrecentyears,digitalsignalprocessinghasbecomeaconstantlyupdatedandrapidlydevelopingfield.TheDSPchipiswidelyusedandprovidespeoplewithalotofconvenience.Speechrecognitionisarelativelyactiveareaofresearch.Theuseofvoiceasameansofhuman-computerinteractionforusersisaveryconvenientandnaturalway,atthesametimethesmalldevicealsoomittedinordertoreducethevolume.AspeechrecognitionsystembasedonDSPisgraduallybecominganimportantdevelopingdirectionofspeechrecognition.Inthispaper,weintroducethedigitalsignalprocessingtechnologyandthedevelopmentofDSPchip,andthendiscusstheadvantagesanddifficultiesofspeechrecognition.WemadecleartheadvantageofDSPusedinspeechrecognition,finallyperformananalysisaboutprospectofDSPapplicationinthespeechrecognitionsystem.Keywords:DigitalSignalProcessor(DSP);SpeechRecognition1DSP简介1.1DSP技术信号处理包含数字信号处理与模拟信号处理。数字信号处理(DigitalSignalProcessing,DSP)是将信号以数字方式表示并处理的理论和技术。随着计算机、信息技术和大规模集成电路的飞速发展,数字信号处理技术己形成一门独立的学科系统,并且在理论和实现技术两个方面都获得了高速的发展。数字信号处理是对模拟信号进行采样,将其转换为数字序列,通过计算机或通用(专用)信号处理设备,用数字的数值计算方法处理(滤波、变换、增强、估计、识别等),达到提取有用信息便于应用的目的。事实上,凡是利用数字计算机或专用数字硬件、对数字信号所进行的一切变换或按预定规则所进行的一切加工处理运算都可以称为数字信号处理。而数字信号处理器则是一种用于数字信号处理的可编程微处理器,它的诞生与快速发展,使各种数字信号处理算法得以实时实现,为数字信号处理的研究和应用打开了新局面,提供了低成本的实际工作环境和应用平台,推动了新的理论和应用领域的发展。在实际讨论中,DSP的狭义理解可为DigitalSignalProcessor,即为数字信号处理器(DSP芯片),广义理解可为DigitalSignalProcessing,即为数字信号处理技术。目前,DSP技术在通信、航空、航天、雷达、工业控制、医疗、网络及家用电器等各个领域都得到了广泛应用。本文主要讨论DSP芯片在语音识别中的应用。1.2DSP芯片DSP芯片是一种特别适合于进行数字信号处理运算的微处理器,主要用于快速实现各种数字信号处理的算法,并进行实时处理得到相应的处理结果。在20世纪80年代以前,由于受实现方法的限制,数字信号处理的理论还不能得到广泛的应用。直到20世纪80年代初,世界上第一块弹片可编程DSP芯片的诞生,才使理论研究成果广泛应用到实际的系统中,并且推动了新的理论和应用领域的发展。可以毫不夸张地讲,DSP芯片的诞生及发展对30多年来通信、计算机、控制等领域的技术发展起到了十分重要的作用。由于DSP芯片是针对数字信号设计和开发的,所以在进行数字信号分析和处理的过程中,其比通用性CPU芯片的处理速度更快、效率更高、稳定性更强,更重要的是,它使得数字信号处理算法得以实时实现。1.3DSP的发展DSP芯片诞生于20世纪70年代,至今已经得到了突飞猛进的发展,并经历了以下三个阶段。第一阶段,1980年前后(雏形阶段)。在DSP芯片出现之前,数字信号处理只能依靠通用微处理器(MPU)来完成。由于MPU处理速度较低,难以满足告诉实时处理的要求。1965年库利(Cooley)和图基(Tukey)发表了著名的快速傅里叶变换FFT(FastFourierTransform),极大地降低了傅里叶变换的计算量,从而为数字信号的实时处理奠定了算法的基础。与此同时,伴随着集成电路技术的发展,各大集成电路厂商都为生产通用DSP芯片做了大量的工作,其中就包含著名的TI公司。第二阶段,1990年前后(成熟阶段)。这个时期,许多国际上著名集成电路厂家都相继推出自己的DSP产品。如:TI公司的TMS320C20、30、40、50系列,Motorola公司的DSP5600、9600系列,AT&T公司的DSP32等。伴随着运算速度的提高,DSP的应用范围扩大到通信、计算机领域。第三阶段,2000以后(完善阶段)。DSP制造商不仅使信号处理能力更加完善,而且使系统开发更加方便、程序编辑调试更加灵活、功耗进一步降低、成本不断下降,大大提高了数字信号处理能力。目前,DSP的应用领域更加广泛,逐步扩展到人们的日常消费领域。尽管近些年来,DSP技术及DSP芯片的相关研究取得了长足的进步,但是远远不能达到需求的性能。过去及现在的DSP芯片多是单核芯片,这种配置已经在许多复杂情况下的信号分析和处理中显得力不从心,未来的DSP芯片的发展趋势是由单核向多核发展,与此同时,芯片的内部结构也将发生很大的变化,特大指令字组、单指令多重数据以及多通道结构都将在未来的DSP芯片内和结构中占据主导地位,总之,多核DSP芯片可以带来更高的处理速度和更强大的综合处理能力。另外,DSP和高级CPU、SOC以及FPGA的融合也是DSP芯片未来的一个重要的发展趋势。目前,我国的DSP产品主要来自于海外。1983年TI公司的第一代产品TMS32010最早先进入中国市场,以后TI公司通过提供DSP培训课程,使该公司DSP产品的市场份额不断扩大。现在TI公司的DSP产品约占国内市场的90%。相对国外DSP应用开发的情况,我国还存在着相当大差距。但是让人高兴的是,近年来国内许多高校相继建立了DSP实验室,开设了相关的课程,这对DSP在我国的发展起到了关键的促进性作用。我国的DSP产业正在蓬勃发展,应用领域不断拓宽。语音识别是DSP芯片的应用领域之一,国内外许多的学者都对语音识别做过相关的研究,取得了一系列的进展,但是缺少实质性的突破,利用DSP实现语音的完美识别依旧是研究热点。2语音识别2.1为什么要语音识别随着现代科学和计算机技术的发展,人们在与机器的信息交流中,需要一种更加方便、自然的方式。而人的直观感觉可以给人最直接的印象,获取信息速度也就最快。虽然,嗅觉、触觉也是人类固有的感觉,人们可以从中得到某些外界信息,但最重要、最精细的信息源只有图像和语言两种。而且,语言是人类最重要的、最有效的、最常用的和最方便的通信形式。这就很容易让人想到能否用自然语言代替传统的人机交流方式如键盘、鼠标等。一般来讲,人与机器的语言通信大致分为两种情况:第一种情况就是机器讲话,人听话。这就是“人工嘴巴”,即语音的人工合成;第二种情况就是人讲话,机器听话。这即是“人工耳朵”,即语音的人工识别和理解。语音识别将语言信息转换成机器可读的输入,较语音合成而言技术上要复杂,但现阶段在通信、控制等行业,该技术得到了广泛的应用。语音识别(SpeechRecognition)的最大优势在于使得人机用户界面更加自然和容易使用。语音识别的发展目的是语音控制,语音控制可以大大降低对操作人员专业水平的要求。为了让智能机器人最终具有人的智能,人机将的直接语言通信是必不可少的。可以预见,在不久的将来,该技术将成为重要的人机交互手段。研究语音识别的最终目标是是极其具有听觉功能,直接接受和处理语音指令,并根据该指令完成相应的动作。语音识别技术是二十一世纪电子信息领域的主要技术之一,其正逐步成为电子信息领域里完成人机交互功能的关键技术。我国语音识别研究工作一直紧跟国际水平,受到国家重视,大词汇量语音识别的研究早已列入“863”计划,由中科院声学所、自动化所及北京大学等单位研究开发,取得了高水平的科研成果,如中科院自动化所研制的非特定人、连续语音听写系统和汉语语音人机对话系统,其字准确率或系统响应率可达90%以上。鉴于中国未来庞大的市场,国外也非常重视汉语语音识别的研究。美国、新加坡等地聚集了一批来自大陆、台湾、香港等地的学者,研究成果已达到相当高水平。2.2语音识别的流程及技术语音识别系统的研究涉及微机技术、人工智能、数字信号处理、模式识别、声学、语言学和认知科学等许多学科领域,是一个多学科综合性研究领域。语音识别系统的基本过程包括:采样、确定输入信号的起始点,由数字滤波器直接地或模拟滤波器间接地计算语音谱、音调轮廓图估价、分解输入信号、单词识别和对输入信号做出响应。语音识别属于模式识别的一个分支,模式识别系统都有一个特征那就是需要训练一个模板库,在完成识别时根据采集数据的特征在模板库里进行模式匹配。语音识别系统则首先需要采集语音样本,提取这些样本的特征,然后对这些特征参数进行相关运算处理形成参考模板库。完成参考模板库的建立后,识别时采集语音在提取其特征参数后对模板库进行模式匹配,经过识别决策后得到识别结果。语音识别的基本流程框图如下。图1,语音识别的基本流程框图2.3语音识别的难点尽管近些年来,随着科学技术的发展,语音识别发展很快,但是依旧有一些技术难题制约着语音识别的发展,成为其取得突破的瓶颈。首先,语音信号是非平稳随机信号,不但不同发音者发音之间存在重大差异,即使同一人在不同时间、地点、不同生理状态情况下发音也存在很大差异。再者,语音识别基元的选择也是困难的。如何根据存贮空间和搜索速度的要求,选择合适的识别单元,如词、音节、音素。一般来讲,要识别的词汇量越多,所用的基元应越小越好。另外,由于环境噪声广泛存在,具体的语音识别工作环境千差万别,容易造成训练与测试环境不匹配致使系统性能严重下降,因此提高语音识别系统的鲁棒性是关系这项技术能否走向实用阶段的关键。现有的语音识别系统只能工作在安静环境下。在噪声环境下工作,受噪声的干扰,讲话人产生情绪或心理的变化,导致发音失真、发音速度和音调改变,即发生Lombard效应或Loud效应。从90年代初期到现在,抗噪声语音识别技术已经成为语音识别领域的一个重要研究课题。不得不提的是,因为汉语自身的特点,使得汉语的语言信息处理比西方语言更为困难和复杂。主要表现在:汉语的大字符集影响了汉字的快速输入;汉语的字词不分使得词的切分成为汉语语言理解与处理独有和首要的问题;大量的同音字、词给语音识别带来困难等等。识别训练语音输入识别结果预处理提取特征模板匹配识别决策模板库3DSP应用于语音识别的优势通常在语音识别