DSP的嵌入式语音识别-开题报告

bbsyangfan
0 ℃
2020-07-04

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

上海工程技术大学毕业设计（毕业论文）开题报告学院电子电气工程学院专业电子信息工程班级学号学生指导教师题目基于DSP的嵌入式语音识别系统设计《基于DSP的嵌入式语音识别系统设计》————开题报告一、选题背景语言是人类相互沟通信息的重要工具。随着现代科学技术的发展,特别是语音通信和各类相关产品的普及,语音信号的数字化处理在越来越多的领域中发挥着至关重要的作用。所谓的语音技术，无非是一种集合：一种涵盖了识别、合成、检出关键词、口语对话系统的集合，而这个集合的核心无可厚非便是语音识别技术，特别是连续识别——这门最初为了解决机器如何能够准确地解析人的语音内容的学科，正以一种不可思议的态势飞速发展，给“死板”的机器添上了一份“人性”。算法运算量大，处理快速高效（无论是实时或准实时）这些都是一个语音系统的基本要求，而DSP凭借着本身强劲的数据处理能力和高运行速度挑起大梁，充当起整个系统的“心脏”。它是一种特殊的微处理器，一种以数字信号来处理大量信息的器件，其工作原理：首先将接收模拟信号进行转换，转换为0或者1的数字信号，再对数字信号进行修改、删除及强化并在其他系统芯片中把数字数据解译回模拟数据或实际环境格式。具有可编程性的它，以每秒千万条复杂的令程序的实时运行速度，让那些通用的微处理器望尘莫及。二、研究课题的意义本文实现的语音识别系统主要由硬件设备和相应的软件算法组成。在Matlab7.8平台上验证和改进了算法（如：预处理、端点检测、特征提取和模式匹配），然后用C汇编语言结合混编的方式移植到DSP的开发平台——CCS，最终在ICETEK-VC5416AE-S60实验箱上实现孤立词（0-9）的识别，而随着库内容的丰富，本系统将会越发接近当下最为热门的语音助手——siri。三、语音识别的研究概况1.国外语音识别技术的研究现状从1952年Bell实验室的Audry到2012年iphone的Siri。60年来语音识别这项技术一直都是计算机研究领域内的“香饽饽”，倍受IBM、微软等IT巨头器重，相关研究成果也层出不穷。IBM——作为语音识别技术的先驱，以它的ViaVoice软件为例：可以帮助人们通过麦克风用语音向字处理软件输入文字，无论是英语、意大利语、德语、法语、日语还是汉语等都照单全收。而微软新版的Windows操作系统Vista，也配置了先进的语音识别软件。用户动口而不动手来完成通过语音和计算机交流（比如通过口来“书写”信件或电子邮件······）。而这个功能对于那些“特殊群体”，带来的便利是不言而喻的。目前世界上最先进的语音识别软件叫做NaturallySpeaking，出自于NuanceCommunications公司。NaturallySpeaking已经得到了大多数用户的认可。对着麦克风说话，屏幕上就显示出说话的内容，很容易识别和纠正错误。久而久之，该软件会摸索出用户的“秉性”。当然，用户如果在说话过程中发现软件无法识别的，也相应地作出调整，这样一来，语音识别的正确率就会逐渐提高。2.国内语音识别技术的研究现状尽管我国语音识别研究工作起步较晚，但目前在该领域中国已占有了自己的一席之地。这一切都要归功于1987年的863计划，它大大缩短了从实验室逐步迈向应用层面的周期。而最作为世界上最有韵味、最美丽的语言——汉语我们也有着近水楼台先得月的优势。“天语”中文语音系列产品—PattekASR就是其中的佼佼者，它结束了中文语音识别产品自1998年以来一直由国外公司垄断的历史。清华大学电子工程系语音技术与专用芯片设计课题组，研发的非特定人汉语数码串连续语音识别系统的识别精度，达到94.8%(不定长数字串）和96.8%（定长数字串）。在有5%的拒识率情况下，系统识别率可以达到96.9%(不定长数字串和98.7%(定长数字串)，这是目前国际最好的识别结果之一，其性能已经接近实用水平。研发的5000词邮包校核非特定人连续语音识别系统的识别率达到98.73%；并且可以识别普通话与四川话两种语言，达到实用要求。也许过不了多久，面貌焕然一新、同时蕴藏巨大商机的语音识别应用热潮，将会彻底改变人们的思维定势。四、语音识别所面临的挑战人们在识别道路上的不断努力只是为了有一天能够实现机器像人类一样能“听懂语言，与人类自然地沟通。但在实际应用中，由于系统的鲁棒性、灵活性和适应能力远达不到市场需求，导致了目前你很难在市场见到成熟的语音识别的相关产品。若想提高应用率就必须从普遍性和实用性这两大方面入手，具体可以以下的切入点：1同一发音信号的随机性变化语音信号是非平稳信号，不但不同发音者发音之间存在重大差异，即使同一人在不同时间、地点、不同生理状态情况下发音也存在很大差异。2噪声问题由于环境噪声广泛存在，具体的语音识别工作环境千差万别，容易造成训练与测试环境不匹配致使系统性能严重下降，因此提高语音识别系统的鲁棒性是关系这项技术能否走向实用阶段的关键。现有的语音识别系统只能工作在安静环境下。在噪声环境下工作，受噪声的干扰，讲话人产生情绪或心理的变化，导致发音失真、发音速度和音调改变，即发生Lombard效应或Loud效应。从90年代初期到现在，抗噪声语音识别技术已经成为语音识别领域的一个重要研究课题。3连续语音方面：相比数字和英文连续识别，汉语有着自己味道，如何品出汉语的内涵？如何解决各音节之间相似度极高，不容易区分的现象？就需要从汉语韵律中寻的突破：试着考虑语言中重音、语调、声母和韵母等因素。4可移植性：如今，应用系统的设计、开发周期都很短，所以会频繁地移植系统，这个时候系统的性能会有重大退化，为了返回到它的“黄金岁月，就必须依据新项目来的要求改善训练方式，这样即费时又费力。所以可移植性的研究也就显得刻不容缓5词与词的特征空间混叠语音识别的常规方法是利用语音信号的短时平稳特性将语音时域采样信号分为若干帧，计算出每一帧的相应特征矢量，从而得到该帧语音的一个特征矢量序列。但从这些矢量的空间分布来看，很多不同词语的矢量序列在特定空间存在混叠现象。克服这个问题的主要思路是，首先应当基本准确地找到该发音者发音的大致短时周期，并尽量使用合理的特征，同时充分利用特征序列的时序特征。五、方案论证系统总体设计方案根据需求制定任务书根据任务说明书进行原理研究、方案论证和系统的参数设定软件MATLAB仿真硬件DSP底层文件修改算法移植系统测试与调试图3.1系统设计流程图特定人的孤立词语音识别系统的总体设计方案是：通过Matlab来进行软件算法的模拟仿真,通过对DSP实验箱底层文件的查阅和修该，用C语言将算法移植至CCS上，通过麦克风对发音人的语音信号进行采集完成语音信号的二值化，然后再由实验箱对语音信号进行模板识别并做出判断1硬件设计方案一个高性能的语音识别系统，必须确保在合理的系统成本下，体现出实用、可靠和稳定。经过查阅语音识别相关硬件资料，综合本系统的功能要求，得出有以下三种主流方案：1）SPCE061A+FLASHSPCE061A是凌阳科技最新推出的高性能16位单片机，该系统电压低、工作频率高，能够快速处理数字信号，片内集成麦克风输入和双通道10位DAC音频输出，是单片机中最为适合用作语音识别的。该系统结构简单，功能齐全，而且配有相当丰富的语音处理函数库，系统开发简便、周期短，实用性较高。不过作为语音识别系统的核心处理器，由于SPC疲软的运算速度和系统扩展能力，这能限制于一些运算量较小的识别系统，而对于运算量较大或者对后期扩展有很高要求的就有心无力了。2）ARMS3C2410+UDAl341TSS3C2410是三星公司开发的基于ARM9的一款处理器，片内集成I²S控制器，配以最新LINUX2．6内核的操作系统作为软件平台。而UDAl341TS是由Philips公司提供的一款I²S编解码芯片，价格便宜、高频（达48KHz）、3线控制，是较常用的全双工音频芯片。本系统接口灵活，LINUX系统更是可以按照硬件需求制定内核，为系统大幅“瘦身”、显得越发精简。据了解，最小的LINUX系统仅有150KB，适合应用于内部资源有限的嵌入式系统。3）TMS320VC5416+TIV320AIC23C5416是TI公司推出的低功耗16bit定点DSP芯片，内部采用哈佛结构，优化的结构设计、使其支持流水线操作、能够单指令周期内完成乘累加(MAC)运算、单周期内执行3个操作数指令，其运算速度可达100MI/s(兆指令/秒),指令周期为10ns;VC5416片内的16K双访问RAM可以保证系统算法程序在片内实时运行、1M的程序扩展空间可以保存算法处理的中间数据。此外，C5416具有丰富的片内外设，主要包括通用I/O引脚XF和/BIO、硬件定时器、软件可编程等待状态产生器、可编程块开关模块、增强型并行主机接口(HPI8/16)、两个多通道缓冲串口(MCBSP)；带锁相环PLL的时钟发生器，DMA控制器，JTAG接口。在消费类电子行业，C5416以其处理能力强、功耗低、功能丰富、性价比高等优点得到广泛地应用。AIC23是TI公司推出的一款高性能的立体声音频Codec芯片。支持MIC和LINEIN两种输入方式。无论是对输还是输出都有可编程增益调节，它都有不俗的表现。此外考虑到音频领域的应用，芯片还内置了耳机输出放大器。该芯片高度集成了模拟电路功能，使用灵活,其配置接口更是同时支持SPI总线和I²C总线，至于数据传输格式则有右判断模式、左判断模式、I²S模式和DSP模式4种方式,其中DSP模式是为TIDSP量身定做的此外，这两款芯片的I/O电压兼容，从而使得C5416与AIC23可以无缝连接，简化系统设计。综上所述，考虑到系统的实用性、稳定性、可靠性、投入成本以及后期的优化升级，本文采用第三种方案。2软件件设计方案所谓的语音识别在我看来其实就是让机器通过某种方式准确地解析出人所说的信息。而从不同的角度出发的语音识别所针对的群体、场合也有所不同。常见的语音信号分类为以下几种：1）从识别的说话方式来讲有孤立词识别、连接词识别、连续语音识别等。孤立词识别是之说话人每次只说一个词或短语，每个词或短语在词汇表中都算作一个独立的词条。因此常用来实现简单的家用电器控制。例如：一个用语音进行家电控制的孤立词识别系统，可以识别用户发出的诸如“开”、“关”、“升温”等词条。连接词识别一般特指十个数字（0~9）连接而成的多位数字识别或有少数指令构成的连接词条的识别。连接词识别在电话、数据库查询以及控制操作系统中运用甚广。连续语音识别是指对说话人以日常自然的方式发音，通常指用于语音录入的听写机。显然无论从复杂度还是成本，连续语音识别都高人一等，所以它并不是所有应用的首选方式，试想在一个利用语音进行命令控制的操作系统中，命令词组简单而又固定，连续词识别除了给人“杀鸡焉用牛刀”的感觉别无其他。2）从识别的词汇量来讲有小词汇量(1~20)、中词汇量(20~1000)、大词汇量(≥1000)。随着词汇量的增大，对于系统的方方面面的要求也会越来越高。3）从说话人的范围来讲有特定人识别系统和非特定人两大类。特定人指只针对一个用户的语音进行识别，结构较为简单，能得到较高的识别率，但在使用前必须有特定人的用户输入大量的发音数据对其进行训练。相较而言非特定人则显得有些包罗万象，这种识别系统的通用性好、应用面广，但难度也较大，不易得到高识别率，它的实用化会有着客观的经济价值和深远的社会意义。而建立一个非特定的语音识系统必须要从大量的样本中提炼出每个人的发音速度、语音强度、发音方式等特征，并加以归纳，寻找中出不同语音的中的“相似”。综上所述：由于考虑到C5416的计算速度、存储空间等因素，本文旨在针对于小词汇量特定人的孤立词的语音进行识别。六、基本原理1.系统基本流程：语音识别系统的典型实现方案如图1所示。输入的模拟语音信号首先要进行预处理，包括预滤波、采样和量化、加窗、断点检测、预加重等。语音信号经过预处理后，接下来重要的一环便是对于特征参数的提取，其目的是从语音波形中提取出随时间变化的语音特征序列。然后建立声学模型，在识别的时候将输入的语音特征同