基于DSP的高速实时语音识别系统的设计与实现

yuanyaxian
2 ℃
2020-01-04

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

实时语音识别系统中，由于语音的数据量大，运算复杂，对处理器性能提出了很高的要求，适于采用高速DSP实现。虽然DSP提供了高速和灵活的硬件设计，但是在实时处理系统中，还需结合DSP器件的结构及工作方式，针对语音处理的特点，对软件进行反复优化，以缩短识别时间，满足实时的需求。因此如何对DSP进行优化编程，解决算法的复杂性和硬件存储容量及速度之间的矛盾，成为实现系统性能的关键。本文基于TMS320C6713设计并实现了高速实时语音识别系统，在固定文本的说话人辨识的应用中效果显著。1语音识别的原理语音识别的基本原理框图如图1所示。语音信号中含有丰富的信息，从中提取对语音识别有用的信息的过程，就是特征提取，特征提取方法是整个语音识别系统的基础。语音识别的过程可以被看作足模式匹配的过程，模式匹配是指根据一定的准则，使未知模式与模型库中的某一模型获得最佳匹配。1.1MFCC语音识别中对特征参数的要求是：(1)能够有效地代表语音特征;(2)各阶参数之间有良好的独立性;(3)特征参数要计算方便，保证识别的实时实现。系统使用目前最为常用的MFCC(MelFrequencyCepstralCoefficient，美尔频率倒谱系数)参数。求取MFCC的主要步骤是：(1)给每一帧语音加窗做FFT，取出幅度;(2)将幅度和滤波器组中每一个三角滤波器进行Binning运算;(3)求log，换算成对数率;(4)从对数率的滤波器组幅度，使用DCT变换求出MFCC系数。本文中采用12阶的MFCC，同时加过零率和delta能量共14维的语音参数。1.2DTW语音识别中的模式匹配和模型训练技术主要有DTW(DynamicTimeWarping，动态时间弯折)、HMM(HideMarkovModel，隐马尔科夫模型)和ANN(ArtificialNeu-ralNetwork，人工神经元网络)。DTW是一种简单有效的方法。该算法基于动态规划的思想，解决了发音长短不一的模板匹配问题，是语音识别中出现较早、较为经典的一种算法。DTW算法的原理是计算两个长度不同的语音之间的相似程度，即失真距离。设测试语音和参考语音用T和R表示，他们分别含有N帧和M帧的语音参数。本文中每帧语音的特征参数为14维，因此T，R分别为N×14和M×14的矩阵。把测试语音的各个帧号x=1～N在一个二维直角坐标系中的横轴上标出，把参考语音的各帧号y=1～M在纵轴上标出，通过这些表示帧号的整数坐标画出一些纵横线即可形成一个网格，网格中的每一个交叉点(x，y)表示测试模式中某一帧号与训练模式某一帧的交叉点，对应于两个14维向量的欧氏距离。DTW算法在于寻找一条通过此网格中若干交叉点的路径，使得该路径上节点的路径和最小。算法示意图如图3所示。2系统硬件环境本系统的核心芯片为TI公司的32位浮点数字信号处理器TMS320C6713。其时钟频率最高可达300MHz，处理能力可以高达1336MIPS和1000MFLOPS。由于256kB的片上RAM无法满足多路信号处理时的空间需求，系统通过EMIF(ExternalMemoryInterface，外部存储器接口)扩展了32MB的外部SDRAM，并采用EDMA(ExternalDirectMemoryAccess，扩展的直接存储器访问)方式对这些外部空间进行访问。TMS320C6713有2个McBSPs(Multi-channelBuff-eredSerialPort，多通道缓冲串口)，每个McBSP，可与多达128个通道进行收发。本系统中采用McBSP0实现数字语音信号到DSP的输入，DSP进行实时判别后输出结果。3软件实现由于TMS320C6x系列的C语言编译器的效率可达汇编语言的70%～80%，并且C语言具有开发周期短、可维护性好、可移植性好、可继承性好等优点，所以软件采用C语言实现。3.1软件流程测试中采用10个参考模板，每个模板由相应的参考语音中2s的语音数据训练而成。识别策略为每路积累2s的接收语音数据后与逐个参考模板进行匹配，如果经由DTW运算所得的距离值小于特定的门限，就判决已匹配。如果不匹配，就继续接收匹配，超过8s匹配不上，就放弃。软件流程框图如图5所示，其中语音数据的采样率为8000Hz，每帧取256个采样点，即32ms的数据为一帧。程序调试通过后，采用CCS对其实时性进行分析。CCS(CodeComposerStudio，代码编译器)是TI公司提供的软件开发环境。他扩展了基本的代码生成工具，集成了调试和实时分析功能。在CCS下，程序通过WintechTDS510仿真器接到目标板的JTAG口进行硬件仿真测试。测试发现1帧信号的处理时间为78135679个指令周期，即391ms(TMS320C6713工作在200MHz)，远远达不到实时处理的要求，必须对其进行优化。3.2代码的优化首先根据TI公司提供的软件开发流程，从合作编译器选项、使用内联函数、使用字访问短整型数据和使用软件流水等方面对代码进行了优化。具体实现中，采用-pm选项、-op3选项和-o3选项对程序进行了重新编译。展开内层循环，并通过#pragmaMUSTITERATE()告诉编译器循环执行的次数，上述优化后，处理一帧的时间从78135679个指令周期降到了50364683个指令周期，但是还是无法满足实时性的要求。进一步对代码进行测试分析，提取MFCC参数的过程中，256点的实数FFT运算占用了大量的时间。TI公司针对C6000系列的DSP提供了丰富的库函数可以方便地调用。这里，从dsp67x.lib中调用DSPF_dp_cfftr4_dif()进行256点实数的FFT运算，把提取MFCC的时间降为了0.72ms。由于采用10个参考模板，每路数据一次识别就要进行10次DTW的运算，所以如何减少DTW的运算时间是优化的重点。对DTW的优化从两方面进行，首先采用查表法缩小匹配时搜索的区域。由于DTW匹配的过程中限定了弯折的斜率，因此好多格点实际上是达不到的，如图6所示。因此菱形之外的格点对应的帧匹配距离是不需要计算的。在本系统的应用中，因为每次都以2s和2s的语音数据进行匹配，M和N都固定是64帧，所以可以建一个表格储存菱形区域内的测试帧号和参考帧号，匹配时只计算表格中两帧间的矢量距离，即欧氏距离，从而把欧氏距离的运算从40960次减少到了19460次。在采用DTW快速算法后，还需进行了19460次欧氏距离的运算。测试可得，每次运算耗时1524个指令周期，所以这部分的运算仍是影响识别速度的关键。为了进一步提高代码的性能，把这段代码改为线性汇编来实现。完成上述全部优化后，测试得到，处理一帧的时间为1849365个指令周期，其中TMS320C6713工作在200MHz，即处理1帧的时间为1849365/200000000=9.25ms，达到0.29倍实时。4实验及小结为了测试上述系统的识别性能，对其进行了固定文本的说话人辨识实验。实验中，采用录音设备录制了10个人、3个不同时间所说的同一句话，共30句，平均时间长度为4.5ms。从每个人的3句话中选择频谱最清晰的一句训练成模板，另外录制20句由这10个人所说的长度接近但内容不同的语音做测试语音。这样模板库中有10个模板，测试语音有50个。首先通过各模板间的匹配，确定了判决门限0.2，然后把50句测试语音依次送入识别系统，所有语音全部正确匹配。本文通过对DTW算法的改进，结合TMS320C6713的特点对C代码进行了优化，在保证识别率的情况下，用TMS320C6713成功地实现了语音信号的高速实时识别。