高噪声环境下语音检测装置的设计与实现

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

高噪声环境下语音检测装置的设计与实现吴涛,刘珩(中国农业大学信息与电气工程学院,北京100083)E-mail:calmever@hotmail.com摘要:为了提高语音检测效率,降低高噪声对语音通话的影响,设计一款适用于高噪声环境的语音检测系统。算法在G729B的基础上对判别规则进行修改,使其适用于高噪声环境。硬件组合了DSPTI5402,CODEC,FLASH,TIDSP专用电源芯片等元器件。最后对该系统在汽车、直升飞机、坦克不同噪声环境下进行测试。关键词:语音检测,G729B,DSP,TI54021前言语音检测有助于抑制无语音活动期间噪声对通讯系统的污染,有效保护使用者的听力。语音检测的的算法[1]很多,有基于单一语音特征值的,如频谱特征[2-5]、能量[6]、过零率、短时功率谱等,这些算法只利用单一的特征值,在强噪声环境下效果不佳。有些算法对这些特征值进行联合判断,采取模式识别中分类和聚类的方法[7,8],在噪声环境下得到了比较好的效果。例如现已有的算法当中G729附件当中的VAD算法[9],能够在相对安静的环境下良好的工作,但是在强噪声环境下,会出现严重的误识别率。针对该算法不适用于强噪声环境的问题,从试验中得到一些经验规则,人工对判别规则做出修改,使其适应高噪声下语音检测的要求。本装置应用了该改进了的算法;装置的硬件,核心部件由DSPTI5402,CODEC,FLASH,TIDSP专用电源组成。2算法本语音检测算法中的判别规则是在G729b中的判别规则基础上进行了优化,使规则能够适应强噪声环境,并能在此环境中得到很好的语音检测的效果。为了解决在强噪声环境下误检测的问题,修改全频带能量的变化值与过零率的变化值之间相互关系的判别规则,即修改相应的斜率和截距(a3b3a4b4),使得判别规则中的检测结果为语音的空间适当减小,即使得非语音点不会落入语音点的范围内,而造成误判断。本算法采用的语音特征参数为:1)全波段能量fE:⎥⎦⎤⎢⎣⎡⋅=)0(2401log1010REf(1)2)低频能量lE:⎥⎦⎤⎢⎣⎡⋅=RhhTNEl1log1010(2)表示从0到lFHz内的信号能量。这里h是截止频率是lFHz的前向(FIR)滤波器的冲激响应序列,R=[r(0),…,r(12)]是输入信号自相关向量。3)过零率ZC:()[]()[][]∑−=−−=101sgnsgn21MiisisMZCs(i)为输入信号,M=80。4)线谱频率系数{}piiLSF1=p=10。这个向量是经过自相关向量计算出LP滤波器参数ia,再经过滤波器参数ia利用契比雪夫多项式而计算出来的。它反映了信号频谱的特征。再计算上面4个参数各自的差值,其计算公式分别为:频谱失真S∆()∆SLSFiLSFiip=−=∑21(3)全波段能量差∆Ef∆EEEfff=−(4)低频能量差∆El∆EEElll=−(5)过零率差∆ZC∆ZCZCZC=−(6)算法可分为4个步骤:1.参数的提取;2.背景噪声平均运行参数的更新;3.VAD初判;4.VAD平滑。语音信号经8KHz采样的16位线性PCM信号,通过信号的预处理及相关参数的计算后与调整好的判决门限进行比较,输出判决结果。VAD判决每10毫秒计算一次,并在处理结束时给出判决结果。3程序流程首先进行初始化,这包括对DSP的初始化和对CODEC的初始化,使得硬件系统达到算法的要求。这里设置CODEC的采样频率为8KHz,DSP的McBSP的接受中断模式为由RRDY驱动,McBSP的发送中断模式为由XRDY驱动。语音信号从麦克进入系统,由CODEC进行AD转换成为每秒8千个的16位数据流。再由CODEC把信号传给DSP中的串口,这样再由串口把语音数据供给CPU进行算法的数据运算。80个采样点位为一帧,一帧的时间内对包括当前帧的前240个采样点进行运算处理,进而得出VAD的判决。再根据判别的结果,对McBSP的发送中断进行允许,把判别为语音的数据段通过CODEC发送出去。判决平滑是否达到背景噪声门限?更新背景噪音参数平均值)Dsp芯片::TMS320VC5402.它是TI公司的一款高性能、低成本、低功耗的16位定点DSP。它的运算速度可达到100MIPS;两个具有多种工作模式的McBSP串口;供电电压为3.3V、1.8V,功耗小。2)电源芯片:TPS767D318它的输入电压为5V,输出电压为3.3V、1.8V,最大输出电流1A,具有芯片过热保护功能。它能很好的为5402供电。3)片外存储器:SST39VF400它的容量是4Mbit,访问时间是70ns;片擦除时间是70ms,有三种擦除方式。对FLASH的擦除和写入可通过在线编程实现。系统上电后,通过设置Dsp参数使得Dsp运行bootloader程序,把FLASH里的程序写到片内RAM中,然后从入口地址处运行程序。4)语音解码器:TLC320AD50C它是TI的功能芯片,实现低成本高精度的A/D、D/A转换。可对其以串口的方式对其进行设置。5系统测评在汽车、坦克和直升飞机不同噪声环境下,分别从三个方面对该系统进行测试。1)整个句子的可懂度。检测在通话时受话者对发话者发出的整个句子的理解程度。采用标准的词表测试,在100dB的汽车噪声环境、110dB坦克噪声环境和115dB直升飞机的噪声环境下,经统计句子的可懂度分别为99%,96%和94%。2)句子的丢字漏字情况。测试的主要目的是检查在噪声环境下通话时清音辅音字的丢字漏字情况。采用标准的词表测试,在100dB的汽车噪声环境、110dB坦克噪声环境和115dB直升飞机的噪声环境下,经统计句子的丢字漏字率分别为3%,5%和8%。3)系统的可靠性。测试的目的是检查在噪声波动情况下的系统的跟随能力和有冲击噪声干扰的情况下系统的抗干扰性能。采用标准的词表测试,噪声区间为80dB~115dB。噪声以4dB/5s的速度从区间底值开始增大,达到区间顶值后,再以相同的速度减小到区间底值。DSPTMS320VC5402串口RESETPOWERFLASHJTAGCODEC在此过程中,随机加入一些幅度较大的短时噪声。经统计,在100db~110db和110db~115db区间内,系统的稳定性分别为92%。下面三组图,分别是在100dB的汽车噪声环境、110dB坦克噪声环境和115dB直升飞机的噪声环境下处理前后的语音波形。话音为“我已占领展开地区”。1)背景噪声100dB的汽车环境下,没有清音丢字的情况,有轻微的误判断的情况,可以很容易地听懂该句。图1.1为汽车噪音下的语音波形图,图1.2为处理后的语音波形图00.511.522.53x104-1-0.8-0.6-0.4-0.200.20.40.60.81时间幅值图1.1)背景噪声为110dB的坦克环境下,“领”字的后半段有丢失,可以理解该句的意思图2.1为坦克噪音下的语音波形图,图2.2为处理后的语音波形图00.511.522.53x104-1-0.8-0.6-0.4-0.200.20.40.60.81时间幅值图1.2)背景噪声115dB的直升飞机环境下,“领”、“地”的前半段有轻微的丢失,在无语音段受到突变噪声的干扰错误检测。可以理解全句的意思。图3.1为直升飞机噪音下的语音波形图,图3.2为处理后的语音波形图总结该语音检测系统达到了有效去除噪音的目的,使得语音顺利通过,满足在句子的可懂度、句子的丢字漏字情况和系统的可靠性上的要求。算法上的改进有效的解决了高噪声环境下严重的误检测的问题,在清因丢字等方面仍有欠缺,应继续改进。对于语音段的噪音去除效果,将在今后继续探索新的算法,如自适应滤波算法、小波算法等,以有效地去除语音段的噪音。参考文献[1]KMaleh,PKabal,Comparisonofvoiceactivitydetectionalgorithmsforwirelesspersonalcommunicationssystems[J].InProc.CCECE’97Can.Conf.ElectricalComputerEngineering,1997,2:470~473[2]HaighJ,etal,Robustvoiceactivitydetectionusingcepstralfeatures[J].Beijing:IEEETENCON-93,1993:321~324[3]KimNamsoo,ChangJoon-Hyuk,Voiceactivitydetectionbasedoncomplexlaplacianmodel[J].ElectronicsLetters,2003,7:632~633[4]JurajK,GregorR,SPEECHSIGNALDETECTIONINANOISYENVIRONMENTUSINGNEURALNETWORKSANDCEPSTRALMATRICES[J].JournalofELECTRICALENGINEERING,2004,5:131~137[5]JavierR,JoseS,CarmenB,Efficientvoiceactivitydetectionalgorithmsusinglong-termspeechinformation[J].Speechcommunication,2004,2:271~287[6]MarkM,BirgerK,SpeechPauseDetectionforNoiseSpectrumEstimationby:109~129[7]董恩清,等,支持向量机在语音激活检测中的应用研究[J].通信学报,2003,24(3):70-77[8]BeritelliF,CasaleS,CavallaroA,Arobustvoiceactivitydetectorforwirelesscommunicationusingsoftcomputing[J].IEEEJOURNALONSELECTEDAREASINCOMMUNICATIONS,1998,9:1818-829[9]BENYASSINEA,SHLOMOTE,SUHY,etal.ITUrecommendationG.729annexB:asilencecompressionschemeforusewithG.729optimizedforV.70digitalsimultaneousvoiceanddataapplications[J].IEEECommunMag,1997,35(9):64-73.DesignandImplementoftheVoiceActivityDetectionSystemAppliedinStrongNoiseEnvironmentVincentWu,HengLiu(CollegeofInformationandElectricalEngineering

1 / 10
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功