语音识别之MFCC特征提取

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

语音识别之MFCC特征提取报告人:汤旭国学号:11303490935/4/2020语音识别应用预处理模块:对输入的原始语音信号进行处理滤除掉不重要的信息及背景噪声语音分帧(近似认为语音信号在10-30ms内是短时平稳的)预加重(提升高频部分)等处理特征提取:去除语音信号中对于语音识别无用的冗余信息保留反映语音本质特征的信息即提取出反映语音信号特征的关键特征参数形成特征矢量序列,以便用于后续处理声学模型训练:根据训练语音库的特征参数训练出声学模型参数在识别时可以将待识别的语音的特征参数同声学模型进行匹配,得到识别结果。语言模型训练:语言模型是用来计算一个句子出现概率的概率模型。它主要用于决定哪个词序列的可能性更大,或者在出现了几个词的情况下预测下一个即将出现的词语的内容。语音解码和搜索算法:针对输入的语音信号,根据己经训练好的HMM声学模型、语言模型及字典建立一个识别网络根据搜索算法在该网络中寻找最佳的一条路径,这个路径就是能够以最大概率输出该语音信号的词串语音是怎么产生人通过改变声道的shape发出的不同声音。声道的shape包括舌头,牙齿等。我们可以分析不同声道产生的语音短时功率谱的包络识别语音MFCCs(MelFrequencyCepstralCoefficents)是一种能准确描述这个包络的特征,在语音识别人工特征方面,可谓是一枝独秀主要的几个概念声谱图(Spectrogram)倒谱分析(CepstrumAnalysis)Mel频率分析(Mel-FrequencyAnalysis)梅尔倒频谱系数(Mel-FrequencyCepstralCoefficients)一、声谱图(Spectrogram)FFTFFTFFT一、声谱图(Spectrogram)一、声谱图(Spectrogram)一、声谱图(Spectrogram)一、声谱图(Spectrogram)一、声谱图(Spectrogram)一、声谱图(Spectrogram)一、声谱图(Spectrogram)一、声谱图(Spectrogram)一、声谱图(Spectrogram)二、CepstrumAnalysis峰值表示语音的主要频率成分,我们把这些峰值称为共振峰(formants)共振峰携带了声音的辨识属性(就是个人身份证一样,所以它特别重要)。用它就可以识别不同的声音。如何提取?二、CepstrumAnalysis语音信号序列时域:x(n)=h(n)*e(n)频域:X(K)=H(K)E(K)为了较好地将语音信号中的激励信号和声道响应分离倒谱:log||X[k]||=log||H[k]||+log||E[k]||二、CepstrumAnalysis慢变化的包络快变化的周期化细致结构二、CepstrumAnalysis我们需要把这两部分分离开--卷积同态系统二、CepstrumAnalysis二、CepstrumAnalysis二、CepstrumAnalysisMel-FrequencyAnalysis现在给我们一段语音,我们可以得到它的频谱包络(连接所有共振峰值点的平滑曲线)理论我们可以得到特征向量,但是Mel-FrequencyAnalysis人类听觉感知的实验表明:听觉系统是一个特殊的非线性系统,它响应不同频率信号的灵敏度是不同的,人耳就像一个滤波器组这些滤波器在频率坐标轴上不是统一分布的在低频区域,分布密集在高频区域,分布稀疏如果在语音识别系统中能模拟人类听觉感知处理特点,就有可能提高语音的识别率Mel-FrequencyAnalysis梅尔频率倒谱系数(MelFrequencyCepstrumCoefficient,MFCC)考虑了人类的听觉特征,先将线性频谱映射到基于听觉感知的Mel非线性频谱中。提取特征流程图至此,特征向量提取完毕,这样就可以通过这些倒谱向量对语音分类器进行训练和识别主要参考资料:现代信号处理讲义语音技术教程://blog.csdn.net/zouxy09/article/details/9156785谢谢!

1 / 34
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功