基于深度学习的语音识别文献阅读笔记

dringking
1 ℃
2020-01-03

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

语音识别1《基于深度学习的语音识别应用研究》语音识别主要作用就是把一段语音信号转换成相对应的文本信息,系统主要由声学特征提取、语言模型、声学模型和解码器等组成。训练识别的过程是从原始波形语音数据中提取的声学特征经过训练得到声学模型,与发声词典、语言模型组成网络,对新来的语音提取特征,经过声学模型表示,通过维特比解码得出识别结果。特征系统主要由声学特征提取、语言模型、声学模型和解码器等组成。音识别中的特征包括:线性预测参数(LinearPredictionCoefficients,LPC)、倒谱系数(CepstralCoefficients,CEP)、梅尔频率倒谱系数(Mel-FrequencyCepstralCoefficients,MFCC)和感知线性预测系数(PerceptualLinearPrediction,PLP)等。声学模型声学基元选择词(Word)、音节(Syllable)、声韵母(Initial/Final)以及音素(Phone)HMM声学建模隐马尔科夫模型声学模型训练准则最大似然准则语言模型统计语言模型,通过概率来表示词序列在语言环境中出现的可能性,并不是基于语法规则的简单判断。解码器通过在一个由语言模型、发声词典、声学模型构成的网络空间中搜索得分较高的状态序列,其中这里的网络空间有动态网络和静态网络,得分主要由声学模型得分和语言模型得分共同决定。语音识别的深度学习CNN将语音看做二维特征输入时，第一维是时域维度，第二维是频域维度，这两维的物理意义完全不同!.输入层、卷积核、特征图(featuremap)都是一维的。用Kaldi中特征提取工具以帧长25ms、巾贞移10ms,提取原始数据生成39维MFCC特征(12维滤波器输出值加上1维对数能量,以及其一阶差分和二阶差分)。分布满足a,=0及德尔塔=1,这么做可以直接避免训练样本分布的重新估计。总结通过深度神经网络提取语音特征的方法、深度神经网络提取声韵母属性的方法和深度学习搭建声学模型的方法的语音识别系统与MFCC特征下GMM-HMM搭建的系统就词识别率的结果比较可以看出,深度学习网络替换GMM模型做状态输出的系统识别错误率最低,深度神经网络提取声韵母属性的方法的效果次之,深度神经网络提取语音特征效果比深度神经网络提取声韵母属性效果差,但是比MFCC的系统好。2卷积神经网络在语音识别中的应用将语音看做二维特征输入时，第一维是时域维度，第二维是频域维度。DNN上实验证明，多帧串联的长时特征对模型性能的提高很重要。当前帧的前后几帧串联起来构成长时特征。频域维度上，一般采用梅尔域的滤波带系数(filterbank)作为参数(如图%中选择+个滤波频带)在送入B++训练前，将多帧串联构成长时特征!所有特征都进行了逐句的均值方差规整!英文标准连续语音识别库TIMIT主流的语音识别系统基本上都是以隐马尔科夫模型为基础所建立的倒谱均值方差归一化、声道长度归一化以及RASTA滤波用深度学习方法提取语音高层特征通常可以采用MFCC、PLP以及filter-bank等参数作为输入。