第0页PANTONE186CRGB200/16/46PANTONE185CRGB199/0/11品牌色RGB234/90/79RGB120/0/15辅助色RGB248/181/60RGB235/92/1RGB137/137/137RGB35/24/21RGB221/221/221RGB233/140/128RGB159/0/1RGB245/220/87RGB240/133/0RGB181/181/181RGB89/87/87RGB255/255/255第7章深度学习基础算法建模第1页PANTONE186CRGB200/16/46PANTONE185CRGB199/0/11品牌色RGB234/90/79RGB120/0/15辅助色RGB248/181/60RGB235/92/1RGB137/137/137RGB35/24/21RGB221/221/221RGB233/140/128RGB159/0/1RGB245/220/87RGB240/133/0RGB181/181/181RGB89/87/87RGB255/255/255目录1.深度学习概述2.常见深度学习算法3.计算机视觉与深度学习4.自然语言处理与深度学习5.语音与深度学习第2页PANTONE186CRGB200/16/46PANTONE185CRGB199/0/11品牌色RGB234/90/79RGB120/0/15辅助色RGB248/181/60RGB235/92/1RGB137/137/137RGB35/24/21RGB221/221/221RGB233/140/128RGB159/0/1RGB245/220/87RGB240/133/0RGB181/181/181RGB89/87/87RGB255/255/255语音与深度学习近年来,深度学习技术正在以爆发式的速度蓬勃发展,使得语音识别和语音合成的正确率在以往传统系统的基础上有较大幅度上升。随着并行计算基础设施的发展和移动互联网大数据的产生,深度学习技术的影响进一步交叠扩大,目前已经成为业界前沿技术。第3页PANTONE186CRGB200/16/46PANTONE185CRGB199/0/11品牌色RGB234/90/79RGB120/0/15辅助色RGB248/181/60RGB235/92/1RGB137/137/137RGB35/24/21RGB221/221/221RGB233/140/128RGB159/0/1RGB245/220/87RGB240/133/0RGB181/181/181RGB89/87/87RGB255/255/255语音识别语音识别系统通常由声学特征提取及处理、声学模型、语言模型和解码器等几个模块构成。从原始语音数据中提取得到的声学特征经过统计训练得到声学模型。然后以该声学模型作为识别基元的模板,结合语言模型,经过解码器处理输出相应的识别结果。第4页PANTONE186CRGB200/16/46PANTONE185CRGB199/0/11品牌色RGB234/90/79RGB120/0/15辅助色RGB248/181/60RGB235/92/1RGB137/137/137RGB35/24/21RGB221/221/221RGB233/140/128RGB159/0/1RGB245/220/87RGB240/133/0RGB181/181/181RGB89/87/87RGB255/255/255语音识别——语音特征提取•声学特征是描述声学信号特性的重要参数,只有提取到能描述信号本质的信息才可能将这些信息应用于高效的模式识别处理,如分类、回归等。•就语音识别而言,由于不同人之间存在性别、年龄和发音习惯等方面差异,同时生理和心理情况等也随时间不断变化,导致人们尽管在表达相同内容时,产生的语音信号始终会存在或多或少的差别。•如何将声学特征中与说话人相关的个性部分尽可能过滤掉,同时尽量保留表达相同内容的共性,这对于语音识别性能的提升至关紧要。声学特征第5页PANTONE186CRGB200/16/46PANTONE185CRGB199/0/11品牌色RGB234/90/79RGB120/0/15辅助色RGB248/181/60RGB235/92/1RGB137/137/137RGB35/24/21RGB221/221/221RGB233/140/128RGB159/0/1RGB245/220/87RGB240/133/0RGB181/181/181RGB89/87/87RGB255/255/255语音识别——语音特征提取声学特征的提取既是对原始波形信号进行压缩的过程,同时也是对信号进行解卷积的过程。由于语音信号是短时平稳信号在较短时间内(普遍认为10~30ms范围内)其信号特性能够保持相对稳定,故对语音信号的特征提取必须建立是在短时分析的基础上。传统语音特征提取•语音识别中传统语音特征提取方法包括:线性预测系数LPC、倒谱系数CEP、梅尔频率倒谱系数MFCC和感知线性预测系数PLP等。第6页PANTONE186CRGB200/16/46PANTONE185CRGB199/0/11品牌色RGB234/90/79RGB120/0/15辅助色RGB248/181/60RGB235/92/1RGB137/137/137RGB35/24/21RGB221/221/221RGB233/140/128RGB159/0/1RGB245/220/87RGB240/133/0RGB181/181/181RGB89/87/87RGB255/255/255语音识别——语音特征提取线性预测从人的发声机制出发考虑,以声道短管级联模型为基础,假定时刻的信号可以通过之前若干时刻信号的线性组合来表征。当实际说话者语音的采样值和线性预测估计值之间的均方误差达到最小值时,即可提取得到线性预测系数。倒谱系数基于同态处理方法,能够通过先求语音信号的离散傅里叶变换(DiscreteFourierTransform,DFT)后,再对离散频谱取倒数,最后求反傅里叶变换(InverseDiscreteFourierTransform,IDFT)得到倒谱系数。这种求倒谱系数的方法能够提取到相对稳定的特征参数。第7页PANTONE186CRGB200/16/46PANTONE185CRGB199/0/11品牌色RGB234/90/79RGB120/0/15辅助色RGB248/181/60RGB235/92/1RGB137/137/137RGB35/24/21RGB221/221/221RGB233/140/128RGB159/0/1RGB245/220/87RGB240/133/0RGB181/181/181RGB89/87/87RGB255/255/255语音识别——语音特征提取不同于线性预测系数和倒谱系数,梅尔倒谱系数和感知线性预测系数在一定程度上参考了人耳感知音频信号的机理,在频域进行解卷积而得到的声学特征。梅尔频率倒谱系数MFCC提取MFCC特征,需要首先采用将信号从时域映射到频域上,而后再用一组在Mel频域刻度均匀分布的三角滤波器对其对数能量谱进行卷积,最后用离散余弦变换的方法对滤波器组的输出进行处理,保留前面若干个系数,才能得到特征。感知线性预测系数PLPPLP只需要Duibin法计算得到相应的参数后,再在计算自相关系数时通过对数能量谱的离散余弦变换就能得到特征。第8页PANTONE186CRGB200/16/46PANTONE185CRGB199/0/11品牌色RGB234/90/79RGB120/0/15辅助色RGB248/181/60RGB235/92/1RGB137/137/137RGB35/24/21RGB221/221/221RGB233/140/128RGB159/0/1RGB245/220/87RGB240/133/0RGB181/181/181RGB89/87/87RGB255/255/255语音识别——语音特征提取基于深度学习的自动编码器的语音特征提取•深度自动编码器是一种特殊类型的深度神经网络,网络的输入层和输出层有相同的维度,它所期望得到的输出维度即为网络原始输入维度。•由于固定了模型的输入和输出,深度自动编码器提供了从原始数据分布空间映射到自身特征空间的可逆转换,深度自动编码器本质上可以看作是对信号的分解重构。第9页PANTONE186CRGB200/16/46PANTONE185CRGB199/0/11品牌色RGB234/90/79RGB120/0/15辅助色RGB248/181/60RGB235/92/1RGB137/137/137RGB35/24/21RGB221/221/221RGB233/140/128RGB159/0/1RGB245/220/87RGB240/133/0RGB181/181/181RGB89/87/87RGB255/255/255语音识别——语音特征提取深度自动编码器不仅可以学习到高效的编码方法,还可以提取原数据在隐含层的表示形式,即特征提取。它不需要预先知道训练样本的类别信息,以原始输入作为校验,是一种无监督特征学习方法从而实现对海量未标注数据的处理。典型的自动编码器包含一个输入层(与原始数据相对应)、一个或多个隐含层(完成特征转换)和一个输出层。特别地,当中间隐含层多于一层时,即可称为深度自动编码器。当用于特征压缩时,隐含层的节点数比输入层少。当需要把特征映射到高维空间时,则隐含层节点数多于输入层节点数。第10页PANTONE186CRGB200/16/46PANTONE185CRGB199/0/11品牌色RGB234/90/79RGB120/0/15辅助色RGB248/181/60RGB235/92/1RGB137/137/137RGB35/24/21RGB221/221/221RGB233/140/128RGB159/0/1RGB245/220/87RGB240/133/0RGB181/181/181RGB89/87/87RGB255/255/255语音识别——语音特征提取目前主要的基于深度学习理论的编码器深度自动编码器(DeepAuto-encoder,DAE)去噪自动编码器(DenoisingAuto-encoder,DAE)稀疏自动编码器(SparseAuto-enoder,SAE)……第11页PANTONE186CRGB200/16/46PANTONE185CRGB199/0/11品牌色RGB234/90/79RGB120/0/15辅助色RGB248/181/60RGB235/92/1RGB137/137/137RGB35/24/21RGB221/221/221RGB233/140/128RGB159/0/1RGB245/220/87RGB240/133/0RGB181/181/181RGB89/87/87RGB255/255/255语音识别——语音特征提取常见深度学习自编码器算法类别简介深度自动编码器深度自动编码器是以原始数据作为网络输入,通过若干个隐含层的编码得到中间层特征表示,再通过对若干个隐含层的解码得到在输出层实现对原始输入的重构。实现了以最小化原始输入和重构输入之间的均方误差为目标函数,从而进行参数调整去噪自动编码器去噪自动编码器主要通过在原始数据进入网络前,叠加随机噪声作为实际训练数据(可以在输入层节点叠加随机噪声或者以一定概率使输入层的某些节点取值为0),经过编码模块得到中间层编码表示后,最后在输出层对原始数据进行重构,从而利用网络学习到鲁棒性更强的特征稀疏自动编码器稀疏自动编码器是自动编码器的一个重要分支,同样能提取出鲁棒性非常好的特征。稀疏表明隐含层节点以较大概率取值为0,仅在小概率情况下取值不为0(且与0有较远距离,即处于激活状态)。根据人脑视觉感知系统的研宄表明,在受到自然图像信号剌激时,人脑区的视皮层细胞满足稀疏分布,即这些细胞只有小部分在同一时间内处于激活状态。通过迫使隐含层节点状态