第41卷第1期2015年1月北京工业大学学报JOURNALOFBEIJINGUNIVERSITYOFTECHNOLOGYVol.41No.1Jan.2015深度学习研究综述尹宝才,王文通,王立春(北京工业大学城市交通学院多媒体与智能软件技术北京市重点实验室,北京摇100124)摘摇要:鉴于深度学习在学术界和工业界的重要性,依据数据流向对目前有代表性的深度学习算法进行归纳和总结,综述了不同类型深度网络的结构及特点.首先介绍了深度学习的概念;然后根据深度学习算法的结构特征,概述了前馈深度网络、反馈深度网络和双向深度网络3类主流深度学习算法的网络结构和训练方法;最后介绍了深度学习算法在不同数据处理中的最新应用现状及其发展趋势.可以看到:深度学习在不同应用领域都取得了明显的优势,但仍存在需要进一步探索的问题,如无标记数据的特征学习、网络模型规模与训练速度精度之间的权衡、与其他方法的融合等.关键词:深度学习;深度神经网络;卷积神经网络;反卷积网络;深度玻尔兹曼机中图分类号:TP391郾41文献标志码:A文章编号:0254-0037(2015)01-0048-12doi:10.11936/bjutxb2014100026ReviewofDeepLearningYINBao鄄cai,WANGWen鄄tong,WANGLi鄄chun(BeijingKeyLaboratoryofMultimediaandIntelligentSoftwareTechnology,CollegeofMetropolitanTransportation,BeijingUniversityofTechnology,Beijing100124,China)Abstract:Consideringdeeplearning蒺simportanceinacademicresearchandindustryapplication,thispaperreviewsmethodsandapplicationsofdeeplearning.First,theconceptofdeeplearningisintroduced,andthemainstreamdeeplearningalgorithmsareclassifiedintothreeclasses:feed鄄forwarddeepnetworks,feed鄄backdeepnetworksandbi鄄directionaldeepnetworksaccordingtothearchitecturalcharacteristics.Second,networkarchitecturesandtrainingmethodsofthethreetypesofdeepnetworksarereviewed.Finally,state鄄of鄄the鄄artapplicationsofmainstreamdeeplearningalgorithmsisillustratedandtrendsofdeeplearningisconcluded.Althoughdeeplearningalgorithmsoutperformtraditionalmethodsinmanyfields,therearestillmanyissues,suchasfeaturelearningonunlabeleddata;thebalanceamongnetworkscale,trainingspeedandaccuracy;andmodelfusion.Keywords:deeplearning;deepneuralnetworks;convolutionalneuralnetwork;deconvolutionalnetwork;deepBoltzmannmachines收稿日期:2014鄄09鄄05基金项目:国家自然科学基金资助项目(61390512)作者简介:尹宝才(1963—),男,教授,主要从事数字多媒体技术、多功能感知技术、虚拟现实与图形学方面的研究,E鄄mail:ybc@bjut.edu.cn1摇深度学习深度学习是机器学习领域一个新的研究方向,近年来在语音识别、计算机视觉等多类应用中取得突破性的进展[1鄄20].其动机在于建立模型模拟人类大脑的神经连接结构,在处理图像、声音和文本这些信号时,通过多个变换阶段分层对数据特征进行描述[21鄄22],进而给出数据的解释.以图像数据为例,灵摇第1期尹宝才,等:深度学习研究综述长类的视觉系统中对这类信号的处理依次为:首先检测边缘、初始形状,然后再逐步形成更复杂的视觉形状[22],同样地,深度学习通过组合低层特征形成更加抽象的高层表示、属性类别或特征,给出数据的分层特征表示.深度学习之所以被称为“深度冶,是相对支撑向量机(supportvectormachine,SVM)、提升方法(boosting)、最大熵方法等“浅层学习冶方法而言的,深度学习所学得的模型中,非线性操作的层级数[21]更多.浅层学习依靠人工经验抽取样本特征,网络模型学习后获得的是没有层次结构的单层特征[23鄄25];而深度学习通过对原始信号进行逐层特征变换,将样本在原空间的特征表示变换到新的特征空间,自动地学习得到层次化的特征表示,从而更有利于分类或特征的可视化[26].深度学习理论的另外一个理论动机是:如果一个函数可用k层结构以简洁的形式表达,那么用k-1层的结构表达则可能需要指数级数量的参数(相对于输入信号),且泛化能力不足[21,27].深度学习的概念最早由多伦多大学的G.E.Hinton等[26]于2006年提出,指基于样本数据通过一定的训练方法得到包含多个层级的深度网络结构的机器学习过程[21].传统的神经网络随机初始化网络中的权值,导致网络很容易收敛到局部最小值,为解决这一问题,Hinton提出使用无监督预训练方法优化网络权值的初值,再进行权值微调的方法,拉开了深度学习的序幕.深度学习所得到的深度网络结构包含大量的单一元素(神经元),每个神经元与大量其他神经元相连接,神经元间的连接强度(权值)在学习过程中修改并决定网络的功能.通过深度学习得到的深度网络结构符合神经网络的特征[28],因此深度网络就是深层次的神经网络,即深度神经网络(deepneuralnetworks,DNN).深度神经网络是由多个单层非线性网络叠加而成的[21,29],常见的单层网络按照编码解码情况分为3类:只包含编码器部分、只包含解码器部分、既有编码器部分也有解码器部分.编码器提供从输入到隐含特征空间的自底向上的映射,解码器以重建结果尽可能接近原始输入为目标将隐含特征映射到输入空间[30].深度神经网络分为以下3类(如图1所示).1)前馈深度网络(feed鄄forwarddeepnetworks,FFDN),由多个编码器层叠加而成,如多层感知机(multi鄄layerperceptrons,MLP)[31鄄32]、卷积神经网络(convolutionalneuralnetworks,CNN)[33鄄34]等.2)反馈深度网络(feed鄄backdeepnetworks,FBDN),由多个解码器层叠加而成,如反卷积网络(deconvolutionalnetworks,DN)[30]、层次稀疏编码网络(hierarchicalsparsecoding,HSC)[35]等.3)双向深度网络(bi鄄directionaldeepnetworks,BDDN),通过叠加多个编码器层和解码器层构成(每层可能是单独的编码过程或解码过程,也可能既包含编码过程也包含解码过程),如深度玻尔兹曼机(deepBoltzmannmachines,DBM)[36鄄37]、深度信念网络(deepbeliefnetworks,DBN)[26]、栈式自编码器(stackedauto鄄encoders,SAE)[38]等.图1摇深度神经网络分类结构Fig.1摇Classificationofdeepneuralnetworks摇2摇前馈深度网络前馈神经网络是最初的人工神经网络模型之一.在这种网络中,信息只沿一个方向流动,从输入单元通过一个或多个隐层到达输出单元,在网络中没有封闭环路.典型的前馈神经网络有多层感知机[29鄄30]和卷积神经网络[32鄄33]等.F.Rosenblatt[39]提出的感知机是最简单的单层前向人工神经网络,但随后M.Minsky等[40]证明单层感知机无法解决线性不可分问题(如异或操作),这一结论将人工神经网络研究领域引入到一个低潮期,直到研究人员认识到多层感知机可解决线性不可分问题[31鄄32],以及反向传播算法与神经网络结合的研究[41鄄43]使得神经网络的研究重新开始成为热点.但是由于传统的反向传播算法[41鄄43]具有收敛速度慢、需要大量带标签的训练数据、容易陷入局部最优等缺点,多层感知机的效果并不是十分理想.1984年日本学者K.Fukushima等基于感受野概念[45]提出的神经认知机可看作卷积神经网络的一种特例[45],Y.Lecun等[33鄄34]提出的卷积神经网络是神经认知机的推广形式.卷积神经网络是由多个单层卷积神经网络组成的可训练的多层网络结构.每个单层卷积神经网络包括卷积、非线性变换94北摇京摇工摇业摇大摇学摇学摇报2015年和下采样3个阶段[46],其中下采样阶段不是每层都必需的.每层的输入和输出为一组向量构成的特征图(featuremap)(第一层的原始输入信号可以看作一个具有高稀疏度的高维特征图).例如,输入部分是一张彩色图像,每个特征图对应的则是一个包含输入图像彩色通道的二维数组(对于音频输入,特征图对应的是一维向量;对于视频或立体影像,对应的是三维数组);对应的输出部分,每个特征图对应的是表示从输入图片所有位置上提取的特定特征.2郾1摇单层卷积神经网络卷积、非线性变换和下采样3个阶段构成的单层卷积神经网络如图2所示.图2摇单层卷积神经网络的3个阶段Fig.2摇Threephasesofasinglelayerconvolutionalneuralnetwork摇摇摇卷积阶段,通过提取信号的不同特征实现输入信号进行特定模式的观测.其观测模式也称为卷积核,其定义源于由D.H.Hubel等[44]基于对猫视觉皮层细胞研究提出的局部感受野概念.每个卷积核检测输入特征图上所有位置上的特定特征,实现同一个输入特征图上的权值共享[34].为了提取输入特征图上不同的特征,使用不同的卷积核进行卷积操作.卷积阶段的输入是由n1个n2伊n3大小的二维特征图构成的三维数组.每个特征图记为xi.该阶段的输出y也是个三维数组,由m1个m2伊m3大小的特征图构成.在卷积阶段,连接输入特征图xi和输出特征图yj的权值记为wij,即可训练的卷积核(局部感受野[44,46]),卷积核的大小为k2伊k3.输出特征图为yj=bj+移iwij*xi(1)式中:*为二维离散卷积运算符;bj是可训练的偏置参数.非线性阶段,对卷积阶段得到的特征按照一定的原则进行筛选,筛选原则通常采用非线性变换的方式,以避免线性模型表达能力不够的问题.非线性阶段将卷积阶段提取的特征作为输入,进行非线性映射R=h(y).传统卷积神经网络中非线性操作采用sigmoid、tanh或softsign等饱和非线性(saturatingnonlinearities)函数[47],近几年的卷积神经网络中多采用不饱和非线性(non鄄saturatingnonlinearity)函数ReLU(rectifiedlinearunits)[1,48鄄50].在训练梯度下降时,ReLU比传统的饱和非线性函数有更快的收敛速度,因此在训练整个网络时,训练速度也比传统的方法快很多[1].4种非线性操作函数的公式为sigmoid:R=11+e-y(2)tanh:R=ey-e-yey+e-y(3)softsign:R=y1+|y|(4)ReLU:R=max(0,y)(5)其函数形态如图3所示.下采样阶段,对每个