学生姓名:魏嫒嫒学号:20162613921研究生课程报告(2016秋)课程名称神经网络原理与应用课程代码88509级别硕士生学生姓名魏嫒嫒学号2016261392学生邮箱1210270950@qq.com学生电话13572949531教师姓名ProfMingyiHE学院/学科电子信息学院上交时间2017.01.10To:1740695800@qq.com总分时间学生姓名:魏嫒嫒学号:20162613922神经网络原理与应用课程深度学习调研报告1摘要深度学习是机器学习研究中的一个新领域,在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据。近年来,深度学习在各个研究领域上也取得了丰硕的研究成果。本文简要论述了深度学习的背景、进展、模型、原理、算法以及各领域的应用,最后说明了深度学习的问题以及发展趋势。2背景与意义2006年,Hinton提出了深度置信网络(DBN),一种深层网络模型。使用一种无监督训练方法来解决问题并取得良好结果。DBN(DeepBeliefNetworks)的训练方法降低了学习隐藏层参数的难度。并且该算法的训练时间和网络的大小和深度近乎线性关系。区别于传统的浅层学习,深度学习更加强调模型结构的深度,明确特征学习的重要性,通过逐层特征变换,将样本元空间特征表示变换到一个新特征空间,从而使分类或预测更加容易。与人工规则构造特征的方法相比,利用大数据来学习特征,更能够刻画数据的丰富内在信息。相较浅层模型,深度模型具有巨大的潜力。在有海量数据的情况下,很容易通过增大模型来达到更高的正确率。深度模型可以进行无监督的特征提取,直接处理未标注数据,学习结构化特征,因此深度学习也叫做UnsupervisedFeatureLearning。随着GPU、FPGA等器件被用于高性能计算、神经网络硬件的出现和分布式深度学习系统的出现,深度学习的训练时间被大幅缩短,使得人们可以通过单纯的增加使用器件的数量来提升学习的速度。深层网络模型的出现,使得世界上无数难题得以解决,深度学习已成为人工智能领域最热门的研究方向。3国内外进展国外进展:2010年,美国国防部DARPA计划首次资助深度学习项目。2011年,微软研究院和谷歌的语言识别研究人员先后采用DNN技术降低语音识别错误率20%-30%,是该领域10年来最大突破学生姓名:魏嫒嫒学号:201626139232012年,Hinton将ImageNet图片分类问题的Top5错误率由26%降低至15%。同年AndrewNg与JeffDean搭建GoogleBrain项目,用包含16000个CPU核的并行结算平台训练超过10亿个神经元的深度网络,在语音识别和图像识别领域取得突破性进展。2013年,Hinton创立的DNNResearch公司被Google收购,YannLeCun加盟Facebook的人工智能实验室。2014年,Google将语言识别的精准度从2012年的84%提升到如今的98%,移动端Android系统的语言识别正确率提高了25%。人脸识别方面,Google的人脸识别系统FaceNet在LFW上达到99.63%的准确率。2015年,Microsoft采用深度神经网络的残差学习方法将Imagenet的分类错误率降低至3.57%,已低于同类试验中人眼识别的错误率5.1%,其采用的神经网络已达到152层。2016年,DeepMind使用了1920个CPU集群和280个GPU的深度学习围棋软件AlphaGo战胜人类围棋冠军李世石。国内进展:2012年,华为在香港成立“诺亚方舟实验室”从事自然语言处理、数据挖掘与机器学习、媒体社交、人际交互等方面的研究。2013年,百度成立“深度学习研究院”(IDL),将深度学习应用于语言识别和图像识别、检索,2014年,AndrewNg加盟百度。2013年,腾讯着手建立深度学习平台Mariana,Mariana面向识别、广告推荐等众多应用领域,提供默认算法的并行实现。2015年,阿里发布包含深度学习开放模块的DTPAI人工智能平台。深度学习的研究已经渗透到生活的各个领域,已成为人工智能技术的主要发展方向。人工智能最终的目的是使机器具备与人相当的归纳能力,学习能力,分析能力和逻辑思考能力,虽然当前的技术离这一目标还很遥远,但是深度学习无疑提供了一种可能的途径,使得机器在单一领域的能力超越人类。4基本模型与原理学生姓名:魏嫒嫒学号:20162613924深度学习采用的模型为深层神经网络(DeepNeuralNetworks,DNN)模型,即包含多个隐藏层(HiddenLayer,也称隐含层)的神经网络(NeuralNetworks,NN)。深度学习利用模型中的隐藏层,通过特征组合的方式,逐层将原始输入转化为浅层特征,中层特征,高层特征直至最终的任务目标。(1)卷积神经网络模型在无监督预训练出现之前,训练深度神经网络通常非常困难,而其中一个特例是卷积神经网络。卷积神经网络受视觉系统的结构启发而产生。第一个卷积神经网络计算模型是在Fukushima的神经认知机中提出的,基于神经元之间的局部连接和分层组织图像转换,将有相同参数的神经元应用于前一层神经网络的不同位置,得到一种平移不变神经网络结构形式。后来,LeCun等人在该思想的基础上,用误差梯度设计并训练卷积神经网络,在一些模式识别任务上得到优越的性能。至今,基于卷积神经网络的模式识别系统是最好的实现系统之一,尤其在手写体字符识别任务上表现出非凡的性能。LeCun的卷积神经网络由卷积层和子抽样层两种类型的神经网络层组成。每一层有一个拓扑图结构,即在接收域内,每个神经元与输入图像中某个位置对应的固定二维位置编码信息关联。在每层的各个位置分布着许多不同的神经元,每个神经元有一组输入权值,这些权值与前一层神经网络矩形块中的神经元关联;同一组权值和不同输入矩形块与不同位置的神经元关联。卷积神经网络是多层的感知器神经网络,每层由多个二维平面块组成,每个平面块由多个独立神经元组成。为了使网络对平移、旋转、比例缩放以及其他形式的变换具有不变性,对网络的结构进行一些约束限制:a)特征提取。每一个神经元从上一层的局部接收域得到输入,迫使其提取局部特征。b)特征映射。网络的每一个计算层由多个特征映射组成,每个特征映射都以二维平面的形式存在,平面中的神经元在约束下共享相同的权值集。c)子抽样。该计算层跟随在卷积层后,实现局部平均和子抽样,使特征映射的输出对平移等变换的敏感度下降。(2)深度信任网络模型学生姓名:魏嫒嫒学号:20162613925DBN可以解释为贝叶斯概率生成模型,由多层随机隐变量组成,上面的两层具有无向对称连接,下面的层得到来自上一层的自顶向下的有向连接,最底层单元的状态为可见输入数据向量。DBN由若干结构单元堆栈组成,结构单元通常为RBM。堆栈中每个RBM单元的可视层神经元数量等于前一RBM单元的隐层神经元数量。根据深度学习机制,采用输入样例训练第一层RBM单元,并利用其输出训练第二层RBM模型,将RBM模型进行堆栈通过增加层来改善模型性能。在无监督预训练过程中,DBN编码输入到顶层RBM后解码顶层的状态到最底层的单元实现输入的重构。5基本算法受限玻尔兹曼机(RBM)是一种无监督算法,可被用于预训练深度信念网络。RBM是玻尔兹曼机的简化版本,受到了统计力学的启发。这种方法是基于给定数据的潜在分布的概率对能量(energy)建模,这些给定的数据集来自可以派生出的条件分布。玻尔兹曼机是随机处理可见单元和隐藏单元的双向连接网络。其原始数据对应于可见神经元和被观察状态的样本,而且特征检测器对应于隐藏神经元。在玻尔兹曼机中,可见神经元为网络和其所在的操作环境提供输入。在训练过程中,可见神经元受到了钳制(调到固定值,由训练数据确定)。另一方面,隐藏神经元自由运行。卷积神经网络是人工神经网络的一种,已成为当前语音分析和图像识别领域的研究热点。它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显,使图像可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建过程。卷积网络是为识别二维形状而特殊设计的一个多层感知器,这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。CNNs是受早期的延时神经网络(TDNN)的影响。延时神经网络通过在时间维度上共享权值降低学习复杂度,适用于语音和时间序列信号的处理。CNNs是第一个真正成功训练多层网络结构的学习算法。它利用空间关系减少需要学习的参数数目以提高一般前向BP算法的训练性能。CNNs作为一个深度学习架构提出是为了最小化数据的预处理要求。在CNN中,图像的一小部分(局部感受区域)作为层级结构的最低层的输入,信息再依次传输到不同的层,每层通过一个数字滤波器去获得观测数据的最显著的特征。这个方法能够获取对平移、缩放和旋转不变的观测数据的显著特征,因为图像的局部感受区域允许神经元或者处理单元可以访问到最基础的特征,例如定向边缘或者角点。学生姓名:魏嫒嫒学号:201626139266应用(1)语音和音频通过综合深度学习模型强大的判别训练和连续建模能力,深度学习已成功应用于大规模词汇连续语音识别任务。卷积DBN和堆栈自编码网络等深度结构神经网络已经被用于语音和音频数据处理中,如音乐艺术家流派分类、说话者识别、说话者性别分类和语音分类等,得到非常好的学习结果。堆栈多层条件随机场(conditionalrandomfield,CRF)等其他深度结构神经网络结构模型也成功用于语言识别、语音识别、序列标记和置信度校准等语音相关任务。Lee等人首次用无监督卷积神经网络方法将DBN用于声学信号处理,说明该方法在讲话者、性格和音素检测上表现出比梅尔倒谱系(MFCC)更优越的性能。Hamel等人将DBN用于音乐类型识别和自动标记问题,将原始级光谱作为DBN的输入,用贪婪预训练和监督微调方法进行训练,得到的分类精度比MFCC有很大改进。Schmidt等人用基于回归的DBN直接从光谱中学习特征,将系统应用于特定的音乐情感识别问题,并且该系统也可以应用于任何基于回归的音频特征学习问题。Deng等人将堆栈自编码网络用于语音特征编码问题,以最小的重构误差将数据压缩到预先设定长度的表示。(2)图像和视频a)手写体字符识别。Bengio等人运用统计学习理论和大量的实验工作证明了深度学习算法非常具有潜力,说明数据中间层表示可以被来自不同分布而相关的任务和样例共享,产生更好的学习效果,并且在有62个类别的大规模手写体字符识别场景上进行实验,用多任务场景和扰动样例来得到分布外样例,并得到非常好的实验结果。Lee等人对RBM进行拓展,学习到的模型使其具有稀疏性,可用于有效地学习数字字符和自然图像特征。Hinton等人关于深度学习的研究说明了如何训练深度S型神经网络来产生对手写体数字文本有用的表示,用到的主要思想是贪婪逐层预训练RBM之后再进行微调。b)人脸识别。Nair等人用噪声rectified线性单元组成的深度结构神经网络将深度学习应用于目标识别和人脸验证;Ranzato等人提出深度产生式模型用于人脸识别;Susskind等人将因式分解的三路RBM用于建立成对人脸图像的模型。Luo等人研究如何从局部遮挡的人脸图像解析面部成分,提出一种新的人脸解析器,将人脸成分分割重构为重叠的形态数据过程,首先在块等级和组等级上检测人脸,在DBN上执行产生式训练过程,再用逻辑斯蒂回归进行判别式调整,然后计算对像素敏感学生姓名:魏嫒嫒学号:20162613927的标记映射。从LFw、BioID和CUFSF三个数据集中挑选2239个图像进行实验,说明了该方法的有效性,该方法不仅对局部遮挡的人脸图像具有鲁棒性,而且也为人脸分析和人脸合成提供了更丰富的信息。c)图像识别和检索。DBN和堆栈自编码网络在单个图像识别任务中表现出很好的性能,成功用于生成紧凑而有意义的图像检索表示形式,并且已用于大型图像检索任务中,得到非常好的结