人工神经网络-深度学习

jagjrw
1 ℃
2020-06-04

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

人工神经网络及其应用第七讲深度学习主讲人：方涛第七讲深度学习主讲内容§7.1研究背景§7.2从BP网络看深度学习§7.3几种典型的深度学习模型§7.4开源深度学习框架§7.5深度学习的未来§7.1研究背景约翰·麦卡锡（1927-2011）LISP之父—不走寻常路的常识逻辑学家1956年，约翰.麦卡锡召集了一次会议来讨论人工智能未来的发展方向，开启了AI的发展2016年---人工智能（AI）奠基60周年21世纪初，“深度学习”的出现，AI研究获得了长足的进步没有大数据，没有“大计算”，就没有人工智能的今天！MarvinMinsky—人工智能之父和框架理论的创立者1927-2016MITAILab创始人之一1970年获得图灵奖美国工程院和美国科学院院士在近60年的人工智能历史中，马文-明斯基一直是一位闪耀着耀眼光彩的杰出的人工智能权威，是当之无愧的人工智能之父。（李德毅院士）明斯基在1950年进入普林斯顿大学攻读数学系的博士研究生学位，比我晚一年。我们很快意识到，我们两人都对人工智能很感兴趣。事实上，当时明斯基已经对如何实现人工智能颇有想法了，这一点在之后他设计和建造的世界上第一个神经网络模拟器Snare上得到了证实。（JohnMcCarthy人工智能先驱，LISP语言之父，图灵奖获得者）1969：Perceptron（感知器）---神经网络的局限性（深度学习的前身）§7.1研究背景2016年,阿尔法狗（AlphaGo）4:1大胜围棋9段李世石高手，AI重大历史时刻“监督学习的策略网络（PolicyNetwork）”通过13层全连接网络，反复训练围棋棋盘布局，调整参数，以最佳概率预测落子选择（MovePicker），如何下棋子“价值网络（ValueNetwork）”给定棋子位置，预测每一个棋手赢棋的可能，就是计算局面§7.1研究背景主要设计者----位于伦敦Google旗下DeepMind公司大卫·席尔瓦（DavidSilver）----剑桥大学计算机科学学士，硕士，加拿大阿尔伯塔大学计算机科学博士黄士杰（AjaHuang），台湾交通大学计算机科学学士，台湾师范大学计算机科学硕士和博士，加拿大阿尔伯塔大学计算机科学博士后§7.1研究背景GeoffreyE.Hinton加拿大多伦多大学教授专注于神经网络几十年，1985年，提出Boltzmann机1986年，提出受限Boltzmann机、BP算法2006年，提出神经网络进行降维开启了深度学习时代，并在随后的ImageNet图片识别的比赛，取得了非常有说服力的结果（74%-85%），震撼了学术界◆Hinton,G.andSalakhutdinov,R.(2006).Reducingthedimensionalityofdatawithneuralnetworks.Science,313(5786):504–507.◆Hinton,G.E.(2002).Trainingproductsofexpertsbyminimizingcontrastivedivergence.NeuralComp.,14(8):1771–1800◆Hinton,G.E.,Dayan,P.,Frey,B.J.,andNeal,R.M.(1995).Thewake-sleepalgorithmforunsupervisedneuralnetworks.Science,268:1158–1160◆Hinton,G.E.andSejnowski,T.E.(1986).LearningandrelearninginBoltzmannmachines.InParallelDistributedProcessing,volume1,pages282–317.MITPress◆Rumelhart,Hinton,Williams,LearningRepresentationsbyBack-propagatingerrors,Nature,1986,323(6088):533-536AndrewNg斯坦福大学教授2012年6月,《纽约时报》披露了GoogleBrain项目大规模计算机系统方面的世界顶尖专家JeffDean用16000个CPUCore的并行计算平台训练一种称为“深度神经网络”（DNN，DeepNeuralNetworks）的机器学习模型（内部共有10亿个节点)在语音识别和图像识别等领域获得了巨大的成功§7.1研究背景2012年11月，微软公开演示全自动同声传译系统深度学习,讲演者用英文演讲，后台的计算机一气呵成自动完成语音识别、英中机器翻译和中文语音合成，效果非常流畅§7.1研究背景2013年1月，百度创始人兼CEO李彦宏高调宣布成立“深度学习研究所”（IDL，InstitueofDeepLearning§7.1研究背景机器学习解决目标识别与分类问题的思路三个主要组成部分中间的特征提取部分将很大程度上决定最终的效果，如何提取特征？“巧妇难为无米之炊”§7.1研究背景SIFTHOGDoG+Gabor§7.1研究背景Sift被认为是局部图像特征描述子研究领域一项里程碑式的工作，对尺度、旋转以及一定视角和光照变化等图像变化都具有不变性，还SIFT具有很强的可区分性特征抽取非常费力，需要领域知识启发式提取最大的问题？--人工设计BOW……§7.1研究背景待检测图像行人模型图像金字塔适应目标尺度变化局部滤波器变形动态规划求解可变形部件模型行人检测1981年的诺贝尔医学奖，颁发给了DavidHubel和TorstenWiesel(JohnHopkinsUniversity)，以及RogerSperry。前两位的主要贡献，是“发现了视觉系统的信息处理”：可视皮层是分级的：这个发现激发了人们对于神经系统的进一步思考→神经-中枢-大脑的工作过程，”或许”是一个不断迭代、不断抽象的过程§7.1研究背景人脑视觉系统如何提取特征？关键在于抽象和迭代，从原始信号开始进行低级抽象，逐渐向高级抽象迭代从低层到高层的特征表示越来越抽象，生物视觉特征分层抽象的过程，就是一个计算机建模过程§7.1研究背景人脑视觉系统如何提取特征？§7.1研究背景§7.1研究背景HMAXNeocognitronVisNet§7.1研究背景从层次增加看深度学习发展简史2020年又是冰河期？§7.1研究背景♦浅层机器学习模型(第二次浪潮)--1-2层隐层的BP网络（20世纪80年代末期）--SVM、Boosting等，模型的结构可视为带一层隐层节点或没有隐层节点（20世纪90年代）NeuralNetwork问题--比较容易过拟合，参数比较难tune，而且需要不少技巧--训练速度比较慢，--有限样本和计算单元情况下对复杂函数的表示能力有限--梯度越来越稀疏：从输出层越往输入层，误差校正信号越来越小--收敛到局部极小值近20多年，主要SVM和boosting算法§7.1研究背景♦深度机器学习模型(第三次浪潮)GeoffreyHinton（加拿大多伦多大学教授、机器学习领域的泰斗）及其学生2006年在科学杂志发表”DeepLearning”文章，开启了深度学习在学术界和工业界的浪潮。--多隐层的人工神经网络具有优异的特征学习能力--通过无监督学习的“逐层初始化”（layer-wisepre-training）来有效克服深度神经网络在训练上的难度--深度学习可通过学习一种深层非线性网络结构，实现复杂函数逼近，表征输入数据分布式表示，并展现了强大的从少数样本集中学习数据集本质特征的能力。--强调了模型结构的深度，通常有5层、6层，甚至10多层的隐层节点--深度学习就是特征学习，通过逐层特征变换，将样本在原空间的特征表示变换到一个新特征空间，从而使分类或预测更加容易“深度学习”通过多层次抽象来实现特征的表达§7.1研究背景DeepLearning—以多层次神经网络为基础发展起来的一种新的机器学习方法，被认为是AI的新的前沿Theoretical:“…well-knowndepth-breadthtradeoffincircuitsdesign[Hastad1987].Thissuggestsmanyfunctionscanbemuchmoreefficientlyrepresentedwithdeeperarchitectures…”[Bengio&LeCun2007]Biological:Visualcortexishierarchical(HubelandWiesel).§7.1研究背景§7.2从BP网络看深度学习7.2.1BP网络——仅适合浅层网络梯度下降算法——梯度逐层反向计算，直到梯度接近零为止§7.2从BP网络看深度学习为什么BP网络只适合浅层网络？•训练速度慢问题•易于过拟合问题在学习训练中,网络对学习样本达到非常高的逼近精度,但对测试样本逼近误差随网络训练次数而呈现先下降,后反而上升的奇异现象•全局优化问题BP网络深度较深时，会涉及到求解一个高阶非凸优化问题，容易陷入很坏的局部极小•梯度弥散问题BP网络深度较深时，梯度随着深度向前而显著下降，误差反传到更前面的隐含层时已非常小，使得前几层不能有效进行调节，训练速度很慢§7.2从BP网络看深度学习7.2.2深度学习的基本思想加拿大多伦多大学的GeofferyHinton教授2006年首次提出了“深度信念网络”的概念。与传统的训练方式不同，为大幅度减少了训练多层神经网络的时间，采用两个技术█“预训练”（pre-training）：无监督学习→参数初始值逐层贪婪训练，就是先训练网络第1个隐含层，再训练第2个…，最后将训练好的网络参数作为整个网络参数的初值（预训练，找到神经网络中一个接近最优解的权值）█“微调”(fine-tuning)：监督学习进一步优化训练整个网络，对神经网络参数（权值）改变很小§7.2从BP网络看深度学习7.2.2深度学习的基本思想█层数保持不变，神经网络的参数数量增加，从而带来了更好的表示（represention）能力█增加更多层次，更深入的特征表示，以及更强的函数模拟能力随着网络的层数增加，每一层对于前一层次的抽象表示更深入。即每一层神经元学习到的是前一层神经元值的更抽象的表示第1隐含层学习到的特征--“边缘”第2隐含层学习到的特征--由“边缘”组成的“形状”第3隐含层学习到的特征--由“形状”组成的“图案”。。。。。最后隐含层学习到的特征--由“图案”组成的“目标”神经网络本质----模拟特征与目标之间函数映射关系。层数多，参数多，模拟映射函数更复杂、更多容量Deeplearning与NeuralNetwork深度学习---是模拟人脑进行分析学习，称UnsupervisedFeatureLearning--源于人工神经网络，含多隐层的多层感知器就是一种深度学习结构--用深度网络结构来抽象和迭代组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。深度网络训练的主要思想是用非标签数据进行逐层贪婪训练和用有标记数据来进行整个网络的微调相同之处--采用分层结构：输入层、隐层（多层）、输出层--连接方式：相邻层节点之间有连接，同一层以及跨层节点之间相互无连接不同之处--训练机制不同：ANN采用后向传播机制,DLlayer-wise的训练机制--层数多，BP残差传播到最前面的层已经变得太小（梯度扩散）§7.2从BP网络看深度学习7.2.3深度学习流行的激励函数§7.2从BP网络看深度学习传统激励函数---Sigmoid系非线性的Sigmoid函数对中央区域的信号增益较大，对两侧区域的信号增益小，特征空间映射效果好从神经科学看，中央区域类似神经元兴奋态，两侧区域类似神经元抑制态问题：（1）sigmoid函数在实际梯度下降中，容易饱和和终止梯度传递（2）同时近乎有一半的神经元被激活1()1xfxe-=+§7.2从BP网络看深度学习类似生物神经元激励函数与Sigmoid系的不同：（1）单侧抑制（红框里前端全没激活）（2）相对宽阔的兴奋边界（3）稀疏激活性神经科学家Daya