深度学习的基本理论与方法目录工具箱简介深度学习具体模型概述与动机总结与展望特征表示浅层学习是机器学习的第一次浪潮人工神经网络(BP算法)—虽被称作多层感知机,但实际是种只含有一层隐层节点的浅层模型SVM、Boosting、最大熵方法(如LR,LogisticRegression)—带有一层隐层节点(如SVM、Boosting),或没有隐层节点(如LR)的浅层模型局限性:有限样本和计算单元情况下对复杂函数的表示能力有限,针对复杂分类问题其泛化能力受限。基本概念浅层学习与深度学习基本概念•2006年,加拿大多伦多大学教授、机器学习领域的泰斗GeoffreyHinton在《科学》上发表论文提出深度学习主要观点:•1)多隐层的人工神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类;•2)深度神经网络在训练上的难度,可以通过“逐层初始化”(layer-wisepre-training)来有效克服,逐层初始化可通过无监督学习实现的。基本概念•深度学习:深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示•深度神经网络:含有多个隐层的神经网络基本概念1981年的诺贝尔医学奖获得者DavidHubel和TorstenWiesel发现了一种被称为“方向选择性细胞的神经元细胞,当瞳孔发现了眼前的物体的边缘,而且这个边缘指向某个方向时,这种神经元细胞就会活跃基本概念为什么采用层次网络•人脑视觉机理•人的视觉系统的信息处理是分级的•高层的特征是低层特征的组合,从低层到高层的特征表示越来越抽象,越来越能表现语义或者意图•抽象层面越高,存在的可能猜测就越少,就越利于分类基本概念基本概念为什么采用层次网络•深度学习的优势:•能以更加紧凑简洁的方式来表达比浅层网络大得多的函数集合•训练深度学习的困难:•(1)数据获取问题•考虑到深度网络具有强大的表达能力,在不充足的数据上进行训练将会导致过拟合•(2)局部极值问题•与梯度下降法有关基本概念深度神经网络的演化神经网络深度神经网络多层感知器神经网络输出:激活函数:神经网络•网络中包含一层或多个隐藏在输入和输出神经节点之间的层多层感知器•多层感知器的训练分为以下两个阶段:•前向阶段•网络中突触的权值是固定的,输入信号在网络中一层一层的传播,直到输出端。•反向阶段•反向传播算法多层感知器反向传播算法可表示为以下几个步骤:1.进行前馈传导计算,利用前向传导公式,得到直到输出层的激活值。2.对输出层(第层),计算:3.对于的各层,计算:4.计算最终需要的偏导数值:5.根据残差对参数W和b做出更新反向传播算法1)强调了模型结构的深度,通常有5-10多层的隐层节点;2)明确突出了特征学习的重要性,通过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,从而使分类或预测更加容易。与人工规则构造特征的方法相比,利用大数据来学习特征,更能够刻画数据的丰富内在信息。深度神经网络•好处:可通过学习一种深层非线性网络结构,实现复杂函数逼近,表征输入数据分布式表示。深度神经网络深度神经网络神经网络:深度学习:•1)自动编码器•2)稀疏自编码•3)卷积神经网络•4)限制玻尔兹曼机深度学习的具体模型与方法•自动编码/稀疏自编码•在自编码网络中尝试•学习函数:•ℎ𝑤,𝑏𝑥≈𝑥•给隐藏神经元加上稀•疏性限制深度学习的具体模型与方法深度学习的具体模型与方法使神经元大部分时间都是被抑制的限制被称为稀疏性限制平均激活度:增加一条限制𝜌是稀疏性参数,在优化函数中加入惩罚因子•这一惩罚函数是基于相对熵的•相对熵是一种标准的衡量两个分布之间差异的方法。•最小化惩罚函数具有使得𝜌靠近𝜌的作用•定义总的代价函数为:•卷积神经网络深度学习的具体模型与方法•卷积层•下采样层•具有使特征映射的输出对平移和其他形式的变形的敏感度下降的作用深度学习的具体模型与方法深度学习的具体模型与方法下采样层与卷积层之间的连接方式是否有改进的地方?深度学习的具体模型与方法权值共享每个神经元无需对全局图像做感受,只需感受局部区域(FeatureMap),在高层会将这些感受不同局部的神经元综合起来获得全局信息。每个神经元参数设为相同,即权值共享,也即每个神经元用同一个卷积核去卷积图像。深度学习的具体模型与方法•CNN的优点:•1、避免了显式的特征抽取,而隐式地从训练数据中进行学习;•2、同一特征映射面上的神经元权值相同,从而网络可以并行学习,降低了网络的复杂性;•3、采用时间或者空间的子采样结构,可以获得某种程度的位移、尺度、形变鲁棒性;•3、输入信息和网络拓扑结构能很好的吻合,在语音识别和图像处理方面有着独特优势•卷积网络较一般神经网络在图像处理方面有如下优点:•a)输入图像和网络的拓扑结构能很好的吻合;•b)特征提取和模式分类同时进行,并同时在训练中产生;•c)权重共享可以减少网络的训练参数,使神经网络结构变得更简单,适应性更强深度学习的具体模型与方法•深信度网络深度学习的具体模型与方法•受限玻尔兹曼机深度学习的具体模型与方法定义联合组态(jointconfiguration)能量:这样某个组态的联合概率分布可以通过Boltzmann分布和这个组态的能量来确定:给定隐层h的基础上,可视层的概率确定:(可视层节点之间是条件独立的)给定可视层v的基础上,隐层的概率确定:深度学习的具体模型与方法待求问题:给定一个满足独立同分布的样本集:D={v(1),v(2),…,v(N)},需要学习模型参数θ={W,a,b}。求解:最大似然估计:我们需要选择一个参数,让我们当前的观测样本的概率最大对最大对数似然函数求导,即可得到L最大时对应的参数W:深度学习的具体模型与方法•深度学习在多任务学习中的应用在深度学习模型中,对于相关任务的联合学习,往往会取得较好的特征表达;多任务联合学习,能够增强损失函数的作用效能;比如:单独进行人脸检测会比较难(光照、遮挡等因素),但是当人脸检测与人脸识别这两个相关的任务联合学习时,人脸检测的难度反而降低了。深度学习的应用•对于一个特定的框架,多少维的输入它可以表现得较优?•对捕捉短时或者长时间的时间依赖,哪种架构才是有效的?•如何对于一个给定的深度学习架构,融合多种感知的信息?•如何分辨和利用学习获得的中、高层特征语义知识?•有什么正确的机理可以去增强一个给定的深度学习架构,以改进其鲁棒性和对变形及数据丢失的不变性?•模型方面是否有其他更为有效且有理论依据的深度模型学习算法?•是否存在更有效的可并行训练算法?未来需解决的问题:DeepLearningwebsite–•MatlabcodeforR-ICAunsupervisedalgorithm––––~quocle/rica_release.ziplearninglibrarythatsupportsneuralnettraining––~fergus/tutorials/deep_learning_cvpr12/深度学习的具体模型与方法