深度学习常用词汇

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

激活函数(ActivationFunction)为了让神经网络能够学习复杂的决策边界(decisionboundary),我们在其一些层应用一个非线性激活函数。最常用的函数包括sigmoid、tanh、ReLU(RectifiedLinearUnit线性修正单元)以及这些函数的变体。AdadeltaAdadelta是一个基于梯度下降的学习算法,可以随时间调整适应每个参数的学习率。它是作为Adagrad的改进版提出的,它比超参数(hyperparameter)更敏感而且可能会太过严重地降低学习率。Adadelta类似于rmsprop,而且可被用来替代vanillaSGD。论文:Adadelta:一种自适应学习率方法(ADADELTA:AnAdaptiveLearningRateMethod)技术博客:斯坦福CS231n:优化算法()技术博客:梯度下降优化算法概述()AdagradAdagrad是一种自适应学习率算法,能够随时间跟踪平方梯度并自动适应每个参数的学习率。它可被用来替代vanillaSGD();而且在稀疏数据上更是特别有用,在其中它可以将更高的学习率分配给更新不频繁的参数。论文:用于在线学习和随机优化的自适应次梯度方法(AdaptiveSubgradientMethodsforOnlineLearningandStochasticOptimization)技术博客:斯坦福CS231n:优化算法()技术博客:梯度下降优化算法概述()AdamAdam是一种类似于rmsprop的自适应学习率算法,但它的更新是通过使用梯度的第一和第二时刻的运行平均值(runningaverage)直接估计的,而且还包括一个偏差校正项。论文:Adam:一种随机优化方法(Adam:AMethodforStochasticOptimization)技术博客:梯度下降优化算法概述()仿射层(AffineLayer)神经网络中的一个全连接层。仿射(Affine)的意思是前面一层中的每一个神经元都连接到当前层中的每一个神经元。在许多方面,这是神经网络的「标准」层。仿射层通常被加在卷积神经网络或循环神经网络做出最终预测前的输出的顶层。仿射层的一般形式为y=f(Wx+b),其中x是层输入,w是参数,b是一个偏差矢量,f是一个非线性激活函数。注意机制(AttentionMechanism)注意机制是由人类视觉注意所启发的,是一种关注图像中特定部分的能力。注意机制可被整合到语言处理和图像识别的架构中以帮助网络学习在做出预测时应该「关注」什么。技术博客:深度学习和自然语言处理中的注意和记忆()AlexnetAlexnet是一种卷积神经网络架构的名字,这种架构曾在2012年ILSVRC挑战赛中以巨大优势获胜,而且它还导致了人们对用于图像识别的卷积神经网络(CNN)的兴趣的复苏。它由5个卷积层组成。其中一些后面跟随着最大池化(max-pooling)层和带有最终1000条路径的softmax(1000-waysoftmax)的3个全连接层。Alexnet被引入到了使用深度卷积神经网络的ImageNet分类中。自编码器(Autoencoder)自编码器是一种神经网络模型,它的目标是预测输入自身,这通常通过网络中某个地方的「瓶颈(bottleneck)」实现。通过引入瓶颈,我们迫使网络学习输入更低维度的表征,从而有效地将输入压缩成一个好的表征。自编码器和PCA等降维技术相关,但因为它们的非线性本质,它们可以学习更为复杂的映射。目前已有一些范围涵盖较广的自编码器存在,包括降噪自编码器(DenoisingAutoencoders)、变自编码器(VariationalAutoencoders)和序列自编码器(SequenceAutoencoders)。降噪自编码器论文:StackedDenoisingAutoencoders:LearningUsefulRepresentationsinaDeepNetworkwithaLocalDenoisingCriterion变自编码器论文:Auto-EncodingVariationalBayes序列自编码器论文:Semi-supervisedSequenceLearning平均池化(Average-Pooling)平均池化是一种在卷积神经网络中用于图像识别的池化(Pooling)技术。它的工作原理是在特征的局部区域上滑动窗口,比如像素,然后再取窗口中所有值的平均。它将输入表征压缩成一种更低维度的表征。反向传播(Backpropagation)反向传播是一种在神经网络中用来有效地计算梯度的算法,或更一般而言,是一种前馈计算图(feedforwardcomputationalgraph)。其可以归结成从网络输出开始应用分化的链式法则,然后向后传播梯度。反向传播的第一个应用可以追溯到1960年代的Vapnik等人,但论文Learningrepresentationsbyback-propagatingerrors常常被作为引用源。技术博客:计算图上的微积分学:反向传播()通过时间的反向传播(BPTT:BackpropagationThroughTime)通过时间的反向传播是应用于循环神经网络(RNN)的反向传播算法。BPTT可被看作是应用于RNN的标准反向传播算法,其中的每一个时间步骤(timestep)都代表一个计算层,而且它的参数是跨计算层共享的。因为RNN在所有的时间步骤中都共享了同样的参数,一个时间步骤的错误必然能「通过时间」反向到之前所有的时间步骤,该算法也因而得名。当处理长序列(数百个输入)时,为降低计算成本常常使用一种删节版的BPTT。删节的BPTT会在固定数量的步骤之后停止反向传播错误。论文:BackpropagationThroughTime:WhatItDoesandHowtoDoIt分批标准化(BN:BatchNormalization)分批标准化是一种按小批量的方式标准化层输入的技术。它能加速训练过程,允许使用更高的学习率,还可用作规范器(regularizer)。人们发现,分批标准化在卷积和前馈神经网络中应用时非常高效,但尚未被成功应用到循环神经网络上。论文:分批标准化:通过减少内部协变量位移(CovariateShift)加速深度网络训练(BatchNormalization:AcceleratingDeepNetworkTrainingbyReducingInternalCovariateShift)论文:使用分批标准化的循环神经网络(BatchNormalizedRecurrentNeuralNetworks)双向循环神经网络(BidirectionalRNN)双向循环神经网络是一类包含两个方向不同的RNN的神经网络。其中的前向RNN从起点向终点读取输入序列,而反向RNN则从终点向起点读取。这两个RNN互相彼此堆叠,它们的状态通常通过附加两个矢量的方式进行组合。双向RNN常被用在自然语言问题中,因为在自然语言中我们需要同时考虑话语的前后上下文以做出预测。论文:双向循环神经网络(BidirectionalRecurrentNeuralNetworks)CaffeCaffe是由伯克利大学视觉和学习中心开发的一种深度学习框架。在视觉任务和卷积神经网络模型中,Caffe格外受欢迎且性能优异.分类交叉熵损失(CategoricalCross-EntropyLoss)分类交叉熵损失也被称为负对数似然(negativeloglikelihood)。这是一种用于解决分类问题的流行的损失函数,可用于测量两种概率分布(通常是真实标签和预测标签)之间的相似性。它可用L=-sum(y*log(y_prediction))表示,其中y是真实标签的概率分布(通常是一个one-hotvector),y_prediction是预测标签的概率分布,通常来自于一个softmax。信道(Channel)深度学习模型的输入数据可以有多个信道。图像就是个典型的例子,它有红、绿和蓝三个颜色信道。一个图像可以被表示成一个三维的张量(Tensor),其中的维度对应于信道、高度和宽度。自然语言数据也可以有多个信道,比如在不同类型的嵌入(embedding)形式中。卷积神经网络(CNN/ConvNet:ConvolutionalNeuralNetwork)CNN使用卷积连接从输入的局部区域中提取的特征。大部分CNN都包含了卷积层、池化层和仿射层的组合。CNN尤其凭借其在视觉识别任务的卓越性能表现而获得了普及,它已经在该领域保持了好几年的领先。技术博客:斯坦福CS231n类——用于视觉识别的卷积神经网络()技术博客:理解用于自然语言处理的卷积神经网络()深度信念网络(DBN:DeepBeliefNetwork)DBN是一类以无监督的方式学习数据的分层表征的概率图形模型。DBN由多个隐藏层组成,这些隐藏层的每一对连续层之间的神经元是相互连接的。DBN通过彼此堆叠多个RBN(限制波尔兹曼机)并一个接一个地训练而创建。论文:深度信念网络的一种快速学习算法(Afastlearningalgorithmfordeepbeliefnets)DeepDream这是谷歌发明的一种试图用来提炼深度卷积神经网络获取的知识的技术。这种技术可以生成新的图像或转换已有的图片从而给它们一种幻梦般的感觉,尤其是递归地应用时。代码:Github上的DeepDream()技术博客:Inceptionism:向神经网络掘进更深()DropoutDropout是一种用于神经网络防止过拟合的正则化技术。它通过在每次训练迭代中随机地设置神经元中的一小部分为0来阻止神经元共适应(co-adapting),Dropout可以通过多种方式进行解读,比如从不同网络的指数数字中随机取样。Dropout层首先通过它们在卷积神经网络中的应用而得到普及,但自那以后也被应用到了其它层上,包括输入嵌入或循环网络。论文:Dropout:一种防止神经网络过拟合的简单方法(Dropout:ASimpleWaytoPreventNeuralNetworksfromOverfitting)论文:循环神经网络正则化(RecurrentNeuralNetworkRegularization)嵌入(Embedding)一个嵌入映射到一个输入表征,比如一个词或一句话映射到一个矢量。一种

1 / 16
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功