深度学习-循环神经网络

hongyi2008
2 ℃
2020-03-21

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

深度学习之循环神经网络陈鹏1目录1：深度学习发展史2：从神经网络到深度学习3：循环神经网络基础4：自然语言处理基础（扩充知识）21：深度学习发展史3深度学习发展史•SVM•Boosting•Decisiontree•KNN•…NeuralnetworkBackpropagation19862006DeepbeliefnetScienceSpeech20112012ComputervisionNLPSpeech……2014GeoffreyHinton1949Learningmodelofneurons1958PerceptronHebbRosenblattGeoffreyHinton•DBN•CNN•RBM•RNN•…机器学习第一次浪潮：机器学习第二次浪潮浅层学习模型(ShallowLearning)深度学习模型(DeepLearning)FirstWinterofNNSecondWinterofNN4深度学习（多层神经网络）神经网络神经元5synapsedendriteCellbodySynapticterminalsAxon轴突末梢突触树突细胞体轴突w1x1xnΣ线性动态系统激励函数own神经元是构成神经网络的最基本单元(构件),因此,首要任务是构造人工神经元模型。细胞体Cellbody树突dendrite突触synapse轴突Axon来自其它神经元神经元模型6yθyaxox2x1xnw1w2wn•••NNxwxwu11uifuifay0w1x1xnΣ激励函数o=f(net)wnnet=WTX)(TnetfoxwXWnetii典型的激励函数(ActivationFunction)：线性函数，非线性斜面函数，阶跃函数，S型函数等。神经元模型7InputLayerHiddenLayerOutputLayerx1xMh1hLo1oNw11wm1wM1wmLwMLw1Lv11vl1vL1vLNmmlThhxwXWnetll)(lhlnetfhllnToohvHVnetnn)(nonnetfo神经网络一般形式•Nonlinearity非线性•ParallelProcessing并行处理•Input—OutputMapping输入输出匹配•Adaptivity自适应性ocx2x1xnw1w2wn•••ckfonet)net(NNwxwx11net8最简单的神经网络：Perceptrons9SingleLayerPerceptronsybx2x1xMw1w2wM•••bxwsignufyii)(0101uifuifyRosenblatt,19570101)(2211uifuifbxwxwufu0u010两类样本：白色和黑色分类错误的样本用红色轮廓目标：分类正确所有样本，直到没有红色轮廓的样本。W=[1.661.11]b=[1.25]W=[1.541.28]b=[-0.64]W=[1.161.63]b=[-1.8]W=[1.661.11]b=[-0.823]W=[1.49-1.39]b=[-0.743]SingleLayerPerceptrons：迭代过程where?11SingleLayerPerceptrons：局限性Theobjectiveisonlytofindthelinethatseparatestwolinearlyseparableclasses.Assoonasthefirstsolutionweightsvector,whichseparatesallthedatapairscorretly,isfound,therewillbenofurtherchangesofthevector.So,theperceptronlearningisnotanoptimizationmethod.线性可分问题Problems:itcannotseparatepatternswhenthereisanoverlappingofdataorwhenclassesarenotlinearlySeparable不能处理线性不可分问题x10011x20101d0110异或问题：120001AND1011OR1010XORx1x2y000100010111x1x2y000101011111x1x2y000101011110LinearSeparableProblem131010XORSingleLayerPerceptronsForXORproblem:1.introducingoneadditionalneuroninaspecialway;2.usingdifferentiableactivationfunction;◙一个单级网络可以将平面划分成两部分，用多个单级网组合在一起，就可以构成一个两级网，该网络可以被用来在平面上划分出一个封闭或者开放的凸域来；◙采用特殊的激励函数。142：从神经网络到深度学习15神经网络深度学习网络相似之处：不同之处：模拟人脑的分层网络结构；强调深度的重要性；突出特征学习的重要性；（逐层抽象）训练机制；16深度学习思想起源：人脑视觉机理后脑皮层的不同视觉神经元，与瞳孔所受刺激之间，存在某种对应关系。17人的视觉系统的信息处理是分级的；高层的特征是低层特征的组合，从低层到高层的特征表示越来越抽象，越来越能表现语义或者意图；抽象层面越高，存在的可能猜测就越少，就越利于分类；如何用计算机模拟？深度学习起源：人脑视觉机理18为什么需要深度？深层网络具有刻画复杂函数的能力19常见深度学习网络一览20深度学习网络按是否有监督分类：213：循环神经网络（RNN）22递归神经网络模型23递归神经网络吸收了HMM模型的有限序列关联的思想。神经网络的隐藏层结构能够更好的表达有限的观察值背后的复杂分布。递归神经网络（RNN），是两种人工神经网络的总称：一种是时间递归神经网络（recurrentneuralnetwork）；一种是结构递归神经网络（recursiveneuralnetwork）；递归神经网络模型24时序扩展RecurrentNeuralNetwork25针对对象：序列数据。例如文本，是字母和词汇的序列；语音，是音节的序列；视频，是图像的序列；气象观测数据，股票交易数据等等，也都是序列数据。核心思想：样本间存在顺序关系，每个样本和它之前的样本存在关联。通过神经网络在时序上的展开，我们能够找到样本之间的序列相关性。RNN是一类扩展的人工神经网络，它是为了对序列数据进行建模而产生的。RNN发展历史26HopﬁeldnetworksJ.Hopﬁeld19821986JordanNetworkElmanNetwork1990J.ElmanBPTTP.WerbosHochreiter&SchmidhuberLSTM1997Schuster&PaliwalBRNNA.GravesNeuralturingmachine2014Cho,etalGRUM.Jordan早期（80、90年代）主要思想：重新使用参数和计算中期（90-2010）除LSTM以外，RNN基本从主流研究中消失了。当前（2010-）应用广泛：自然语言应用视频建模，手写识别，用户意图预测StackRNN2015Joulin&Mikolov开源工具包：TheanoTorchPyBrainTensorFlow,,,RecurrentNeuralNetwork27RNN基本框架e.g.ImageCaptioningimage-sequenceofwordse.g.SentimentClassificationsequenceofwords-sentimente.g.MachineTranslationseqofwords-seqofwordse.g.VideoclassificationonframelevelRecurrentNeuralNetwork28典型应用：图像标注RecurrentNeuralNetwork29典型应用：语言生成RecurrentNeuralNetwork30典型应用：音乐作曲循环神经网络模型31激活函数RNN常用的激活函数是tanh和sigmoid。循环神经网络模型32softmaxSoftmax函数是sigmoid函数的一个变种，通常我们将其用在多分类任务的输出层，将输入转化成标签的概率。本质就是将一个K维的任意实数向量压缩（映射）成另一个K维的实数向量，其中向量中的每个元素取值都介于（0，1）之间。循环神经网络模型33简单循环网络SRN神经元之间的连接权重在时域上不变。循环神经网络模型34随时间反向传播算法BPTTBP回顾：定义损失函数E来表示输出和真实标签y的误差，通过链式法则自顶向下求得E对网络权重的偏导。沿梯度的反方向更新权重的值，直到E收敛。BPTT的本质其实和BP很像，就是加上了时序演化。定义权重U，V，W。定义损失函数:我们将整个序列作为一次训练，所以需要对每个时刻的误差进行求和。循环神经网络模型35随时间反向传播算法BPTT目前的任务是求E对于U，V，W的梯度。定义E对于W的梯度(U，V同理):（1）求E对于V的梯度。先求E3对于V的梯度:WVU其中：求和可得。其中：依赖于，而又依赖于和W，依赖关系一直传递到t=0的时刻。因此，当我们计算对于W的偏导数时，不能把看作是常数项！循环神经网络模型36随时间反向传播算法BPTT（2）求E对于W的梯度。注意，现在情况开始变得复杂起来。先求E3对于W的梯度:WVU当我们求对于W的偏导时。注意到：求和可得。同样：依赖于，而又依赖于和U。类似求W，当我们计算对于U的偏导数时，也不能把看作是常数项！循环神经网络模型37随时间反向传播算法BPTT（3）求E对于U的梯度。情况与W类似。先求E3对于U的梯度:WVU当我们求对于W的偏导时。注意到：求和可得。循环神经网络模型38随时间反向传播算法BPTT参数意义:Whv:输入层到隐含层的权重参数，Whh:隐含层到隐含层的权重参数，Woh：隐含层到输出层的权重参数，bh:隐含层的偏移量,bo输出层的偏移量，h0:起始状态的隐含层的输出，一般初始为0。递归神经网络模型39随时间反向传播算法BPTT面临的问题：梯度消失问题梯度爆炸问题解决方案：选择其他的激活函数。例如ReLU。引入改进网络结构的机制，例如LSTM，GRU。现在在自然语言处理上应用十分广的的就是LSTM。4：自然语言处理基础404.1：什么是自然语言处理？概念：研究人和计算机之间用自然语言进行通信的各种理论和方法414.2：词向量421：传统的One-HotEncode离散单独符号表示单词将一个单词转换成一个很长的向量。例子：{0,0,0,0,0，，，1，，，，0}缺点：A：维数灾难，稀疏B：不能反映出单词之间的相似性2：分布式表示将一个单词表示成固定维度（小维度）向量分布式假设（distribute）:上下文相似的词，其语义也相似相近的词投影到高维空间后距离很近词的表示-词向量4.3：Word2Vec43现在常用的工具是Google2013年开源的Word2Vec：根据采用的策略和模型我们主要分为以下几类框架模型基于HierarchicalSoftMax策略CBOW模型Skip-gram模型基于NegativeSampling策略CBOW模型Skip-gram模型我们主要介绍架是NegativeSampling（负采样）模型4.4：工作原理44NegativeSampling概念：把语料中一个词替换为别的词，构造语料D中不存在的词串作为负样本优化目标为：最大化正样本的概率，同时最小化负样本的概率。例子：假设我们的目标是根据目标词汇预测该目标词汇的上下文语料：Thequickbrownfoxjumpedoverthelazydog这里我们的上下文长度取1；则对于brown单词而言正样本:(brown,quick),