人工神经网络

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

2.神经网络深度学习实际上是一种多隐层的神经网络结构。首先应了解神经网络的构造与机理,在总结与对比基础之上理解深度学习算法。2.1前向神经网络神经元:单个神经元结构如下:图2.1单个神经元输入输出示意图每个神经元有输入、输出,输入由nxxxx...,,321表示,+1代表输出具有偏移量输出由)(,xhbW表示,)()()(31,xWfbxWfxhTiiibW(2.1)其中)(f称为激活函数。)(f可以为sigmoid函数,在一些场合下也可以为tanh或其他函数。三层神经网络结构:多层神经网络的每一层可以由多个神经元组成,一个神经元的输出可以是另一个神经元的输入。其层数越高,其深度越深,其学习与抽象化的能力就越强。图2.2三层神经网络结构图在图2.2中,最左侧一列代表输入层,最右侧代表输出层,中间代表隐含层。每一个圈代表一个节点(神经元)。图中的结构为3节点输入层+3节点隐含层+1节点输出层的神经网络。(图1.3中浅层学习方法大多呈现该3层结构)。该模型具有两个参数:),,,(),()2()2()1()1(bWbWbW,ijW代表第l层的第j个结点与第1l层的第i个结点之间的关系。上例中,)1(W表示输入层和隐含层的结点之间关系,应为3*3矩阵,)2(W表示隐含层与输出层的关系,为1*3矩阵。使用上文提到的sigmoid函数作为隐含层的激活函数)(f。上图中的321,,aaa为激活函数输出值:),()1(13)1(132)1(121)1(11)2(1bxWxWxWfa(2.2)),()1(23)1(232)1(221)1(21)2(2bxWxWxWfa(2.3)),()1(33)1(332)1(321)1(31)2(3bxWxWxWfa(2.4))()()2(1)2(3)2(13)2(2)2(12)2(1)2(11)3(1,baWaWaWfaxhbW(2.5)如果用参数)2(iz表示隐含层第i个结点得到的总输入,即)1()1(1)1()1()2(bxWbxWznjijiji(2.6)如果输出层用)3(ia表示,并写成向量形式,(2.5)可描述为:))(()()()()2()1()1()2()2()2()2()3()3(,bbxWfWfbaWfzfaxhbW(2.7)前向神经网络:若神经网络结构有多层,第l层与第1l层紧密相连,其结点对应关系用矩阵lW描述。这样的网络结构不含有回路或环,是典型人工神经网络的一种。图2.3多层前向神经网络结构图上图是一种多输出的神经网络结构,常应用于预测与分类。设层数为ln,lnl1其模型的描述是三层神经网络参数描述的扩展:)()()()1(llllibaWz(2.8))()1()1(llzfa(2.9))(1,)(lnbWaxh(2.10)2.2神经网络模型训练在监督学习的背景之下,任何一个模型的输出与期望的损失函数是可以得到的,训练的过程使得损失函数为最小并获得参数值。损失函数设ln层神经网络模型在一个样本),(yx输入的损失函数如下:2,)(21),;,(yxhyxbWJbW(2.11)输入m个样本的综合损失函数:miiibWmiiiyxhmyxbWJmbWJ12)()(,1)()())(21(1),;,(1),((2.12)其中),()()(iiyx代表第i个标注样本。为防止过拟合,加上权值衰减项,使较大的权值衰减较多,最后得到的损失函数如下:111112)(12)()(,)(2))(21(1),(lllnlsisjlijmiiibWWyxhmbWJ(2.13)λ为权值衰减参数。反向传播算法求偏导不管是哪种方法训练参数,都需要计算出损失函数对某个参数的偏导数。对(2.13)式求偏导数得到:)(1)()()()(),;,(1),(lijmilijiilijWWyxbWJmWbWJ(2.14)miliiilibyxbWJmbbWJ1)()()()(),;,(1),((2.15)求该偏导数中最著名的算法就是反向传播算法(Backpropagationalgorithm,BP)。BP算法的理论来源是一个节点的误差是由前面简单的误差线性叠加传递过来的,传递系数就是网络的系数W。BP算法工作原理如下:1.构建前向神经网络通道,逐层首先计算网络中所有节点的激活函数值,以及)(,xhbW;2.对于输出层lnl上的结点,输出值为y,输入值为)(lnz已知输出值与目标值,可以写出输出对输入的偏导数:)(')()('))(()(21)(212)()(2,)(llllllllnninnnnibWninizfayzfzfyzfyzxhyz(2.16)3.当2...3,2,1lllnnnl,对于当前层上的第i个结点,则可以推导出:)(')()(11)1()()(ljsjljljilizfWl(2.17)这一步是BP方法的理论核心:层与层之间的误差传递是线性叠加的,因而已知最终的误差和每层之间的传递矩阵W,逐步拆分、加和可以得到每一层上任意结点产生的误差。4.误差系数与所需要的偏导数之间差了一项比例系数,得到偏微分:)1()()(),;,(liljlijaWyxbWJ(2.18))1()(),;,(lilibyxbWJ(2.19)训练算法求得偏导数后,训练可用梯度下降法或者牛顿法来求网络的参数。对参数bW,初始化时,不能全部置为0,应是接近0的随机数,最好可以满足以0为均值的高斯分布。3.监督式分类器3.1Softmax回归Softmax回归是对logistic回归的拓展。Logistic回归适用于处理二分类问题,输出为是0或1的概率,其功能相当于1个神经元的激励函数输出。而softmax回归方法可以通过增加神经元的个数,达到多分类的效果。Logistic回归函数的假设函数和损失函数如下:)exp(11)(xxhT(3.4)mijiiimiiiiixjypjymxhyxhymJ110)()()(1)()()()();|(log11))(1log()1()(log1)((3.5)在处理k分类问题中,输出向量为k维,假设函数和损失函数如下:)()(2)(1)(1);|();|2();|1()(1)()()()()()()(iTkiTiTiTjxxxkjxiiiiiiieeeexkypxypxypxh(3.6)mikjiiixjypjymJ10)()()();|(log11)((3.7)式(3.4)也可以写成),0(1)(121)(2)(1)(2)(1iTiTiTiTxxxxeeeexh(3.8)对比(3.4)和(3.8),(3.5)和(3.7)很容易看出softmax回归是logistic回归的推广。3.2支持向量机支持向量机(SupportVectorMachines,SVM)是一种基于统计学习理论的模式识别方法。如果说softmax回归是具有一个隐含层的浅层网络,那么SVM则相当于无隐含层的直接分类。SVM与神经网络分类各有优缺点,例如:SVM不需要大量的训练样本,反而对大规模的样本输入时运算量过大,时耗较长;经典的支持向量机算法只给出了二类分类的算法,而在实际应用中,一般要解决多类的分类问题,可以通过多个二类支持向量机的组合来解决。

1 / 6
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功