神经网络部分知识点总结一、神经网络的基础1.1神经网络概念神经网络是由简单处理单元构成的大规模并行分布式处理器,天然具有存储经验知识和使之可用的特性。神经网络在这两方面与大脑相似:1.神经网络是通过学习过程从外界环境中获取知识的。2.互连神经元的连接强度,即突触权值,用于存储获取的知识。1.2神经网络性质和能力神经网络具有以下有用的性质和能力:1.非线性:人工神经网络可以是线性或者非线性的。2.输入输出映射:称之为有教师学习(learningwithateacher)或监督学习(supervisedlearning)的关于学习的流行方法。它使用带标号的的训练样例(trainingexample)或任务样例(taskexample)对神经网络的突触权值进行修改。3.自适应性:神经网络具有调整自身突触权值以适应外界环境变化的固有能力。4.证据响应(evidentialresponse):在模式分类问题中,神经网络可以设计成不仅能够提供选择哪一个特定模式的信息,还提供关于决策的置信度信息。后者可以用来拒判那些可能出现的过于模糊的模式,从而进一步改善网络的分类性能。5.上下文信息(contextualinformation):神经网络的特定结构和激发状态代表知识。网络中每一个神经元都受到所有其他神经元全局活动的潜在影响。6.容错性:一个以硬件形式实现的神经网络具有天生的容错性,或者是鲁棒性的计算能力。7.VLSI实现:神经网络的大规模并行性使它具有快速处理某些任务的潜在能力,很适合使用超大规模集成(VLSI)技术来实现。8.分析和设计一致性。9.神经生物类比。1.3神经元模型的三个基本元素1、突触或连接链集,每一个都由其权值或者强度作为特征。如在连到神经元k的突触j上的输入信号𝑥𝑗被乘以k的突触权值𝑤𝑘𝑗,第一个下标指正在研究的这个神经元,第二个下标指权值所在突触的输入端。2、加法器,用于求输入信号被神经元相应突触加权的和。3、激活函数,用于限制神经元输出振幅。上图为非线性神经元模型,标记为第k个神经元。用数学方程描述神经元:其中𝑥𝑗是输入信号,𝑤𝑘𝑗是神经元k的突触权值,𝑢𝑘是输入信号的线性组合器的输出,𝑏𝑘为偏置,激活函数为φ(·),𝑦𝑘为神经元输出信号。1.4激活函数的类型1、阈值函数(Heavside函数):如图(a)所示2、sigmoid函数:sigmoid函数的一个例子是logistic函数:如图(b)所示其中a是sigmoid函数的倾斜参数。1.5网络结构神经网络分为三个基本结构:1、单层前馈网络:源节点构成输入层,直接投射到神经元输出节点上。2、多层前馈网络:有一层或多层隐藏层,相应的计算机节点称为隐藏神经元。隐藏是指神经网络的这一部分无论从网络的输入端或者输出端都不能直接看到。3、递归网络:和前馈网络的区别在于它至少有一个反馈环。1.6学习过程广义上讲,可以通过对神经网络的功能来对其学习过程进行分类:有教师学习和无教师学习。按同样标准,后者又可以分为无监督学习和强化学习两个子类。1、有教师学习:也称监督学习。从概念上讲,我们可以认为教师具有对周围环境的知识,这些知识被表达为一系列的输入-输出样本。然而神经网络对环境一无所知。2、无教师学习:没有任何带标号的样例可以供神经网络学习。强化学习:输入输出映射的学习是通过与环境的不断交互完成的,目的是使一个标量性能指标达到最小。如左下图。无监督学习:没有外部的教师或者评价来监督的学习过程。如右下图。二、感知器2.1感知器模型感知器神经元模型由一个线性组合器和随后的硬限幅器(执行一个符号函数)组成。如图为感知器符号流图。硬限幅器输入或神经元的诱导局部域是:感知器的目的就是将外部作用激励正确分为两类。在最简单的感知器中存在被一个超平面分开的两个决策区域,此超平面定义为:2.2感知器收敛定理偏置b(n)被当作一个等于+1的固定输入量所驱动的突触权重。定义输入向量:n代表迭代步数,对应的权值向量为:线性组合器输出:存在一个权值向量存在以下性质:感知器不能正确对向量进行分类,在常量𝜂(𝑛)=1的情况下有:两边同时乘以行向量𝒘0𝑇,有根据定义有𝒘0𝑇𝒘(n+1)≥𝑛𝛼Cauchy-Schwarz不等式有:对权值调整公式两边同取欧几里得范数的平方,得到但是,𝒘𝑇(𝑘)𝒙(𝑘)≤0,因此,这里β是一个正数,定义为比较发现一个是大于等于一个是小于等于相矛盾,故取相等求最大迭代次数。2.3感知器收敛算法概述三、用于非线性模式识别的神经网络非线性模式识别的神经网络包括多层感知器(MLP)网络、径向基函数(RBF)网络、支持向量基(SVM)、数据处理的通用模型(GMDH,也叫做多项式网络)、通用回归神经网络(GRNN)和通用神经网络(GNN)。带有一个隐含层的多层感知器模型:在预报应用里(或函数逼近里)通常是单输出,在分类应用里是一个或多个输出。用非线性多层感知器网络为多维数据建模,通常情况下有n个输入,m个隐含神经元和k个输出神经元,MLP的中间处理构成:第j个神经元的隐含神经元的输入𝑢𝑗和输出𝑦𝑗是𝑢𝑗=𝑎𝑗0+∑𝑎𝑗𝑖𝑥𝑖𝑛𝑖=1,𝑦𝑗=𝑓(𝑢𝑗)第k个神经元的隐含神经元的输入𝑣𝑘和输出𝑧𝑘是𝑣𝑘=𝑏𝑘0+∑𝑎𝑘𝑗𝑦𝑗𝑛𝑗=1,𝑧𝑘=𝑓(𝑣𝑘)四、神经网络对非线性模式的学习对于一个具有输出神经元的网络的所有训练模式的预报最通用的误差表示MSE可以写成:(式中,𝑡𝑖,𝑧𝑖分别表示目标输出和预报输出)E=12𝑁∑(𝑡𝑖−𝑧𝑖)2𝑁𝑖4.1梯度下降法梯度下降法提出将权值向误差下降最快的方向改变。关于输出神经元权值的误差梯度假设输出神经元的激励函数为关于隐含神经元误差梯度由于𝑣=𝑏0+𝑏1𝑦,因此,𝜕𝑦𝜕𝑥=𝑏1学习率和权值更新,对m+1次训练时间的新权值𝑤𝑚+1可以表示为𝑤𝑚+1=𝑤𝑚+∆𝑤𝑚,∆𝑤𝑚=−𝜀𝑑𝑚,𝑑𝑚=∑[𝜕𝐸𝜕𝑤𝑚]𝑛𝑁𝑛=1动量法的思想就是利用所有以前权值的变化的指数平均导出当前变化。式中,𝜇是一个在0到1之间的动量参数;∆𝑤𝑚−1是前一个训练时间里的权值变化。因此𝜇表示过去权值变化对新的权值增量∆𝑤𝑚的相对重要性。动量可以稳定学习过程。多输入、多隐含神经元多输出网络网络的总误差是每一个输出神经元的MSE之和,可以表示为输出神经元权值的导数:𝜕𝐸𝜕𝑏01=𝑝1=(𝑧1−𝑡1)𝑧1(1−𝑧1),…,𝜕𝐸𝜕𝑏0𝑘=𝑝𝑘=(𝑧𝑘−𝑡𝑘)𝑧𝑘(1−𝑧𝑘)隐含神经元的权值导数:4.2delta-bar-delta学习方法:对不同的权值有不同的学习率。如果由误差梯度描述的当前点的误差减小方向和最近一直下降的方向一致,那么学习率增加;但是如果由误差梯度描述的当前点的误差减小方向和最近一直下降的方向相反,那么学习率就要减小。第m次训练误差一直减小的方向的最近历史可以由𝑓𝑚表达成𝑓𝑚=𝜃𝑓𝑚−1+(1−𝜃)𝑑𝑚−1。式中,𝜃是过去导数指数平均的额外加权,1−𝜃是最后导数的额外加权。4.3最速下降法学习率ε以一个初始,在每一步都会倍增,产生一个权值的预更新。如果MSE没有随之减小,权值返回它的初始值,学习率减半然后继续训练。如果MSE仍然没有减小,ε就被再减半直到学习率使MSE减小为止。最后的权值调整只有在获得使MSE减小的学习率才进行。以此重复。终止条件为4.4误差最小和权值最优的二阶方法4.4.1QuickProp学习的目标就是在误差导数为0处很快地找到最优权值。假定最后一次训练m-1后的导数是𝑑𝑚−1,它导致权值的改变量为∆𝑤𝑚−1。如果当前m次训练的导数为𝑑𝑚,所需的导致导数为0的权值改变为∆𝑤𝑚。(𝑑𝑚−1−𝑑𝑚)/∆𝑤𝑚−1项是曲率的近似值,它是误差表面梯度在权值𝑤处的导数。误差最小的二阶方法中权值的变化被表示成MSE作为权值𝑤的函数𝐸(𝑤)描述,表示为更新权值:(二阶方法的唯一的新参数是R)高斯牛顿方法:对于高斯牛顿法中R就是二次导数的倒数。如果只有一个权值,R简单的表示为二次导数的倒数。当有许多权值,二导数的矩阵由H表示,此时R就是H的逆。LM方法改善了在高斯牛顿方法中误差的一阶和二阶导数结合起来不稳定的情况。此时,