神经网络讲义第0讲前言1.自我介绍:姓名,E-mail地址2.登记学生名单:非电信系学生凭选课单上课;有选课单未上课的,老师有权给0分。3.讲授计划:第一课:绪论第二课:介绍Matlab及其神经网络工具包第三课:神经元与网络结构第四课:感知机(Perceptron)第五课:线性神经网络(Adaline)第六课:后向传播网络(Bckpropagation)第七课:自学习规则第八课:自组织网络、Hopfield网络第九课:期末考试4.授课方式:讲授与练习相结合。授课主要以Matlab为工具,在第二、四、五、六、八课均有课后作业。每次作业占两个课时。完成后以电子邮件形式将word文档发到信箱;标题写“神经网络作业”,写明如何使用该文件。教师通过上机检查。5.考试方式:平时作业:50%;课后作业,以软件为主;期末考试:50%;开卷考试,以概念为主。6.参考书目:《人工神经网络》,郑君里,杨行峻主编,1992年9月高教出版社第1版;《神经网络与模糊控制》,张乃尧,阎平凡编著,1998年10月清华大学出版社第1版;《基于Matlab的系统分析与设计——神经网络》,楼顺天,施阳主编,1999年9月西安电子科技大学出版社第1版;英文文献:NeuralNetworkToolboxForUsewithMatlabUserGuideVersion4,MatlabHelp。第一讲绪论以冯·诺依曼型计算机为中心的信息处理技术的高速发展,使得计算机在当今的信息化社会中起着十分重要的作用。但是,当用它来解决某些人工智能问题时却遇到了很大的困难。例如,一个人可以很容易地识别他人的脸孔,但计算机则很难做到这一点。这是因为脸孔的识别不能用一个精确的数学模型加以描述,而计算机工作则必须有对模型进行各种运算的指令才行,得不到精确的模型,程序也就无法编制。而大脑是由生物神经元构成的巨型网络,它在本质上不同于计算机,是一种大规模的并行处理系统,它具有学习、联想记忆、综合等能力,并有巧妙的信息处理方法。人工神经网络(简称神经网络)也是由大量的、功能比较简单的形式神经元互相连接而构成的复杂网络系统,用它可以模拟大脑的许多基本功能和简单的思维方式。尽管它还不是大脑的完美元缺的模型,但它可以通过学习来获取外部的知识并存贮在网络内,可以解决计算机不易处理的难题,特别是语音和图像的识别、理解、知识的处理、组合优化计算和智能控制等一系列本质上是非计算的问题。因此,神经网络技术已成为当前人工智能领域中最令人感兴趣和最富有魅力的研究课题之一。1.1神经网络的研究发展史1.1.1第一次神经网络研究高潮对大脑神经元的研究表明,当其处于兴奋状态时,输出侧的轴突就会发出脉冲信号,每个神经元的树状突起与来自其它神经元轴突的互相结合部(此结合部称为Synapse,即突触)接收由轴突传来的信号。如果—神经元所接收到的信号的总和超过了它本身的“阈值”,则该神经元就会处于兴奋状态,并向它后续连接的神经元发出脉冲信号。1943年,W.S.McCulloch和W.Pitts根据上述研究发表了他们的神经元模型,通常称为MP模型。在该模型中,当神经元处于兴奋状态时,其输出为1;处于非兴奋状态时,输出为0。1949年,D.O.Hebb提出了神经元的学习法则,即Hebb法则。当神经元兴奋时,输入侧的突触结合强度由于受到刺激而得到增强,这就给神经网络带来了所谓的“可塑性”,并被认为是用神经网络进行模式识别和记忆的基础。到现在为止,大部分神经网络型机器的学习法则仍采用Hebb法则或它的改进形式。50年代末,F.Rosenblatt基于上述原理提出了一种模式识别机,即感知机(Perceptron)模型。它是由光接收单元组成的输入层,MP神经元构成的联合层和输出层构成。输入层和联合层之间的结合可以不是全连接,而联合层与输出层神经元之间一般是全连接,用教师信号可以对感知机进行训练。在Hebb的学习法则中,只有加强突触结合强度这一功能,但在感知机中,除此之外还加入了当神经元发生错误的兴奋时,能接受教师信号的指导去减弱突触的结合强度这一功能。感知机是现代神经计算的出发点。Block于1962年用解析法证明了感知机的学习收敛定理。正是由于这一定理的存在,才使得感知机的理论具有实际的意义,并引发了60年代以感知机为代表的第一次神经网络研究发展的高潮。然而,遗憾的是感知机只能对线性可分离的模式进行正确的分类。当输入模式是线性不可分离时,则无论怎样调节突触的结合强度和阂值的大小也不可能对输入进行正确的分类。以后,Rosenblatt又提出了4层式感知机,即在它的两个联合层之间,通过提取相继输入的各模式之间的相关性来获得模式之间的依存性信息,这样做可使无教师学习成为可能。M.Minsky和S.Papert进一步发展了感知机的理论,他们把感知机定义为一种逻辑函数的学习机,即若联合层的特征检出神经元具有某一种任意的预先给定的逻辑函数,则通过对特征检出神经元功能的研究就可以识别输入模式的几何学性质。此外,他们还把感知机看作并行计算理论中的一个例子,即联合层的每个神经元只对输人的提示模式的某些限定部分加以计算,然后由输出神经元加以综合并输出最终结果。联合层各神经元的观察范围越窄,并行计算的效果就越好。Minskey等人首先把联合层的各神经元对输入层的观察范围看作一个直径为有限大的圆,这与高等动物的大脑中的视觉检出神经元在视网膜上只具有一个有限的视觉范围原理极为相似。但是,由于在如何规定直径的大小上没有明确的理论指导,所以只能作出联合层的神经元对输人层上的观察点的个数取一个有限值这样的规定。为了研究感知机的本质,特别是神经计算的本质究竟是什么,还对决定论中的一些代表性方法,如向量法、最短距离法、统计论中的最优法、Bayes定理、登山法、最急下降法等进行了比较研究,并以此来寻求它们的类同点和不同点。研究的结果表明,有时即使是采用多层构造,也可能对识别的效果毫无帮助。对某些识别对象,即使能分类识别,但却需要极大量的中间层神经元,以致失去了实际意义。当采用最急下降法时,若对象的“地形”很差,则有可能无法得到最佳值,即使能得到最佳值,也可能因为所需的学习时间太长或权系数的取值范围太宽而毫无实用价值。一般认为,由于Minskey的地位和他的这一研究断定了关于感知机的研究不会再有什么大的成果,而使第一次神经网络的研究热潮逐渐地被冷却了下来。B.Widraw在稍后于感知机一些时候提出了Adline分类学习机。它在结构上与感知机相似,但在学习法则上采用了最小二乘平均误差法。以后,他又把这一方法用于自适应实时处理滤波器,并得到了进一步的发展。1961年,E.R.Caianiello提出了能实现记忆和识别的神经网络模型,它由学习方程式和记忆方程式两部分组成。尽管这一研究没有超出以前的成果,也没有实际的应用例子,但由于它在神经网络的可塑性理论方面给出了一些重要的结论而得到了高度的评价。与上述神经网络研究相平行的是在这一段时期内,脑的生理学方面的研究也在不断地发展。D.H.Huble和T.W.Wiesel从50年代后半期开始对大脑视觉领域的神经元的功能进行了一系列的研究。研究结果表明:视觉神经元在视网膜上具有称作为“接收域(receptivefield)”的接收范围这一事实。例如某些神经元只对特定角度的倾斜直线呈现兴奋状态,一旦直线的倾斜角度发生变化,兴奋也就停止,代之以别的神经元处于兴奋状态。此外,还存在对黑白交界的轮廓线能作出反应的神经元;对以某种速度移动的直线发生兴奋的神经元和对双眼在一特定位置受到光刺激时才能发生兴奋的神经元等。这一系列脑功能研究领域中的开创性工作使他们在1981年获得了诺贝尔奖。此后的研究者又把研究范围扩大到侧头叶和头顶叶的神经元。当用猴子和猩猩作实验时,又发现了对扩大、旋转、特定的动作、手或脸等起反应的神经元。此外,在脑的局部功能学说中还认为幼儿具有认识自己祖母的所谓“祖母细胞(grandmothercell)”,尽管这一点还没有得到最后的证实,但从脑细胞分工相当细这一点来看还是有可能的。D.Marr在1969年提出了一个小脑功能及其学习法则的小脑感知机模型,这被认为是一个神经网络与神经生理学的事实相一致的著名例证。在Minskey关于感知机的悲观研究结果发表后,特别是在美国,神经网络信息处理的研究被蒙上了阴影,大多数人都转向符号推理人工智能技术的研究,但仍有不少研究者在坚持不懈地对神经网络进行认真、深入的研究,并逐渐积累和取得了许多有关的基本性质和知识。日本的研究者中野,于1969年提出了一种称为Associatron的联想记忆模型。在这种模型中,事物的记忆用神经网络中的神经元兴奋状态来表示,并对比比的学习法则加以修正,使其具有强化的学习功能并可用于记亿。该模型在记忆了多个兴奋模式以后,就具有了输入某个兴奋模式的一部分而重现该兴奋模式全体的功能。如果一个兴奋模式是由几个记忆事项联合构成时,它就成为一个能通过寻求各事项之间的关联而实现想起的联想记忆装置。在这种记忆模型中,可把记忆事项看作数学中的向量,用自相关行列式来说明记忆的原理。东京大学的甘利教授从1970年起,就对神经网络的性质及其局限性作了许多理论研究,并取得了相当好的成果。他的研究成果已发表在1978年出版的“神经网络的数学原理”一书中。1972年,芬兰的T.Kohonen发表了一个与感知机等神经网络不同的线性神经网络模型。比较非线性模型而言,它的分析要容易得多。1975年,福岛提出了一个称为Co如咖的自组织识别神经网络模型。这是一个多层构造的神经网络,后层的神经元与被叫作接收域的前层神经元群体相连接,并具有与Hebb法则相似的学习法则和侧抑制机能。当在该系统的第一层反复提示几个输入模式后,就会在输出层产生对各种不同模式呈现兴奋状态的神经元。C.V.Malsburg与D.J.Willshaw在1976年发表了“地形图”的自形成模型。简单地说,所谓地形图是指含有信息的神经网络的连接形式。例如视网膜上的视觉细胞的排列与受它激发而兴奋的大脑视觉域的神经元的排列是一致的,这样的构造在脑的任何部位均可见到,由此可以证明生物体具有学习环境的构造并保持这种构造的功能。甘利对这种功能作出了数学上的解释,并给出了形成这种排列构造所需的条件。此外,Kohonen还从信息工学的角度解释了这种神经网络的功能,并提出了能保存抽象信息的拓扑模型。1.1.2第二次神经网络研究高潮1982年,美国物理学家Hopfield对神经网络的动态特性进行了研究,提出了所谓Hopfield神经网络模型。以Rumelhart为首的PDP(ParallelDistributedProcessing)并行分布处理研究集团对联结机制(connectionist)进行了研究。此外,T.J.Sejnowski等人还研究了神经网络语音信息处理装置。这些成功的研究对第二次神经网络研究高潮的形成起了决定性的作用。Hopfield模型的动作原理是,只要由神经元兴奋的算法和神经元之间的结合强度所决定的神经网络的状态在适当给定的兴奋模式下尚未达到稳定,那么该状态就会一直变化下去,直到预先定义的一个必定减小的能量函数达到极小值时,状态才达到稳定而不再变化。如果把这个极小值所对应的模式作为记忆模式,那么在以后,当给这个系统一个适当的刺激模式时,它就能成为一个已经记忆了模式的一种联想记忆装置。1985年,Hopfield和D.W.Tank用上述模型求解了古典的旅行推销商问题(TravelingSalesmanProblem),简称TSP问题。该问题就是在某个城市集合中找出一个最短的且经过每个城市各一次并回到出发城市的旅行推销路径。当考虑用Hopfield神经网络来求解时,首先需要构造一个包括距离变量在内的能量函数,并求其极小值。即在神经网络上输入适当的初始兴奋模式,求神经网络的结合强度。当能量变化并收束到最小值时,该神经网络的状态就是所希望的解,求解的结果通常是比较满意的。1983年,S.E.Farmann和Hiton提出