关于神经网络的,感觉写的很有水平

hotding007
1 ℃
2020-04-23

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

“……我相信，对一个模型的最好的检验是它的设计者能否回答这些问题：‘现在你知道哪些原本不知道的东西？’以及‘你如何证明它是否是对的？’”——詹姆斯·鲍尔（JamesM.Bower)神经网络是由具有各种相互联系的单元组成的集合。每个单元具有极为简化的神经元的特性。神经网络常常被用来模拟神经系统中某些部分的行为，生产有用的商业化装置以及检验脑是如何工作的一般理论。神经科学家们究竟为什么那么需要理论呢？如果他们能了解单个神经元的确切行为，他们就有可能预测出具有相互作用的神经元群体的特性。令人遗憾的是，事情并非如此轻而易举。事实上，单个神经元的行为通常远不那么简单，而且神经元几乎总是以一种复杂的方式连接在一起。此外，整个系统通常是高度非线性的。线性系统，就其最简单形式而言，当输入加倍时，它的输出也严格加倍——即输出与输入呈比例关系。①例如，在池塘的表面，当两股行进中的小湍流彼此相遇时，它们会彼此穿过而互不干扰。为了计算两股小水波联合产生的效果，人们只需把第一列波与第二列波的效果在空间和时间的每一点上相加即可。这样，每一列波都独立于另一列的行为。对于大振幅的波则通常不是这样。物理定律表明，大振幅情况下均衡性被打破。冲破一列波的过程是高度非线性的：一旦振幅超过某个阈值，波的行为完全以全新的方式出现。那不仅仅是“更多同样的东西”，而是某些新的特性。非线性行为在日常生活中很普遍，特别是在爱情和战争当中。正如歌中唱的：“吻她一次远不及吻她两次的一半那么美妙。”如果一个系统是非线性的，从数学上理解它通常比线性系统要困难得多。它的行为可能更为复杂。因此对相互作用的神经元群体进行预测变得十分困难，特别是最终的结果往往与直觉相反。高速数字计算机是近50年来最重要的技术发展之一。它时常被称作冯.诺依曼计算机，以纪念这位杰出的科学家、计算机的缔造者。由于计算机能像人脑一样对符号和数字进行操作，人们自然地想像脑是某种形式相当复杂的冯·诺依曼计算机。这种比较，如果陷入极端的话，将导致不切实际的理论。计算机是构建在固有的高速组件之上的。即便是个人计算机，其基本周期，或称时钟频率，也高于每秒1000万次操作。相反地，一个神经元的典型发放率仅仅在每秒100个脉冲的范围内。计算机要快上百万倍。而像克雷型机那样的高速超级计算机速度甚至更高。大致说来，计算机的操作是序列式的，即一条操作接着一条操作。与此相反，脑的工作方式则通常是大规模并行的，例如，从每只眼睛到达脑的轴突大约有100万个，它们全都同时工作。在系统中这种高度的并行情况几乎重复出现在每个阶段。这种连线方式在某种程度上弥补了神经元行为上的相对缓慢性。它也意味着即使失去少数分散的神经元也不大可能明显地改变脑的行为。用专业术语讲，脑被称作“故障弱化”（degradegracefully)。而计算机则是脆弱的，哪怕是对它极小的损伤，或是程序中的一个小错误，也会引起大的灾难。计算机中出现错误则是灾难性的（degradecatastrophically)。计算机在工作中是高度稳定的。因为其单个组件是很可靠的，当给定相同的输入时通常产生完全同样的输出。反之，单个神经元则具有更多的变化。它们受可以调节其行为的信号所支配，有些特性边“计算”边改变。一个典型的神经元可能具有来自各处的上百乃至数万个输入，其轴突又有大量投射。而计算机的一个基本元件——晶体管，则只有极少数的输入和输出。在计算机中，信息被编码成由0和1组成的脉冲序列。计算机通过这种形式高度精确地将信息从一个特定的地方传送到另一个地方。信息可以到达特定的地址，提取或者改变那里所贮存的内容。这样就能够将信息存入记忆体的某个特殊位置，并在以后的某些时刻进一步加以利用。这种精确性在脑中是不会出现的。尽管一个神经元沿它的轴突发送的脉冲的模式（而不仅仅是其平均发放率）可能携带某些信息，但并不存在精确的由脉冲编码的信息。①这样，记忆必然将以不同的形式“存贮”。脑看起来一点也不像通用计算机。脑的不同部分，甚至是新皮层的不同部分，都是专门用来处理不同类型的信息的（至少在某种程度上是这样的）。看来大多数记忆存贮在进行当前操作的那个地方。所有这些与传统的冯·诺依曼计算机完全不同，因为执行计算机的基本操作（如加法.乘法等等）仅在一个或少数几个地方，而它的记忆却存贮在许多很不同的地方。最后，计算机是由工程师精心设计出来的，而脑则是动物经自然选择一代又一代进化而来的。这就产生了如第一章所述的本质上不同的设计形式。人们习惯于从硬件和软件的角度来谈论计算机。由于人们编写软件（计算机程序）时几乎不必了解硬件（回路等）的细节，所以人们——特别是心理学家——争论说没必要了解有关脑的“硬件”的任何知识。实际上想把这种理论强加到脑的操作过程中是不恰当的，脑的硬件与软件之间并没有明显的差异。对于这种探讨的一种合理的解释是，虽然脑的活动是高度并行的，在所有这些平行操作的顶端有某些形式的（由注意控制的）序列机制，因而，在脑的操作的较高层次，在那些远离感觉输入的地方，可以肤浅地说脑与计算机有某种相似之处。人们可以从一个理论途径的成果来对它作判断。计算机按编写的程序执行，因而擅长解决诸如大规模数字处理、严格的逻辑推理以及下棋等某些类型的问题。这些事情大多数人都没有它们完成得那么快、那么好。但是，面对常人能快速、不费气力就能完成的任务，如观察物体并理解其意义，即便是最现代的计算机也显得无能为力。近几年在设计新一代的、以更加并行方式工作的计算机方面取得了重要进展。大多数设计使用了许多小型计算机，或是小型计算机的某些部件。它们被连接在一起，并同时运行。由一些相当复杂的设备来处理小计算机之间的信息交换并对计算进行全局控制。像天气预测等类似问题，其基本要素在多处出现。此时超级计算机特别有用。人工智能界也采取了行动设计更具有脑的特点的程序。他们用一种模糊逻辑取代通常计算中使用的严格的逻辑。命题不再一定是真的或假的，而只需是具有更大或更小的可能性。程序试图在一组命题中发现具有最大可能性的那种组合，并以之作为结论，而不是那些它认为可能性较小的结论。在概念的设置上，这种方法确实比早期的人工智能方法与脑更为相像，但在其他方面，特别是在记忆的存贮上，则不那么像脑。因此，要检查它与真实的脑在所有层次上行为的相似性可能会有困难。一群原先很不知名的理论工作者发展了一种更具有脑的特性的方法。如今它被称为PDP方法（即平行分布式处理）。这个话题有很长的历史，我只能概述一二。在1943年沃仑·麦卡洛克（WarrencMcCulloch）和沃尔特·皮兹（WalterPitts）的工作是这方面最早的尝试之一。他们表明，在原则上由非常简单的单元连接在一起组成的“网络”可以对任何逻辑和算术函数进行计算。因为网络的单元有些像大大简化的神经元，它现在常被称作“神经网络”。这个成就非常令人鼓舞，以致它使许多人受到误导，相信脑就是这样工作的。或许它对现代计算机的设计有所帮助，但它的最引人注目的结论就脑而言则是极端错误的。下一个重要的进展是弗兰克·罗森布拉特（FrankRosenblatt）发明的一种非常简单的单层装置，他称之为感知机（Perceptron)。意义在于，虽然它的连接最初是随机的，它能使用一种简单而明确的规则改变这些连接，因而可以教会它执行某些简单的任务，如识别固定位置的印刷字母。感知机的工作方式是，它对任务只有两种反应：正确或是错误。你只需告诉它它所作出的（暂时的）回答是否正确。然后它根据一种感知机学习规则来改变其连接。罗森布拉特证明，对于某一类简单的问题——“线性可分”的问题——感知机通过有限次训练就能学会正确的行为。由于这个结果在数学上很优美，从而吸引了众人的注目。只可惜它时运不济，它的影响很快就消退了。马文·明斯基（MarVinMinsky)和西摩·佩伯特（SegmourPapert)证明感知机的结构及学习规则无法执行“异或问题”（如，判断这是苹果还是桔子，但不是二者皆是），因而也不可能学会它。他们写了一本书，通篇详述了感知机的局限性。这在许多年内扼杀了人们对感知机的兴趣（明斯基后来承认做得过分了）。此问大部分工作将注意力转向人工智能方法。①用简单单元构建一个多层网络，使之完成简单的单层网络所无法完成的异或问题（或类似任务），这是可能的。这种网络必定具有许多不同层次上的连接，问题在于，对哪些最初是随机的连接进行修改才能使网络完成所要求的操作。如果明斯基和佩伯特为这个问题提供了解答，而不是把感知机打入死路的话，他们的贡献会更大些。下一个引起广泛注意的发展来自约翰·霍普菲尔德（JohnHop-field)，一位加利福尼亚州理工学院的物理学家，后来成为分子生物学家和脑理论家。1982年他提出了一种网络，现在被称为霍普菲尔德网络(见图53）。这是一个具有自反馈的简单网络。每个单元只能有两种输出：一1（表示抑制）或十1（表示兴奋）。但每个单元具有多个输入。每个连接均被指派一个特定的强度。在每个时刻单元把来自它的全部连接的效果(2)总和起来。如果这个总和大于0则置输出状态为十1（平均而言，当单元兴奋性输入大于抑制性输人时，则输出为正），否则就输出一1。有些时候这意味着一个单元的输出会因为来自其他单元的输入发生了改变而改变。尽管如此，仍有不少理论工作者默默无闻地继续工作。这其中包括斯蒂芬.格罗斯伯格（stephenGrossberg），吉姆·安德森（JimAnderson），托伊沃.科霍宁（TeuvoKohonen）和戴维·威尔肖（DevidWillshaw）。(2)每个输入对单元的影响是将当前的输入信号（+1或-1）与其相应的权值相乘而得到的。（如果当前信号是-1，权重是+2，则影响为-2。）计算将被一遍遍地反复进行，直到所有单元的输出都稳定为止。①在霍普菲尔德网络中，所有单元的状态并不是同时改变的，而是按随机次序一个接一个进行，霍普菲尔德从理论上证明了，给定一组权重（连接强度）以及任何输入，网络将不会无限制地处于漫游状态，也不会进入振荡，而是迅速达到一个稳态。①霍普菲尔德的论证令人信服，表达也清晰有力。他的网络对数学家和物理学家有巨大的吸引力，他们认为终于找到了一种他们可以涉足脑研究的方法（正如我们在加利福尼亚州所说的）。虽然这个网络在许多细节上严重违背生物学，但他们并不对此感到忧虑。如何调节所有这些连接的强度呢？194年，加拿大心理学家唐纳德·赫布（DonaldHebb）出版了《行为的组织》一书。当时人们就像现在一样普遍相信，在学习过程中，一个关键因素是神经元的连接（突触）强度的调节。赫布意识到，仅仅因为一个突触是活动的，就增加其强度，这是不够的。他期望一种只在两个神经元的活动相关时才起作用的机制。他的书中有一个后来被广泛引用的段落：“当细胞A的一个轴突和细胞B很近，足以对它产生影响，并且持久地、不断地参与了对细胞B的兴奋，那么在这两个细胞或其中之一会发生某种生长过程或新陈代谢变化，以致于A作为能使B兴奋的细胞之一，它的影响加强了。”这个机制以及某些类似规则，现在称为“赫布律”。霍普菲尔德在他的网络中使用了一种形式的赫布规则来调节连接权重。对于问题中的一种模式，如果两个单元具有相同的输出，则它们之间的相互连接权重都设为+1。如果它们具有相反的输出，则两个权重均设为-1。大致他说，每个单元激励它的“朋友”并试图削弱它的“敌人”。霍普菲尔德网络是如何工作的呢？如果网络输入的是正确的单元活动模式，它将停留在该状态。这并没有什么特别的，因为此时给予它的就是答案。值得注意的是，如果仅仅给出模式的一小部分作为“线索”，它在经过短暂的演化后，会稳定在正确的输出即整个模式上，在不断地调节各个单元的输出之后，网络所揭示的是单元活动的稳定联系。最终它将有效地从某些仅仅与其存贮的“记忆”接近的东西中恢复出该记忆，此外，这种记忆也被称作是按“内容寻址”的——即它没有通常计算机中具有的分离的、唯一用于作为“地址”的信号。输入模式的任何可察觉的部分都将作为地址。这开始与人的记忆略微有些相似了。请注意记忆并不必存贮在活动状态中，它也可以完全是被动的，因为它是镶嵌在权重的