深度神经网络全面概述从基本概念到实际模型和硬件基础深度神经网络(DNN)所代表的人工智能技术被认为是这一次技术变革的基石(之一)。近日,由IEEEFellowJoelEmer领导的一个团队发布了一篇题为《深度神经网络的有效处理:教程和调研(EfficientProcessingofDeepNeuralNetworks:ATutorialandSurvey)》的综述论文,从算法、模型、硬件和架构等多个角度对深度神经网络进行了较为全面的梳理和总结。鉴于该论文的篇幅较长,机器之心在此文中提炼了原论文的主干和部分重要内容。目前,包括计算机视觉、语音识别和机器人在内的诸多人工智能应用已广泛使用了深度神经网络(deepneuralnetworks,DNN)。DNN在很多人工智能任务之中表现出了当前最佳的准确度,但同时也存在着计算复杂度高的问题。因此,那些能帮助DNN高效处理并提升效率和吞吐量,同时又无损于表现准确度或不会增加硬件成本的技术是在人工智能系统之中广泛部署DNN的关键。论文地址:本文旨在提供一个关于实现DNN的有效处理(efficientprocessing)的目标的最新进展的全面性教程和调查。特别地,本文还给出了一个DNN综述——讨论了支持DNN的多种平台和架构,并强调了最新的有效处理的技术的关键趋势,这些技术或者只是通过改善硬件设计或者同时改善硬件设计和网络算法以降低DNN计算成本。本文也会对帮助研究者和从业者快速上手DNN设计的开发资源做一个总结,并凸显重要的基准指标和设计考量以评估数量快速增长的DNN硬件设计,还包括学界和产业界共同推荐的算法联合设计。读者将从本文中了解到以下概念:理解DNN的关键设计考量;通过基准和对比指标评估不同的DNN硬件实现;理解不同架构和平台之间的权衡;评估不同DNN有效处理技术的设计有效性;理解最新的实现趋势和机遇。一、导语深度神经网络(DNN)目前是许多人工智能应用的基础[1]。由于DNN在语音识别[2]和图像识别[3]上的突破性应用,使用DNN的应用量有了爆炸性的增长。这些DNN被部署到了从自动驾驶汽车[4]、癌症检测[5]到复杂游戏[6]等各种应用中。在这许多领域中,DNN能够超越人类的准确率。而DNN的出众表现源于它能使用统计学习方法从原始感官数据中提取高层特征,在大量的数据中获得输入空间的有效表征。这与之前使用手动提取特征或专家设计规则的方法不同。然而DNN获得出众准确率的代价是高计算复杂性成本。虽然通用计算引擎(尤其是GPU),已经成为许多DNN处理的砥柱,但提供对DNN计算更专门化的加速方法也越来越热门。本文的目标是提供对DNN、理解DNN行为的各种工具、有效加速计算的各项技术的概述。该论文的结构如下:SectionII给出了DNN为什么很重要的背景、历史和应用。SectionIII给出了DNN基础组件的概述,还有目前流行使用的DNN模型。SectionIV描述了DNN研发所能用到的各种资源。SectionV描述了处理DNN用到的各种硬件平台,以及在不影响准确率的情况下改进吞吐量(thoughtput)和能量的各种优化方法(即产生bit-wiseidentical结果)。SectionVI讨论了混合信号回路和新的存储技术如何被用于近数据处理(near-dataprocessing),从而解决DNN中数据流通时面临的吞吐量和能量消耗难题。SectionVII描述了各种用来改进DNN吞吐量和能耗的联合算法和硬件优化,同时最小化对准确率的影响。SectionVIII描述了对比DNN设计时应该考虑的关键标准。二、深度神经网络(DNN)的背景在这一部分,我们将描述深度神经网络(DNN)在人工智能这个大框架下的位置,以及一些促进其发展的的概念。我们还将对其主要的发展历程和现阶段主要的应用领域做一个简单的介绍。1.人工智能和深度神经网络根据JohnMcCarthy的论述,深度神经网络(也称为深度学习)是人工智能(AI)大框架下的一部分。而人工智能(AI)是利用科学与工程学创造具有如同人类那样能实现目标的智能机器。人工智能这个词就是这位计算机科学家在上个世纪50年代所创造出的。深度学习和整个人工智能的关系就如下图所示。图1:深度学习在人工智能大框架下的位置2.神经网络和深度神经网络(DNN)神经网络从神经元涉及对输入值求加权和进行计算这一概念而获得灵感。这些加权和对应于突触完成值的缩放以及其和神经元值间的组合。此外,因为计算与神经元级联相关联,并且其为简单线性代数的运算,所以神经元不会仅仅输出加权和。相反,在神经元中有函数执行组合输入的运算,而这种函数应该是非线性运算。在非线性运算的过程中,神经元只有在输入超过一定阀值时才生成输出。因此通过类比,神经网络将非线性函数运用到输入值的加权和中。我们等一下会描述一些非线性函数。图2:简单的神经网络例子。(a)神经元和突触,(b)为每一层计算加权和,(c)前向和反向(循环)网络,(d)全连接与稀疏(a)中展示了计算神经网络的示意图。图的前端是输入层,该层会接受输入数据值。这些数据值前向传播到神经网络中间层的神经元中,中间层也常称为神经网络的隐藏层。一个或多个隐藏层的加权和最终前向传播到输出层,该输出层会最终向用户呈现神经网络的输出结果。为了将脑启发的术语和神经网络相匹配,神经元的输出通常称为激活(activation),并且突触如(a)所示通常称为权重(weight)。在上方表达式中,W_ij代表着权重、x_i为输入激活、y_i是输出激活,而f(·)就代表着在III-2中描述的非线性激活函数。在神经网络的领域内,有一门称为深度学习的研究。普通神经网络基本上层级不会很多,而在深度学习里,神经网络的层级数量十分巨大,现如今基本上神经网络可以达到5到1000多层。3.推理vs训练这一节中,如图4所示,我们将把图像分类用作训练DNN的一个强劲的实例。评估DNN时,我们输入一个图像,DNN为每一个对象分类输出分值向量;分值最高的分类将成为图像中最有可能的对象分类。训练DNN的总体目标是决定如何设置权重以最大化正确分类(来自标注的训练数据)的分值并最小化其他不正确分类的分值。理想的正确分值与DNN基于其当前权重计算的分值之间的差被称为损失值(L)。因此训练DNN的目标是找到一组权重以最小化大型数据集中的平均损失值。图4:图像分类任务4.开发历史1940年代-神经网络被提出1960年代-深度神经网络被提出1989年-识别数字的神经网(LeNet)出现1990年代-浅层神经网硬件出现(IntelETANN)2011年-DNN语音识别取得突破性进展(Microsoft)2012年-用于视觉的DNN开始替代人工放大(AlexNet)2014年+-DNN加速器研究兴起(Neuflow、DianNao等等)图5的表柱是这些年来ImageNet竞赛中每届冠军的表现。你可以看到最初算法精确度的错误率在25%或更多。2012年,多伦多大学的AlexNet团队通过GPU来提升其计算能力并采用深度神经网络方法,把错误率降低了近10%[3]。他们的成功带来了深度学习风格的算法的井喷,以及图像识别技术的持续进步。图5:ImageNet竞赛[10]结果5.DNN的应用从多媒体到医疗,DNN对很多应用大有裨益。在这一节中,我们将展示DNN正在发挥影响的领域,并凸显DNN有望在未来发挥作用的新兴领域。图像和视频语音和语言医疗游戏机器人6.嵌入vs云执行DNN推断处理的嵌入平台有着严格的能耗、计算和存储成本限制。当DNN推断在云中执行时,语音识别等应用经常有强烈的延迟需求。因此,在本文中,我们将聚焦于推断处理而不是训练的计算需求。三、深度神经网络概述根据应用情况不同,深度神经网络的形态和大小也各异。流行的形态和大小正快速演化以提升模型准确性和效率。所有深度神经网络的输入是一套表征网络将加以分析处理的信息的值。这些值可以是一张图片的像素,或者一段音频的样本振幅或者某系统或者游戏状态的数字化表示。处理输入的网络有两种主要形式:前馈以及循环(图2c)。前馈网络中,所有计算都是在前一层输出基础上进行的一系列运作。最终一组运行就是网络的输出,比如,这张图片包括某个特定物体的概率是多少,某段音频出现某个单词的概率是多少,或者下一步行动的建议等。在这类深度神经网络中,网络并无记忆,输出也总是与之前网络输入顺序无关。相反,循环网络(LSTM是一个很受欢迎的变种)是有内在记忆的,允许长期依存关系影响输出。在这些网络中,一些中间运行生成的值会被存储于网络中,也被用作与处理后一输入有关的其他运算的输入。在这篇文章中,我们关注的是前馈网络,因为到目前为止,少有人关注硬件加速,特别是循环网络的。深度神经网络也可以是全连接的(FC,也指多层感知器),如图2(d)最左部分所示。在一个全连接层中,所有输出与所有输入都是相连接的。这需要相当数量的存储和计算空间。谢天谢地,在许多应用中,我们可以移除激活(activations)之间的一些连接,方法就是将权重设置为零而不影响准确性。结果会产生一个稀疏连接层。图2(d)最右端的层就是一个稀疏连接层。通过限制对结果有影响的权重数量,我们也可以实现更高效的计算。如果每个输出仅仅是一个固定大小输入窗口的函数,就会出现这类结构化稀疏性。如果这套权重被用于每一个输入计算,就会进一步提高效率。这一权重共享能显著降低权重的存储要求。通过将计算构建为卷积,一种非常流行的窗口式的权重共享的网络诞生了,如图6(a)所示,其仅使用少量临近的激活来计算加权和的输出(即,该过滤器有一个有限的接受域,与输入的距离超过特定值的所有权重都将被设置为0),而且这一套权重能被每个输入共享来计算(即,滤波器是空间不变的)。这种结构稀疏性的形式正交于源自网络(修改情况如本文部分VII-B2所述)的稀疏性。所以,卷积神经网络就是一种受欢迎的深度神经网络形式。1.卷积神经网络(CNN)图6:卷积的维度。(a)传统图像处理中的二维卷积,(b)CNN中的高维卷积图7:卷积神经网络表1:CONV/FC层的形状参数给定表I中的形状参数(shapeparameters),卷积层的计算可以定义为:2.非线性(Non-Linearity)图8:多种形式的非线性激活函数(来自CaffeTutorial[43])3.池化(Pooling)图9:多种形式的池化(来自CaffeTutorial[43])4.归一化(Normalization)控制输入在层级中的分布能显著地加快训练速度并提升准确度。因此,输入激活在层级上的分布(σ,µ)需要归一化处理,使其变换为均值为0、标准差为1的分布。在批量归一化(batchnormalization)中,归一化值如方程(2)所示将进一步缩放和平移,参数(γ,β)是从训练[44]中学到的两个小常数,它们能避免数值问题。(1)流行的DNN模型在过去的二十多年里出现了很多种DNN模型。每一种都称其拥有不同的「网络架构」,因为他们依据不同层级数量、滤波器形状(如过滤尺寸,滤波器和通道的数量)、层级类型以及连接方式而划分。正确地理解这些不同的方法和它们发展的趋势对于提高DNN引擎的效率至关重要。其中包括:LeNet[9]于1989年提出,是最早的CNN方式之一。其中最为人熟知的是第八版的LeNet-5,其中包含两个卷积层和两个全连接层[45]。AlexNet[3]是第一次赢得ImageNet挑战赛的CNN网络(2012年)。它由五个卷积层和三个全连接层组成。Overfeat[46]与AlexNet具有非常相似的架构:五个卷积层和三个全连接层。VGG-16[47]更进一步,使用了16层的深度神经网络,其中包含13个卷积层,3个全连接层。GoogLeNet[48]更深,有22个层,它首次引入了起始模块(见下图)。ResNet[11],即残差网络(ResidualNet),使用残差连接可以让层