DaDiannao-论文阅读报告

拿弓抽人
1 ℃
2020-04-19

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

DaDianNao:AMachine-LearningSupercomputerYunjiChen,etal指导老师：xxx汇报人：xxx目录背景BackgroundInformation设计DesignandAlgorithm结论EvaluationandConcludes实验experiment目录背景BackgroundInformation设计DesignandAlgorithm结论EvaluationandConcludes实验Experiment背景1Machinelearning-近年来，机器学习算法在各种应用和云服务场景中广泛使用，尤其是深度学习算法（CNNs，DNNs），2006年以来有了显著发展•Siri，GoogleNow•广告推荐•图像分析•语音识别•药物研制•自动翻译•。。。机器学习算法流行2accelerator背景神经网络加速器-Temam提出一种基于多层感知机的加速器-Esmaeilzadeh等人提出一种硬件神经网络加速器不是专门用于机器学习应用-陈云霁等人提出神经网络加速器：Diannao不足：-要么只能计算几十个“神经元”的小型网络•目前已经有数十亿参数的神经网络-要么需要把“突触”（如，连接权重）存在主存中•频繁访存，成为性能瓶颈因此，这两点不足从机器学习算法角度和硬件角度看都很严重业内普遍认为专用架构是实现低能耗、高性能的理想选择3寒武纪科技背景DianNao（第一代面向神经网络的原型处理器结构）•主频为0.98GHz，峰值性能达每秒4520亿次神经网络基本运算，65nm工艺下功耗为0.485W，面积3.02mm2。平均性能超过主流CPU核的100倍，但是面积和功耗仅为1/10。DaDianNao（第二代，面向大规模神经网络，功能增强）•包含16个处理器核和更大的片上存储。单芯片性能超过了主流GPU的21倍，而能耗仅为主流GPU的1/330。PuDianNao（第三代，面向多种机器学习算法，通用型机器学习芯片）•支持k-最近邻、k-均值、朴素贝叶斯、线性回归、支持向量机、决策树、神经网络等近十种代表性算法。运行上述机器学习算法时的平均性能与主流GPGPU相当，但面积和功耗仅为主流GPGPU百分之一量级。ShiDianNao（视电脑，图像识别处理器）、DianNaoYu（电脑语，神经网络指令集）、MLU100(我国首款云端人工智能芯片)4Diannao背景Diannao的不足DianNao的核心问题是如何让有限的内存带宽喂饱运算功能部件，使得运算和访存平衡，从而达到高效能比。难点在于选取运算功能部件的数量、组织策略以及片上RAM的结构参数。即便数据已经从内存取到了片上，搬运的能耗依然非常高。NVidia首席科学家SteveKeckler曾经指出，在40nm工艺下，将64位数据搬运20毫米所花的能耗是做64位浮点乘法的数倍。因此，要降低处理器功耗，仅仅降低运算功耗是不够的，必须优化片上数据搬运。5knowledge背景1)4种layer：•poolinglayers(POOL)•convolutionallayers(CONV)•classifierlayers(CLASS)•localresponsenormalizationlayers(LRN)2)推断和训练（inferenceandtraining）CNNs,DNNs目录背景BackgroundInformation设计DesignandAlgorithm结论EvaluationandConcludes实验Experiment6supercomputer设计概要-由一些相互连接的node组成，每个node中包含：•计算逻辑•eDRAM•路由结构-针对Diannao的问题，主要有如下设计：对神经网络进行分块处理，将不同类型的数据块存放在不同的片上RAM中，并建立理论模型来刻画RAM与RAM、RAM与运算部件、RAM与内存之间搬运次数，进而优化神经网络运算所需的数据搬运次数。7detail设计设计思想-将“突触”存放在需要使用它们的“神经元”附近•减少搬运，降低延迟、能耗•获得高内部访存带宽•分布式，不使用主存-非对称架构•Node占用空间根据存储来安排-仅传递“神经元”数据-高内部带宽•将本地存储划分成许多tile8detail设计nodes：“突触”存储•“突触”尽可能存放在“神经元”附近-设计：仅传递“神经元”数据，而将“突触”存放在固定位置-原因：“突触”比“神经元”多得多•以分类层为例：O(N2)vs.O(N)-存储介质：eDRAM：优势：•存储密集度高•能耗低劣势：•延迟•破坏性读•定期刷新弥补措施：将eDRAM分成4个bank9Nodedetail设计node：高内部带宽•Tile-based：输出神经元分散在不同的tile中，每个NFU可以同时处理16个输出神经元的16个输入神经元。•胖树（tile采用胖树连接）将输入神经元的值广播到各个tile，并从tile中收集输出神经元的值10Nodedetail设计node：可配置性（configurability）-可以针对不同层（layer）和执行模式（推断、训练）对tile，尤其是NFU流水线进行调整-针对不同数据搬运场景，对tile进行调整11interconnect设计内部互联由于在tile中重用率很高，尽管“神经元”作为唯一需要传递的数据，但其数据通信量并不是瓶颈（除了部分层和一些多node系统），因此没有开发高性能互联框架，使用的商用接口。•高性能接口：HyperTransport(HT)2.0IPblock。•拓扑：2维网状结构•路由：wormholerouting目录背景BackgroundInformation设计DesignandAlgorithm结论EvaluationandConcludes实验Experimentexperiment实验12实验介绍三个工具-CAD工具：•实现了一个verilog版本的node•综合：SynopsysDesignCompiler•布局：ICCCompiler•能耗估计：SynopsysPrimeTimePX.-时间、eDRAM、node间通信等的测试：•时序：用VCS模拟•eDRAM模型：包含破坏性读、周期性刷新；频率是606MHz•Node间通信：Booksim2.0模拟器-GPU：•NVIDIAK20MGPUGPU实验13Baseline-GPU是目前运行神经网络程序的主流选择，但也存在一些局限：单位面积的成本较高，保留了一些通用性功能总的执行时间依然很长能耗一般-Baseline参数信息•计算架构：CUDAConvnet(从一个微调开源版本中提取的CUDA版)•CUDA/GPU相对C++/CPU(SIMD)的加速比Characteristics实验14-面积-功耗参数指标Characteristics实验15-加速比性能Characteristics实验16-加速比性能Characteristics实验17-延迟性能Characteristics实验18-能耗性能目录背景BackgroundInformation设计DesignandAlgorithm结论EvaluationandConcludes实验ExperimentEnd结论19-GPU和近年来提出的一些加速器对CNNs、DNNs等机器学习算法有明显的加速效果，但都没能解决带宽限制问题。-针对以上硬件的贷款问题，本文提出了一种多芯片架构的神经网络处理器DaDiannao。-DaDiannao的单芯片性能超过了主流GPU的21倍，而能耗仅为主流GPU的1/330。64芯片组成的高效能计算系统较主流GPU的性能提升甚至可达450倍，但总能耗仅为1/150。conclusion-提高NFU的频率-利用多维torus互联提高分类层的可扩展性-利用简单VLIW核与关联工具链实现灵活控制改进方向谢谢聆听！Thanksforlistening！指导老师：xxx汇报人：