InfiniBand高速网络互连技术

天欲龙
1 ℃
2020-01-28

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

InfiniBand高速网络互连技术清风明月2012年5月内容提要1.超级计算机系统及其互连结构2.Infiniband互连网络的体系结构3.在HPC中的典型互连架构及应用4.IB网络优化技术5.未来展望Lecture1Lecture2内容提要1.超级计算机系统及其互连结构2.Infiniband互连网络的体系结构3.在HPC中的典型互连架构及应用4.IB网络优化技术5.未来展望国际超级计算机500强排名(TOP500)‏•是美国田纳西大学、伯克利NERSC实验室和德国曼海姆大学一些专家为评价世界超级计算机性能而搞的民间学术活动，每年2次排出世界上实际运行速度最快的前500台计算机。(6月、11月)‏•排名的依据是线性代数软件包Linpack的实际测试数据，而峰值浮点运算速度作为参考值列出。•Linpack基准测试程序–是一个可以分解和解答线性方程和线性最小平方问题的Fortran子程序集.–于20世纪70年代到80年代初为超级计算机而设计–测试出的最高性能指标作为衡量机器性能的标准4TOP500分析•中国TOP100总Linpack性能达到11.85Pflops(2010年6.3PFlops)，是2010年的1.88倍;•跟全球TOP500相比，2011年6月全球TOP500排行榜第一名被日本的K-Computer夺得，2010年11月TOP500第一名的天河1A降为世界第二，但中国的机器份额首次取得第二名,仅次于美国;•国家超级计算天津中心以国防科大天河1A再次蝉联中国TOP100第一名，Linpack性能2.57PFlops，峰值4.7PFlops;•国家超级计算济南中心以国家并行计算机工程技术研究中心全国产神威蓝光力夺得中国TOP100第二名，Linpack性能795.9TFlops，峰值1.07PFlops，神威蓝光是我国历史上首台全国产的千万亿次超级计算机;•国家超级计算长沙中心以国防科大天河1A-HN力夺中国TOP100第三名，Linpack性能771.7TFlops，峰值1.34PFlops。•全部机器的Linpack性能超过22.1Tflops是2010年9.6TFlops的2.3倍,比去年的1.41倍大幅提升。•全部系统的峰值超过25.6TFlops，是2010年11TFlops的2.33倍，比去年的1.36倍大幅提升;•排名前三的机器两套是CPU+GPU异构MPP;•97个(2010年98个)系统都是机群架构，机群继续占据主导地位，在前10名里4台是CPU+GPU体系架构，在TOP100中共有13套CPU+GPU异构机群。近3年来的TOP5超级计算机系统2009年2010年2011年Rank1美洲虎CrayXT5-HENUDTTH-1AKcomputerRank2IBMBladeCenter美洲虎CrayXT5-HENUDTTH-1ARank3CrayXT5-HE曙光“星云”美洲虎CrayXT5-HERank4IBM蓝色基因HPProLiant曙光“星云”Rank5NUDTTH-1CrayXE6HPProLiant02000000400000060000008000000100000001200000012345峰值性能（Gflops）排名200920102011No1:KComputer•日本理化研究所(RIKEN)高级计算科学研究院(AICS)和富士通共同研制•每秒运算速度超越1亿亿次大关。Linpack测试的最大计算性能达到了10.51PFlops，也就是每秒钟1.051亿亿次浮点计算，这也是人类首次跨越1亿亿次计算大关。•采用的处理器是富士通制造的SPARC64VIIIfx，八核心，主频2.0GHz，二级缓存6MB，热设计功耗58W，峰值浮点性能128GFlops。为了获得更高性能，富士通还在其中加入了一系列高性能集群计算扩展，可以有效管理其共享二级缓存，并支持SIMD、每核心256位浮点寄存器、高级核心间硬件同步等等。•处理器数量是88128颗，核心数量为705024个，占据864个机柜。这些处理器通过名为“豆腐”(Tofu)的特殊6-Dmesh/torus网络连接在一起，带宽5GB/s。同时，“京”的峰值计算性能也达到了11.28PFlops，执行效率为惊人的93.2%ASCISpringschool2012HenkCorporaal(8)•KComputer:–10.51Petaflop/sonLinpack–705024SPARC64cores(8perdie;45nm)(Fujitsudesign)–Tofuinterconnect(6-Dtorus)–12.7MegaWattKComputer的互连架构•6D-mesh/ToursNo2：天河-1A，国防科技大学•这是超过美国橡树岭国家实验室产品高达40％的系统。达到每秒４７００万亿次的峰值性能和每秒２５０７万亿次的实测性能。•14336颗英特尔六核至强X56702.93GHzCPU、7168颗NvidiaTeslaM2050GPU，以及2048颗自主研发的八核飞腾FT-1000处理器•天河一号A将大规模并行GPU与多核CPU相结合，在性能、尺寸以及功耗等方面均取得了巨大进步，是当代异构计算的典型代表。该系统采用了7168颗英伟达™（NVIDIA®）Tesla™M2050GPU以及14,336颗CPU。如果单纯只使用CPU的话，要实现同等性能则需要50,000颗以上的CPU以及两倍的占地面积。•更重要的是，如果完全采用CPU打造，可实现2.507Petaflops（千万亿次）性能的系统将消耗1200万瓦特的电力。多亏在异构计算环境中运用了GPU，天河一号A仅消耗404万瓦特的电力，节能效果高达3倍。二者之间的功耗之差足够满足5000多户居民一年的电力所需。三大突破•“天河一号”除了使用了英特尔处理器，还首次在超级计算机中使用了2048个我国自主设计的处理器。这款名为“飞腾-1000”的64位CPU。它利用65纳米技术设计生产，共有8个核心。•中国首创了CPU和GPU融合并行的体系结构。•制造了先进的通信芯片，设计了先进的互联结构。160Gb/s，是国际上的商用IB的两倍。13TH-1A互连架构•超级胖树结构NO.3Jaguar美洲虎,2.331PflopsCrayXT5-HEOpteronSixCore2.6GHz,近25万个内核美洲虎的3D-TorusCRAY超级计算机的RoadmapCrayXT5:1+PFLeadership-classsystemforscienceDARPAHPCS:20PFLeadership-classsystemFY2009FY2011FY2015FY2018Futuresystem:1EF100–250PF美洲虎NO.4曙光“星云”,2.9843Pflops•Infiniband互连No14:神威蓝光：全国产化的超级计算机问世•该机器获得科技部863计划支持，由国家并行计算机工程技术研究中心制造，于2011年9月安装于国家超算济南中心，全部采用自主设计生产的CPU(ShenWeiprocessorSW1600)，系统共8704个CPU，峰值1.07016PFlops，持续性能795.9TFlops，Linpack效率74.37%，总功耗1074KW。•国家超级计算济南中心是科技部批准成立的全国3个千万亿次超级计算中心之一，由山东省科学院计算中心负责建设、管理和运营。•是国内首台全部采用国产中央处理器（CPU）和系统软件构建的千万亿次计算机系统，标志着我国成为继美国、日本之后第三个能够采用自主CPU构建千万亿次计算机的国家。神威蓝光拥有四大特点：•全部采用国产的CPU•Linpack效率高达74.4%，而一般的千万亿次机都在50%左右•采用液冷技术，节能•高密度，在一个机仓（机柜）里可以装入1024颗CPU，千万亿次规模仅需要9个这样的机仓。计算机节点，在1U高的机箱中可以放入4个CPU板，每个板上可以装两颗16核的CPU。这就是神威蓝光的“心脏”：申威1600实物照在计算节点中采用液冷（据说是使用500元1吨的纯净水）设计也是神威蓝光的一大技术特色，中间是铝制液冷散热板。国内三大系统比较Totalcores:0Totalflop/s:0OpteronsocketRoadrunner（走鹃）Part1:OpteronBladesOpteroncoreTotalcores:1Totalflop/s:3,600,000,000OpteroncoreTotalcores:2Totalflop/s:7,200,000,0001.8GHz3.6Gflop/s64+64KBL1cache2MBL2cacheTotalcores:2Totalflop/s:7,200,000,000Totalcores:4Totalflop/s:14,400,000,000LS21BladeRoadrunner（走鹃）Part1:OpteronBladesOpteronsocketOpteroncoreOpteroncoreOpteronsocketOpteroncoreOpteroncore8GBDDR2memory10.7GB/s8GBDDR2memory10.7GB/sHyperTransport6.4+6.4GB/sTotalcores:2Totalflop/s:7,200,000,000Totalcores:4Totalflop/s:14,400,000,000Roadrunner（走鹃）Part1:OpteronBladesRoadrunnerArchitecturePart2:CellBladesQS22BladeFlexIO,25GB/s25.6GB/s4GBDDR2memory25.6GB/sPowerXCell8isocketEIB,204.8GB/sSPEcoreSPEcoreSPEcoreSPEcoreSPEcoreSPEcoreSPEcoreSPEcorePPEcorePowerXCell8isocketEIB,204.8GB/sSPEcoreSPEcoreSPEcoreSPEcoreSPEcoreSPEcoreSPEcoreSPEcorePPEcore4GBDDR2memoryRoadrunnerArchitecturePart2:CellBladesRoadrunnerArchitecturePart3:Nodes（Triblade=1*Opteron+2*cell）InfiniBand2:1fattreeHT2100HT2100InfiniBand4XDDRHTx166.4GB/sPCIex82GB/sIB2GB/sRoadrunnerArchitecturePart4:ScalingOutBladeCenterBladeCenterBladeCenterBladeCenterComputeUnit(CU)RoadrunnerArchitecturePart4:ScalingOutTotalcores:480Totalflop/s:5,395,200,000,000Totalcores:7,200Totalflop/s:80,928,000,000,000RoadrunnerArchitecturePart4:ScalingOutTotalcores:7,200Totalflop/s:80,928,000,000,000RoadrunnerTotalcores:122,400Totalflop/s:1,375,776,000,000,000RoadrunnerArchitectureIBM计划10万万亿次HPC12倍于世界最快！•今年预计BlueGene/Q“Sequoia”其峰值性能可达到20petaflops，•而其升级版将是首个超过10万万亿次浮点计算的超级计算机，达到107petaflops，是目前世界最快KComputer的12倍。Sequoia（红杉）•Sequoia