超级计算机现状和我国发展规划9/19/20202汇报内容Outline超级计算机现状和我国发展规划国家超算天津中心及天河一号介绍未来国家超算天津中心重点研发方向与资源更新规划9/19/20203超级计算机现状和国内发展规划HPCdevelopmentstrategyandsituation第一部分9/19/20204日本地球模拟器2002年,40TflopsIBMBlueGene/L2005年,367Tflops2007年,596TflopsIBMBlueGene/L2005年,367Tflops2007年,596TflopsCray-YMP1988年,2.3GflopsCray-11976160MflopsIBM红色选择1999年,3万亿次CrayT3E-12001998年1Tflops19831992CrayT3D1993,19Gflops走鹃,2008年,1千万亿次天河二号2013年,5.5万万亿次2013年天河二号5.49万万亿次从1.6亿次到5.49万万亿次;38年性能提高了340000000倍39年前第一台商用巨型机问世1997超级计算机现状和发展规划TH-1A,2010年,4.7PFlops9/19/20205“三驾马车”中两驾无力,只有靠扩大并行度–“Performance=Parallelism”,BillDally超级计算机现状和发展规划提高超级计算机性能的三驾马车主频、指令级并行、并行度并行度足够宽(数万结点)足够深(核间、异构、SIMD、指令级)9/19/20206超级计算机是国家综合科技创新能力的基础支撑,全球各大国家均大力发展超级计算机中国近几年在大力发展超级计算机超级计算机现状和发展规划9/19/20207天河超级计算机发展DevelopmenthistoryofTianhesupercomputer1978年,由小平批准,国防科大开始研制“银河-1”从此,开始了中国研制超级计算机的艰难和辉煌的历程ApprovedbyXiao-pingDENG,theNUDTstartedtodevelopthe“MilkyWay-1”.Fromthenon,beganadifficultandglorioushistoryofChineseSupercomputerresearch.银河-1100Mflops,1983银河-21Gflops,1990银河-310Gflops,1997天河一号4.7Pflops,2010天河二号55Pflops,20139/19/20208高性能计算机SupercomputerR&D建立协同研发的机制,集中优势力量,突破核心关键技术研制Eflops超级计算系统(1000Pflops)高性能计算应用HPCapplicationsSupport建立适应不同行业的国家高性能计算应用软件中心部署行业能力型重大应用软件系统的研发,构建能力型行业重大应用数值模拟软件平台部署容量型普适推广应用课题,部署于国家超算中心等,培育、吸引和稳定一批自主应用软件系统的用户高性能计算环境HPCenvironmentConstruction建立具有世界一流资源能力和服务水平的、支撑国家创新发展的国家高性能计算环境科技部高性能计算计划:2016-2020MOSTprojectsonHPC:2016-20209/19/20209国家超级计算天津中心与天河一号IntroductiontoNSCC-TJ&Tianhe-1A第二部分我国目前已投入运营的应用范围最广、综合支撑能力最强的国家级超算中心•峰值4700万亿次的天河一号超级计算机;•400台以上服务器的通用云计算系统;•容量超过10PB的海量存储系统;•多领域行业软件;•完善的网络基础设施;•完善的机房、供电、制冷等基础设施。主要业务为高性能计算、云计算和大数据服务,目前服务的政府、企业及科研院所用户数已达600余家NSCC-TJ国家发改委“大数据技术与应用”国家地方联合工程实验室国家工信部工业云试点单位国家科技部示范型国际合作基地博士后科研工作站与多家企业和研究机构建立的联合实验室NSCC-TJ计算机技术创新广泛的应用成效天河一号国际学术界的评价RemarkfrominternationalacademiaCPU+GPU异构融合体系结构CPU+GPUheterogeneousarchitecture64位多核多线程自主飞腾1000CPU64bitsMulti-coreandMulti-threadCPU自主高速互连通信技术Self-developedHigh-speedinterconnectcommunicationtechnology“天河一号”的运算速度比橡树岭国家实验室的要快大约40%,这是运算速率的极大提升。中国同时研制了一种互联技术,让这些处理器相互联系,这不是美国的技术,而是中国自己的技术。这是一个创举。ThetechnologybelongstoChina,notU.S.,it’sapioneeringwork--美国田纳西大学教授杰克•唐加拉Prof.JackDongarra,TennesseeUniversity中国的“天河一号”采取的CPU与GPU融合的结构,代表了未来超级计算机的发展趋势。随着计算机规模的不断拓展,这种结构虽然不是唯一的解决方法,但目前看来是最好的。Thearchitectureisnottheonlysolution,butthebestsofar--美国斯坦福大学计算机系主任比尔•戴利BillyDaley,ComputerScienceCollege,StanfordUniversity三大技术创新Threetechnicalinnovations石油勘探OilExploration生物医药Biologicalmedicine航空航天AeroandSpacecraftdesign可控核聚变Nuclearfusion气象预报Weatherforecast高性能计算的主要应用领域ThemainapplicationareaofHPC动漫设计AnimationDesign高端装备制造Thehigh-endequipmentmanufacturing土木建筑设计分析BIM金融工程FinancialEngineering基础科学研究等ResearchonBasicsciences超级计算的重要作用:提升国家创新能力,加速战略性新兴产业发展ImprovethenationalinnovationabilityandacceleratethedevelopmentofstrategicemergingindustriesinChina2020/9/1915业内专家和用户的评价综合服务能力最强,系统最稳定,服务质量最好计算服务应用计时:140万机时/天每天运行任务数:1000存储数据规模:4.5PB服务至今已4年(2010.12—2015.3)2014年10月11日—31日的作业运行状况天津超算中心运营情况2020/9/1916天津超算中心运营情况“天河一号”系统稳定运行服务,支撑国家重大科研项目超过800项国家自然科学基金项目超过600项863和973项目超过100项其他重大项目(工信部、发改委、中石油、中海油等)超过40项国际和地区项目超过10项服务全国大部分省份(包含香港地区),2014年服务用户已经超过600余家2020/9/1917聚变领域研究合作合作单位:北京大学、中国科学技术大学、浙江大学、nvidia托卡马克“回旋环形等离子体代码”GTC程序的GPU开发与优化模拟规模:~50,000cores,每秒模拟的电子数达300多亿2020/9/1918聚变技术开发及相关合作实际操作GTC程序移植到“天河一号”程序部署热点分析Pushe:获得网格点上的场数据,根据作用力更新电子的位置Shifte:高度串行化计算MPI操作2020/9/1919聚变技术开发及相关合作程序的具体优化策略存储器访问优化(针对pushe)针对三维访问数组进行纹理绑定合并数组增加缓存命中率CPU-GPU数据传递优化(针对pushe)临时数组直接在GPU中分配使用GPU的寄存器来存放部分数组不变数组只在第一调用kernel时传递到GPU算法优化(针对shifte)分级并行紧致化:通过分级scan方法并发执行串行代码与kernel并发执行在GPU内部使用多流,使kernel间并发执行Improveperformanceabout20%Improveperformanceabout20%;Cachehitratefrom8%to35%;Total3xkernelperformancespeedupSHIFTEgets~1.8xspeedupCPU-GPUtransfertimereducedto12%ofpushekerneltime.PUSHEgets~7xspeedup2020/9/1920聚变技术开发及相关合作512CPU%512GPU%speeduptotaltime157.79100%62.22100%2.5field0.640.41%0.701.13%iron16.3010.33%16.1725.99%shifte31.7020.09%17.4828.10%1.8pushe94.2559.73%12.6320.30%7.5possion4.903.11%4.937.92%electronother10.006.33%10.3116.56%以512个节点为例说明GPU对electron模块的加速ProfileoftheCPUandGPUversionfor512MPIprocesses/6openMPthreadsrun2020/9/1921聚变技术开发及相关合作WeakScalingTestGTC总体性能有2~3倍的加速,同时程序具有良好的可扩展性。2020/9/1922聚变技术开发及相关合作合作单位:中科院等离子体所边界湍流模拟程序BOUT++在天河上的扩展性测试及分析:将BOUT++成功部署到天河系统,并进行多组扩展性测试。与美国国家能源研究科学计算中心NERSC的Edison系统进行测试比较2020/9/1923聚变技术开发及相关合作测试环境对比:计算结点:NERSC-Edison:2个12核IntelIvyBridge处理器,2.4GHz天河一号:2个6核IntelNehalem处理器,2.93GHz互联:NERSC-Edison:CrayArieswithDragonflytopologywith23.7TB/sglobalbandwidth天河一号:自主高速互联MPI实现:NERSC-Edison:基于GCC4.9.1(CrayInc.)、Cray-mpich/7.0.3天河一号:基于GCC4.4.7编译器、openmpi编译生成的mpi2020/9/1924聚变技术开发及相关合作在Edison和天河一号上的测试对比1.Tianhe-openmpi下,CALC可以保持较好的scaling,solver的scaling最差。2.当进程数大于128时,在天河上使用openmpi编译的bout表现出较差的scaling,原因为solver模块中的PVODE求解器的耗时随着进程数的增加反而增加。3.目前正在针对solver模块进一步分析导致耗时异常的代码段。9/19/202025未来国家超算天津中心重点研发方向与资源更新规划第三部分9/19/2020•2007年,图灵奖获得者JimGray在美国国家研究理事会计算机科学和远程通讯委员会(NRC-CSTB)的演讲报告中提出了科学研究“第四范式”第一范式:实验科学研究范式•描述自然现象,主要以观察和实验为依据的研究第二范式:理论科学研究范式•主要以建模和归纳为基础的理论推导与分析研究第三范式:计算科学研究范式•主要以模