超级计算中心的建设和运营模式曙光信息产业(北京)有限公司2009年10月报告人:聂华•建设超算中心成为国家/地区战略任务•超算中心规划和建设方式•云计算中心的运营服务模式探讨•机遇与挑战主题2/16/202022/16/20203•“战略计算”一词首次出现在1995年美国为了确保核库存的性能、安全性、可靠性而实施的“加速战略计算创新(ASCI)计划”。•ASCI共投资10亿美元,主要参与者有Sandia、LosAlamos、Lawrence三个国家实验室和Stanford、Chicago等五所大学,在工业界选择了IBM、Intel、SGI和Cray四个合作伙伴。•ASCI计划为DOE提供了5台10-100TFlops的超级计算机,其中包括我们熟悉的IntelASCIRed、IBMASCPurple等。•20年来,美国最大的超级计算机全部部署于DOE的国家实验室。“超级计算”是美国的“国家战略”超级计算保障科技和技术领先活跃的经济创造超级计算需求超算中心是计算能力主要载体“计算科学利用先进计算能力去理解和解决复杂问题,是确保科学领导地位、经济竞争力和国家安全的关键。”——《美国总统信息咨询委员会》报告发达国家垄断超级计算机资源超级计算是国家/地区核心竞争力的重要标志2/16/20205韩国超算中心30万亿次芬兰超算中心86万亿次美国圣地亚哥超算中心42万亿次美国国家超算应用中心164万亿次西班牙巴塞罗那超算中心94万亿次美国德州超算中心580万亿次德国尤利希研究中心1000万亿次美国新墨西哥超算中心170万亿次中科院超级计算中心140万亿次上海超级计算中心200万亿次日本东京工业大学GSIC170万亿次国内外超算中心的建设和发展2/16/20206•“超级计算机”的“中国力量”:曙光、银河、神威–1983年,国防科大研制成功每秒1亿次“银河”巨型机。–1992年,国防科大研制成功每秒10亿次“银河II”巨型机。–1995年,中科院计算所研制成功每秒25亿次MPP计算机-曙光1000。–1997年,国防科大研制成功“银河III”百亿次巨型机。–1999年,国家并行机工程中心研制成功每秒3840亿次的“神威I”。–2004年,每秒10万亿次“曙光4000A”超级计算机研制成功,列Top500第10位,标志中国继美、日后,进入世界超算领域前列。–2008年,每秒230万亿次“曙光5000A”超级计算机研制成功,再次入围全球TOP500前10名。–2009年,国防科大研制成功每秒1.2千万亿次的“天河一号”,受到国人瞩目。“超级计算机”在中国的发展2/16/20207超级计算日益成为现代社会运行的基柱2/16/20208广泛应用于汽车、飞机、船舶、钢铁、石油、新能源、集成电路等众多领域。•增加材料产品率25%•降低工程技术成本13%~30%•降低人工成本5%~20%•增加设备利用率30%~60%•缩短产品研发周期30%~60%——美国国家科学院工程技术委员会报告超级计算日益成为现代社会运行的基柱2/16/20209物理,化学,天文,新材料,生物医药等众多领域的主要研究途径之一;宇宙行星、微观粒子、高温高压等难以实验领域进行创新研究的唯一途径。超级计算日益成为现代社会运行的基柱2/16/202010交易实时处理,金融模拟分析,商业数据挖掘,物流与生产排程规划等。在发达国家,金融是超级计算最重要的应用领域之一;美国有超过10%的超级计算机部署在各大金融机构。超级计算日益成为现代社会运行的基柱2/16/202011天气预报、传染病扩散、大型集会安全分析、社会动力学、宏观经济学等。基于数学模型使用超级计算机进行数值模拟是上述领域从定性到定量,获得更可信结果的唯一手段。超级计算日益成为现代社会运行的基柱2/16/202012先进武器设计与测试,核物理模拟,密码情报分析,信号与图像处理等。国家安全和社会稳定的重要保障。超级计算日益成为现代社会运行的基柱2/16/202013物理化学生物医药汽车船舶飞机新型能源金融海洋工程新型材料科研创新理论分析计算模拟观察实验计算,创造未来2/16/202014•超算中心的建设,因为技术含量高、功能强,能够承载高端的科技应用,聚集高水平的人才,必将提升超算中心所在城市地方科技实力。•超级计算中心建设一般规模较大,应用可以辐射周边区域,相邻区域重复建设难度大,所以抢占超算中心建设先机,争夺区域科技发展的引领地位、争取高端产业聚集对建设中心城市至关重要。•高性能的超级计算中心建设,可以吸引聚集需要高性能计算平台的高端应用,提升区域科研水平,增强企业的核心竞争力,进而推动城市地方经济建设。•超算中心所完成的关键性高端科研项目提升城市显示度和美誉度。•具有高性能的超级计算平台,可以作为吸引、引进高端人才的硬件条件,提升城市的教育、科研水平和质量。•高性能的超级计算机作为IT基础设施,可以改善区域投资环境,促进城市招商引资。超算中心建设因何成为城市争夺的热点2/16/202015曙光50005个中科院超算分中心曙光5000A上海超算中心已完成2期、3期曙光6000华南(深圳)超算中心曙光5000A成都超算中心曙光4000A甘肃超算中心已完成1期、2期曙光5000北京市计算中心互联网其他:广州超算中心、沈阳超算中心等建设规划已进行立项论证曙光机在国内超算中心中全面部署•建设超算中心成为国家/地区战略任务•超算中心规划和建设方式•云计算中心的运营服务模式探讨•机遇与挑战主题2/16/2020162/16/202017•第一阶段:前期调研–成立筹备组–本地高性能计算需求分析–厂商技术方案及案例调研•第二阶段:可行性研究–编写项目建议书,组织评审–编写可行性研究报告及评审•第三阶段:立项–编写项目建设方案及评审–政府批准立项•第四阶段:土建及选型–设备选型及签订合同–土建招投标及施工(若有)•第五阶段:安装调试–机房基础设施准备–超级计算机软硬件系统集成–技术培训•第六阶段:交付运行–试运行–正式交付超算中心的建设流程2/16/202018•面向教育、科研、企业以及政府等单位提供随需应变的计算资源、存储资源和软件资源•技术支持服务–并行编程,程序移植–高性能计算相关软件的应用–高性能计算系统环境的使用(作业管理系统、开发环境)•高级技术咨询服务和共性技术开发–并行软件、专用软件、共享或商业软件的用户定制开发–提供高级数学建模、算法设计服务–提供虚拟产品设计中以CAE应用(结构分析,流体分析,热分析,电磁场分析,或多场耦合分析)为核心的工程咨询服务–培训服务:系统技术,并行编程,计算方法,软件使用,网格计算等–为高性能计算机硬件厂商、应用软件厂商提供演示体验中心、用户测试等外包服务–为各类欲购置或自行搭建高性能计算平台的用户提供第三方技术咨询–软件传播、交流和共享服务。超算中心的核心业务规划2/16/202019•建设超级计算中心绝不等同于购置一台高性能计算机,还需要做多方面的系统、业务建设以确保服务质量和使用效率–土建、基础设施建设、改造–超级计算机系统–软件、应用支持–人员队伍建设–服务运营机制超算中心建设的“复杂性”商业软件资源需求举例2/16/202020序号软件名称描述1FLUENT通用计算流体力学分析软件2LS-DYNA瞬态响应动力学分析软件3PAM-CRASH瞬态响应动力学分析软件4ANSYS.Multiphysics多物理场耦合分析软件5NASTRAN通用有限元分析软件6MARC非线性有限元分析软件7FEKO高频电磁场分析软件8STAR-CD通用计算流体力学分析软件9CFX通用计算流体力学分析软件10OPTIMUS过程集成与优化设计软件11HyperWorks有限元前后处理和优化设计软件序号软件名称描述12ABAQUS非线性有限元分析软件13IDEAS有限元分析及前后处理软件14ICEM-CFDCFD前后处理软件15AI*ENVIRONMENTCAE前后处理软件16GAMBITFLUENT配套前处理软件17MasterFEM有限元前后处理软件18Medina有限元前后处理软件19Oracle数据库软件20GEFEP-P汽车碰撞并行仿真软件21CADEM-P汽车覆盖件冲压并行仿真软件2/16/202021序号软件名称描述1QCHEM量子化学计算软件2NWCHEM量子化学计算软件3GAUSSIAN量子化学计算软件4MOLPRO量子化学计算软件5GAMESS量子化学计算软件6CPMD分子动力学从头计算程序7ABINIT电子结构计算程序8VASP分子动力学模拟9SIESTA分子和固体的电子结构计算10WIEN2K固体电子结构计算11ESPRESSO分子动力学模拟序号软件名称描述12SMEAGOL分子动力学模拟13NAMD分子动力学计算程序14EGO分子动力学程序15GROMACS分子动力学通用软件包16DOCK分子对接程序17BLAST序列相似性检索程序18MM5中尺度数值模式的计算程序19GRAPES全球和区域气象分析预报系统20FDS火灾模拟程序21COSMOMC天体物理计算科学软件资源需求举例2/16/202022•建设保障超算中心业务正常运行的服务和运营团队–外派技术和管理人员培训学习,掌握管理与应用的相关技术。–招聘高性能计算领域博、硕士研究生到中心工作,以保证超级计算中心拥有较强的技术实力,可以进行多种业务的开展。超级计算中心财务部公共关系部人力资源部技术支持部研究开发部科学计算部办公室工程计算部人员队伍建设举例2/16/202023•政府投资建设和运营–服务于”长三角“地区制造业、高新技术企业以及教育科研等用户–在气象预报、药物设计、生命科学、汽车、新材料、土木工程、物理、化学、航空、航天、船舶等十个应用领域取得了一批重大成果•全程保障ARJ支线飞机全机外形、气动阻力、气动升力的设计•支持大飞机公司完成翼型、机翼、翼身组合体、发动机吊挂等设计任务•支持荣威750、550、奇瑞A3、A01D虚拟设计,A3获CNCAP五星安全大奖•上海外环隧道、崇明过江隧道、过江大桥的安全评估和设计仿真•对蛋白质-蛋白质相互作用准确预测,完成世界影响力的新药设计和研究船舶水动力特性的数值模拟支线飞机空气动力学设计分析船尾组合浆区域压力发布飞行器优化设计汽车碰撞与安全性评估金属催化过程药分子设计地质构造与抗震性能评估以上海超算为例分析典型超算中心运营模式2/16/202024上海超算中心对区域科技创新的巨大作用2/16/202025•超算中心需要成功地运营,创造出效益,得到投资者认可,才能获得进一步发展的机会,以上海超算中心为例:2000年I期建设•上海市政府投资1亿元•引进神威-I超级计算机•主要服务少量高端科研用户•市财政全额资助3000万运营经费2004年II期建设•上海市政府投资9000万元,国家投资3000万元•部署国内最大的超级计算机,并配备大量工业和商业计算软件•大量科研和工业创新成果,国内最有影响的计算中心和创新服务中心•市财政资助70%运营经费:4500万元当前III期建设•上海市政府投资2亿元,国家投资1亿元•引进亚洲第一超级计算机,升级应用软件,资源优势明显•探索可持续发展道路,为上海及全国的科研和经济发展发挥更大作用•市财政资助60%运营经费:9000万元超算中心的分期建设原则2/16/202026•传统的超算中心主要作为公共计算平台,旨在提升区域科研能力和企业核心竞争力,通常需要财政补贴以维持正常运营。•超算中心的收入来源–计算资源按需服务–高级技术咨询服务–企业赞助•超算中心的主要支出–IT设施电力消耗–人员工资等成本–物业管理及其他费用超算中心的运营成本2/16/202027•全面采用“绿色计算”方案–采用高效能服务器系统–采用刀片式服务器–采用虚拟化技术–采用电源管理技术–采用水冷散热技术•实际效果–电费得到了有效控制–管理运营人员没有扩编•面临的主要问题和难题–基础设施的分期改造带来的混乱–服务器淘汰更新过快–仍然“吓人”的电费账单–仍然依赖政府的财政拨款曙光5000A—高度关注运营