高性能计算平台建设方案1.验证理论、发展理论的重要工具,另一方面,它是在理论的指导下发展实用技术,直接为经济发展服务;计算科学的发展也有相当悠久的历史,只是在计算机这一强大的计算工具问世之前,计算只能利用人类的大脑和简单的工具,计算应用于科学研究有天然的局限性,限制了它作用的发挥;随着计算机技术的发展,使用科学计算这一先进的技术手段不断普及,逐渐走向成熟。科学计算可以在很大程度上代替实验科学,并能在很多情况下,完成实验科学所无法完成的研究工作。科学计算也直接服务于实用科技,并为理论的发展提供依据和机会。在许多情况下,或者理论模型过于复杂甚至尚未建立,或者实验费用过于昂贵甚至不允许进行,此时计算模拟就成为求解问题的唯一或主要手段了。目前,高性能计算已广泛应用于国民经济各领域,发挥着不可替代的重要作用:a)基础学科中深入的知识发现,问题规模的扩大和求解精度的增加需要更高性能的计算资源。例如,计算立体力学、计算材料学、计算电磁学。b)多学科综合设计领域中大量多部门协同计算需要构建高性能的综合平台。例如,汽车设计、船舶设计。c)基于仿真的工程科学结合传统工程领域的知识技术与高性能计算,提供经济高效地设计与实践方法。例如,基于仿真的医学实践、数字城市模拟、核电、油田仿真工具、新材料开发、碰撞仿真技术、数字风洞。d)高性能计算提升众多行业服务、决策的时效性,提高经济效益。例如,实时天气预报、城市交通控制、视频点播服务、动漫设计、网络游戏、基于RFID的货物跟踪、智能电子商务。e)数据密集型应用需要高性能数据处理,以应对数据爆炸式增长带来的难题。例如,高能物理实验数据处理、遥感数据处理、商业智能、生物信息学、RFID数据挖掘、金融业分析抵押借贷、移动电话流量分析。1.1建设内容高性能计算平台是面向全校提供高速计算服务的公共计算平台,主要运行科研计算任务,并且能够根据应用任务对硬件资源的不同需求,动态分配和调整平台资源,管理计算作业。用户通过校园网或VPN远程提交计算作业、获取计算结果,并能够根据权限调整,实现权限控制,硬件细节对用户透明。用户界面实现图形化交互窗口和SSH登陆相结合方式。平台的主要硬件设备有:管理节点、计算节点、存储IO节点、Infiniband交换机、高速存储、千兆以太网交换机;软件方面有:64位Linux操作系统、并行开发环境、并行文件系统、作业调度管理系统、硬件集群管理系统等,利用高速infiniband网络互联构成计算环境,通过并行计算支撑软件和作业调度系统使它们协同工作。平台支持同时运行Ansys、Fluent、Gauss、MaterialsStudi、ADMS、Opera、HFSS、MTSS、MAGIC、CST、Icepak等商业软件,并支持C(C++)、Fortran77/90等语言的编译和运行环境,以保证学院自编应用程序的计算求解需求。1.2设计原则高性能计算平台应具有处理大规模的复杂运算,尤其是浮点运算的能力。它将为全校提供优化设计、分析、验证的手段,最终实现提高科研质量、缩短科研周期、降低科研成本。因此,方案设计以用户现场测试结果为基础,根据用户对未来应用模式及业务量需求预测为前提,强调高性能以及可行、合理和低风险。架构设计和系统选型遵循以下原则:先进性本系统方案所采用的技术既要符合业界的发展方向,又要在未来几年内仍具有很高的技术先进性,保持在同类系统中的领先地位。这样有利于提高整个系统的计算与处理能力,保证系统的使用周期。有限投资获取最大计算性能在有限的投资前提下,高性能计算平台应具有优秀的处理能力,它不仅具有符合要求的峰值性能(PeakPerformance),更重要的是应具有稳定的应用性能(sustainedperformance)。各种复杂的研究课题在本系统中能够得到准确、快速的计算结果。可扩展性随着对计算机系统性能的要求不断提高,高性能计算平台应具有较强的扩展能力,可以方便地实现节点增加、系统扩充和升级,以有效保护前期投入。建议采用第三方集群管理和作业调度专业软件,集成安装与硬件设备无关,计算节点的扩展不受硬件品牌限制。开放性和兼容性系统应符合公认的工业标准,包括体系结构,硬件,I/O,网络,操作系统,开发环境和开发工具等。便于和其他平台上的系统互操作。应用开发软件丰富本系统的平台上应具有丰富的软件资源,能够提供研究课题的解决方案和相应的软件系统。例如高性能计算方面的开发环境和应用开发软件,linux、专业平台软件商,不仅提供处理节点间的协调和通信的中间件,使整个系统节点能够真正实现合作,负载均衡,还能针对不同应用需求,提供一系列并行计算应用。性价比优越本系统在性价比方面在同类系统中应具有明显的优势,能满足用户应用的同时,充分考虑后期运维费用,尽量采用绿色节能型设备,降低运维功耗,比如采用刀片式服务器。管理简单,用户易用尽量减少数据中心的设备管理难度,简化架构,底层硬件对用户透明,本着不改变设计师原有使用原则的基础上选择合适的软件架构,突破集中式资源部署应用难的屏障,实现应用简单易用的目的。综上所述,本项目的建设,在遵循统一领导、统一规划、统一标准、统一组织的建设原则之下,最大程度上保证系统按照预期的目标顺利实施。2总体架构根据我们对学校高性能计算平台的需求调研分析,以及其它高校的高性能计算实验室的考察,结合实际应用需求、当前计算规模大小、存储需求量等一系列的因素,充分结合总体设计原则,针对学校高性能计算应用的特点,从满足应用需求的角度出发,建立一个高可扩展、易管理的Cluster高性能计算平台环境。主要是基于计算网络、存储网络、管理网络、监控网络的一体化网络建设的高性能计算集群系统:计算网络采用Cluster、高速InfiniBand计算网与千兆以太管理网协同工作的架构。计算节点采用刀片服务器。存储网络大部分数据都存放在FC架构存储系统中,选用低端扩展容量大的磁盘阵列,利用SAN交换机互联,通过存储I/O节点为高性能计算平台提供存储服务,便于维护、管理和备份。管理网络通过资源调度管理软件管理整个高性能计算平台。用户通过网络远程访问高性能计算平台,获取高性能计算平台的计算资源进行求解运算。监控网络通过基于硬件设备的专业集群管理软件对硬件系统进行集中管理、配置,减轻管理维护人员的工作负担,为运维人员提供高效便捷的管理方式。硬件部分应包括:计算节点(集群节点和小型机节点)管理节点I/O节点高速互连系统软件部分应包括:操作系统集群管理软件作业调度系统并行文件系统并行程序开发环境数学库、并行库标准应用软件客户应用软件3高性能计算平台硬件系统3.1平台架构图平台整体架构图如下:采用32节点的Cluster高性能计算集群(每个计算节点IntelXeonX56502Processors/6Cores/24G内存),主要运行分布式计算应用,利用MPI现实并行计算,提高应用效率。目前采用1台管理节点作为高性能计算平台的管理服务器,以后根据应用需求将管理节点增加到2台。目前采用2台存储节点作为高性能计算平台的存储I/O节点,以后根据应用需求扩展存储I/O节点。32节点高性能计算集群节点、2节点I/O服务器集群、1台管理节点均通过带宽20GbpsInfiniband高速网络互连。计算集群节点通过20GbpsInfiniband网络连接I/O节点,通过I/O节点的专门并行文件系统访问存储。I/O节点通过4Gbps光纤通道卡连接至磁盘阵列环境中,配置1台磁盘阵列(可选HPP2000G3FF或IBMDS3400),10TB可用容量,以满足高性能计算环境根据应用需求,小型机待今后扩展建设。对存储性能和空间的巨大需求,I/O节点存储链路完全多路径融合,与磁盘阵列见无单点。高性能计算平台全部通过管理节点上的高性能计算资源管理平台软件对用户发布使用。管理节点通过1000Base-T千兆以太网连接到校园网络中,各院系通过该网络Web使用高性能计算平台资源,基于用户原有使用习惯的图形化交互界面,并最终通过网络可视化的查看计算过程,获得计算结果。3.2主要设备选型计算节点采用32节点的刀片服务器作为计算节点(每个节点采用2ProcessorsIntelXeonX5650/6Cores/18GBmemory),Intel六核处理器在中规模的计算量上的性能相当于同主频四核CPU的1.5倍以上。依据见Intel提供的数据分析图:管理节点采用1节点的机架式高端服务器(采用2ProcessorsIntelXeonX5650/6Cores/24GBmemory)作为高性能计算平台的管理节点。存储节点采用2节点的机架式高端服务器(采用2ProcessorsIntelXeonX5650/6Cores/36GBmemory)作为高性能计算平台的存储I/O节点。计算网络采用至少2台Infiniband高速网络交换机(20Gbps无阻塞)刀片机箱内置模块,作为高性能计算平台核心计算网络。详细指标见附表说明。3.3Cluster集群系统Cluster采用32台刀片式服务器构成计算节点,通过2台I/O存储节点连接磁盘阵列,I/O节点部署专用并行文件系统,负责向计算节点提供共享存储服务。管理节点部署高性能计算资源管理平台软件,利用应用虚拟化技术,实现用户通过网络对高性能平台的图形化透明使用,远程接入完全遵照用户原有软件使用方式,使用习惯。高效、易用的提供高性能平台计算服务。目前用户大量应用运行在Linux64平台上,为了满足当前用户应用与未来发展的需求,采用Linux并行计算集群进行Cluster的建设。Cluster方案架构图小型机平台Cluster计算节点采用刀片服务器,节点处理器采用英特尔®至强®X5650六核核处理器(2Processors/6Cores)。待建Cluster集群系统的计算理论浮点峰值为:2.66G×4×32×2×6=4085.76Gflops=4Tflops浮点峰值=CPU主频×CPU核每个时钟周期执行浮点运算的次数×服务器数量×每个服务器的CPU核数。Cluster计算集群具有以下特点和优势:具有很高的性能价格比。采用先进的Beowulf架构,扩展性好即可扩充到几百上千个节点,从而获得很高的性能和比较低的总体成本。计算集群全部采用高速的Infiniband网络互连,具有极高的性价比。采用工业标准设备和顺应高新技术发展的趋势。如集群并行计算技术,开放代码程序。支持Windows平台的应用,具备Linux扩展能力。3.4计算节点计算节点是高性能计算的核心节点,承担着计算、分析、求解的真正任务,计算节点的性能很大程度上决定整个高性能平台所具有的计算能力,根据调研的具体情况,充分考虑用户环境,采用刀片式服务器做计算节点,每节点配置2Processors/6Cores处理器,内存根据经验,每core配置2GB内存,所以为计算节点合理配置24GB内存(内存配置为3的倍数)。特性:密集计算能力:英特尔®至强®六核处理器配有多个RDIMM插槽、多个千兆/万兆服务器适配器,能够提供集中的计算功能和更加出色的系统扩展能力;2个英特尔至强5600系列处理器;采用高级ECC的96GBPC3-10600(DDR3-1333)寄存式RDIMM;可选择1个小外型高性能热插拔串行SCSI(SAS)硬盘。部署多样性:嵌入式技术和2个中间件插槽让您可以在高效紧凑的外形中进行多样性部署。可提供高速图形远程控制台功能,以及对服务器状态信息进行远程网络访问的能力;可通过管理程序安装功能、Disk-On-Key和安全特性提高设备的灵活性3.5管理节点管理节点用来承接外部用户接入集群系统,进行程序编译、调试、并行计算任务的分发与布署,此节点还安装有集群管理软件,做为主节点对整个集群进行管理和作业调度等工作。目前采用一台机架式高端服务器(2Processors/6Cores/24GB内存)作为高性能计算节点的管理节点,根据今后应用需求,可再扩展一台机架式高端服务器。3.6I/O存储节点I/O节点用来连接后台的大容量数据存储设备,整