华为高性能计算集群软件方案

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

华为高性能计算集群软件方案1目录1.HPC概述2.华为HPC软件方案概述3.华为HPC软件方案特点4.华为HPC软件应用案例2高性能计算系统概述(source:)2000~20131990-20001980-19901970-1980MPP向量机DSMCluster01002003004005002009-2013TOP500HPC系统架构ClusterMPPSMP高性能计算系统的架构演变全球HPC系统主流架构(cluster和MPP)以计算为目的,使用了很多处理器的单个计算机系统或者使用了多台计算机集群的计算系统和环境什么是高性能计算3高性能计算系统的应用领域气象环境中尺度、中长期预报、海洋、环境预报动漫渲染图像处理、高清视频、三维渲染石油勘探地震资料处理、地震资料解释、油藏模拟生命科学序列比对、分子对接、分子动力学CAE仿真结构分析、流体分析、电磁场分析物理化学量子力学、分子力学、蒙特卡罗分析高性能计算应用领域4高性能计算系统组成Application:计算应用ScalableFileSystem:集群存储Middleware:计算通信中间件DevelopmentTools:开发工具OperatingSystem:集群操作系统Interconnect:高速计算互联设备Server:节点服务器Storage:硬件存储设备•ClusterManagement:集群和资源管理•DeploymentToolkit:部署工具•ChangeManagement:配置变更管理•HealthMonitoring:状态监控•JobScheduling:作业调度5X86,Linux,刀片系统占据主流,IB和GE平分秋色高性能计算系统的发展趋势100%75%50%25%全球TOP500高性能计算机的使用情况81%10%95%66%41%处理器操作系统构建方式互联网络IntelX869%AMDX869OthersLinuxBlade16%43%34%IBGEOthersOthersOthers5%6华为高性能计算解决方案硬件资源计算环境并行文件系统(Lustre,NAS)管理服务操作系统(RHEL5.x/6.x,CentOS5.x/6.x,SLES11.x)记帐统计并行环境(MPI/MPICH,PVM等)开发接口应用服务系统部署程序部署备份还原IntelHPC编译及开发环境C/C++/FortranIntelMKL,IntelVtune监控告警流程管理资源管理作业调度系统服务应用集成GaussMatlabWorkbenchAnsysVaspFluentBlastMaple华为高性能计算服务平台7目录1.HPC概述2.华为HPC软件方案概述3.华为HPC软件方案特点4.华为HPC软件应用案例8HuaweiHPC软件解决方案包HPC集群常用组件华为WisdomC+高性能计算软件包1操作系统RedHatLinux5.x,6.x,CentOS5.x,6.x2集群管理工具WisdomC+集群管理工具,3资源管理和作业调度管理器WisdomC+作业调度和资源管理4并行计算消息通讯库、测试工具WisdomC+并行计算组件包5文件系统NFS,Lustre6集群部署工具WisdomC+集群部署工具7工作流组件WisdomC+工作流工具8节能管理组件WisdomC+节能管理工具9许可证管理组件WisdomC+许可证管理工具10统计分析组件WisdomC+统计分析工具11帐户及计费管理组件WisdomC+帐户及计费管理工具9支持的典型行业应用行业主要的计算任务支持的行业应用软件产品CAE几何建模电磁仿真计算流体力学有限元分析HFSS、COMSOL、Feko*(EMSS)、CSTMicrowaveStudio、ZelanFidelity、ABAQUS、ANSYS、LS-DYNA、FLUENT、STAR-CD、Hspice、Maxwell、PoweSI、OptimizePI基础科学物理科学计算化学分析计算材料科学计算VASP、Gaussian、MaterialsStudio石油勘探能藏模拟分析地震油层分析油层数据可视化VIIP、Eclipse、RMS生命科学基因测序蛋白质分析医药研究BLAST/MPIBLAST、AMBER、Gromacs、NAMD气象海洋气候模拟气候预测MM5、WRF、ARPS、GRAPES、CMAQ、CCSM10功能完备的集群管理和部署工具可视化工作流工具,支持自定义流程智能的能耗管理和灵活的调度策略高效易用友好的图形化统一管理界面完善的作业管理和调度功能支持多种类型的并行计算任务可靠支持1000节点以上中大规模运算管理节点互备,快速故障恢复运算过程checkpoint,单点故障后续算专业7*24小时专业支持服务遍布全球的售后支持网络定制化服务华为HPC软件特点11模块化,可扩展,易升级WebServiceInterfaceWebPortal/CLIHTTP/SSHHTTP作业调度集群管理集群监控告警管理能耗管理用户管理记账统计安装部署并行库数学库编译器调测器RHEL5.x/6.xSLES11.xCentOS5.x/6.x生物制药CAS仿真动漫渲染石油勘探软件架构:组件化、Web化、开放预集成行业应用软件,集中调度管理维护简单定制开发12与普通集成方案的区别功能华为HPC方案普通集成方案普通集成方案的补救措施便捷的集群安装和部署YesNo自行下载相关软件,手工进行安装部署统一的图形化集群管理YesNo自行集成第三方集群管理软件直观的集群和节点监控YesNo自行集成和配置第三方集群监控软件丰富的告警管理YesNo应用程序统一访问门户YesNoHPC必备组件(函数数学计算库,开发工具)YesNo自行查找、下载、编译和安装数学库等组件,自行软件包间依赖性问题高效的作业调度器YesNo自行下载、编译、安装和配置作业调度器完备的统计记账YesNo智能的能耗管理YesNo网络并行文件系统YesNo自行集成和配置第三方网络并行文件系统灵活的工作流管理YesNoNO表示尚未具备商用软件能力,YES表示已具备商用软件能力13和普通集成方案对比组件华为HPC方案普通集成方案集群安装部署工具•一键式批量部署,快速完成集群搭建•便捷的部署界面,灵活安装部署新增节点•节点镜像安装和恢复,提供完备的镜像管理•手工安装操作系统•手工编写安装脚本,软件安装困难•无节点备份恢复功能图形化集群管理工具•统一的图形化集群管理工具•集群节点管理功能、多节点并发命令工具、文件系统管理功能•自行集成各种集群管理软件包•没有统一的集群管理界面集群和节点监控工具•统一的集群和节点监控工具•丰富的报表和图形展现•自行查找和集成相关监控用以动态监控集群•没有统一的集群监控界面告警管理工具•丰富的告警管理,系统支持邮件发送通知•无告警管理工具应用程序统一访问门户•统一的系统门户,支持定制各种应用的作业提交界面,预集成典型应用的作业提供界面•无应用程序统一访问界面HPC必备组件(函数数学计算库,开发工具)•包含MPICH1/2、MVAPICH、OpenMPI并行通信库,包含MKL、ATLAS等主流数学计算库•自行查找、下载、编译和安装数学库等组件,自行软件包间依赖性问题作业调度器•提供高效的作业调度器,支持丰富的任务调度策略、资源分配策略和资源限制策略•自行下载、编译、安装和配置作业调度器统计记账工具•完备的统计记帐工具,按需产生计费报表•无统计记帐工具能耗管理工具•智能的能耗管理工具,灵活的绿色节能算法•无能耗管理工具网络并行文件系统•提供功能强大的Lustre并行文件系统•自行集成和配置第三方网络并行文件系统工作流管理工具•图形化的流程设计工具•直观的流程管理界面•无工作流管理工具14目录1.HPC概述2.华为HPC软件方案概述3.华为HPC软件方案特点4.华为HPC软件应用案例15灵活的作业提交方式模板提交方式预集成典型应用通用任务提交方式命令行提交方式16完备的作业管理。。。邮件通知数据转移后处理调度执行预处理作业提交工作流引擎以工作流引擎为基础的作业生命周期管理17高效的作业调度丰富的策略管理功能先来先服务MINRESOURCEMAXBALANCE任务调度策略资源分配策略资源限制策略抢占策略回填策略预留策略基于优先级策略限制活动作业限制系统作业限制空闲作业ReQueueSuspendFirstFitBestFitGreedy资源预留18用户目录1用户目录2用户目录3用户目录4外部存储运算结果自动传输完整的业务数据管理功能强大的web数据管理功能安全隔离的用户数据19•集群节点管理:注重整个集群中节点操作,如上下电;•调度系统节点管理:关注调度信息,如是否接收作业操作。分角色的集群节点管理调度相关计算节点管理带外节点管理带内节点管理•通过并行命令可以同时对多个节点下发命令统一的集群管理多维度的集群节点管理多节点并发管理20直观的集群监控负载内存CPU网络IO一周一天二小时一小时丰富的监控指标集群整体性能状态监控单个节点性能状态所见即所得的设备管理21丰富的告警管理丰富的告警类型灵活的告警查询可配置的告警阈值提供CPU负载、CPU温度、磁盘容量、内存容量、主机连接状态、系统服务状态、自定义服务等多种告警可按主机,类型,级别及时间查询历史告警信息可配置不同告警阈值,以灵活应对变化邮件发送通知,以便及时处理方便的告警通知22智能的能耗管理聚合监控系统的资源状态和资源需求,为能耗分析提供统一数据计算集群信息调度系统作业信息根据能效监视数据及能耗配置信息,提供节能建议丰富的节能算法支持自定义算法可动态配置QoS信息能效监视分析诊断自动处理根据分析诊断建议,自动或人工确认完成系统的处理节点下电/降频节点上电23完善的帐号管理统一的用户管理功能基于用户的计费管理功能•支持与操作系统统一的用户以及群组管理,•批量导入用户功能•与调度算法结合指定优先级及资源限制。•可导出指定时间段内,用户作业产生的费用报表24部署节点…便捷的集群部署、灵活的规模伸缩管理节点业务量上升界面添加节点计算节点界面操作,方便快捷的扩减容•业务量增加时扩充集群规模,应对大量任务;•业务量减少时缩小集群规模,实行资源共享,提高资源利用率。配置简单,一键执行批量安装,省时省力动态伸缩,界面操作批量安装(OS、软件等)25实时的流程运行监视图友好的流程设计与直观的流程管理并行分支条件分支图形化的元素便捷的设置拖拽式的流程设计完备的流程实例管理图形化的设计工具,支持多种流程完备的流程实例管理功能26镜像备份通过镜像恢复故障节点通过镜像批量部署•管理节点热备,主节点故障时快速接管。•整个集群备份,在整个集群出现故障时,快速恢复方便的备份与恢复,高可靠系统安装好的初始节点•支持系统镜像管理:创建、删除、浏览•节点快照,快速恢复27目录1.HPC概述2.华为HPC软件方案概述3.华为HPC软件方案特点4.华为HPC软件应用案例28生物超算云服务平台•提供专业的HPC业务流程管理软件,包括流程设计工具、流程执行引擎、流程监控等组件。•依托云平台的海量计算资源和存储资源,充分结合华为云平台和HPC的特点,提供完善的超算云解决方案。解决方案•基因测序软件:BLAST、BOWTIE2、SAMTOOLS•业务处理的步骤多,流程复杂,需要定义流程。客户需求•提供专业的计算业务流程管理服务,有效支撑基因测序等行业应用,极大提高客户业务效率。•充分利用华为云平台的资源,提供按需使用、资源弹性伸缩、智能管理等特性的HPC服务,满足了客户的计算和存储需求。•完善的资源管理、作业调度、用户管理,为客户提供行业整体解决方案。客户价值计算节点:采用50台高内存C型管理节点:采用2台标准均衡C型内部存储节点:采用4台标准均衡E型,采用云存储,提供无限的对象存储能力的服务软件系统:SUSE、华为集群管理软件(包含工作流组件)29华为中央硬件仿真平台•提供专业的HPC集群管理软件,包含安装

1 / 31
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功