1.项目工作内容2.1Platform技术指标高性能计算中心高性能计算平台运行管理系统包含作业管理、数据管理、运行状态分析、图形显示及系统管理等功能,需要全面支持高性能计算平台管理中的各个方面,包括针对普通用户的作业提交、作业调度、数据管理、图形显示,以及针对管理员用户的集群运行状态分析、系统管理、报表生成等功能,所有功能需要能够通过网页浏览器访问方式实现。高性能计算云平台运行的常用计算软件,包括Fluent、dyna、fastran、nastran、Feko、CST、Matlab等以及基于MPI的自研软件等。满足不少400个CUP务器、2个IO节点,**加速工作站的集群资源调度分配,能够满足10时使用该平台。高性能计算中心高性能计算平台运行管理系统及并行文件系统为成熟商业(非OEM)版软件,产品具有独立知识产权。厂家应具备多年以上行业经验,能够提供持续的产品开发和技术支持服务;在多行业拥有成功应用案例,至少两个一百万亿次计算能力高算项目经验,并提交实际应用案例及证明材料。要求厂商具有优秀的本地解决方案团队,包括软件架构师、软件开发人员和软件测试人员等,并可以根据用户的需要提供整体解决方案以及相应的用户化开发。要求厂商具有强大的本地技术支持团队,包括一线技术支持、二线技术支持(源程序级问题调查)和软件维护团队(提供源程序级的问题解决方案)。2.2技术指标1)资源调度与作业管理系统a)支持将所有的高性能计算平台硬件和软件资源组成一个统一的集群,实现使用、管理和维护的一体化;b)支持对集群进行扩展,包括硬件资源的扩充与软件资源的扩展;c)可以管理用户自定制的静态和动态资源,可以用于调度系统的资源匹配,比如磁盘空间,操作系统类型,应用程序许可证等;d)支持多种调度算法,提供先来先服务、优先级抢占、公平共享、节点资源独占等多种调度策略,要求提供具体的调度策略配置说明文档。e)提供节点和队列的管理功能,提供开启和关闭功能。提供作业的控制,杀死,刮起,停止,继续,改变作业排队顺序等。并提供邮件通知机制,向用户和管理员提供作业状态报告。f)提供多级管理授权:能够提供不同级别的管理员机制,集群管理员,队列管理员,用户组管理员;队列管理员可以修改队列的调度策略配置,并可以控制所管理队列中的作业状态;用户组管理员可以管理用户组内所有成员的作业;g)容错性:主节点发生错误时,候选节点可以快速自动切换为主节点继续提供服务;在网络或节点故障时,调度系统不能检测到运行在该节点上作业的状态时,系统可以在其他节点上自动重新运行作业;调度系统可以捕获作业的退出码,并可以根据作业的退出码触发不同的错误恢复机制;h)支持在线命令行修改系统配置,无需重新提交作业。2)WEB门户a)支持中英文界面自适应切换;b)提供如下功能:用户授权管理;集群监控(监控集群负载、可用资源、机器状态、作业分布等);集群可视化仪表盘;报表统计功能,能查看许可证的历史使用效率分析报告和实时使用信息;作业监控(所有运行作业的监控和管理);基于Web的远程系统管理(如登陆系统运行系统管理命令等);c)基于Web的作业管理:基于应用程序的作业提交页面,每种应用程序应提供有针对性的选项、参数和帮助页面,方便用户使用;可以持续追踪作业状态并对自己的作业进行各种操作;作业数据管理,提交作业时可指定输入数据,数据可以放在服务器上,也可以放在浏览器端。用户可以通过Web查询和管理作业相关的数据,如输入数据、中间结果和最终结果;上传本地数据窗口支持多个文件批量选择并上传;d)Web上支持XWindow图形交互:在浏览器上实现基于XWindow的应用程序图形交互,如:Fluent、Fastran等程序作业启动后其相关的图形用户界面可以通过Web显示,供用户查看计算曲线,或交互控制等,禁止用户进行非工程软件的操作;e)Web上应用集成:支持在Web上与各种应用方便地集成,为用户提供方便的接口;管理员可以通过WEB界面进行应用程序的集成;支持所见即所得的应用模板定制方式;可以直接在在WEB编辑后台的批处理脚本文件,并保存,文本显示支持多色彩富文本方式;f)WEB可定制:允许用户设置多种角色,控制WEB页面可见性和可操作性;允许用户基于WEB提供接口和脚本进行定制开发和应用集成;允许用户定制开发在线生效,无需中断用户访问;g)可按需求集成远程三维或者二维可视化工具HPRGS,NICEDCV,EOD,VNC等集成,进行远程图形工作站的多用户共享;h)提供基本的资源使用报表,在线作业状态报表,节点状态报表,吞吐量统计,多集群作业转发统计,性能分析数据等;i)用户角色控制:管理员可以通过角色定义来管理用户对应用程序和资源的访问;j)数据管理:支持同时选择多个(非压缩方式)数据文件上传到集群,方便用户进行作业数据的使用和管理。3)检测与报表a)资源监测,支持细粒度的展示资源使用情况和效率,支持分项目组、分许可证组、分应用程序组合作业组各个级别来统计资源的使用率和作业资源占用情况、作业吞吐率、等待作业、CPU等资源利用率,用户能拖拽式的显示某一细小时间段的实时状态;b)作业监测,支持以节点、节点组、项目组、作业组等等方式查看作业的执行状态和资源使用统计信息;c)用户监测,能监测用户在集群中的各种使用资源的行为;d)报表信息,能按时段的生成所需统计报表,统计用户、节点、作业组的某时间段内的在集群内的情况;e)提供许可证资源实时监测,查看许可证服务器状态,许可证实时占用情况和许可证使用效率,生成许可证使用报表;f)提供系统日志跟踪,报警功能,能使管理员及时发现系统问题;g)提供给管理员远程ssh接口,管理员可以通过监控界面直接登录远程机器的ssh界面进行节点的维护和管理。4)许可证调度管理a)许可证可预约:应用程序启动前,可预约程序所需的许可证,避免互相冲突;许可证抢占式调度:高优先级的作业可抢占低优先级作业正在使用的许可证,而低优先级作业将被挂起直到有许可证可用为止;b)许可证所有权控制:用户可保留自己的许可证,确保需要时能立即获得所需要的许可证;c)使用份额控制:每个用户可使用所分配的许可证份额。使得许可证在不同项目组之间进行按份额的共享或公平竞争;d)支持智能识别集群应用程序许可证调度内外的资源使用量识别和控制。5)应用程序支持a)支持对Fluent、dyna、fastran、nastran、Feko、CST、Matlab等常用软件的集成;b)支持大型的OpenGL的3D应用,支持一般图形的2D应用;c)后续新增的商用软件集成,厂商应给予及时的响应(24小时以内);d)支持对自研软件的集成;e)接口开放,方便用户自定义软件集成。6)其他a)管理系统构架独立,支持多个厂商的硬件,扩展性好;b)支持用户、部门、项目使用指定的资源,支持应用程序使用指定的资源;c)并行作业任何一个节点失效,不能导致整体作业紊乱;d)系统具有断点续算功能;e)能跟踪每一个作业的运行及其状态变化,保证作业永不丢失,在系统出错情况下,能重新恢复作业状态;f)支持作业计算过程中的图形界面交互操作,禁止用户在交互式窗口进行非工程应用软件的系统操作;g)保证在用户按指定的份额使用公平合理地使用计算机资源;h)非交互式作业中用户可以通过web门户了解计算过程信息、报错信息;i)实现门户与用户现有的身份认证系统集成,实现统一身份认证和单点登录;j)根据用户的要求进行门户主界面风格的定制;k)支持系统状态监控,能够提示如文件系统故障、操作系统空间满、设备挂载问题等,全面监控系统软硬件运行状态,自动记录故障;l)仅向系统管理员开放SSH连接端口;m)对于普通用户进行有针对性操作培训;n)对于管理员进行针对性系统维护和故障排查培训。5)并行文件系统序号技术指标要求1.品牌采用商用软件产品,非开源软件,并可提供原厂技术支持服务。2.总体要求1)支持多级存储设计:第一级为高速存储;第二级为大容量硬盘存储;一级存储和二级存储被单一文件系统管理,统一命名空间。2)支持Linux、Windows和AIX操作系统。3)每个存储节点可同时提供一、二级存储;支持多通道,并实现负载平衡和容错功能;具有在线扩展能力。4)保证用户的数据和应用软件不用修改就可以运行在分布式文件系统上,分布式文件系统必须支持原生的锁机制并采用POSIX锁;提供统一的命名空间,满足POSIX规范。6)支持在线扩展,可扩展存储节点或者存储设备,对应用透明。3.可用性、安全冗余要求1)可用性要求:系统整体可用性≥99.99%。2)冗余性要求:全套系统关键部件采用全冗余设计,系统各部分配置均不存在任何单一故障失效点。单个存储节点失效不会导致数据丢失;单节点故障对应用透明,不影响应用的正常数据读取;所有节点之间,中断任意一个链路都不影响系统运行。3)支持文件系统在线升级。4.性能要求存储性能要求:提供持续读写性能≥1GB/s;单节点最大吞吐量≥500MB/s(非cache),系统各部分配置均衡合理,没有性能瓶颈。5.功能要求1)本文件存储系统中的元数据分布式存放,防止出现元数据访问瓶颈。如果本文件系统需要独立的元数据服务器,需另配,其性能不能成为瓶颈,并且不可存在单点故障。2)本文件系统同时支持多种链路协议,如Infiniband,10Gb以太网,40Gb以太网等。3)若采用Infiniban或者ConvergedEthernet设备,则数据传输支持RDMA协议。3)本文件存储系统能做到故障恢复时间小于10分钟/TByte。故障恢复要对应用透明,不影响应用正常运行。4)本文件系统必须提供快照功能,支持对整个文件系统或单个目录设置快照。5)本文件系统必须提供用户权限管理、配额管理功能;并支持在线对配合进行设置。6)文件系统提供集群NFS或者SAMBA协议导出。3.设备配置清单设备配置如表1所示。表1设备配置清单序号名称数量单位备注1高性能计算作业调度,管理软件平台1套4.系统安装与调试要求乙方提供设备清单所列的产品及其相关的技术手册、产品合格证和产品说明书,并向甲方确认保修条款。甲方将根据清单所列明细项目,对乙方提供的产品进行验收,并签署验收报告。货物的安装,调试由乙方负责。在接到甲方通知后,乙方将派专业人员在三个工作日之内,到达用户现场进行安装、调试。现场安装时,乙方专门讲授系统的安装和维护,并在两周内安装调试完成。5.验收当乙方负责的设备安装工作结束后,甲方按照有关规定签署安装调试报告,确认系统安装工作的完成。乙方须向甲方提供(或者会签)下列文件:1)使用说明书、图样、图册、软盘等随机文件(乙方提供);2)安装调试记录(乙方提供)。6.技术支持与服务6.1技术支持乙方为本次项目提供技术支持服务方式满足用户需求,服务的范围及内容包括:表2技术服务清单项目服务详细说明指派专人负责的客户代表工程师乙方指派专人作为客户代表工程师负则系统运作与技术服务,协调软件所需资源,安排走访工作、保证本系统能够在规定的服务及响应时间内得到相应的技术支持服务。系统集成及保修服务对于本项目的软件,乙方将提供三年集成及保修服务。在保修期期间,当系统需要集成新软件或出现故障时,乙方将提供7×24小时内快速的响应。热线电话支持服务经乙方授权的用户技术人员可将软件故障或技术咨询服务请求通过乙方的技术支持响应热线电话,或以传真和电子邮件的形式报告给支持工程师,并可要求在2小时内打回电话(如果是在工作日内)或于下个工作日内以电子邮件文字方式回复。非工作时间内,用户技项目服务详细说明术人员可电话联系到指定的客户代表工程师回复服务请求。安排系统运行及服务情况回顾与访问指派的客户代表工程师负责了解用户系统及环境配置,并可提供远程支持,确保本系统支持服务的满意度。乙方委派专门技术工程师对本系统提供以下服务:对指定的软件系统做定期的维护,包括系统诊断、检测系统软件的性能,对有潜在问题的分析,提出系统优化解决方案,并进行详细的工作记录,以做到系统信息文件化。每年进行一次本系统运行状况的总结与回顾,内容可根据双方的协商而决定,主要是为帮助本系统解决在