资源管理系统国防科学技术大学计算机学院广州先导系统用户培训......培训内容•系统概述•天河高性能计算机结构•资源管理系统组成•系统使用•资源分配•任务加载•状态查看•作业控制•系统上机流程简介......I.系统概述•天河高性能计算机结构•资源管理系统组成•资源管理系统实体......天河高性能计算机组成•计算处理•互联通信•I/O存储•基础架构•监控诊断•操作系统•编译器•运行环境•应用软件......天河高性能计算机逻辑结构计算节点...I/O节点...管理节点...登录节点以太网高速互联网到用户单位网络.........天河高性能计算机逻辑结构管理节点•mn0,mn1,•运行系统管理进程与支撑服务登录节点•ln0,ln1,•用户登录,编辑、编译、提交作业、结果分析......天河高性能计算机逻辑结构计算节点•cn0,cn1,•主要的计算资源,执行用户程序I/O节点•元数据服务器:mds0,mds1•对象存储:ost0,ost1,...•提供存储服务•表现为全局共享文件系统......资源管理系统•操作系统的重要部分提供高效的资源与作业管理•节点状态监控•分区管理•作业调度•资源预约•能耗管理•作业记账是用户使用计算资源的接口•作业提交/运行•任务加载•作业控制•状态查看•事件触发器......资源管理系统组成结构...记账数据库yhallocyhcancelyhinfoyhprioyhqueueyhshareyhtriggeryhviewyhbatchyhacctmgryhacctyhreport记账存储进程slurmdbd备份记账存储进程slurmdbd控制进程slurmctld备份控制进程slurmctld节点监控进程slurmd作业管理进程slurmstepd作业管理进程slurmstepd...节点监控进程slurmd作业管理进程slurmstepd作业管理进程slurmstepd...节点监控进程slurmd作业管理进程slurmstepd作业管理进程slurmstepd...yhrunyhattachyhcontrolyhbcastyhstat......资源管理系统组成结构控制进程•运行在管理节点•是资源管理系统的控制中枢•记录节点状态•进行分区管理•进行作业管理、作业调度、资源分配记账存储进程•运行在管理节点•将作业信息保存到数据库•记录用户、帐号、资源限制、QOS等信息•用户认证和安全隔离......资源管理系统组成结构节点监控进程•运行在每个计算节点•监控节点状态,并向控制进程注册•接收来自控制进程与用户的请求并进行处理作业管理进程•加载计算任务时由节点监控进程启动•管理一个作业步的所有任务•启动计算任务进程•标准I/O转发•信号传递•任务控制•资源使用信息收集......资源管理系统组成结构命令工具•yhacct:查看历史作业信息•yhacctmgr:记账管理•yhalloc:资源分配•yhbatch:提交批处理作业•yhcancel:取消作业•yhcontrol:系统控制•yhinfo:节点与分区状态查看•yhqueue:队列状态查看•yhrun:任务加载......资源管理系统实体节点•即指计算节点•包含处理器、内存、磁盘空间等资源•具有空闲、分配、故障等状态•使用节点名字标识分区•节点的逻辑分组•提供一种管理机制,可设置资源限制、访问权限、优先级等•分区可重叠,提供类似于队列的功能•系统有一个默认分区•使用分区名字标识......资源管理系统实体作业•一次资源分配•位于一个分区中,作业不能跨分区•排队调度后分配资源运行•通过作业ID标识,如123作业步•通过yhrun进行的任务加载•作业步可只使用作业中的部分节点•一个作业可包含多个作业步,可并发运行•在作业内通过作业步ID标识,如123.0......资源管理系统实体......II.系统使用•查看系统状态•分配资源•加载计算任务•作业控制......系统状态查看内容•节点状态•分区状态•作业状态•作业步状态......节点状态状态监控机制•节点状态由控制进程维护•控制进程使用三种机制检查节点状态•ping:仅检查通信状态•register:报告资源状态•slurmd启动时主动进行•节点多时,周期较长•healthcheck:管理员定制脚本•命令工具从控制进程获取节点状态......节点状态状态查看节点状态$yhinfoPARTITIONAVAILTIMELIMITNODESSTATENODELISTworkupinfinite1110down*cn[0-451,494-1151]workupinfinite42idlecn[452-493]2pao*upinfinite9idle*cn[1161-1169]2pao*upinfinite7down*cn[1178-1179,1224-1225,1244-1245,1259]2pao*upinfinite112idlecn[1152-1160,1170-1177,1180-1223,1226-1243,1246-1258,1260-1279]......节点状态状态查看节点详细信息$yhcontrolshownodecn0NodeName=cn0Arch=x86_64CoresPerSocket=1CPUAlloc=0CPUErr=0CPUTot=8Features=(null)OS=LinuxRealMemory=1Sockets=8State=DOWN*ThreadsPerCore=1TmpDisk=0Weight=1Reason=Notresponding[slurm@2010-03-15T15:17:11]......节点状态状态值基本状态•UNKNOWN:未知,unk•IDLE:空闲,idle•ALLOCATED:已分配,alloc•DOWN:故障,down状态标志•DRAIN:不再分配,drng/drain•COMPLETING:有作业正在退出,comp•NO_RESPOND:无响应,*......分区状态状态查看显示分区状态$yhinfoPARTITIONAVAILTIMELIMITNODESSTATENODELISTworkupinfinite1110down*cn[0-451,494-1151]workupinfinite42idlecn[452-493]2pao*upinfinite7down*cn[1178-1179,1224-1225,1244-1245,1259]2pao*upinfinite121idlecn[1152-1177,1180-1223,1226-1243,1246-1258,1260-1279]......分区状态状态查看查看分区详细信息$yhcontrolshowpartitionworkPartitionName=workAllocNodes=ALLAllowGroups=ALLDefault=NODefaultTime=NONEDisableRootJobs=NOHidden=NOMaxNodes=UNLIMITEDMaxTime=UNLIMITEDMinNodes=1Nodes=cn[0-1151]Priority=1RootOnly=NOShared=NOState=UPTotalCPUs=9216TotalNodes=1152......分区状态分区属性•节点列表•状态:UP/DOWN•隐藏分区•访问权限•RootOnly•AllowGroups•资源限制•节点范围•运行时间•优先级•共享节点•默认分区......作业状态状态查看显示队列状态$yhqueueJOBIDPARTITIONNAMEUSERSTTIMENODESNODELIST(REASON)14632paosbatchrootR1:0612cn[1246-1257]1465worktjobtestPD0:0066(PartitionNodeLimit)1464workmyjobrootR0:3223cn[452-474]•yhqueue默认只显示排队、运行和退出过程中的作业•作业结束一段时间后,信息将从slurmctld中清除......作业状态状态查看显示作业详细信息$yhcontrolshowjob123JobId=1464Name=myjogUserId=root(0)GroupId=root(0)Priority=2Account=(null)QOS=normalJobState=RUNNINGReason=NoneDependency=(null)TimeLimit=UNLIMITEDRequeue=1Restarts=0BatchFlag=1ExitCode=0:0SubmitTime=2010-03-16T08:24:34EligibleTime=2010-03-16T08:24:34StartTime=2010-03-16T08:24:34EndTime=NONESuspendTime=NoneSecsPreSuspend=0Partition=workAllocNode:Sid=ln0:8116ReqNodeList=(null)ExcNodeList=(null)NodeList=cn[452-474]NumNodes=23NumCPUs=23CPUs/Task=1ReqS:C:T=1:1:1MinCPUsNode=1MinMemoryNode=0MinTmpDiskNode=0Features=(null)Reservation=(null)Shared=OKContiguous=0Licenses=(null)Network=(null)Command=(null)WorkDir=/vol5......作业状态状态查看历史作业信息$yhacctJobIDJobNamePartitionAllocCPUSStateExitCode------------------------------------------------------1449hostname2pao0COMPLETE0:01450ft.B.8work0COMPLETE0:01451ft.B.8work0COMPLETE0:01452ft.B.8work0CANCELLED0:01453env2pao0COMPLETE0:01454memlock2pao0PENDING0:01457hostname2pao0COMPLETE0:01458STACK2pao0PENDING0:01459hostname2pao0COMPLETE0:01462bash2pao0PENDING0:0......作业状态状态值•PENDING:排队,PD•RUNNING:运行,R•SUSPENDED:挂起,S•COMPLETED:成功结束,CD•FAILED:失败结束,F•CANCELLED:被取消,CA•TIMEOUT:超时,TO•NODE_FAIL:因节点故障而运行失败,NFCD、F、CA、TO、NF都是运行结束的状态......作业状态状态转换.......CA... ..PD....R....S..CD...F...TO...NF.作业提交.分配资源.重新排队.挂起.恢复.成功.失败.取消.超时.节点故障.取消.取消......作业状态状态标志•COMPLETING:正在退出,CG•CONFIGURING:分配给作业的节点正在启动,CF•作业CG与节点comp相对应......作业状态状态原因排队状态•Priority:优先级不够高•Dependency:作业的依赖关系未满足•Resources:当前可用资源不能满足作业需求•PartitionNodeLimit:作业请求的节点数超过分区的作业节点数限制•PartitionTimeLimit:作业请求的运行时间超过分区的作业运行时间限制•PartitionDown:作业所在的分区处于DOWN状态•JobHeld:作业