中国科学院合肥分院浪潮集群使用规范Inspurgroup2集群的软硬件配置Inspurgroup硬件信息管理节点NF5220*12*146GSASraid1登录节点NF5220*12*146GSASraid1I/O节点NF5220*12*146GSASraid1网格节点NF5220*25*300GSASraid5计算节点NX7140N*11264GSSD胖节点NF560D2*21*146GSAS存储AS4008*1Traid5(1热备盘)管理网络H3C千兆以太网计算网络Qlogic9120软件信息操作系统RedHatAS5update3(内核2.6.18-128)编译器/数学库IntelC++/Fortran编译器/IntelMKL数学核心库应用软件GaussianvaspWien2kMPI实现intelmpi3.1作业调度TSJM/PBS集群管理浪潮天梭监管软件2.13集群物理拓扑图Inspurgroup图例:图例:4Inspurgroup内容提要账号的申请和使用登录、退出系统连接属主目录使用计算任务投放存储空间使用软件安装及使用规范关机和启动维护人员联系方式5一:账号的申请和使用1.严禁使用集群账号及计算、存储资源进行与账号所属项目无关的任何活动和行为,违者必究并将视影响、损失轻重予以锁闭账号等处理。2.主机资源申请,联系系统管理员进行申请。管理员联系方式见本指南维护人员联系方式。3.建议避免公用账号,避免项目移交的时候数据混乱。4.人员发生调动时,请调动人员做好数据移交,并及时通知管理员申请权限改动。5.临时用户项目结束或阶段性完成时,请及时通知管理员清理/锁闭/注销临时账号及项目组成员账号。6.注销账号时请整理好用此账号建立的所有数据,做好移交及备份清理工作,并至少提前一天通知管理员。7.数据和程序(非公用程序)文件一律存放于自己的属主目录下,计算临时文件存放于工作目录下(lustre),计算临时文件不得存放于自己的属主目录下。8.个人账号只限个人使用,严禁将帐号和密码泄露给外单位和项目组外人员,公共组账号由管理员负责控制和使用分发。9.密码应定期(三个月)更换,建议8位以上并注意加强密码复杂度。Inspurgroup6二:登录、退出系统连接1.登录方式SSH:缺省提供,该登录方式有一定强度的加密安全保证软件可以使用Putty等2.文件上传与下载SFTP:缺省提供,暂不提供FTP方式软件可以使用SecureFX、WinSCP等3.登录系统后的必要操作使用mail命令,检查系统发送给用户的通知和信息在属主目录下使用命令du-kh|sort-n,查看异常或较大的文件,并做相应的清理Inspurgroup7二:登录、退出系统连接4.长时间误操作,请结束访问,避免占用系统资源5.结束系统访问必要操作非停电、断网等意外设备故障导致,严禁在终端上直接关闭访问窗口或直接关闭终端电源实现结束系统访问。SSH访问必需主动使用exit命令一到多次确保最终结束连接。Inspurgroup8登陆天梭集群系统ssh-l(yourcount)202.127.207.132第一次登陆设置环境变量vi~/.bashrcsource/opt/intel/impi/3.1/bin64/mpivars.shsource/opt/intel/cce/10.1.021/bin/iccvars.shsource/opt/intel/fce/10.1.021/bin/ifortvars.shsource/opt/intel/mkl/10.2.2.025/tools/environment/mklvarsem64t.sh保存退出后source~/.bashrc使用命令du-kh|sort-n,查看异常或较大的文件9/20/2019Inspurgroup二:登录、退出系统连接9三:属主目录使用1.属主目录为登录后缺省进入的目录:/home/研究室/yourid2.属主目录用于系统存放管理用户的登陆和所使用软件配置文件,严禁用户随意存放执行程序的临时文件和非相关的文件,避免占用和耗费宝贵的系统存储资源,影响登陆连接服务。每次登陆后在属主目录下使用命令du-kh|sort–n主动检查。异常或较大的文件并作相应清理。3.属主目录可以安装个人所需软件,如果软件所占空间较大,请联系管理员,修改属主目录文件配额。Inspurgroup10四:计算任务投放1.不论任务有多紧急,请务必先检测提交程序的正确性以及资源占用的合理适度,通过小批量测试数据预估占用CPU、内存和存储资源,强烈建议进行代码优化以减少CPU、内存、I/O资源占用,及时释放申请的内存,优化文件目录读写访问等I/O功能,避免资源和计算时间的浪费。2.大规模资源占用(占用实际内存超过1/4)或紧急任务时务必先联系管理员协调。3.计算任务提交后,应注意定时查看自己任务状态,当需要杀死自己进程或删除任务时,以用qdel命令,如果无法删除必要时联系主机组协助。4.应及时清除临时文件和计算中程序设计生成的监控跟踪记录文件。临时性文件存放不要超过三个月。重要数据应打包或再压缩存放。5.不能在属主目录(登陆目录)下存放任务临时文件,必须在工作目(lustre)录中存放临时文件。6.不能在登陆节点上直接运行任务,只能在登陆节点做简单的vi编辑、查看、管理自己的数据以及程序。7.刀片节点单个任务不能超过24GB内存。大内存任务投放至fuque上。Inspurgroup11PBS基本组件pbscommand:用于提交、监视、修改和删除作业。pbsserver:提供基本的批处理服务,例如接收/创建一个批处理作业,管理维护作业队列,管理输出结果等。pbsmom:是一个守护进程,从pbsserver处接收作业后放入其执行队列中等待执行。scheduler(maui):对用户提交的作业进行调度Inspurgroup四:计算任务投放12Torque应该如何使用?熟悉Torque提供的几个命令编写作业提交脚本了解使用注意事项PBS命令qsub作业提交脚本qstat[参数]qdel作业号Inspurgroup四:计算任务投放13PBS命令详解提交作业的命令qsub作业提交脚本此命令执行后,会给出个作业号查询作业命令qstat[参数]其中参数可为:-q列出系统队列信息-Q:列出队列的一些限制信息-an:列出队列中的所有作业-r:列出正在运行的作业-fjobid:列出指定作业在信息-Qfqueue:列出指定队列的所有信息-B:列出PBS服务器的相关信息Inspurgroup四:计算任务投放14PBS命令详解作业删除命令qdel作业号其中作业号为qsub提交后系统所给出的一个号码注意事项1、非root用户只能查看、删除自己提交的作业2、在提交作业时一定要根据自己的使用的机器数估算内存,把其写进作业提交脚本里。3、root用户无法提交作业4、检查PBS脚本是否正确,任务投放到testque上Inspurgroup四:计算任务投放15Inspurgroup四:计算任务投放作业脚本的编写基本参数#!/bin/bash#PBS-d/lustre/ISSP2/dyliu/workdir#PBS-o/lustre/ISSP2/dyliu/output#PBS-e/lustre/ISSP2/dyliu/error#PBS-lnodes=2:ppn=8#PBS-lwalltime=240:00:00#PBS-lmem=4gb#PBS-qallque16Inspurgroup四:计算任务投放配置MPI环境(VASP)ulimit-sunlimitedsource/opt/intel/Compiler/11.1/046/bin/intel64/iccvars_intel64.shsource/opt/intel/Compiler/11.1/046/bin/intel64/ifortvars_intel64.shsource/opt/intel/mkl/10.2.2.025/tools/environment/mklvarsem64t.shsource/opt/intel/impi/3.1/bin64/mpivars.shEXEC=/opt/issp2/vasp_4.6.2817Inspurgroup四:计算任务投放配置MPI环境(VASP)NP=`cat$PBS_NODEFILE|wc-l`NN=`cat$PBS_NODEFILE|sort|uniq|tee/tmp/nodes.$$|wc-l`cat$PBS_NODEFILE/tmp/nodes.$$sed-is/$/-ib:8//tmp/nodes.$$mpdboot-n$NN-f/tmp/nodes.$$-rsshmpiexec-genvI_MPI_DEVICErdma-machinefile/tmp/nodes.$$-n$NP$EXECmpdallexitrm-f/tmp/nodes.$$18Inspurgroup四:计算任务投放配置环境wien2kaliaslsi=ls-aslp*.in*aliaslso=ls-aslp*.ou*aliaslsd=ls-aslp*.defaliaslsc=ls-aslp*.cl*aliaslss=ls-aslp*.sc*aliaslse=ls-aslp*.erroraliaspslapw=ps-ef|greplapwaliascdw=cd$curdirexportEDITOR=xterm-eviexportSCRATCH=$curdir19Inspurgroup四:计算任务投放配置环境wien2kexportWIENROOT=/opt/issp2/wien2kexportW2WEB_CASE_BASEDIR=$curdirexportSTRUCTEDIT_PATH=$WIENROOT/SRC_structeditor/binexportPDFREADER=acroreadexportPATH=$PATH:$WIENROOT:$STRUCTEDIT_PATH:.exportOCTAVE_EXEC_PATH=${PATH}::exportOCTAVE_PATH=${STRUCTEDIT_PATH}::exportPATH=$PATH:$WIENROOT:.ulimit-sunlimitedaliasoctave=octave-p$OCTAVE_PATH20Inspurgroup四:计算任务投放配置环境wien2kEXEC=/opt/issp2/wien2k/runsp_lapw-ec0.00001-cc0.00001-i400-pcat$PBS_NODEFILEnodelist.$$sed-is/$/-ib/nodelist.$$echo###################.machinesechogranularity:1.machinesecholapw0:`sed-n1pnodelist.$$`.machinesforiin`catnodelist.$$`doecho1:$i.machinesdoneechoextrafine:1.machinesrm-fnodelist.$$$EXEC21Inspurgroup四:计算任务投放配置环境GaussianexportGAUSS_EXEDIR=/opt/issp2/g03exportg03root=/opt/issp2/exportPATH=/opt/issp2/g03:/opt/issp2/g03/linda7.2/opteron-linux-I8/bin:$PATHexportGAUSS_SCRDIR=/lustre/ISSP2/dyliu/g03tmpexportLINDA_PATH=/opt/issp2/g03/linda7.2/opteron-linux-I8source/opt/issp2/g03/bsd/g03.profile/opt/issp2/g03$FILENAME