2014年高性能计算机用户使用简介_v1[1]

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

中国气象局高性能计算机系统使用简介2014年7月内容系统概况系统登录文件系统公有软件/公用数据系统环境作业管理系统概况节点分类服务器数量配置说明登录节点P460432CPU核(3.55GHz)256GB内存用户登录计算节点P46048132CPU核(3.55GHz)128GB内存计算任务大内存计算节点P4605832CPU核(3.55GHz)256GB内存计算任务前后处理节点P4601532CPU核(3.55GHz)256GB内存前后处理等任务服务节点P460232CPU核(3.55GHz)256GB内存运行Loadleveler等软件服务管理节点P75028CPU核(3.6GHz)32GB内存用于安装、维护、控制节点3上图表为子系统1(Uranus)的情况,子系统2(Neptune)与子系统1的配置完全相同系统登录•系统登录–域名登陆:uranus.hpc.cma.gov.cn(子系统1)或uranus-bk.hpc.cma.gov.cn(子系统2)–均衡负载:各系统配置3个登录节点,根据节点的负载,自动分配到较空闲的一个•节点命名–cm{a|b}FNnNN–{a|b}:子系统1或子系统2;FN:机柜号;NN:机柜内节点编号–登录节点:cma18n01,cma18n02,cma19n03cmb18n01,cmb18n02,cmb19n03系统登录•修改口令–在登录节点执行:$passwd文件系统(1)•用户常用的文件系统–请使用环境变量访问,如:•进入GPFS空间:cd$WORKDIR•进入临时空间:cd$TMPDIR–系统自动迁移策略:•超过6个月未使用的数据,系统自动迁移至二级存储;•超过1年未使用的数据,从二级存储自动迁移至带库;•文件系统使用率超过90%,自动迁移用户3个月未使用的数据。6空间环境变量说明HOME主目录$HOMEquota管理,备份GPFS空间$WORKDIRquota管理,不备份公用数据空间$DATADIR统一管理公用软件$APPDIR统一管理临时空间$TMPDIR定期删除文件系统(2)•查看限额quota–在登录节点执行:$cmquotausername–如:$cmquotalijuan公用软件•安装目录:$APPDIR•已安装:–cdo-1.6.0、cmor-2.7.1、curl-7.30.0、expat-2.1.0、ferret-6.3、fftw-3.3.3、ghostscript-9.04、grads-1.8、grads-2.0.2、grib_api-1.9.18、netcdf-4.1.3、ncl-6.2.0等–具体可进入目录查询–环境变量中已做相应的配置公用数据•存储目录:$DATADIR•已存储数据:–观测资料(aob/rainfall/sat/sst等)–全球分析和预报资料(fnl/gfs/t639等)–再分析资料(ecmwf/ncep/jma)–背景场资料(colm/geodata等)•数据格式:NetCDF、GRIB1、GRIB2、BIN等•当前数据量:150TB+系统环境变量•环境变量设置–用户登录后缺省的shell是ksh–通过$HOME/.profile和$HOME/.kshrc文件设置环境变量•系统环境变量–exportOBJECT_MODE=64–exportPATH=$APPDIR/cdo/bin:$APPDIR/grads/bin:$APPDIR/ferret/bin:$APPDIR/hdf4/bin:$APPDIR/hdf5/bin:$APPDIR/netcdf/bin:$APPDIR/nco/bin:$APPDIR/ncview/bin:$APPDIR/wgrib/bin:$APPDIR/wgrib2/bin:$APPDIR/ghostscript/bin:$APPDIR/imagemagick/bin:$APPDIR/ncl/bin:$PATH–exportNCARG_ROOT=$APPDIR/ncl–exportGADDIR=$APPDIR/grads/data–exportGASCRP=$APPDIR/grads/lib–exportLIBPATH=$APPDIR/netcdf/lib:$APPDIR/udunits/lib:$LIBPATH编译环境•Fortrancompiler(V14.1)–xlf,(xlf90,xlf95,)serialcode–mpxlf,(mpxlf90,..)MPIcode–xlf_r,(xlf90_r)OpenMP•Ccompiler(V12.1)–xlc,…,mpxlc,…,xlc_r作业管理•现有两个作业集群(子系统):cl_cma,cl_cmb•常用命令–提交作业:llsubmit•llsubmit[cmdfile]//提交作业–显示作业状态:llq•llq-Xall//显示两个子系统的作业情况•llq-Xcl_cma//显示子系统1cl_cma的作业情况•llq-Xcl_cmb//显示子系统2cl_cmb的作业情况•llq-Xall-l[jobid]//通过作业号查看某一作业的详细信息–取消作业:llcancel•llcancel-X[cluster_name][jobid]//通过子系统名和作业号删除某一作业–查看队列信息:llclass•llclass-X{cluster_name|all}//查看某一个子系统或所有子系统的队列资源情况•manCommand查询详细命令使用方面–如manllq或manllclass等查看更详细的信息队列基本设置-cl_cma队列名称计算节点数量CPU核数说明normal(缺省队列)300+(128GB)9999+普通并行作业队列largemem68(256GB)2176大内存队列,用于对内存需求量大的作业运行。operation72(128GB)2304业务/准业务作业专有队列minijob与业务合用资源,优先级低于业务作业,业务高峰时间将被抢占,墙钟时间1小时serial3(256GB)96串行队列serial_op4(256GB)128业务串行队列队列基本设置-cl_cmb队列名称计算节点数量CPU核数说明normal(缺省队列)300+(128GB)9999+普通并行作业队列largemem70(256GB)2240大内存队列,用于对内存需求量大的作业运行。operation72(128GB)2304业务/准业务作业专有队列minijob与业务合用资源,优先级低于业务作业,业务高峰时间将被抢占,墙钟时间1小时serial5(256GB)160串行队列serial_op2(256GB)64业务串行队列作业管理•调度策略–用户作业将被系统自动分配到合适的子系统运行–各class的优先级别一样;–同一class,如果不指定墙钟时间,系统认为优先级别一样,先来先服务;–如指定的墙钟时间不一样,认为墙钟时间短的优先级高。•设置作业队列的墙钟时间–通过wall_clock_limit选项来设置–基本格式:#@wall_clock_limit=时:分:秒或#@wall_clock_limit=秒作业管理•用户作业临时目录的使用–在/cma/g7/JOB_TMP目录下创建“用户名/作业号”的临时目录•如用户lijuan提交的作业ID号为cma20n02.23510.0,则创建的临时空间目录为:lijuan/cma20n02.23510–用户在作业的脚本(cmd文件)中可通过$JOBDIR环境变量来使用,不需单独设置此变量–用户作业结束时生成结束标记–根据标记删除3天前结束的作业的临时目录具体使用帮助参考:作业卡的编写•#@network.MPI=sn_all,shared,us•#@tasks_per_node=32–每个节点4个CPU共32个CPU核,即每个节点可使用32个CPU核•#@comment=模式名称–关键字必须写–“#@comment=Others”将导致作业无法提交运行–有新增模式或应用,请联系信息中心高性能计算室管理员•#@jobtype=??(serial或parallel)–执行交互作业时选择serial队列•请使用loadleveler提交作业!示例1:串行作业•#!/bin/ksh•#@job_type=serial•#@initialdir=/u/sunjing/loadl•#@comment=WRF(模式名称)•#@input=/dev/null•#@error=./out/$(jobid).err•#@output=./out/$(jobid).out•#@executable=example1•#@notification=complete•#@notify_user=sunjing@cma18n01•#@class=serial•#@queue示例2:MPI作业•#!/bin/ksh•#@job_type=parallel•#@initialdir=/u/sunjing/loadl•#@comment=WRF(模式名称)•#@error=./out/$(jobid).err•#@output=./out/$(jobid).out•#@notification=complete•#@notify_user=sunjing@cma18n02•#@network.MPI=sn_all,shared,us•#@node=6•#@tasks_per_node=32•#@class=normal•#@queue•exportTARGET_CPU_LIST=-1•poelaunchwrf.exe(launch用于将进程自动绑定到CPU,会提高性能)示例3:OpenMP+MPI作业•#!/bin/ksh•#@job_type=parallel•#@initialdir=/u/sunjing/loadl•#@comment=WRF(模式名称)•#@error=./out/$(jobid).err•#@output=./out/$(jobid).out•#@notification=complete•#@notify_user=sunjing@cma18n02•#@network.MPI=sn_all,shared,us•#@node=6•#@tasks_per_node=32•#@class=normal•#@queue•exportTARGET_CPU_LIST=-1•poehybird_launchwrf.exe(hybird_launch用于将进程自动绑定到CPU,会提高性能)谢谢!

1 / 21
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功