TH-1HN用户手册系统编译环境系统登陆作业管理部署软件介绍软件编译与测试常见问题内容提要系统平台架构系统平台架构国家超级计算长沙中心主机系统(TH-1HN)结构系统结构图系统平台架构技术指标全系统峰值计算性能1372万亿次,其中,全系统CPU峰值计算性能317.3万亿次,GPU峰值计算性能1054.7万亿次;全系统内存容量108.5TB,共享磁盘总容量1.28PB。系统中的节点之间通过高速互联网联接,双向通信带宽160Gb/s,提供高带宽、低延迟的计算和I/O通信链路。一般地,登录节点和I/O节点之间还通过以太网进行联接,供系统的管理数据通信、调测试、监控诊断等使用。互联网络天河高速互联网络,高通信效率,低通信延迟;系统平台架构登录节点登录节点为用户提供一个登录系统的平台,用户可以通过internet网络登录VPN,然后通过ssh终端登录到登陆节点上;内核为x86_64的Linux操作系统,具备软件编译环境,用户可以登录的是ln0,ln1,ln3;具体对应IP地址为:ln0:25.8.2.2ln1:25.8.2.1ln3:25.8.2.3允许操作:在登录节点上用户可以进行软件编译与调试,环境变量配置,作业提交文件编辑,结果查看等操作。禁止操作:禁止用户直接在登录节点上运行计算程序。系统平台架构计算节点系统配置2048个计算节点,本身没有本地硬盘,采用ramdisk精简内核系统,挂载共享存储,具备软件运行所需的运行环境;计算节点采用CPU+GPU的架构。其具体配置为:两个IntelXeonWestmereEP高性能处理器,运行频率2.93GHz,一个NvidiaM2050的GPU,48GB内存,无本地磁盘;单个计算结点CPU峰值性能140.64GFlops,GPU峰值性能515GFlops。胖节点系统配置4个胖结点,采用8路8核结构,配置8个IntelXeonNehalemEX高性能处理器,主频2.27GHz,内存256GB,单个计算结点峰值性能578.56GFlops。系统平台架构存储采用分布式存储文件系统,该文件系统由多个I/O存储节点构成,对外提供一个统一的大分区,供所有登陆节点与计算节点进行挂载。采用超高速专用网络和计算系统互连,共享磁盘容量384TB;海量数据处理存储采用分布散列存储架构结合SAN和NAS存储结构,采用高性能互连网络与处理系统互连,共享磁盘容量为892.8TB;全系统磁盘存储总容量为1.28PB。文件系统集中式管理的分布式lustre文件系统;其核心是将数据通路(数据读或写)和控制通路(元数据)分离,并且基于对象存储服务器(Object-basedStorageServer,OST)构建存储系统,每个对象存储服务器具有一定的智能,能够自动管理其上的数据分布。系统平台架构作业管理系统基于开源slurm开发。主要由控制进程、节点监控进程、作业管理进程、记账存储进程、命令工具等组成。系统平台架构系统登陆作业管理部署软件介绍软件编译与测试常见问题内容提要系统编译环境系统编译环境共享目录/vol6用户根目录/vol6/home常用软件安装目录/vol6/appsoftware常用动态链接库目录/vol6/intellib/lib/vol6/intellib/mkl系统编译环境在TH-1HN系统的登录节点中,目前安装了Intel编译器和GCC编译器。用户可根据程序需求,选择相应的编译器进行编译和应用程序开发,由于TH-1HN大系统广泛采用了Intel的CPU,因此在编译中除特定需要,建议用户首选Intel编译器。另外,在TH-1HN系统的登陆节点上还提供了MPI并行编译环境,以及针对GPU的CUDA编译环境。下面将分别具体介绍各编译器及编译环境。Intel编译器:用户在登录节点上使用Intel编译器进行程序编译时需添加如下环境变量声明:11.1.059source/opt/intel/Compiler/11.1/059/bin/intel64/iccvars_intel64.shsource/opt/intel/Compiler/11.1/059/bin/intel64/ifortvars_intel64.shIntel11.1对应的mkl安装路径为/opt/intel/Compiler/11.1/059/mkl,用户可以使用该目录下的lib/em64t的mkl库。用户在使用mkl库进行程序编译时需添加如下环境变量声明:用户在计算节点上提交作业运行时,如需要调用Intel编译器的动态库,则需要添加如下环境变量声明:用户在在计算节点上提交作业运行时,如需要调用mkl动态库,则需要添加如下环境变量声明:source/opt/intel/Compiler/11.1/059/mkl/tools/environment/mklvarsem64t.sh系统编译环境exportLD_LIBRARY_PATH=/vol6/intellib/lib/intel64:$LD_LIBRARY_PATHexportLD_LIBRARY_PATH=/vol6/intellib/mkl:$LD_LIBRARY_PATH系统编译环境GCC编译器4.4.7系统自带CUDA编译器CUDA编译环境包含三个部分,编译器、SDK和设备驱动;目前计算节点CUDA编译环境和设备驱动,均已经更新至CUDA6.0;驱动版本:331.62;用户可以选择相应的编译器,路径在/vol6/cuda6.0/cuda-6.0.用户使用CUDA进行程序编译时需添加如下环境变量声明:以cuda6.0为例,exportPATH=/vol6/cuda6.0/cuda-6.0/bin:$PATHexportLD_LIBRARY_PATH=/vol6/cuda6.0/cuda-6.0/lib:$LD_LIBRARY_PATH系统编译环境mpi编译器TH-1HN系统包括两种基本编译环境,Intel编译器和gcc编译环境。TH-1HN采用了自主互连的高速网络,因此底层mpi为自主实现,分别基于Intel和GCC编译器进行编译。用户使用天河系统提供的MPI进行并行编译可以充分发挥天河高速网的性能,提供并行效率,这里给用户推荐使用基于intel编译器编译的mpich-3.1.3,mpi编译器在/usr/local/mpi3/bin目录下。如果用户的程序有特定的MPI版本需求,用户也可以在自己的根目录下安装所需要的MPI。系统编译环境并行MPI编译环境使用注意事项:•TH-1HN系统具备自主高速互联网络,并提供MPI编程环境,如用户必须使用其他版本MPI,比如openmpi1.4.8,mpi2-1.3.1等,也可以自己安装并部署;•用该MPI编译的程序,同样可以利用高速互联网络的虚拟以太网运算任务,但性能会较TH-1HN自主MPI低很多。•MPI编译命令内部会自动包含MPI标准头文件所在的路径,并自动连接所需的MPI通信接口库,所以不需要用户在命令行参数中指定。其它环境(Python)等目前TH-1HN系统还安装了诸如Python等运行环境,python版本为2.7,安装目录为/vol6/python2.7,用户使用时可以进行选择,通过设置相应的环境变量如下:exportPATH=/vol6/python2.7/bin:$PATHexportLD_LIBRARY_PATH=/vol6/python2.7/lib:$LD_LIBRARY_PATH系统编译环境常用编译选项如下:(1)优化选项-O0:禁止优化-O1:优化代码大小和代码局部性。-O2(缺省值):优化代码速度(推荐使用)-O3:-O2+激进的优化(循环、存储访问转换、预取)。需要注意的是,-O3并不一定适合所有程序。-fast:打开-O3、-ipo、-static、-no-prec-div和–xP-ipo:过程间优化(2)输出和调试选项-c:只生成目标文件-S:只生成汇编文件-g:调试选项-ofile:指定生成的输出文件名系统编译环境(3)浮点选项-mp:维持浮点精度(禁止某些优化)-mp1:改善浮点精度。和-mp相比,-mp1对性能影响较小(4)链接选项-Ldir:指定链接时搜索的库路径-lstring:链接特定库-static:静态链接-shared:生成共享库系统编译环境系统平台架构系统编译环境作业管理部署软件介绍软件编译与测试常见问题内容提要系统登陆系统登陆前提条件1.经过了中心用户基本审查创建流程,并填写了相应的文件和协议。2.拥有VPN账号和密码;(用户如经过了审查创建流程,会收到用户账号创建成功的email,里面会有VPN及系统的账号及密码)3.拥有系统用户账号和密码;4.windows系统登陆终端工具:Putty,secureCRT,Xmanager,SSHClient等等。系统登陆内网登录:在中心终端机房,采用Putty,secureCRT,Xmanage,SSHClient等远程登录工具直接登录使用中心资源;外网登录:在可以连接Internet的终端机上,通过SSL_VPN用户登录系统使用中心资源,仅提供Windows系统的SSL_VPN登录。Windows系统VPN登陆,由中心提供SSL_VPN独立客户端;在本机上安装SSLVPN独立客户端,然后打开,输入给定IP:218.77.58.3,输入中心提供的用户名与密码如图所示:外网登录系统登陆系统登陆连接成功Step1:利用Xshell进入登录服务器(以计算阵列ip:25.8.2.1为例):系统登陆Step2:点击确定后跳出输入用户名界面,输入中心提供的登录服务器用户名:系统登陆Step3:点击确定后跳出输入密码界面,输入中心提供的登录服务器密码:系统登陆用户登录服务器后,默认进入到与用户名同名的目录下,进入到/vol6/home/user_name。系统登陆特别注意:TH-1HN的ln系列登录节点,只负责用户的登录,编译、提交任务等操作,不允许直接在登录节点运行可执行程序。Connectingto25.8.2.1:22...Connectionestablished.Toescapetolocalshell,press'Ctrl+Alt+]'.Lastlogin:SunOct1110:23:302015from192.168.20.11[cleng@ln1%tianhe~]$•用户帐号密码修改目前系统采用LDAP进行用户管理,新创建的用户第一次登陆节点时会创建相应的工作目录。用户可以通过passwd命令修改用户密码,以cleng用户为例,举例说明如下:首先需要输入中心给分配的账户密码,之后再输入新的密码,重复输入一次后,就会显示密码更新成功系统登陆[cleng@ln1%tianhe~]$passwdChangingpasswordforusercleng.Enterlogin(LDAP)password:Newpassword:Retypenewpassword:LDAPpasswordinformationchangedforclengpasswd:allauthenticationtokensupdatedsuccessfully.[cleng@ln1%tianhe~]$输入旧密码输入新密码再次输入新密码用户名用户密码FTP地址文件传输ftp上传数据文件至用户目录;用户可用任意ftp工具将数据上传或下载数据,用户名密码即为你登录机群时使用的用户名和密码系统登陆系统平台架构系统编译环境系统登陆部署软件介绍软件编译与测试常见问题内容提要作业管理•基本操作1)进入目录:cd2)建文件夹:mkdir3)查看目录信息:lsll4)删除文件:rm文件名5)拷贝文件:cpoptionssourcedest6)改变文件/目录属性:chmod7)设置文件/目录拥有者:chown8)搜索文件:find,grep9)进程管理:pstopwwho1