曙光信息产业(北京)有限公司地址:北京市海淀区水磨西街64号邮政编码:100084电话:010-62536383传真:010-62541342曙光天潮集群产品使用手册曙光信息产业(北京)有限公司二零一二年十二月目录1.概述.....................................................12.高性能集群结构............................................33开关机....................................................83.1.开机顺序:............................................93.2.关机顺序:............................................94.登陆.....................................................104.1文本界面登陆.........................................104.2文件传输.............................................114.3图形软件运行界面.....................................12概述曙光天潮系列集群产品是国家863计划重大研究成果,是面向网格的高性能计算机,可以为网格提供计算服务,同时也是面向信息服务的超级服务器,可以承载多种类型的商业计算应用。天潮集群产品解决方案包含节点机、网络、存储、管理系统等多个组成单元,因此其部署和实施专业性要求较高。2.高性能集群结构本集群系统共有一个机柜,2个节点,存储,kvm,建模节点和一台千兆交换机组成,面向机柜正面从上向下分别是千兆交换机,存储,node1,kvm,node2,如图:节点系统本集群节点系统由曙光A840和A620节点组成,管理I/O计算节点编号为(node1:处理器:4*AMDOpteron6238(2.6GHz十二核)内存:128GDDR3R-ECC内存,提供32根插槽,支持高级内存容错功能,最大支持512GB内存硬盘:1×600GB10000转SAS热拔插硬盘外设:16XDVD-ROM网卡:集成3个千兆以太网接口,支持网卡冗余功能,支持网络唤醒功能机箱:4U机架式电源:1000W冗余热拔插电源,支持电源记忆功能/4Gb光纤HBA卡/RedHatLinux6.2企业版64位),node1具体位置如图:计算节点编号为(node2:处理器:2*AMDOpteronCPU62128核2.6GHz64位直连架构八核处理器(2.6GHz)内存:48GBDDR3R-ECC内存,提供16根插槽,支持高级内存容错功能,最大支持64GB内存;硬盘:/SAS/600G(2.5吋)×1/SAS子卡×1/超薄DVD-RW/单电源/RedHatLinux6.2企业版64位);网络系统高性能集群共有2套千兆网,对应关系如下表:节点命名对应管理网ip地址对应计算网ip地址对应计算网节点名称Node110.10.10.111.11.11.1gnode1Node210.10.10.211.11.11.2gnode2Node1010.10.10.1011.11.11.10建模节点Node1,node2的登陆用户名为:root,密码:111111Node10登陆用户名为:administraotr,密码:111111存储系统本项目存储系统有1个存储柜子,配置5块2T(SATA)硬盘,存储做了1个RAID5;共约8T可用空间;划分1个linux分区,ext3文件系统:直接挂载点:node1/public大小约为8T;通过NFS服务和网络自动挂载共享目录为每节点/public;软件均安装在/public/software下(如marc软件安装在/public/software/MSC目录下),用户目录为/public/home(用来存放用户计算文件和保存结果文件)软件包都放在/public/soft下存储系统的管理界面入口需要用windows远程桌面登陆到Node10上,启动IE浏览器,在IE浏览器里输入能打开登陆界面如图显示:默认用户名:administrator默认密码:password建议每月定期观察1次存储机壳中硬盘状态是否为绿(绿色表示正常)。集群软件环境A.全网全通,实现rsh或ssh的无密码访问(节点之间访问正常的保证);B.统一的文件系统映像,通过nfs实现(节点之间文件的一致性);3开关机3.1.开机顺序:一般存储系统是要保持24小时常开机强烈建议存储系统不要开、关或断电除非万不得已(如果必要)先开存储机壳,等前面板硬盘指示灯状态常亮后(存储开关在存储后方),再开管理I/O计算节点(node1),最后开启计算节点(node2)。3.2.关机顺序:强烈建议存储系统不要开、关或断电除非万不得已先关计算节点(node2),再关I/O管理计算节点(node1),(如果必要)最后关闭存储机壳(存储开关在存储后方)。4.登陆用户在windows或Linux下,使用客户端,通过ssh协议来链接。4.1文本界面登陆软件:SSHSecureShellClient以sshclient为例输入服务器IP地址:(10.10.10.1-10.10.10.2),用户名:root,密码:111111。即可登陆服务器终端进行命令操作。用户计算目录为:/home4.2文件传输软件:SSHSecureFileTransferClientwinscp以SSHSecureFileTransferClient为例4.3图形软件运行界面软件:xmanager————》xstart或xshell登陆服务器打开xstart(包含在xmanager软件中),输入服务器登陆节点的ip地址(192.168.0.101),选择rlogin协议和“2.xterm(Linux)”方式,并输入管理员分配的用户名和密码:点击“Run”,即可登陆到登陆节点:启动marc需要输入命令:mentat启动图形界面进行操作。Vnc登陆使用:或在登陆节点上命令行运行:vncserver(注意要记住进程号客户端登陆时要用)在客户端启动vncviewer软件登陆,3种登陆软件在功能上面是一样的。Vncviewer这款软件在计算的时候,客户端可以自由关机,而Xmanager和SSHSecureFileTransferClient这2款软件在fluent计算过程中客户机不能关机,如果关机,计算进程将停止,而对于集群管理员来说使用Xmanager和SSHSecureFileTransferClient这2款软件就比较方便。Pgi编译器已经安装好,版本是10.0安装在/public/software/pgi,已经添加到环境变量/etc/profile里面,可以直接使用。*真正计算时候建议创建计算用户,目前在测试所以使用root。5.集群常见问题对于集群管理员来说得到反馈常见的问题就是不能计算或不能并行计算,一般出现问题直接检查2个大方面:5.1网络环境检查集群网络环境的畅通与否直接导致计算的成功与失败,可以使用曙光集群实施脚本文件来检查2套网络18个节点的连接情况,运行命令:sh/public/soft/setup_cluster-1.2.3/setup_cluster--sync_dopinggnode1(检查计算网络连接情况);运行命令:sh/public/soft/setup_cluster-1.2.3/setup_cluster--sync_dopingnode1(检查管理网络连接情况);如果有网络不通情况要进行不通节点的系统级和硬件级的检查(如重启节点操作系统,观察运行是否正常,或硬件问题系统无法启动直接致电曙光4008100466报修,报修时需要提供机器主机编号)5.2存储共享目录的挂载检查集群存储共享目录(/public)挂载不正常也直接导致计算报错、无法计算,因为所有的计算软件,MPI,编译器等都安装或放在存储共享目录(/public)下,可以通过曙光集群实施脚本文件来检查集群存储目录挂载情况,运行命令:sh/public/soft/setup_cluster-1.2.3/setup_cluster--sync_dols/public要仔细检查每个节点的目录挂载情况,正常情况为/public目录下都有lost+found这个空文件夹,如果发现有挂载不正常节点,需要ssh登陆到不正常节点,运行命令:source/etc/nfs.local,重启节点系统观察存储共享目录的挂载是否正常。常用命令:全部节点重启命令,包括管理I/O节点:sh/public/soft/setup_cluster-1.2.3/setup_cluster--sync_doreboot全部节点关机命令,包括管理I/O节点:sh/public/soft/setup_cluster-1.2.3/setup_cluster--sync_dohalt在进机房查看温度的同时,建议1天检查1次,也要定期观察存储2个机壳里面硬盘的状态,看看是否有红灯报警的硬盘,如果有请及时致电曙光4008100466。如何在服务器上运行MARC1.运行marc前的准备1.登陆服务器打开xstart(包含在xmanager软件中),输入服务器登陆节点的ip地址(192.168.0.101),选择ssh协议和“2.xterm(Linux)”方式,并输入管理员分配的用户名和密码:点击“Run”,即可登陆到登陆节点:2.进入到算例文件所在的目录,例如在“/home”目录下:3.建立hostfile文件:4.在文件中写入参加计算的节点名称(注:如果每个节点想要调用4个cpu内核,就需要写4次),保存退出:2.运行MARC2.1.图形界面方式运行:mentat1.调出图形界面:3.用top命令查看cpu使用情况,以判断marc是否在正常运行:Cpu总的利用率接近100%,而且绝大部分是被marc的进程所占用,说明marc在正常运行:3.获取计算结果