TC3600刀片服务器产品扩展方案讨论武汉测地所现场集群环境介绍1集群总体情况2曙光刀片系统3文本7UIntel刀片热插拔硬盘AMD四路刀片AMD双路刀片4电源模块IOE扩展模块(含热插拔风扇)主管理模块从管理模块IB交换模块网络模块1网络模块2TC2600刀片主要组成部分(续)•计算刀片CB85-F(8台)•4颗AMDOpteron8474HE(2.2G)四核处理器/•32GBDDR2ECC内存/•160GBSATA磁盘/•双千兆网卡•计算刀片CB60-G(6台)•2*INTEL5520(2.26G)四核处理器/•16GBDDR3内存/•146GBSAS热插拔磁盘/•双千兆网卡计算节点5•I/O节点CB60-G(1台)•2*INTEL5520(2.26G)四核处理器/•16GBDDR3内存/•2*146GBSAS热插拔磁盘/•双千兆网卡•管理节点CB60-G(1台)•如上!I/O节点和管理节点6•曙光天阔A950R-F(适用于大内存作业)•8颗AMD8380(2.5G)四核/•32*4GDDR2ECC内存/•2*146GBHS15KRPMSAS硬盘/•SASRaid卡/•2*1000M网卡/•HCA卡HCA500Ex-D-1/•3+1冗余电源/•上架导轨SMP节点7•曙光DS-6310FE•3U机架式,IntelIOP3411.2GHz处理器,标配512MB,可选1GB、2GB,支持0,1,1E,5,6,50,60,2个4GbFC主机通道,1个SAS4x扩展接口,基于Web的嵌入式管理软件•硬盘1TBSATA硬盘(总容量16TB)共享存储8•计算网络•双向带宽20G的高速计算专用网络•(刀片内置)•管理网络•千兆以太网(刀片内置)网络9•曙光TC4000机柜/42U/内部网络布线系统/60×200×110cm(宽×高×深),套1•3*20A,支持2相、3相电,支持5个航空插头、电源检测模块、电源负载均衡、3*20A外接电源线套1机柜和视频切换系统10•外置控制台•曙光17”液晶显示器、鼠标、键盘•SKVM视频切换系统•USTS(与CIM配合使用,最大支持98个CIM)•(节点I/O模块,每节点一个)•集群安全模块TLFW-1000D全面安全功能,并发连接数120万,吞吐量1.2G,VPN隧道数100011•Linux操作系统•Suse10LINUX64位企业级操作系统•GRIDVIEW集群管理软件•高性能计算集群管理系统、支持跨广域网作业调度,支持交换机、存储、和机房环境管理;节点硬件和运行状态的统一管理、监控功能;作业调度系统和计费系统集群的软件部署12用户视图登录结点登录结点计算结点Lustre/SANWEBPortalIntegratedAppScriptsJob123作业递交作业返回大型机管理系统Gridview大型机综合管理系统物理机柜视图网络拓扑视图性能分析视图状态监控应用监控视图实时告警管理告警管理历史告警管理告警统计报表告警关联分析性能报表系统分类报表自定义报表图示化统计分析高可用冗余心跳线路数据库存储监控应用备份监控中间件灾难备份远程灾备策略自动数据恢复数据库封装通信消息封装应用于单机、机群和机群之上,实现局域网内部及跨广域网环境对大型机进行集中部署、配置、监控、管理、告警、报表、IPMI、作业调度等功能物理机柜视图网络拓扑视图性能分析视图大型机地图视图历史告警管理实时告警管理告警统计报表告警关联分析记录数日增量报表表空间日增量报表报表并行计算环境操作系统–正版SuseLinux企业版函数库–BLAS、GOTO、LAPACK、FFTW编译器:–IntelC/C++Compiler、IntelFortran77/90Compiler–PGI7.1.4–GNU并行环境:–OpenMPI–MPICH–PVM•version•Linuxnode102.6.16.60-0.21-smp#1SMPTueMay612:41:02UTC2008x86_64x86_64x86_64GNU/•node10:/#ifort-v•Version10.1•node10:/#icc-v•Version10.1•node10:/#pgcc-V•pgcc9.0-164-bittargetonx86-64Linux-tpnehalem-64•Copyright1989-2000,ThePortlandGroup,Inc.AllRightsReserved.•Copyright2000-2009,STMicroelectronics,Inc.AllRightsReserved.•NFS配置:•node9:/public1367174118494500544135772406401%/public集群信息19•Linpack现在在国际上已经成为最流行的用于测试高性能计算机系统浮点性能的benchmark。通过利用高性能计算机,用高斯消元法求解一元N次稠密线性代数方程组的测试,评价高性能计算机的浮点性能。•本套集群测试路径:•/public/backup/software/hpl-2.0/bin/yzhen•测试命令:•/public/mpi/openmpi/1.3.3/intel/bin/mpirun--mcabtlopenib,self-np200-hostfile./nodes./xhpl•输出结果:•/public/backup/software/hpl-2.0/bin/yzhenHPL.out集群的测试2021序号NNBPQTimeGflops116000023210202606.751.048e+03216000023210202158.081.043e+03结论测试过程使用了16台计算节点,除管理节点外,其他都参与了计算,共计200个计算内核,总计内存消耗160G浮点性能1.048Tflops,达到70%浮点性能要求。测试人/日期袁甄2009.12.30•开机顺序–1I/O节点–2管理节点–3计算节点•关机顺序:–1计算节点–2管理节点–3I/O节点集群系统(管理员)22•配置网络•Yast2•修改vi/etc/sysconfig/network/ifcfg-eth-bus-pci-0000:05:00.0文件•重启网络/etc/init.d/networkrestart或servicenetworkrestart•添加一个新用户集群系统(管理员)23ThankYou!