案例分享-神州数码-毋果津

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

蓝翼俱乐部—成功案例及技术分享西安神州数码有限公司毋果津项目背景:•项目名称–XX制造行业高性能计算集群系统•项目建设单位:–XX制造行业•项目背景:–XX制造行业在其信息化建设过程中,需要对其工程制造中涉及的产品进行工作状态及运行行为的模拟仿真,及早发现设计缺陷、改进和优化设计方案,拟初步建立一套高性能计算群集测试系统,测试高性能计算群集对其工程设计的效率提升程度,应用系统包括CAD、CAM等;如测试效果良好,计划后期扩大高性能计算群集的规模。–我当时负责神州数码IBMX服务器的售前技术支持工作,和当地IBM销售人员及IBM售前工程师共同跟进此项目。项目背景:•客户困难:–客户由于是初次进行HPC项目建设,没有此类项目的建设经验,需要为其提供从硬件平台至应用系统的整体解决方案;–客户对HPC对其在工程制造的帮助无法预期,所以无法投入大量资金用于此系统的建设;–客户同时希望在项目预算内,尽可能地依据工程制造行业的HPC特点,搭建尽可能接近实际生产环境的高性能硬件平台。–CAE-HPC的目标是“用最低的成本模拟真实世界”,即“用最短的时间、最少的人力、最低的资金,进行复杂单场模拟和多场耦合分析”。–计算速度、网络连接、数据安全、整体管理是重点考虑对象–分布式并行提高计算速度。多核,高速连接提高系统并行处理能力–对于建模仿真等分布式内存应用程序,采用更大的内存,用户可以建立高保真模型。–I/O瓶颈需要大内存允许中间数据存储在内存中而不需要和硬盘交换数据,可以减少I/O频度,明显提高速度。–并行环境下需要考虑节点间的交互,尽可能提供高带宽低延迟的计算网络–大规划计算需要考虑散热、通风以及管理问题–数据安全性问题系统设计原则与选型依据设计方案-系统架构图:•整体设计方案–分为三套独立网络:计算网络、管理网络和存储网络;–Infiniband网络作为计算网络,保证高带宽低延迟的数据交互;–FC存储网络;–千兆管理网络;–将管理网络与IO网络分开–采用刀片服务器作为计算节点设计方案-硬件构成:•硬件构成说明:–14个计算节点,采用IBM2路刀片式服务器;使用Infiniband作为计算网络;–1个IO节点,采用IBM2路机架式服务器,也连接至计算网络;–1个管理节点,采用IBM2路机架式服务器;–1个刀片机箱,配置1个以太网交换机和1个InfiniBand交换机;–1个FC接口磁盘阵列,配置5TB可用容量,通过FC线缆连接至IO节点设计方案-计算网络:•计算网络设计–计算网络的网络性能是HPC集群最关键的部分,它的容量和性能直接影响了整个系统对高性能计算的适用性;–由于HPC网络的复杂性,尽可能将管理、计算任务分开;–由于用户是进行建模仿真,需要大批量高密度的数据交换。因此采用高带宽低延迟的Infiniband网络;–将IO节点也连接至计算网络。设计方案-存储网络:•存储网络设计–对于本次电子数据仿真设计HPC项目,存储只作为最终结果的存放地,不要求非常高的性能;–存储网络采用SAN架构,采用4GBFC连接至存储服务器,简化数据操作的复杂性且方便扩展;–一个IO节点,承担汇数据总及传输作用。设计方案-管理网络:•管理网络设计–管理网络在HPC中承担着硬件状态监控、集群管理和任务分发等管理职能;–采用千兆以太网络作为管理网络;–使用一台机架式服务器作为管理节点。设计方案-计算节点设备选型:–计算节点的计算能力直接影响高性能计算的性能。–对于建模仿真来说,需要更大内存在前后处理方面获得更好的性能;–大规模计算情况下,还需要考虑节点的交互,散热和管理;–计算节点采用IBM2路刀片式服务器HS22,配置2路四核Intel5560处理器,24GB内存,146GB硬盘。HS22刀片服务器设计方案-软件和应用系统•操作系统–RedhatLinux•硬件管理和监控–IBMDirector•集群管理和监控–xCat•作业调度–OpenPBS+MauiScheduler•并行库和数学库–MPICH、PVM、GNUC/C++、Fortran、Java•性能测试工具–HPL设计方案-性能及功耗•GFlops–理论Gflops:1.254GFlops(2.8G×4×4×2×14)–预计效率:85%以上(infiniband效率千兆网络)•功率–设备最大总功率=1×4899+2×332+370=5933W设计方案-硬件配置:•硬件配置清单部件号说明数量BladeCenterHS22/2C/16G/14节点88524YCBladeCenterH机箱,9U,14个槽位,标准带2个2900W电源,1个AMM,2个冗余风扇,DVDRWDrive,支持高速交换机131R3335BladeCenterH2900W电源模块包,含2个独立电源模块132R1860NortelL2/3Copper以太网交换机模块,对外6口RJ45125R5785BladeCenterHIEC320C20(200-240V)2.8M电源线,对外接口为3个C19接口249Y99803mCopperQDRInfinibandQSFPCable146M6005Voltaire40GbInfiniBandSwitchmoduleforBladeCenterH1小计7870C3CHS22,Xeon4CX556095W2.80GHz/1333MHz/8MBL2,2x2GB,O/Bay2.5inSATA/SAS1444T1886IntelXeon4C处理器ModelX556095W2.80GHz/1333MHz/8MBL21444T14872GB(1x2GB)DDR31Rx4Chipkill内存1333MHzHS228443W7536146GB10KSAS(SFF)热插拔硬盘适用于HS12/HS221446M60012-port40GbInfiniBandExpansionCard(CFFh)forIBMBladeCenter14小计SysxMgt&I/O(I/O节点)1台x3650m2机架式服务器794762Cx3650M2,XeonQuadCoreE554080W2.53GHz/1066MHzFSB/8MBL2,2x1GB,O/Bay2.5inHSSAS,SRMR10i,CD-RW/DVDCombo,675Wp/s,Rack146M1084IntelXeonQCProcessorModelE554080W2.53GHz/1066MHz/8MBL2144T14801GB(1x1GB)DDR31Rx8低电压内存x3400M2,x3500M2,x3550M2,x3650M2-244T14822GBDDR3-13332Rx8LPRDIMM442D0637IBM300GB2.5inSFFSlim-HS10KSASHDD246M1075Redundant675WPowersupply143W4420Voltaire4XInfiniBandDDRExpansionCard安装在I/O节点中142C2071Emulex4GbFCHBAPCI-EControllerDualPort安装在I/O节点中1小计SysxMgt&I/O(管理节点)1台x3650m2机架式服务器794762Cx3650M2,XeonQuadCoreE554080W2.53GHz/1066MHzFSB/8MBL2,2x1GB,O/Bay2.5inHSSAS,SRMR10i,CD-RW/DVDCombo,675Wp/s,Rack146M1084IntelXeonQCProcessorModelE554080W2.53GHz/1066MHz/8MBL2144T14801GB(1x1GB)DDR31Rx8低电压内存x3400M2,x3500M2,x3550M2,x3650M2-244T14822GBDDR3-13332Rx8LPRDIMM442D0637IBM300GB2.5inSFFSlim-HS10KSASHDD246M1075Redundant675WPowersupply1小计SSDDS3400存储,可用空间5TB172642XIBMSystemStorageDS3400DualController双控制器139R6517DS30001GBCacheMemoryUpgrade缓存升级选件242D0519IBM450GB3.5inHS15KSASHDD热插拔硬盘1239R6475IBM4-GbpsOpticalTransceiver-SFP短波模块439M56961mFiberOpticCableLC-LC光纤通道线缆4小计SysxRACK/KVM93074RXS242U标准机柜1172317X1U17液晶折叠套件(键盘可选)117353LX1x8控制台交换机139M2895USBKVM连接线缆UCO(4根一包)240K5372USB旅行键盘1小计PDU39Y8934DPISingle-phase32AFront-endPDU-HV239Y8959通用电源分配器16A/220V7个C13输出插座,线缆:4.3mGB2099.1239Y7932RackPowerCord-C13/C1428767HNXSAS半高桌面式磁带机外置盒143W8478LTO3400/800GBSAS接口磁带机半高1产品招标参数:刀片机箱数量1台设备名称指标项技术规格要求刀片中心品牌国际知名品牌高度/密度9U高/≧14个刀片要求每个机柜最多可以放置84个刀片或者168颗处理器可靠性要求全冗余的双背板设计电源支持N+N冗余,即在刀片满配情况下,2路供电中的一路出现问题时仍需保证所有刀片不能宕机满配电源和风扇易用性要求机箱集成本地光驱DVD/RW机箱集成本地KVM集成的管理模块网络支持配置1个NortelL2/3Copper以太网交换机模块,对外6口RJ45配置1个Voltaire40GbInfiniBandSwitchmodule配置1条3mCopperQDRInfinibandQSFPCable最多支持10个网络模块支持L2-7交换机(或者基于硬件的负载均衡功能)支持Qlogic4GbFC交换机支持智能直通模块,并可升级成交换机支持SAS连接模块,与外接SAS盘柜联接支持无阻塞Infiniband连接IO虚拟化要求支持IO虚拟化,即可以为每个刀片配置虚拟的MAC地址和WWN地址IO虚拟化支持多品牌的网络交换机,如北电/BNT,思科,Brocade,Qlogic支持跨机箱的刀片自动故障切换(failover)要求提供电源管理工具,能够提供图形化电源使用监控界面,并且更具需要限定个别刀片的用电系统管理工具免费提供系统部署和维护工具包提供数据中心的管理软件服务要求为刀片中心、内装刀片及交换机提供原厂商3年7x24小时服务刀片服务器数量14台设备名称指标项技术规格要求刀片服务器品牌与刀片机箱同一品牌处理器配置2个IntelXeon4C处理器ModelX5560内存12个内存插槽配置8个2GB(1x2GB)DDR31Rx4Chipkill内存1333MHz支持四位纠错(chipkill)、内存镜像网卡标配2个千兆位网卡,支持TOE配置1个2-port40GbInfiniBandExpansionCard(CFFh)最多支持8个1Gb以太网端口支持NetXen10Gb网卡存储支持热插拔SAS硬盘或者热插拔SSD硬件支持RAID0,1配置1个146GB10KSAS(SFF)热插拔硬盘冷却CPU和内存有独立的冷却通道扩展性支持2个扩展卡支持SAS扩展子卡系统管理集成系统管理处理器具备服务器的关键部件CPU、内存、硬盘等在发生故障前能够提前报警的能力故障部件的快速诊断功能:在断电的情况下,能够通过诊断板快速定位故障的部件,提高维修速度。支持并行KVM(cKVM),即运行多个用户同时对机箱内不同的刀片进行管理BIOS支持最新的UEFI虚拟化支持内嵌讯虚拟化功能支持的操作系统Microsoftwindows2008Server;RedHatLinux;SUSELinux;NovellNe

1 / 17
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功