HPC网络解决方案服务器的讨论会耦合在网络部分文档目标技术目标•阐述HPC网络的架构•各个功能区的分析应用需求分析可选的网络优化措施Cisco产品选择以及原因–计算节点子系统–存储以及并行文件子系统–管理节点子系统–高频交易类系统–……听众目标•了解HPC网络的应用需求•了解Cisco抛弃infiniband的原因•了解Cisco在HPC网络中的创新技术和解决方案•Solution应用模板示范感谢!多位同事、专家的鼎力相助ShengliHouXuLuJunXieSteveYangWangJinGuoLingZhangStarryWu以及其它HPC单位人员的帮助如RedHat/气象局……的专家HPC网络架构简述HPC网络架构综述计算节点计算网络存储网文件系统管理网计算节点特性计算网特性存储网特性并行文件系统存储节点特性管理网特性管理节点特性传统HPC网络设计Brief计算节点I/O节点存储:磁盘前言.传统HPC网络架构综述传统的HPC网络设计示意图:多个网络for不同的流量!存储网SAN或者NAS以SAN居多I/O节点:快速读取磁盘对计算节点提供并发文件存储服务如果对存储性能有要求,就一定会用SAN。(NAS的性能很差]I/O网以前有Infiniband或者GE两种方案;I/O网的主要作用是为“并行文件系统”提供网络通道[带宽敏感+部分功能区时延敏感]计算通讯网-IPC以前是Infiniband或GE现在也有用10GE的Inter-ProcessCommunication(IPC)提供计算节点之间的通讯[绝对时延敏感]管理网可以单建,也有可能和IPC或者I/O网复用管理网的主要作用是:提供各节点监控、Image分发等等流量不会太大前言.传统HPC网络逻辑示意SAN网络I/O节点MDS服务器类似Master目录服务器并行文件系统Master节点用户终端不在重点讨论范围IPC网络计算节点用户终端接入连接•User接入连接的主要任务:Jobinitiation–典型情况下是SSH/Telnet/Bproc等控制方式观测实时的任务结果[可能是图形化的结果]图形化的结果:一般情况下会从一台[若干台]特定的服务器上获取。图形的传送一般GE带宽就够了。有时会被用作Inter-Cluster(GRID)的通讯–这种情况下需要参考IPC网络的设计;需要考虑:安全和QOS•一般情况下User只会和MasterNode通讯–由MasterNode来管理其它节点•通常用户接入用GE&TCP/IP足够.UserMasterNodeHPC网络架构简述:计算系统HPC网络架构综述计算节点计算网络存储网文件系统管理网计算节点特性计算网特性存储网特性并行文件系统存储节点特性管理网特性管理节点特性传统HPC网络设计Brief1.1计算网络特性简析-A•HPC计算网络:主要负责Process之间的通讯松耦合&紧耦合=指Process之间的交互频度•某些特别的松耦合应用甚至在Process之间没有交互流量,这些用户是对网络不敏感的•我们关心的是瓶颈在I/O上的HPC应用场景[包括带宽&Latency]•如果HPC应用是绝对的本地计算[那么重点在CPU/Core/GPU/Memory速度&大小……]首要考虑如何提高I/O传输时延=LatencyI/OLatency↓Process就能越快地摆脱等待的状态,CPU利用率↑最直接的证明就是多CPUinter-connect的超级计算机系统某些HPC应用甚至会用Multicast来同步数据→L2MulticastLatencyLatency会从/协议栈/网卡-IO/线路/设备转发/拓扑/拥塞的Queue等多处引入低延迟网络方案有Infiniband或10GEwLowLatency或者RDMAoverConvergedEthernet(RoCE)可选必须是DCB的网络,才能支持RoCE1.1计算网络特性简析-B•HPC计算网络,其它:安全控制•对故障Server的隔离,防止干扰整个L2域:广播抑制、Loop防止、Flapping……网络要求HA→对”实时HPC”应用非常重要流量统计和分析QoS:•在多个网络复用情况下的QoS(管理网复用;个人不建议和I/O网复用,除非是松耦合)•对关键流量的QoS优化如果采用Socket→Ethernet应用流量模型是否允许采用不丢包的Ethernet技术ToE网卡的重要性[个人认为必备]组播技术的用法[目前只在某些特定的HPC应用系统中作为重点使用。]10GbEthernetvsIB@HPC领域InitiatorSpeedTargetSpeedDataThrougputPerI/ONodeGigabitEthernetGigabitEthernet112-118MBpsGigabitEthernet10GigabitEthernet325-350MBps10GigabitEthernet10GigabitEthernet700-1100MBpsIBSDR-IPoIBIBSDR-IPoIB350-375MBpsIBSDR–IPoIBCM(ofed1.2)IBSDR–IPoIB(ofed1.2)525-575MBpsIBSDR–SDPIBSDR-SDP590-625MBpsIBDDR–IPoIBIBDDR–IPoIB350-375MBpsIBDDR–IPoIBCM(ofed1.2)IBDDR–IPoIB(ofed1.2)525-700MBpsIBDDR–SDPIBDDR–SDP920-1150MBpsSocketsAPIMPITCPSDPOFED1.2MPIOFED1.2IPIPoIBGE10GE10GEwithToESDRIBDDRIBSDRIBDDRIB10GLLEMVAPICHOMPILatency(us)35.325.89.020.314.310.08.83.823.293.32BandwidthMB/s118121412195607278961033122013541351CPU9%25%25%23%26%27%28%25%25%25%•比较的情况–MPI编程接口以太网卡用10GwRDMA时效果相当编程用SocketsorMPI(各占50%,I/O敏感会选MPI)–IPoIB和10GE比较无明显优势–TCPOffloadEngine(ToE)必备降低网络时延降低CPU利用率解放PCI-E总线(小突发效率低)注:TOE有很多Sub-Feature–SDP-IBvs10GEwToE无任何优势–交换机的低延迟=DCE(DCB)Switch–TCP协议栈的普适和灵活•结论:10GEwToE在非MPI编程的环境中有明显优势;10GEwRDMA在MPI环境中和IB接近IB(2.5Gbps为单位,x1x4,x12倍速;8B/10B编码)一般用x4,所以SDR/DDR等价以太网带宽是8G/16GServer背靠背要表达为消耗了多少HZ的CPU才有意义[最差的情况是1bit耗用1HZ/Core的CPURoCE(RDMAOverConvergedEthernet)Source:MellanoxCorp.OFAVerbsInterfaceIBTransportProtocolNetworkLayerInfiniBandLinkLayerInfiniBandOFA*StackInfinBandManagementRDMAApplication/ULPRDMAPDDPIPSCTPMPATCPEthernetLinkLayeriWARPEthernetManagementRoCEEthernetLinkLayerEthernetManagementIBTransportProtocolNetworkLayerI/OStack比较Source:MellanoxCorp.Applications/OSServicesSocketsSCSIFCP/FCTCPIPDCBEthernetFCoERoCEOFARDMAVerbsiWARPiSCSISDPMPIRDS•SingleChip~10watts•Availablefrommajorvendors–Emulex→RoCENIC–Qlogic→iWARPNIC–Intel→iWARP–Chelsio→iWARP–Cisco→DCE/DCBswitch–Broadcom→RoCENIC–Mellanox→RoCENIC–Brocade→DCBSwitch2ndCNAsMPI(MVAPICH2)PerformanceRoCEvsIB(4Bytes)micro-second6.2612.9111.13one-sidedputbandwidthMillionBytes/sec164119501142one-sidedgetbandwidthMillionBytes/sec165113331142putbidirectionalbandwidthMillionBytes/sec298532862284在这个性能评测的结构中,我们可以发现10GERoCE和InfinibandHCA在“延迟”这个技术指标上已经非常接近了。所以除非是有很大的带宽需求,否则RoCE完全可以替代Infiniband了。RoCE:RDMAoverEthernet.最新的EthernetHPC技术,有取代iWARP的趋势。明确表示RoCE需要网络支持DCB&losslessEthernet=products_dyn&product_family=79&menu_section=35=UtilizeadvancesinlosslessEthernet(DCB)foranefficientRDMAoverEthernet……Lowestlatencyof1.3microsecondsonlosslessEthernetRDMATransportoffloadwithzerocopyforlowCPUutilization……EthernetvsIB@HPC领域–市场份额45.6%42.8%Top500统计情况推论:相信在Top500以外,GE/10GE份额数远大于IB!IB生态环境!1.2计算节点-A•HPC计算节点主要考虑节点内的计算能力•将尽可能多的[Process/Core]放在一个Server内–Core之间的交互可以走更高速的shareL2cache,最差也是FSB→Memory–CPU之间的交互可以通过Memory(DRAM)–有硬件Arbitor[4*CPU的一般都是SMP,更复杂的还有NUMA/MPP方式.]–延迟更低、带宽更高、不占外部I/O;明显Core数量多,会有多个优势–目前来看CPU-Memory的带宽不是瓶颈•单一Server能支持的Core/CPU数量–一般一个PCServer,4个CPU是SMP架构下性能较好的数量–单一Server内,需考虑操作系统对Core/CPU数量的支持能力;–一般Core&Process是一个量级的;出于性能考虑甚至可以perProcessperCore.1.2计算节点-B•HPC计算节点的其它考虑内存的I/O速度某些应用也会需要计算节点支持大内存;应用算法会有明确的需求;[个人接触到的:最大16G/Process;最小1G/Process;]本地存储:SSD是趋势吗=除非采用本地预读取的方案;网卡InfinibandHCA:SDR、DDR、QDR=一般用DDR(