第9章机群计算机9.1机群的基本概念和结构9.2机群的特点9.3机群的分类9.4典型机群系统简介目前流行的高性能并行计算机系统结构通常可以分成5类:并行向量处理机(PVP)对称多处理机(SMP)大规模并行处理机(MPP)分布共享存储多处理机(DSM)机群(Cluster)优势:低廉的价格、极强的灵活性和可扩缩性成为近年来发展势头最为强劲的系统结构全球Top500中机群计算机的数量和比例时间1997.61997.111998.61998.111999.61999.112000.62000.11数量1112671128比例0.2%0.2%0.2%0.4%1.2%1.4%2.2%5.6%时间2001.62001.112002.62002.112003.62003.112004.62004.11数量32438193149208289294比例6.4%8.6%16.2%18.6%29.8%41.6%57.8%58.8%时间2005.62005.112006.62006.11数量304361364361比例60.8%72.2%72.8%72.2%1.机群一种价格低廉、易于构建、可扩缩性极强的并行计算机系统。由多台同构或异构的独立计算机通过高性能网络或局域网互连在一起,协同完成特定的并行计算任务。从用户的角度来看,机群就是一个单一、集中的计算资源。9.1.1机群的基本概念和结构9.1机群的基本概念和结构9.1机群的基本概念和结构一个简单PC机群的逻辑结构4台PC机通过交换机连接在一起。NIC表示网络接口,PCI表示I/O总线。这是一种无共享的结构,大多数机群都采用这种结构。如果将下图中的交换机换为共享磁盘,则可以得到共享磁盘的机群系统结构。9.1机群的基本概念和结构SwitchCPUCache存储器NICPCICPUCache存储器NICPCICPUCache存储器NICPCICPUCache存储器NICPCI一个包含4个结点的简单PC机群9.1机群的基本概念和结构2.构成机群的每台计算机都被称为一个结点。每个结点都是一个完整的系统,拥有本地磁盘和操作系统,可以作为一个单独的计算资源供用户使用。除了PC机外,机群的结点还可以是工作站,甚至是规模较大的对称多处理机。3.机群的各个结点一般通过商品化网络连接在一起。4.网络接口与结点的I/O总线以松散耦合的方式相连。9.1机群的基本概念和结构1.机群操作系统:在各结点的操作系统之上建立一层操作系统来管理整个机群。2.机群操作系统的功能提供硬件管理、资源共享以及网络通信实现单一系统映象SingleSystemImage,SSI一项重要功能,通过它才使机群在使用、控制、管理和维护上更像一个工作站。机群的一个重要特征9.1.2机群的软件模型9.1机群的基本概念和结构3.SSI包含四重含义单一系统单一控制逻辑上,最终用户或系统用户使用的服务都来自机群中唯一的位置。系统管理员通过一个唯一的控制点配置机群的所有软、硬件组件。对称性:用户可以从任一个结点上获得机群服务。位置透明:用户不必了解真正提供服务的物理设备的具体位置。9.1机群的基本概念和结构4.简单机群系统中的SSI至少应该提供以下三种服务:单一登录即用户可以通过机群中的任何一个结点登录,而且在整个作业执行过程中只需登录一次,不必因作业被分派到其他结点上执行而重新登录。单一文件系统在机群系统中,有一些对整个机群所有结点而言都相同的软件,它们没有必要在每一个结点上重复安装。另外执行并行作业时要求每个结点都可以访问到可执行文件,即这些软件和可执行文件在整个机群系统中应该只有一个唯一的副本。9.1机群的基本概念和结构单一作业管理系统用户可以透明地从任一结点提交作业,作业可以以批处理、交互或并行的方式被调度执行。PBS、LSF、Condor和JOSS都是目前比较具有代表性的作业管理系统。5.并行编程模型以及相关的并行编程环境比较流行的并行编程工具:MPI、PVM、OpenMP、HPF6.机群系统的软件框架9.1机群的基本概念和结构PC工作环境普通软件PC工作环境普通软件PC工作环境普通软件PC工作环境普通软件机群中间件(单一影像系统和可用性基础)串行应用并行编程环境并行应用机群系统的软件框架1.机群系统的优点系统开发周期短结点采用商品化的PC机、工作站,通过商用网络连接。系统开发的重点:通信子系统和并行编程环境可靠性高每个结点都是独立的PC机或工作站可扩缩性强机群的计算能力随着结点数量的增加而增大机群结构灵活(结点之间以松耦合方式连接)机群系统的硬件容易扩充和替换,可以灵活配置。9.2机群的特点9.2机群的特点性能价格比高用户编程方便2.机群的迅猛发展还得益于微处理器技术、网络技术和并行程序设计技术的进步。微处理器技术的进步使得微处理器的性能不断提高,价格不断下降。机群系统更容易融和到已有的网络系统中,而且随着网络技术的进步和高性能通信协议的引入,机群结点间的通信带宽进一步提高,通信延迟进一步缩短,逐步缓解了由于结点松散耦合引起的机群系统通信瓶颈问题。9.2机群的特点随着PVM、MPI、HPF、OpenMP等并行编程模型的应用与成熟,使得在机群系统上开发并行应用更加方便。3.机群的不足之处由于机群由多台完整的计算机组成,它的维护相当于要同时去管理多个计算机系统,因此维护工作量较大,维护费用也较高。1.根据组成机群的各个结点和网络是否相同,分为:同构、异构2.根据结点是PC还是工作站,分为:PC机群、工作站机群3.以机群系统的使用目的为依据,分为:高可用性机群、负载均衡机群以及高性能机群(最常用的分类方法)9.3机群的分类9.3机群的分类4.高可用性机群主要目的:当系统中某些结点出现故障的情况下,仍能继续对外提供服务。采用冗余机制当系统中某个结点由于软、硬件故障而失效时,该结点上的任务将在最短的时间内被迁移到机群内另一个具有相同功能与结构的结点上继续执行。对于用户而言,系统可以一直为其提供服务。适用于Web服务器、医学监测仪、银行POS系统等要求持续提供服务的应用。9.3机群的分类5.负载均衡机群主要目的:提供与结点个数成正比的负载能力要求:机群能够根据系统中各个结点的负载情况实时地进行任务分配。专门设置了一个重要的监控结点,负责监控其余每个工作结点的负载和状态,并根据监控结果将任务分派到不同的结点上。适合大规模网络应用如Web服务器或FTP服务器、大工作量的串行或批处理作业(如数据分析)9.3机群的分类负载均衡机群适用于提供静态数据的服务;而高可用性机群既适用于提供静态数据的服务,又适用于提供动态数据的服务。6.高性能计算机群主要目的:降低高性能计算的成本它通过高速的商用互连网络,将数十台乃至上千台PC机或工作站连接在一起,可以提供接近甚至超过传统并行计算机系统的计算能力,但其价格却仅是具有相同计算能力的传统并行计算机系统的几十分之一。9.3机群的分类7.按照构建方式将机群分为:(一种比较常用的分类方法)专用机群吞吐率较高,响应时间较短。专用机群的结点往往是同构的,一般采用集中控制,由一个(或一组)管理员统一管理,而且用户一般需要通过一台终端机来访问它。企业机群各结点之间一般通过标准的LAN或WAN互连通信开销较大、延迟较长企业机群的各个结点一般是异构的(1)高效的通信系统在用户空间实现通信协议精简通信协议ActiveMessage通信机制(2)并行程序设计环境PVM(ParallelVirtualMachine)开始于1989年夏天,美国橡树岭国家实验室(ORNL);是一套并行计算工具软件,支持多用户及多任务运行;支持多种结构的计算机,工作站、并行机以及向量机等;机群系统的关键技术传统通信协议(TCP/IP)10MEthernet100MEthernetMyrinet硬件开销软件开销通信开销分析软件开销成为影响通信系统性能的瓶颈应用程序TCP精简通信协议IP数据链路层DLPI设备驱动程序网络接口卡用户空间系统空间网络空间Socket接口支持C、C++和Fortran语言;自由软件,使用非常广泛;编程模型可以是SPMD或MPMD;具有容错功能,当发现一个结点出故障时,自动将之删除MPI(MessagePassingInterface)在1992年11月至1994年元月产生。能用于大多数并行计算机、计算机机群和异构网络环境,支持C和Fortran两种语言,编程模型采用SPMDExpress美国Parasoft公司推出;能在不同的硬件环境上运行;支持C和Fortran两种程序设计语言。Linda美国Yale大学与科学计算协会共同研制;通过函数扩充现并行程序的设计;支持C-Linda、Fortran-Linda等(3)并行程序设计语言在多处理机系统中,必须用并行程序设计语言编写程序。或者把已经用串行语言编写的程序转换成并行语言程序之后,才能在多处理机系统上运行。把传统串行语言程序转换成并行语言程序的过程称为并行编译。有两种并行编译方式:全自动并行编译与半自动并行编译:全自动并行编译是方向,但实现起来很困难。半自动并行编译又称为交互式并行编译。程序员通过多次与机器对话,找到串行程序中可以并行执行的部分。并行编译器生成代码的形式有多种:并行高级语言程序、并行中间语言程序、并行目标语言程序(4)负载平衡技术一个大任务可分解为多个子任务,把多个子任务分配到各个处理结点上并行执行的技术称为负载平衡技术对于由异构处理结点构成的并行系统,相同的负载在各结点上的运行时间可能不同。因此,准确的负载定义应是负载量与结点处理能力的比值负载平衡技术的核心就是调度算法,即将各个任务比较均衡地分布到不同的处理结点上并行计算,从而使各结点的利用率达到最大。负载平衡技术分为静态和动态两大类:静态方法是在编译时针对用户程序的各种信息(任务的计算量和通信关系等)及并行系统本身的状况(网络结构、各结点计算能力等)对用户程序中的并行任务作出静态分配决策。动态方法是在程序运行过程中实现负载平衡的。它通过分析并行系统的实时负载信息,动态地将任务在各处理机之间进行分配和调整,以消除系统中负载分布的不均匀性。动态负载平衡的算法简单,实时控制,但增加了系统的额外开销。(5)并行程序调试技术用并行程序设计语言编写程序,比用串行程序设计语言更容易出错,因此,在多处理机系统中,用并行程序设计语言编写程序更加依赖于并行调试工具。并行程序调试的主要困难:并行程序的执行过程不能重现。(6)可靠性技术在多处理机上运行的程序通常比较大,程序执行时间很长(几十个小时或几十天)。如果在程序执行过程中出现偶然故障(如电源掉电、磁盘满、某一台处理机故障等),则整个运算过程要从头开始。定时设置检查点,保存现场信息。当出现故障时,只要回复到上一个检查点,不必从头开始执行。曙光5000A1.曙光5000A的第一套超大型系统将于08年11月份落户“上海超级计算中心”,该系统的计算节点机采用四路四核AMDBarcelona(主频2.0GHz)处理器,每个节点64GB内存,胖节点机采用八路四核AMDBarcelona(主频2.0GHz)处理器,每个节点128GB内存,整个系统由1650个节点组成庞大机群,共有6000颗CPU与100T海量内存,其理论浮点峰值为每秒230万亿次,采用20GB,延迟小于1.3us的Infiniband高速网络进行互联,采用了WCCS+SuSeLinux双操作系统。1.从曙光针对5000A的宣传中,我们经常会看到一个比较陌生的词汇——HPP(HyperParallelProCESsing)体系架构。其实目前高性能计算机主流体系系统并没有HPP这个提法,而是有MPP,有MSP等等,曙光把5000体系结构叫HPP,主要它在体系结构上结合了机群体系结构和MPP体系结构两类结构的优点。它主流的结构是机群,结点机是四路四核的,所以在机群应用角度来说既能够用很大的机群,同时还能覆盖一