中国科学院西安网络中心中科红旗linux培训认证中心集群技术1.1什么是集群简单的说,集群(cluster)就是一组计算机,它们作为一个整体向用户提供一组网络资源。这些单个的计算机系统就是集群的节点(node)。一个理想的集群是,用户从来不会意识到集群系统底层的节点,在他/她们看来,集群是一个系统,而非多个计算机系统。并且集群系统的管理员可以随意增加和删改集群系统的节点。1.2为什么需要集群集群并不是一个全新的概念,其实早在七十年代计算机厂商和研究机构就开始了对集群系统的研究和开发。由于主要用于科学工程计算,所以这些系统并不为大家所熟知。直到Linux集群的出现,集群的概念才得以广为传播。对集群的研究起源于集群系统良好的性能可扩展性(scalability)。提高CPU主频和总线带宽是最初提供计算机性能的主要手段。但是这一手段对系统性能的提供是有限的。接着人们通过增加CPU个数和内存容量来提高性能,于是出现了向量机,对称多处理机(SMP)等。但是当CPU的个数超过某一阈值,象SMP这些多处理机系统的可扩展性就变的极差。主要瓶颈在于CPU访问内存的带宽并不能随着CPU个数的增加而有效增长。与SMP相反,集群系统的性能随着CPU个数的增加几乎是线性变化的。图1显示了这中情况。图1.几种计算机系统的可扩展性对于关键业务,停机通常是灾难性的。因为停机带来的损失也是巨大的。下面的统计数字列举了不同类型企业应用系统停机所带来的损失。中科红旗linux技术支持服务中心---西安站培训认证中心应用系统每分钟损失(美元)呼叫中心(CallCenter)27000企业资源计划(ERP)系统13000供应链管理(SCM)系统11000电子商务(eCommerce)系统10000客户服务(CustomerServiceCenter)系统27000图2:停机给企业带来的损失随着企业越来越依赖于信息技术,由于系统停机而带来的损失也越拉越大。集群系统的优点并不仅在于此。下面列举了集群系统的主要优点:高可扩展性:如上所述。高可用性:集群中的一个节点失效,它的任务可传递给其他节点。可以有效防止单点失效。高性能:负载平衡集群允许系统同时接入更多的用户。高性价比:可以采用廉价的符合工业标准的硬件构造高性能的系统。2.1集群系统的分类虽然,根据集群系统的不同特征可以有多种分类方法,但是一般把集群系统分为两类:(1)、高可用(HighAvailability)集群,简称HA集群。这类集群致力于提供高度可靠的服务。就是利用集群系统的容错性对外提供7*24小时不间断的服务,如高可用的文件服务器、数据库服务等关键应用。目前已经有在Linux下的高可用集群,如LinuxHA项目。负载均衡集群:使任务可以在集群中尽可能平均地分摊不同的计算机进行处理,充分利用集群的处理能力,提高对任务的处理效率。在实际应用中这几种集群类型可能会混合使用,以提供更加高效稳定的服务。如在一个使用的网络流量负载均衡集群中,就会包含高可用的网络文件系统、高可用的网络服务。(2)、性能计算(HighPerfermanceComputing)集群,简称HPC集群,也称为科学计算集群。在这种集群上运行的是专门开发的并行应用程序,它可以把一个问题的数据分布到多台的计算机上,利用这些计算机的共同资源来完成计算任务,从而可以解决单机不能胜任的工作(如问题规模太大,单机计算速度太慢)。这类集群致力于提供单个计算机所不能提供的强大的计算能力。如天气预报、石油勘探与油藏模拟、分子模拟、生物计算等。这些应用通常在并行通讯环境MPI、PVM等中开发,由于MPI中科红旗linux技术支持服务中心---西安站培训认证中心是目前的标准,故现在多使用MPI为并行环境。比较有名的集群Beowulf就是一种科学计算集群项目。3、集群系统转发方式和调度算法3.1转发方式目前LVS主要有三种请求转发方式和八种调度算法。根据请求转发方式的不同,所构架集群的网络拓扑、安装方式、性能表现也各不相同。用LVS主要可以架构三种形式的集群,分别是LVS/NAT、LVS/TUN和LVS/DR,可以根据需要选择其中一种。(1)、网络地址转换(LVS/NAT)中科红旗linux技术支持服务中心---西安站培训认证中心(2)、直接路由(3)、IP隧道中科红旗linux技术支持服务中心---西安站培训认证中心三种转发方式的比较:3.2、调度算法在选定转发方式的情况下,采用哪种调度算法将决定整个负载均衡的性能表现,不同的算法适用于不同的应用场合,有时可能需要针对特殊场合,自行设计调度算法。LVS的算法是逐渐丰富起来的,最初LVS只提供4种调度算法,后来发展到以下八种:1.轮叫调度(RoundRobin)调度器通过“轮叫”调度算法将外部请求按顺序轮流分配到集群中的真实服务器上,它均等地对待每一台服务器,而不管服务器上实际的连接数和系统负载。2.加权轮叫(WeightedRoundRobin)调度器通过“加权轮叫”调度算法根据真实服务器的不同处理能力来调度访问请求。这样可以保证处理能力强的服务器能处理更多的访问流量。调度器可以自动询问真实服务器的负载情况,并动态地调整其权值。3.最少链接(LeastConnections)调度器通过“最少连接”调度算法动态地将网络请求调度到已建立的链接数最少的服务器上。如果集群系统的真实服务器具有相近的系统性能,采用“最小连接”调度算法可以较好地均衡负载。4.加权最少链接(WeightedLeastConnections)在集群系统中的服务器性能差异较大的情况下,调度器采用“加权最少链接”调度算法优中科红旗linux技术支持服务中心---西安站培训认证中心化负载均衡性能,具有较高权值的服务器将承受较大比例的活动连接负载。调度器可以自动询问真实服务器的负载情况,并动态地调整其权值。5.基于局部性的最少链接(Locality-BasedLeastConnections)“基于局部性的最少链接”调度算法是针对目标IP地址的负载均衡,目前主要用于Cache集群系统。该算法根据请求的目标IP地址找出该目标IP地址最近使用的服务器,若该服务器是可用的且没有超载,将请求发送到该服务器;若服务器不存在,或者该服务器超载且有服务器处于一半的工作负载,则用“最少链接”的原则选出一个可用的服务器,将请求发送到该服务器。6.带复制的基于局部性最少链接(Locality-BasedLeastConnectionswithReplication)“带复制的基于局部性最少链接”调度算法也是针对目标IP地址的负载均衡,目前主要用于Cache集群系统。它与LBLC算法的不同之处是它要维护从一个目标IP地址到一组服务器的映射,而LBLC算法维护从一个目标IP地址到一台服务器的映射。该算法根据请求的目标IP地址找出该目标IP地址对应的服务器组,按“最小连接”原则从服务器组中选出一台服务器,若服务器没有超载,将请求发送到该服务器;若服务器超载,则按“最小连接”原则从这个集群中选出一台服务器,将该服务器加入到服务器组中,将请求发送到该服务器。同时,当该服务器组有一段时间没有被修改,将最忙的服务器从服务器组中删除,以降低复制的程度。7.目标地址散列(DestinationHashing)“目标地址散列”调度算法根据请求的目标IP地址,作为散列键(HashKey)从静态分配的散列表找出对应的服务器,若该服务器是可用的且未超载,将请求发送到该服务器,否则返回空。8.源地址散列(SourceHashing)“源地址散列”调度算法根据请求的源IP地址,作为散列键(HashKey)从静态分配的散列表找出对应的服务器,若该服务器是可用的且未超载,将请求发送到该服务器,否则返回空。了解这些算法原理能够在特定的应用场合选择最适合的调度算法,从而尽可能地保持RealServer的最佳利用性。当然也可以自行开发算法,不过这已超出本文范围,请参考有关算法原理的资料。4.1、什么是高可用性计算机系统的可用性(availability)是通过系统的可靠性(reliability)和可维护性(maintainability)来度量的。工程上通常用平均无故障时间(MTTF)来度量系统的可靠性,用平均维修时间(MTTR)来度量系统的可维护性。于是可用性被定义为:中科红旗linux技术支持服务中心---西安站(MTTF+MTTR)*100%业界根据可用性把计算机系统分为如下几类:可用比例(PercentAvailability)年停机时间(downtime/year)可用性分类99.53.7天常规系统(Conventional)99.98.8小时可用系统(Available)99.9952.6分钟高可用系统(HighlyAvailable)99.9995.3分钟FaultResilient99.999932秒FaultTolerant为了实现集群系统的高可用性,提高系统的高可性,需要在集群中建立冗余机制。一个功能全面的集群机构如下图所示中科红旗linux技术支持服务中心---西安站培训认证中心负载均衡服务器的高可用性为了屏蔽负载均衡服务器的失效,需要建立一个备份机。主服务器和备份机上都运行HighAvailability监控程序,通过传送诸如“Iamalive”这样的信息来监控对方的运行状况。当备份机不能在一定的时间内收到这样的信息时,它就接管主服务器的服务IP并继续提供服务;当备份管理器又从主管理器收到“Iamalive”这样的信息是,它就释放服务IP地址,这样的主管理器就开开始再次进行集群管理的工作了。为在住服务器失效的情况下系统能正常工作,我们在主、备份机之间实现负载集群系统配置信息的同步与备份,保持二者系统的基本一致。HA的容错备援运作过程自动侦测(Auto-Detect)阶段由主机上的软件通过冗余侦测线,经由复杂的监听程序。逻辑判断,来相互侦测对方运行的情况,所检查的项目有:主机硬件(CPU和周边)主机网络主机操作系统数据库引擎及其它应用程序主机与磁盘阵列连线为确保侦测的正确性,而防止错误的判断,可设定安全侦测时间,包括侦测时间间隔,侦测次数以调整安全系数,并且由主机的冗余通信连线,将所汇集的讯息记录下来,以供维护参考。自动切换(Auto-Switch)阶段某一主机如果确认对方故障,则正常主机除继续进行原来的任务,还将依据各种容错备援模式接管预先设定的备援作业程序,并进行后续的程序及服务。自动恢复(Auto-Recovery)阶段在正常主机代替故障主机工作后,故障主机可离线进行修复工作。在故障主机修复后,透过冗余通讯线与原正常主机连线,自动切换回修复完成的主机上。整个回复过程完成由EDI-HA自动完成,亦可依据预先配置,选择回复动作为半自动或不回复。4.2、HA三种工作方式:(1)、主从方式(非对称方式)工作原理:主机工作,备机处于监控准备状况;当主机宕机时,备机接管主机的一切工作,待主机恢复正常后,按使用者的设定以自动或手动方式将服务切换到主机上运行,数据的一致性通过共享存储系统解决。中科红旗linux技术支持服务中心---西安站培训认证中心(2)、双机双工方式(互备互援)工作原理:两台主机同时运行各