双机热备及高可用性技术

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

双机热备及高可用性技术常见问题与方案选择?双机热备、双机互备与双机双工的区别?心跳故障检测过程说明?常见问题与方案选择对于企业重要的应用系统而言,保证系统能持续、可靠地提供服务是非常重要的,因此就出现了对高可用性的需求和高可用性的解决方案。对于如何选择高可用性的解决方案,特别是关于双机热备的方案选择,常见的有以下问题:Q:已经采取了RAID技术和数据备份技术,还有必要做双机吗?A:参见:双机热备与数据备份及RAID的关系Q:高可用性的解决方案有哪些?A:从广义讲,高可用性包括一切避免系统服务中断的技术。而一般所说的系统高可用性,往往特指服务器的双机或多机热备/容错。Q:什么时候需要双机热备?A:决定是否使用双机热备,正确的方法是要分析一下系统的重要性以及对服务中断的容忍程度,以此决定是否使用双机热备。即,你的用户能容忍多长时间恢复服务,如果服务不能恢复会造成多大的影响。Q:双机热备、双机互备与双机双工三个概念都是什么意思?有什么区别?A:参见:双机热备、双机互备与双机双工的区别Q:双机热备方案与集群的区别?A:从概念上,双机热备是集群(Cluster)的一种。集群一般包括两类,一类是纯粹应用服务器的集群,各个应用服务器都访问统一的数据库服务器,但彼些并不需要共享存储,这种集群是比较简单的,往往采取各个服务器同时提供服务的方式,并且往往同时采用负载均衡技术。另一类是数据库服务器(或其他需要访问存储数据的系统如Exchange、Notes)的双机热备,这种双机热备往往是两台服务器同时使用共享的存储设备,在大多数情况下,均是采取主、备的方式,但也有高端的系统采用并行的方式。有关应用服务的集群,请参见:谈Web服务器和应用服务器的负载均衡Q:数据库服务的高可用性有几种方式?A:最简单的,是采用备机的方式。这其实不属于高可用性的范围,但可以将出现故障后恢复服务的时间控制在几十分钟的量级,而且备机平时还可用作其他用途。这种方式是一种低成本的简单方案,对于不是非常重要的应用比较适合。它不适用于重要应用,但是除非你的应用停上几天都无所谓,否则至少要有这一级别的保护措施。第二种是通过软件方式实现双机热备。即不采用共享的存储设备,而是数据不再单点存储,本机数据可以向多台主机做实时的数据复制。这种方式的优点是节省了昂贵的存储设备投资。缺点是或者会产生数据的差异,或者会影响数据库的速度。比如,如果在服务中断时切换到备机,则可能有少量已经在主机完成的事务在备机上尚未实现。而与备份数据的恢复不同,备机启动后,后续的操作已经进行,因此丢失的事务就很难补上。因此,这种方式适用于对于丢失少量数据不是非常敏感的系统。有关这种方式的深入探讨,可参见:镜像与HA-数据库双机热备的两种方式第三种是基于共享存储设备和双机软件实现双机热备。这是标准的方法,能够在无人值守的情况下提供秒级的切换,并且不会丢失数据。当然,投资会比较高。Q:数据库双机热备时,双机是同时工作吗?A:在一般的中小规模应用中,数据库的双机热备都是主/备方式,主服务器工作时另一台等待,在主服务器出现故障时借助双机软件自动切换至另一台服务器。而有些大规模应用为充分利用设备,可以采用并行服务的方式,两台服务器同时提供服务,如Oracle的RAC(OracleRealApplicationCluster)。Q:如何选择与实施系统高可用性方案?A:参见:如何选择与实施系统高可用性方案?目前,市场上主要的基于Windows和Linux平台的双机软件包括LifeKeeper、RosaHA、Pluswell等。双机热备、双机互备与双机双工的区别双机热备即是目前通常所说的active/standby方式,服务器数据包括数据库数据同时往两台或多台服务器写,或者使用一个共享的存储设备。当active服务器出现故障的时候,通过软件诊测(一般是通过心跳诊断)将standby机器激活,保证应用在短时间内完全恢复正常使用。双机互备,在双机热备的基础上,两个相对独立的应用在两台机器同时运行,但彼此均设为备机,当某一台服务器出现故障时,另一台服务器可以在短时间内将故障服务器的应用接管过来,从而保证了应用的持续性。这种方式实际上是双机热备的一种应用。它避免了两个应用使用四台服务器分别实现双机热备。双机双工,两台或多台服务器均为活动,同时运行相同的应用,保证整体的性能,也实现了负载均衡和互为备份。需要利用磁盘柜存储技术(最好采用san)。对于数据库服务而言,它同时需要数据库软件的支持,是比较复杂的。而WEB服务器或应用服务器就比较简单了,可参见:谈Web服务器和应用服务器的负载均衡谈Web服务器和应用服务器的负载均衡本文对Web服务器和应用服务器的负载均衡进行说明。在负载均衡的思路下,多台服务器为对称方式,每台服务器都具有同等的地位,可以单独对外提供服务而无须其他服务器的辅助。通过负载分担技术,将外部发送来的请求按一定规则分配到对称结构中的某一台服务器上,而接收到请求的服务器都独立回应客户机的请求。提供服务的一组服务器组成了一个应用服务器集群(cluster),并对外提供一个统一的地址。当一个服务请求被发至该集群时,根据一定规则选择一台服务器,并将服务转定向给该服务器承担,即将负载进行均衡分摊。通过应用负载均衡技术,使应用服务超过了一台服务器只能为有限用户提供服务的限制,可以利用多台服务器同时为大量用户提供服务。当某台服务器出现故障时,负载均衡服务器会自动进行检测并停止将服务请求分发至该服务器,而由其他工作正常的服务器继续提供服务,从而保证了服务的可靠性。上述的集群技术一般都用于Web服务器、应用服务器等,而不是用于数据库服务器,即不是用于有共享的存储的服务。数据库服务器将涉及到加锁、回滚等一系列问题,要复杂的多。一般数据库服务器只是使用双机,其中一台工作,另一台备份。数据库的双机并行只用于大型数据库中。可参见:系统高可用性与双机备份常见问题与方案选择负载均衡实现的方法有几种:最简单的是通过DNS,但只能实现简单的轮流分配,也不能处理故障如果是基于MSIIS,Windows2003Server本身就带了负载均衡服务。但这一服务也只是轮流分配。硬件方式,通过交换机的功能或专门的负载均衡设备可以实现。对于流量的分配可以有多种方式,但基本上都是应用无关的,与服务器的实现负载关系也不大。另外,设备的价格较贵(优点是能支持很多台服务器)。这种方式往往适合大流量、简单应用。软件方式,通过一台负载均衡服务器进行,上面安装软件。这种方式比较灵活,成本相对也较低。另外一个很大的优点就是可以根据应用的情况和服务器的情况采取一些策略。关于负载均衡中比较高级的功能是FailOver,即一台出现故障时,在这台服务器上正在进行中的进程也会被其他服务器接过去。相应的成本也很高,一般是要象WebLogic、WebSphere软件的群集版本才支持。心跳故障检测过程说明PlusWellCluster容错软件在集群节点间保持着间歇的通信信号,也叫做心跳信号,是错误检测的一个机制。即通过每一个通信路径,在两个对等系统之间进行周期性的握手,如果连续没有收到的心跳信号到了一定的数目,PlusWellCluster容错软件就把这条路径标示为失效(红色)。如果你只定义了一条通信路径,当PlusWellCluster容错软件把这唯一的一条通信路径标为失效时,PlusWellCluster容错软件便立即开始恢复过程。然而,如果你有冗余路径,PlusWellCluster容错软件能够通过第二条路径确定是系统故障还是只是通信路径有问题。如果PlusWellCluster容错软件开启优先级第二的通信路径并收到了心跳信号,它就不开始failover恢复,只需要把第一条通信路径标成红色(失效),作为信号告诉你需要修复有故障的路径。一般情况下PlusWellCluster容错软件只在下列事件发生时,启动系统恢复功能:所有的通信路径故障。如果所有节点都没能收到心跳信号,把所有通信路径都标为失效,PlusWellCluster容错软件开始安全检查。安全检查失败。当所有通信路径故障时,PlusWellCluster容错软件向整个网络发出安全检查信号。如果信号指出配对系统还“活”着的时候,PlusWellCluster容错软件不启动Failover。如果安全检查没从配对节点返回信号,PlusWellCluster容错软件就开始Failover。因而,为了减少由于潜在的通讯错误所引起的不必要的系统切换,建议您使用不同介质的多条通信路径。双机热备与数据备份的关系一些用户在规划双机热备或双机备份时,会有这样的问题:我已经有了RAID,以及磁带备份,还有必须做双机吗?或者,如果我做了双机备份,还有必要做磁带备份吗?应该说RAID和数据备份都是很重要的。但是,RAID技术只能解决硬盘的问题,备份只能解决系统出现问题后的恢复。而一旦服务器本身出现问题,不论是设备的硬件问题还是软件系统的问题,都会造成服务的中断。因此,RAID及数据备份技术不能解决避免服务中断的问题。对于需要持续可靠地提供应用服务的系统,双机还是非常重要的。只要想一想,如果你的服务器坏了,你要用多少时间将其恢复到能正常工作,你的用户能容忍多长的恢复时间就能理解双机的重要性了。从另外一个方面,RAID以及磁带备份也是非常需要的。对于RAID而言,可以以很低的成本大大提高系统的可靠性,而且其复杂程度远远低于双机。因为毕竟硬盘是系统中机械操作最频繁、易损率最高的部件,如果采用RAID,就可以使出现故障的系统很容易修复,也减少服务器停机进行切换的次数。数据备份更是必不可少的措施。因为不论RAID还是双机,都是一种实时的备份。任何软件错误、病毒影响、误操作等等,都会同步地在多份数据中发生影响。因此,一定要进行数据的备份(不论采取什么介质,都建议用户至少要有一份脱机的备份),以便能在数据损坏、丢失时进行恢复。Oracle,HA在Unix上双机环境的安装指南将我们最近在6000上安装ORACLE和HA的东西整理了一下,希望对大家有帮助。一、环境1、硬件环境IBMM852台IBM7133-D40SSA磁盘阵列2、软件环境AIX4.3.3HACMP4.1.1.0ORACLE9.2.0.13、软件安装规划:软件类别软件名称软件状态备注操作系统AIX4.3.3已安装操作系统补丁AIXPATCH已安装补丁10,以及安装ORACLE需要的Iy30886、Iy30927、Iy31003补丁。热备软件HACMP4.4.1已安装数据库ORACLE9.2已安装4、磁盘规划:物理硬盘pdisk0pdisk1以raid1方式做成hdisk2,逻辑硬盘hdisk2放在vg01卷组上,正常工作时为M851服务;物理硬盘pdisk2pdisk3pdisk4pdisk5pdisk6pdisk7以raid1+0方式做成hdisk3,逻辑硬盘hdisk3放在vg02卷组上,正常工作时为M852服务;物理硬盘pdisk8作HOTSPARES;M851上的rootvg使用逻辑硬盘hdisk0与hdisk1做成镜像;M852上的rootvg使用逻辑硬盘hdisk0与hdisk1做成镜像;5、IP地址规划:主机名启动地址服务地址等待地址M851202.168.0.11202.168.0.1172.17.0.1M852202.168.0.12202.168.0.2172.17.0.2二、操作系统安装(1)安装基本操作系统1.将AIX安装盘第一张放入光驱2.打开计算机或在开机状态下重新启动(#reboot)3.当系统自检keyboard通过后,按F5(从光驱引导)4.系统提示:PleasedefinethesystemConsole后,按1(确认终端)5.系统提示:Typea1andpressEntertousethisterminalasthesystemconsole后按1(选择英语为安装语言)6.进入安装程序,按系统提示操作:选择2Chang/showInstallationSettingsa

1 / 48
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功