磁盘阵列侦测链路—RS-232IBM服务器双机热备份方案1.1双机热备份方案描述现代IT技术认为,一个成功的系统中,数据及作业的重要性已远超过硬件设备本身,在一套完善的系统中对数据的安全及保障有着极高的要求。双机容错热备系统是由提出的全套集群解决方案,结合IBM服务器产品的安全可靠性和集群技术的优点,为用户提供一个完善的系统。1.1.1双机热备份方案的原理两台服务器通过磁盘阵列或纯软件模式,连接成为互为备份的双机系统,当主服务器停机后,备份服务器能继续工作,防止用户的工作被中断。1.1.2双机热备份方案的适用范围用户对系统的连续工作性和实时性要求较高,系统停机对系统的影响很大,造成很大的损失。1.1.3双机热备份的方式及优缺点磁盘阵列备份方式——两台服务器通过磁盘阵列连接起来,形成备份系统,此方法硬件投资较大,价格较贵,但系统易于安装,确保了系统的稳定性和高可用性。1.2双机热备份方案所谓双机热备份就是一台主机为工作机(PrimaryServer),另一台主机为备份机(StandbyServer),在系统正常情况下,工作机为信息系统提供支持,备份机监视工作机的运行情况(工作机也同时监视备份机是否正常,有时备份机因某种原因出现异常,工作机可尽早通知系统管理工作人员解决,确保下一次切换的可靠性)。当工作机出现异常,不能支持信息系统运营时,备份机主动接管(TakeOver)工作机的工作,继续支持信息的运营,从而保证信息系统能够不间断地运行(Non-Stop)。当工作机经过维修恢复正常后,它会将其先前的工作自动抓回,恢复以前正常时的工作状态。双机热备结构示意图:ActiveServer工作服务器BackupServer备份服务器Ethernet以太网SASSASEthernet以太网硬件连接参见结构示意图,两台服务器通过SCSI卡接口及SCSI线与磁盘阵列连接,进行数据传输;两台服务器通过RS-232接口及RS-232线连接,用于系统进行“心跳侦测”;两台服务器通过网卡及网线与网络连接,进行数据传输与故障服务器的切换;服务器本地硬盘上安装相应的操作系统及相应的应用,用户数据放在共享磁盘阵列上。整个系统由两台IBMSystemx服务器x3650M3和IBMDS3500磁盘阵列构成双机热备份模式,双台服务器互为备份,当一台服务器出现问题停机时,另一台服务器能实时接管中断的工作,保证业务系统的正常运行。IBMDS3500磁盘柜磁盘具有热插拔功能,具可以灵活组成RAID模式,当一块硬盘损坏,数据可以恢复,保证数据不丢失。对于本系统,ActiveServer作为工作服务器,BackupServer作为备份服务器。在正常情况下,ActiveServer为网络信息系统提供支持,负责整个网络的正常运行,同时,通过侦测链路RS-232监视BackupServer的运行情况,但发现BackupServer出现异常时,将及时通知管理员解决,确保切换的可靠性。BackupServer通过侦测链路RS-232监视ActiveServer的运行情况,当侦测ActiveServer出现异常,不能支持信息系统运营时,通过切换,将主动接管ActiveServer的工作,继续支持信息的运营,从而保证信息系统能够不间断的运行。当出现异常的ActiveServer经过维修恢复正常后,它会自动抓回先前的工作,恢复以前正常时的工作状态。由于大量的数据存放在磁盘阵列上,所以整个切换过程不回牵涉这些数据,并且不需要占用有限的网络资源,提高了切换的速度,更进一步的提高了数据的安全性。磁盘阵列用于大量数据存储,包括数据库、文件、共享资源信息等,并对存储的数据提供了安全。在硬件上,磁盘阵列采用了设备冗余设计,提供热插拔技术,可在线更换磁盘、电源、风扇、磁盘等;在软件上,磁盘阵列采用RAID0,1,3,5,0+1校验算法,根据实际情况可选用相应的算法,对数据进行相应的保护。当一块磁盘出现故障后,磁盘阵列将提出警报,只需要更换故障磁盘,磁盘阵列将通过RAID算法将数据自Client客户端Client客户端动恢复,这些是由磁盘阵列自动完成,不需要服务器的干预,也不会影响系统的数据读写。1.3IBMSystem服务器双机容错系统解决方案由于采用了双机容错的集群结构,系统具有极高的可靠性。两台服务器可以作为一个整体对网络提供服务,且相互间互为监控。集群具有一定的负载平衡功能,可将一个任务的多个进程分摊到两台服务上运行,提高系统的整体性能。当一台服务器发生故障时,其上所运行的进程及服务可以自动地由另一台服务器接管,保证网络用户的工作不受影响。同时,如果系统采用RAID技术对数据进行保护,可确保重要数据不因系统故障而造成损失。特点:高可靠性支持冗余磁盘阵列冗余电源和风扇设计所有部件均支持热插拔主机可各自运行自己的应用,互为备份,共享磁盘数据高可用性可扩展性强/性能价格比高/高容错性,系统安全高效双机软件配置信息概述企业和事业单位的运转越来越依赖于计算机系统,如果一旦这个数据处理中心无法正常运转,就会造成业务停顿,导致不可挽回的损失。而现有的双机热备份设备存在价格高昂,成本较高的情况,往往使用户望而却步。而用户寻求低成本的纯软件方案又往往因产品不容易维护,纯软件双机方案不稳定等因素,往往给用户造成不必要的使用麻烦。有时因护理不当造成数据损坏,发生更大的事故。陕西英联信息凭借其丰富的研发经验,为您提供高可用性系列产品和优质的服务,推出了陕西英联信息双机容错打包解决方案,目的在于保证数据永不丢失和系统永不停顿,同时为用户节省大量的开支。陕西英联信息容错系统结合了磁盘阵列的安全可靠性与双机容错技术高可用性的优点,相互配合二者的优势。陕西英联信息针对共享磁盘阵列的双机容错技术做了许多优化和改进,满足了双机硬件的连接要求,根据应用环境的实际情况,适用于Windows2000平台以上,开放源代码Linux平台,SCOUNIX平台上的多种双机热备软件。二、需求分析企业关键业务一旦中断,企业的日常运作将受到致命的影响,那么就要求我们的系统在最短的时间内将系统恢复到正常状态。所以我们要求双机软件能够实现以下几点:1、异常终端检测2、网络故障,系统故障,应用程序故障等全系统检测3、当高可用系统中的某个节点故障,无须人工干预自动切换,保障系统运行4、速度快(快速恢复)贵单位业务平台,是以WindwosServer系统平台为基础,以SQLServer核心的数据库应用系统,该系统对稳定性要求很高、系统实时性和可用性提出要有连续运行的能力,系统一旦出现故障,其损失是惨重的。因此,建议用户采用高可用技术,高可用系统在各个节点间保持的间歇的通讯,使系统中的独立节点组合成整体的一套系统,并使用ROSE双机软件软件可以保障该系统中的某一节点故障都可被ROSE双机软件软件所监控,如主服务器应用程序、网卡、操作系统等,均纳入公共的安全体系,确保7*24的不停机。比较典型的危及系统安全应用和系统错误主要有:(1)进程错误,比如用户应用与文件数据库的连接异常中断或用户进程发生错误。(2)文件系统故障,由于异常操作或其它原因造成文件系统内部部分信息丢失或不一致。(3)操作系统故障,操作系统本身的系统调用问题及底层的应用驱动在安装或更新出现冲突;(4)网络线缆故障。(5)介质问题,网络连接或物理硬盘也可能会出现问题。方案拓扑一:带共享存储双机方案双机共享阵列柜PC主应用服务器LANPCPCPC备用应用服务器冗余心跳线带共享存储的双机方案双机共享阵列柜PC主应用服务器LANPCPCPC备用应用服务器冗余心跳线带共享存储的双机方案方案拓扑二:纯软双机方案PC主应用服务器LANPCPCPC备用应用服务器HA+Mirror纯软方式的双机方案冗余心跳线PC主应用服务器LANPCPCPC备用应用服务器HA+Mirror纯软方式的双机方案冗余心跳线三、ROSE双机软件双机软件(1)本双机热备方案适用系统如下:Windows2000/2003,RedHatLinux(2)适用的数据库系统:MSSQL2000,Oracle8i/9i/10G,Sybase,MySQL,PostSQL,DB2等数据库(3)适用第三方应用程序:为第三方应用程序提供监控程序,同时可为用户特有程序提供编程结口。(4)双机热备形式:Active/Standby,Active/ActiveActive/Standby方式是传统的双机热备份解决方案,主机运行时,备机处于备用状态,当主机故障时,备机马上启动将服务接替。因备机平台没有其它的访问量,所以故障切换后用户访问速度不会有大的影响,此种容错方式主要适用于用户只有一种应用,主备机设备配置不太一样,并且用户访问量大的情况。Active/Active这种方式的主备机平时各自有一种应用运行,当系统中的任何一台主机出现故障,应用都会集中到一台服务器上运行,此时这台备用服务器不仅要承担以前的程序运行而且还要运行宕机服务器上的应用程序,所以此时备机的负担会加重。这种方式的故障切换往往会造成备机访问量增大,系统运行变慢。此方式主要适合用户有不只一种应用,用户主备机配置一样且数据访问量不大的情况。(5)适用服务器:此双机方案适用的服务器:IBM,HP,DELL,以及所有Intel架构的服务器。(6)双机热备拓扑图:Server1是主“激活”节点,Server2是次“备用”节点。如果Server1发生故障了,它的被保护资源由Server2节点来恢复。当节点Server1恢复后,资源可以被Server1重新获得四、ROSE双机软件技术原理随着信息化建设的不断推进,各个企事业单位的活动越来越多的依赖于其关键的业务信息系统,这些业务信息系统对整个机构的运营和发展起着至关重要的作用,一旦发生宕机故障或应用停机,将给机构带来巨大的经济损失。可见,对那些需要保障信息安全和提供不间断的信息服务的机构来说,业务系统的容错性和不间断性显得尤为重要。如何保障各种关键应用持续运营,达到永续经营的良性循环,已成为当今企事业单位和IT领域急需解决的关键问题。荟萃NEC技术精华的EXPRESSCLUSTER是一款专业的高可用集群软件产品(而不仅仅是一款双机热备软件),它可为您提供Windows和Linux平台上完整的高可用性解决方案。当集群中的某个节点由于软件或硬件原因发生故障时,集群系统可以把IP、客户业务等资源切换到其他健康的节点上,使整个系统能连续不间断的对外提供服务,从而为机构24x365的关键业务提供了可靠的保障,达到了系统99.999%的高可用性和可靠性。功能特点高可靠性.高可用性在要求持续运行的关键业务系统中,由于服务器宕机等故障所造成的业务停止将带来无法估量的损失。在由NEC的容错软件EXPRESSCLUSTER构建的集群系统中,即使某台服务器发生故障,用户业务和数据也可迅速切换到健康的服务器上,从而保证了整个系统对外服务的正常,为企业24小时x365天的关键业务应用提供了强大的保障。APPA处于Volumew中,并且在Server1上激活。APPB存储在VolumeM上,并且在Server2上激活。在这一配置中,Server1应该是VolumeW:资源的主节点,Server2应该是VolumeM:资源的主节点。当Server2失败时,PlusWellCluster容错软件应该将VolumeM:转换到Server1上去。如果系统资源是足够的,这一转换不会影响到已经在Server1上运行的APPA,转换只是简单地将Server2上的被保护应用程序(APPB)加到Server1的运行负载上多种心跳监测方式支持网卡(私网/公网)、COM口、磁盘心跳等多种心跳方式,多重保障心跳检测途径,进一步提高了系统的可靠性。EXPRESSCLUSTER独特的利用内核空间进行心跳探测的技术,可以保证心跳探测不受系统负荷影响,从而避免在高负荷状态下心跳超时所导致的误切换。支持共享集群构成方式共享磁盘型+数据通过外挂的磁盘阵列柜共享在服务器之间继承+适用于大规模的集群系统