双机热备方案书双机容错系统概述信息已成为企业日常活动中十分重要的一个组成部分,系统管理员必须不断的监视信息系统,以提供不间断、可靠而又实时的服务。Client/Server体系已成为当前信息产业发展的一个主要趋势,而多服务器结构使系统的性能及可靠性得到进一步的提高,功能也更强大,从而大大的提高了效率。可以说,在当今的商业活动中,信息系统的可用性已成为衡量其资源利用率的最重要的尺度:性能强:作业可以运行在不同的服务器上,整个系统的性能会大大提高;可用性高:在群集系统中的某个主机宕机不对用户构成影响;节省投资:NT平台的系统投资远远低于其他系统平台的投资;性能、价格和可靠性使企业电脑化过程中人们普遍关心的三大要素。目前,国内许多行业和企业在电脑化的过程中,都选用了价格低廉而性能高效的开放系统平台。这种系统平台给用户带来性能价格比的优势的同时,由于系统的复杂性和开放性以及应用环境的多样化,也给应用系统的运行带来了许多不确定因素。这些因素对于可靠性不很高的计算机应用系统来说,犹如雪上加霜,严重威胁着应用系统稳定有效的运行,有时甚至会引发系统的瘫痪。在一般情况下,当系统不能正常运行时,我们需要用人工的方法进行故障的认定、分析、恢复及测试。这些都需要花费很长的时间。在这段时间内,系统必须停顿下来以等待恢复,从而给企业带来难以估计的经济损失。双机容错是计算机应用系统稳定、可靠、有效、持续运行的重要保证。我公司开发的HA系列软件是一个高可靠性的容错系统,它通过系统冗余的方法解决计算机应用系统的可靠性问题,并具有安装维护简单、稳定可靠、监测直观等优点。当一台主机出现故障,该软件可及时启动另一台主机接替原主机任务,保证了用户数据的可靠性和系统的持续运行。双机容错基本架构双机容错系统设计原则:双机容错系统设计目标是构造一个功能齐全、运行高效、使用灵活、维护方便、易于扩展、安全可靠的系统,为了达到这个目标,必须遵守以下几个实际原则。高可靠性:本方案充分考虑服务器系统的高可靠性,每一业务服务器采用双机热备,每一服务器采用双网卡,数据存储系统采用外挂式磁盘阵列柜。可扩充及升级性:本方案的设计充分考虑服务器系统的可扩充及升级性。先进性:在本方案中采用的各种设备符合当代信息技术发展形式,既有先进技术又发展成熟,并且是各个领域公认的领先产品。开放性:各种设计规范、技术指标及产品均符合国际和工业标准,并可提供多厂家产品的支持能力。经济性及投资保护:性能价格比是我们充分考虑的因素,而该系统又能与不同厂商的产品兼容可有效地保护投资。双机容错的目的在于保证数据永不丢失和系统永不停机,采用智能型磁盘阵列柜可保证数据永不丢失,采用双机容错软件可保证系统永不停机。它的基本架构共分两种模式:双机互备援(DualActive)模式和双机热备份(HotStandby)模式。1.双机互备援(DualActive)基本简介所谓双机热备援就是两台主机均为工作机,在正常情况下,两台工作机均为信息系统提供支持,并互相监视对方的运行情况。当一台主机出现异常时,不能支持信息系统正常运营,另一主机则主动接管(TakeOver)异常机的工作,继续主持信息的运营,从而保证信息系统能够不间断的运行,而达到不停机的功能(Non-Stop),但正常运行主机的负载(Loading)会有所增加。此时必须尽快将异常机修复以缩短正常机所接管的工作切换回忆备修复的异常机。切换时机(TakeOver)——系统软件或应用软件造成服务器宕机——服务器没有宕机,但系统软件或应用软件工作不正常——SCSI卡损坏,造成服务器与磁盘阵列无法存取数据——服务器内硬件损坏,造成服务器宕机——服务器不正常关机2.双机热备份(HotStandby)基本简介所谓双机热备份就是一台主机为工作机(PrimaryServer),另一台主机为备份机(StandyServer),在系统正常情况下,工作机为信息系统提供支持,备份机监视工作机的运行情况(工作机也同时监视备份机是否正常,有时备份机因某种原因出现异常,工作机科尽早同志系统管理员解决,确保下一次切换的可靠性)。当工作机出现异常,不能支持信息系统运营时,备份机主动接管(TakeOver)工作机的工作,继续支持信息的运营,从而保证信息系统能够不间断的运行(Non-Stop)。宕工作机经过修复正常后,系统管理员通过管理命令或经由以人工或自动的方式将备份机的工作切换回工作机;也可以激活监视程序,监视备份机的运行情况,此时,原来的备份机就成了工作机,而原来的工作机就成了备份机。切换时机(TakeOver)——系统软件或应用软件造成服务器宕机——服务器没有宕机,但系统软件或应用软件工作不正常——SCSI卡损坏,造成服务器与磁盘阵列无法存取数据——服务器内硬件损坏,造成服务器宕机双机(多机)容错系统又可以分为共享介质下的双机容错和非共享介质下的双机容错,共享介质下的容错系统支持磁盘阵列设备,共享的磁盘阵列中被保护的数据无需要同步,非共享介质下的双机容错使用服务器磁盘同步镜像,共享介质的双机容错相对于非共享介质来说,数据同步基本不占用系统资源,切换时间短,数据传输速度快(相对于单机还快),但对于系统硬件的要求高,并需要额外增加磁盘阵列设备。建联双机容错系统是非常容易安装和管理的低成本高可用性的SCSI解决方案。该方案是设计用来在两节点环境下为服务器提供失效自动切换功能,兼有低成本、易使用、简单管理和方便配置的该方案将会给IT经理们提供一套实际可行的解决方案,为现有NT、2000、LINUX等服务器环境增加HA特性。特性:1、双向失效切换能力实现了低成本的ACTIVE/ACTIVE(主/主)配置功能2、实现了设备驱动级别的失效切换,永远保持数据同步,不会造成单点失效3、提供拖放式的群集操作4、支持TCP/IP协议和所有的工业标准网卡作为通讯和镜像链路5、具有Windows浏览器感官的用户界面6、支持远程安装和管理7、支持多种配置,对应于建联产品支持的双控制器HA功能数据传输率将分别达到80MB/s和160MB/s。优点低成本使用ACTIVE/ACTIVE配置就意味着您无需购买额外的服务器来作备机。该方案如此低的成本(相对于宕机时的高损失)使您可以在它第一次实现成功失效切换时就收回所有投资。SCSI存储使用优秀的磁盘阵列,支持多达5TB的大数据量冗余存储,SCSI的结构使系统在数据传输速度和扩展性方面性能卓越。可以直接连入SAN。稳定的性能该方案的基于磁盘块的镜像技术确保了所有关键的网络资源的高可用性,这些资源包括数据、应用、共享、IP地址和打印机,从而不会造成单点失效。易于使用该方案的设计充分考虑到最小化IT经理们的管理负担。它可通过桌面系统远程安装;创建一个群集只是一个简单的拖放操作;群集的状态很容易确定;标准版(而不是群集版或企业版)的应用程序就可以完全实现自动失效切换。多种配置实现既可以实现基于SAN的全冗余方案,也可以实现低成本的JBOD直连方案。建联双机容错解决方案是针对企事业单位关键性业务实时服务器与数据保护解决方案。双机容错技术是解决由软件(或硬件)引起可靠性降低的有效措施。双机容错技术是用网络将两个或者两个以上的服务器连接起来,当一台服务器停机时,另一台服务器在保证自身业务的基础上,将停机服务器的业务接管。建联双机容错解决方案应用于关键性业务的服务器系统,保证数据的高可用性,实现业务每日24小时,每年365天的系统正常运转,解决了因任何硬件设备故障、软件故障或误操作造成的网络停滞或瘫痪,从而避免因此而给关键业务带来的经济效益和社会效益损失。由此可见,安全的系统方案应有双机热备份方式。目前最优的双机方案是RAIDSYS磁盘阵列+美国ROSE公司双机热备RoseHA软件,它是共享介质的支持双机互备援(DualActive)模式和双机热备份(HotStandby)两种模式,有了它可以在不到一分钟内将一个服务器的任务切换到另一台服务器,使服务永不停止,使企业永立不败之地。双机容错系统设计拓扑图如下:RoseHA软件简介RoseHA双机容错系统ROSEHA是一套提供防止业务主机因不可避免的意外性或计划性宕机问题的高可用性软件。ROSEHA软件同时安装在两台主机上,用于监视系统的状态,协调两台主机的工作,维护系统的可用性。它能侦测应用级系统软件、硬件发生的故障,及时地进行错误隔绝、恢复,以最低成本提供用户几乎不停顿的计算机作业环境。ROSEHA以其稳定、可靠,在windowsNT、windows2000服务器的容错软件中占有绝对的优势,同时也成为国内绝大多数的磁盘阵列柜厂家的OEM容错软件。功能特点工作原理优点系统要求功能特点工作模式主从方式(Active/Standby)主机工作,从机处于监控准备状态。当主机宕机时,从机接管从机的工作,待主机恢复正常后,按使用者的预定以自动或手动的方式将服务切换到主机上运行。双工方式(Active/Active)两台主机同时运行各自的服务工作,且相互监测对方的情况。当一台主机宕机时,另外一台主机立即接管它的工作,保证工作不间断。特点当一台活动服务器宕机时,其IP地址、服务器名称及运行的作业会自动转移至另一台服务器,客户端软件不需要重新设定,只要重新连结至原来的IP地址及服务器名称即可继续作业;两台服务器的信息交换可通过:RS232、TCP/IPROSEHA采取高可靠的错误检测和故障恢复机制减少系统宕机,停机时间并防范错误,提供故障警告;ROSEHA可设定故障排除后自动或手动回复(switchback);ROSEHA安装时不需要修改操作系统的核心、更改应用软件,也无需特殊的硬件;ROSEHA提供基于GUI的监控中心,管理员能查看ROSEHA的状态、检查错误信息和警告、修改系统参数及从远程工作站管理ROSEHA系统;与数据库无关,可以支持各种数据库,包括ORACLE、Sybase、Informix等PrivateNet私用网络两台服务器通过私用网络心跳(HeartBeat)信号,使两台服务器能够相互了解对方的运行情况。为了避免不必要的失效切换,最好建立两条独立的物理路径作为通讯路径。RS-232SocketPrivateNet:配置服务器空闲的串口作为一条通讯路径。TCP/IPSocketPrivateNet:两台服务器的网卡用反线(backtoback)直接或通过LAN建立一条通讯路径。如果所有的私用网均失效,服务器仍然可以用公用侦测对方服务器的可用性。如果对方服务器仍然可用,不触发接管动作;如果对方服务器不可用,立即接管动作。PublicNet公用网络客户端通过此网络与服务器通信,当两台服务器互为备份。对于不同的服务,可以用不同的公用网连接到两台服务器。ROSEHA支持TCP/IP协议,可以在EthernetFastEthernet、FDDI和ATM网上运行。管理工具友好、直观、易于操作的GUI界面有关ROSEHA的配置都可以在GUI中完成,支持动态配置和实时同步网卡的状态,磁盘的状态都可在GUI中显示出来用户可通过第三方Web浏览器进行远程管理监控的对象资源VolumeIP地址计算机别名共享文件NT服务用户自定义工作原理系统启动后,ROSEHA首先启动HAManager管理程序,根据高可靠性系统的配置结构初始化,然后启动必要的服务和代理程序来监控和管理系统服务。HA代理程序用来监控、监测、诊断和管理硬件软件服务。代理程序检测到该服务器处于活动状态,HAManager就会认为该服务处于活动状态,HAManager会定时通知后备服务器上的HAManager,其每项服务处于正常。当代理程序检测到某个服务发生故障时,它就通知HAManager管理程序。HA软件首先会重新启动该服务多次(可由用户设定)。如果启动不能成功,该服务会由HA转移到后备服务器上。HA周期性地检测系统硬件的状态,如果硬件发生故障,HA会把与该硬件相关的服务转移到后备服务器上。当某项服务发生转移时,HA首先在运行服务器上停止该服务,之