1容错、备份概述.............................................................................................................................................................12.ESCORT系列磁盘阵列系统......................................................................................................................................33.双机容错软件:NCRLIFEKEEPER.......................................................................................................................54.网络备份方案..............................................................................................................................................................95.部分成功案例............................................................................................................................................................12★1.容错、备份概述近年来,计算机和网络技术的普及大大提高了企业的工作效率,但同时也给我们的工作提出了更高的要求,无论是主管领导还是网络系统管理员都要面对一些非常严峻的问题,其中最值得我们关注的就是系统失效问题和数据安全。造成计算机系统失效的因素归纳起来可分为两类:一类是自然灾害(包括人为破坏);另一类是系统缺陷,即计算机系统自身的不可靠因素,如:误操作、软件缺陷、硬件老化、病毒等。在计算机系统中最宝贵的财富是系统中的业务数据。由于企业越来越依赖于计算机处理业务,系统失效将会是一场大灾难。如果出现故障,企业将无法正常经营,甚至陷入瘫痪,这时,企业最关注的问题就在于如何尽快恢复计算机系统,使其能够正常运行。一般地,我们将故障分为物理故障和逻辑故障。物理故障是指造成系统无法正常运行的软硬件损坏。这些故障通常会导致逻辑故障,如硬盘故障可能会导致数据丢失,网络故障可能会破坏数据一致性等。常见的物理故障包括:操作系统故障:非法指令造成的系统崩溃,系统文件被破坏导致无法启动操作系统等。应用程序损坏:缺少文件或程序本身不完善导致程序无法运行。整机损坏:由掉电、火灾、地震等造成设备无法运行。硬盘故障:硬盘系精密设备,安装时的无意磕碰、掉电、电流突然波动等原因都有可能造成硬盘损坏。网络设备故障:传输距离过长、设备添加与移动、传输介质的质量问题和老化都有可能造成网络故障。逻辑故障逻辑故障包括两种,第一种是系统虽然能够正常运行,但实际已经有部分损坏,如数据文件丢失、程序丢失等。第二种是系统本身虽然完好无损,可是系统中的2部分数据是错误的,这类故障的隐蔽性很强,通常难以发现,更难以修复。常见的几种逻辑故障包括:数据不完整:系统缺少完成业务所必须的数据。数据不一致:系统数据是完全的,但逻辑关系不正确。数据错误:系统数据是完全的,也符合逻辑关系,但数据是错误的,与实际不符。逻辑故障隐蔽性强,往往带有巨大的破坏性,是造成损失的主要原因。根据有关统计,恢复10MB(约2500页纸)的数据最少也要花费近20天时间,成本在万元以上。目前服务器硬盘容量平均为4GB,我们不难算出恢复服务器数据的开支十分惊人。系统的正常运转和数据的安全对我们如此重要,而不安全因素又不能回避。那么怎样才能提高系统的可用性?以及在遇到灾难时又如何尽快恢复系统,将损失减少到最小?我们的答案是容错和备份,对服务器进行容错,对整个网络系统采取完善的备份措施。常言道有备无患,只有这样我们的网络才会发挥它的效能,而不是包袱。企业拥有好的备份系统和备份方案,可以将灾难的损失减小到最低程度。一般地,在硬件一级有磁盘镜像、磁盘阵列、双机容错等备份方案;在软件一级有热修复、数据拷贝等措施。磁盘镜像/硬盘双工:可以防止单个硬盘的物理故障,但无法防止逻辑故障,而且当一个硬盘出现故障时,系统无法工作。对普通网络应用这是最基本的容错手段,WindowsNT和Netware均支持软件硬盘镜像,但运行时系统资源被大量占用,且不稳定,系统盘的镜像往往不能正常启动。磁盘阵列:磁盘阵列(RAID)是一项非常优秀的容错技术,以Escort系列为例,它支持RAID0至RAID5,可以防止单个硬盘的物理故障。不但满足了容错的要求,容量可以很大且性能得以极大提升。磁盘阵列以SCSI与服务器相连,支持各种操作系统,磁盘阵列的应用解决了磁盘上的数据安全问题,对于系统级物理故障可以采取双机容错的方式。双机容错:可以防止单台计算机的物理故障,当一台计算机出现故障时,系统仍然可以工作。数据不会丢失,备份服务器可以在很短时间内接替工作。热修复:可以防止硬盘的区域性损坏,但无法防止逻辑故障,当出现故障时,系统予以修复后,可以继续工作。数据拷贝:可以防止系统的物理故障,在一定程度上防止逻辑故障。由上述可知,前四种措施可以防止一般的物理故障,在出现系统损坏(整个系统遭受灾难性打击)和逻辑故障的情况下,则需要采取第五种措施。在有严格的备份方案和计划的前提下,数据备份能够在一定程度上防止逻辑故障。然而,上述方案中没有一种措施能够使系统从大的灾难中迅速恢复出来。当灾难发生时,3即使所有5种措施都采用了,我们仍然需要按下列步骤进行恢复。1恢复硬件;2重新装入操作系统;3设置操作系统(驱动程序设置、系统设置、用户设置等);4重新装入应用程序,进行系统设置;5用最新的备份恢复系统数据。6即使一切顺利,这一过程也至少需要1~3天时间。这么漫长的恢复时间几乎是不可忍受的,也会严重损害企业声誉。由此可见:完善的安全的系统数据方案应有双机容错和严格的备份和灾难恢复计划。目前最优的双机方案是Escort磁盘阵列+美国NCR公司的LifekeeperForNT软件,有了它可以在不到一分钟内将一个服务器的任务切换到另一台服务器,使服务永不停止;最优的网络备份管理方案是美国SeagateSoftWare的BackupExec软件+磁带机,它提供网络数据系统级的完整备份管理和智能灾难恢复。有了它可以在不到一个小时内恢复系统,使企业永立不败之地。2.Escort系列磁盘阵列系统磁盘阵列子系统是针对任务关键性应用场合而设计,可适应多种容量配置的要求,具有极高的性能、高可用性、兼容性及稳定性。高可靠性ESCORT磁盘阵列系统同时支持0,1,3,5的RAID,通过背光前置式LCD液晶面板监看磁盘阵列的运行状态,并可使用面板上的按键来设定及建立RAID系统,并可重新安排配置已损坏的磁区,在终端操作模式下ESCORT磁盘阵列系统提供了全屏幕菜单操作界面,。当发生故障时能在网络上以e-mail、Fax或寻呼方式通知系统管理员迅速处理。ESCORT磁盘阵列系统提供环境监测电路(EMCU),当电源、硬盘损坏及温度过高时,会发出声音警告。ESCORT磁盘阵列系统的电源采用平衡式热拔插双电源供电,且每一组机架均具有独立的电源供电系统和独立散热风扇,并可以提供再线抽换。选用BatteryBack-up模块可保护高速缓存内的资料在停电时不会丢失,并在电源恢复后将缓存内的高速缓存资料写回硬盘组(最长可维持72小时)。并跟椐需要可配置为双冗余热拔插阵列控制器.可扩充性4ESCORTRAID系统支持UltraWideSCSI通道并可扩充到LVDUltra2WideSCSI。ESCORT磁盘阵列系统可同时连接多部主机,使主机间能共享磁盘阵列系统。并可根据未来需求扩充至75个硬盘抽屉。ESCORT磁盘阵列系统同时提供多种扩充组件,可加装UltraWideForSingleEnded(单端卡)及UltraWideForDifferential(差分卡)使整体连接更具弹性。高性能ESCORT磁盘阵列系统使用32位RAID处理器,8-128MB高速缓存(可选择使用DRAM或EDORAM),UltraWideSCSI界面传输率可达40MB/Sec,Ultra2WideSCSI界面传输率可达80MB/Sec,DifferentialSCSI扩充模块使ESCORT磁盘阵列系统可连接主机的数据电缆长达25米。可大幅度提高系统DiskI/O的处理速度,特别适合大型资料库、声音、影象及图形处理。主要产品系列有DA-300、DA-6000RC、DA-3500、DA-6015、DA-6030DA-3500(DA-3500V)磁盘阵列系统32位高速RAID处理器提供UltraWideSCSI通道并可扩充到LVDUltra2WideSCSI通道提供带有镀金接口的热插拔控制器8-128MB读写缓存(DRAM或EDORAM)备用硬盘并自动重建支持RAID0,1,3,5或0+1硬盘出错蜂鸣,电源损坏报警提供双冗余电源(2X300W)同时工作提供8个热插拔硬盘抽屉和在线重建智能SCA-II背板设计(DA-3500V)提供热插拔硬盘驱动器,电源及冷却风扇风扇损坏/过热报警功能(LED显示灯改变颜色及蜂鸣)支持本地备用硬盘和全局备用硬盘支持损坏扇区重新分配5提供WindowsGUI-BasedRAID用于远程管理,监视器状态信息及错误信息通知(Fax&Pager)支持双工冗余控制器(选件)3.双机容错软件:NCRLifekeeper双机容错软件针对不同的操作系统有不同软件和版本,如Novell的FSTIII、Standby,WindowsNT中有Ncr的LifekeeperforNT、Neocluster、WindowsNTmscluster,Unix环境下的容错软件有DHBS、GDS、东方龙马等等。目前操作系统中一般用Netware作文件服务器,由于SFTIII对双机硬件要求严格,运行不是很稳定,且实施起来有一定难度。对Netware服务器可以采用磁盘阵列作数据容错,备份服务器的NDS和文件卷,对服务器作冷备份。WindowsNT越来越多地用于企业级的关键事务,在所有基于NT的双机热备方案中美国NCR公司的Lifekeeper技术最成熟,应用最广尤其在我国的证券营业部。我公司是西南地区唯一取得了Lifekeeper认证的公司,能为客户提供最优质的服务和技术支持。UNIX下的双机热备与NT类似,都是基于磁盘阵列的双机系统。(一)NCRLifekeeper原理1.NCRLifekeeper定义、特性、保护资源NCRLifekeeperFORWINDOWSNT提供了一个完全容错的软件解决方案,并提供数据、应用程序和通信资源的高度可用性。你可以集合使用二到十六个NT结点工访问特定地点的配置数据。然后,Lifekeeper会自动地提供错误检测和多层现场恢复。在出现故障的情况下,Lifekeeper会将保护资源自动转换到一个根据优先权而设定的系统。在实际进行切换用户时,会经历一个十分短暂的休眠,但是,当系统完成了切换操作后,Lifekeeper会在所选择的系统上自动地恢复操作。可以被Lifekeeper保护起来的资源是:卷(VOLUME)IP地址共享文件LAN(局域网)管理器服务器名称应用程序定义的用户6MSCS应用程序2.故障检测HEARTBEATLifekeeper在集群节点间保持着间歇的通信信号,也叫做心跳信号,是错误检测的一个机制,即