容灾项目方案设计目录容灾技术规范作为风险防范系统,灾备系统建设本身在总体规划、方案选择和投产实施后的管理运行,以及真正面对灾难时的切换操作等方面也存在着潜在的风险。计算机信息系统实现数据大集、应用大集中后,系统的运行安全成为风险控制的焦点。目前,已经有多系统开始或准备进行灾备系统的建设,灾备系统建设的目标是减灾容灾,使计算机信息系统和数据能够最大限度地防范和化解各种意外和灾害所带来的风险。然而,与大多数工程一样,灾备系统建设本身在总体规划、方案选择和投产实施后的管理运行,以及真正面对灾难时的切换操作等方面也存在着潜在的风险。可以说,风险防范系统本身也存在风险点,需要小心应对。灾备系统建设中所涉及的潜在风险大致可分为技术风险、管理风险和投资风险,其中尤以技术选择风险最大,技术方案选择优越,可以规避一定的管理风险和投资风险。而这三者也存在内在的相互关联,不同灾备级别对应的建设投资规模、所采用的技术以及实施和管理的复杂度也不同,应考虑保护计算机系统的原有投资并提高灾备系统建设投资的利用率。1.1容灾的总体规划真正的容灾是数据被不间断的一致性访问!在灾难备份的世界里,是有等级观念的,级别不同,灾备系统所采用的技术和达到的功能是不同的,在系统建设资金投入方面的差距也很巨大。所以,对用户来说,明确灾备系统建设的总体规划十分必要。1.1.1技术指标RPO、RTO衡量容灾技术的两个技术指标RPO、RTORPO(RecoveryPointObjective):以数据为出发点,主要指的是业务系统所能容忍的数据丢失量。及在发生灾难,容灾系统接替原生产系统运行时,容灾系统与原生产中心不一致的数据量。RPO是反映恢复数据完整性的指标,在同步数据复制方式下,RPO等于数据传输时延的时间;在异步数据复制方式下,RPO基本为异步传输数据排队的时间。在实际应用中,考虑到数据传输因素,业务数据库与容灾备份数据库的一致性(SCN)是不相同的,RPO表示业务数据与容灾备份数据的SCN的时间差。发生灾难后,启动容灾系统完成数据恢复,RPO就是新恢复业务系统的数据损失量。RTO(RecoveryTimeObjective):以应用为出发点,即应用的恢复时间目标,主要指的是所能容忍的应用停止服务的最长时间,也就是从灾难发生到业务系统恢复服务功能所需要的最短时间周期。是反映业务恢复及时性的指标,表示业务从中断到恢复正常所需的时间。RTO值越小,代表容灾系统的数据恢复能力越强。各种容灾解决方案的RTO有较大差别,基于光通道技术的同步数据复制,配合异地备用的业务系统和跨业务中心与备份中心的高可用管理,这种容灾解决方案具有最小的RTO。容灾系统为获得最小的RTO,需要投入大量资金。不同容灾方案的RTO和RPO是不相同的。1.1.2国际标准SHARE?78要建设容灾系统,就必须提出相应的设计指标,以此作为衡量和选择容灾解决方案的参数。目前,国际上通用的容灾系统的评审标准为SHARE78,主要包括以下内容。●备份/恢复的范围●灾难恢复计划的状态●业务中心与容灾中心之间的距离●业务中心与容灾中心之间如何连接●数据是怎样在两个中心之间传送的●允许有多少数据丢失●保证更新的数据在容灾中心被更新●容灾中心可以开始容灾进程的能力SHARE78是建立容灾系统的一种评审标准。建立容灾系统的最终目的,是为了在灾难发生后能够以最快速度恢复数据服务,主要体现在RTOObjective)和RPO上。SHARE?78,?M028报告中定义的灾备的七个级别和与其对应的数据丢失量与恢复时间情况详见下表:灾难备份等级与业务恢复情况对照表等级描述RPORTO企业百分比0级无灾备计划--0.3%1级车辆运送方式24~48小时48小时0.1%2级车辆运送+热备份24~48小时24小时90%3级电子传送24小时24小时6%4级活动状态备份中心秒级24小时0.5%5级两中心、两阶段确认秒级2小时0.1%6级零数据丢失零丢失2小时3%1.1.2.1Tier0Tier0-无异地数据备份(Nooff-siteData)Tier0被定义为没有信息存储的需求,没有建立备份硬件平台的需求,也没有发展应急计划的需求,数据仅在本地进行备份恢复,没有数据送往异地。这种方式是最为低成本的灾难备份解决方案,但事实上这种灾难备份并没有真正灾难备份的能力,因为它的数据并没有被送往远离本地的地方,而数据的恢复也仅是利用本地的记录。1.1.2.2Tier1Tier1-PTAM车辆转送方式(PickupTruckAccessMethod)作为Tier1的灾难备份方案需要设计一个应急方案,能够备份所需要的信息并将它存储在异地,然后根据灾难备份的具体需求,有选择地建立备份平台,但事先并不提供数据处理的硬件平台。PTAM是一种用于许多中心备份的标准方式,数据在完成写操作之后,将会被送到远离本地的地方,同时具备有数据恢复的程序。在灾难发生后,一整套系统和应用安装动作需要在一台未启动的计算机上重新完成。系统和数据将被恢复并重新与网络相连。这种灾难备份方案相对来说成本较低(仅仅需要传输工具的消耗以及存储设备的消耗)。但同时有难于管理的问题,即很难知道什么样的数据在什么样的地方。一旦系统可以工作,标准的做法是首先恢复关键应用,其余的应用根据需要恢复。这样的情况下,恢复是可能的,但需要一定的时间,同时依赖于什么时候硬件平台能够被提供准备好。1.1.2.3Tier2Tier2-PTAM卡车转送方式+热备份中心(PTAM+HotSite)Tier2相当于是Tier1再加上具有热备份能力中心的灾难备份。热备份中心拥有足够的硬件和网络设备去支持关键应用的安装需求。对于十分关键的应用,在灾难发生的同时,必须在异地有正运行着的硬件平台提供支持。这种灾难备份的方式依赖于用PTAM的方法去将日常数据放在异地存储,当灾难发生的时候,数据再被移动到一个热备份的中心。虽然移动数据到一个热备份中心增加了成本,但却明显降低了灾难备份的时间。1.1.2.4Tier3Tier3-电子传送(ElectronicVaulting)Tier3是在Tier2的基础上用电子链路取代了车辆进行数据传送的灾难备份。接收方的硬件平台必须与生产中心物理地相分离,在灾难发生后,存储的数据用于灾难备份。由于热备份中心要保持持续运行,因此增加了成本。但确实是消除了运送工具的需要,提高了灾难备份的速度。1.1.2.5Tier4Tier4-活动状态的备份中心(ActiveSecondarySite)Tier4这种灾难备份要求两个中心同时处于活动状态并管理彼此的备份数据,允许备份行动在任何一个方向发生。接收方硬件平台必须保证与另一方平台物理地相分离,在这种情况下,工作负载可以在两个中心之间被分担,两个中心之间之间彼此备份。在两个中心之间,彼此的在线关键数据的拷贝不停地相互传送着。在灾难发生时,需要的关键数据通过网络可迅速恢复,通过网络的切换,关键应用的恢复时间也可降低到了小时级。1.1.2.6Tier5Tier5-两中心两阶段确认(Two-SiteTwo-PhaseCommit)Tier5是在Tier4的基础上在镜像状态上管理着被选择的数据(根据单一commit范围,在本地和远程数据库中同时更新着数据),也就是说,在更新请求被认为是满意之前,Tier5需要生产中心与备份中心的数据都被更新。我们可以想象这样一种情景,数据在两个中心之间相互映像,由远程two-phasecommit来同步,因为关键应用使用了双重在线存储,所以在灾难发生时,仅仅传送中的数据被丢失,恢复的时间被降低到了小时级。1.1.2.7Tier6Tier6-零数据丢失(ZeroDataLoss)Tier6可以实现零数据丢失率,同时保证数据立即自动地被传输到备份中心。Tier6被认为是灾难备份的最高的级别,在本地和远程的所有数据被更新的同时,利用了双重在线存储和完全的网络切换能力。Tier6是灾难备份中最昂贵的方式,也是速度最快的恢复方式,恢复的时间被降低到了分钟级。对于Tier6的灾难备份解决方案,可以应用两种远程拷贝技术来实现,即PPRC同步远程拷贝和XRC异步远程拷贝。因此,企业需要根据其计算机处理系统中数据的重要性,以及需要恢复的速度和程度,来进行灾备系统建设的整体考虑和不同灾难对业务冲击的分析,并最终确定灾备系统建设的总体规划。灾备系统建设的总体规划应包括以下几个方面:1.1.3界定灾备系统的适用范围分析不同的应用系统,确定灾备系统是一个覆盖整个计算机系统的工程,根据业务的重要性,对不同的系统采用不同级别的容灾方案,如针对关键的业务应用子系统,实施高级别的容灾工程;对低级别的业务系统,实施低级别的容灾工程。总之要建立一个综合性的整体灾备建设工程。1.1.4界定灾备建设的目标生产系统在单位时间内的数据处理能力或IO流量确定的情况下,RPO实际上成为一个反映灾备恢复过程中的数据丢失量的指标。而RTO则是指从灾难发生到备份系统可以接管原有生产系统所需要花费的时间,这不仅要考虑数据的恢复时间,还应该考虑恢复后数据的完整性、一致性的修复和确认、备份中心计算机处理系统的启动和备份中心的网络切换等全部时间。总体规划中应为灾备系统设定明确的RPO和RTO指标。但是设计容灾系统不能只看RTO和RPO,对于不同的业务系统和用户特殊的要求,其它一些指标有可能成为选择容灾解决方案的主要因素。例如,某些地区为了防范一些特定自然灾害的风险,要求容灾备份中心与业务中心保持足够的距离,在这种情况下,容灾备份中心与业务中心的距离要求就是容灾系统的重要指标。通信网络是容灾系统的组成部分,通信线路的质量也是容灾系统的性能指标之一,其中包括网络的数据传输带宽、网络传输通道的冗余和网络服务商的服务水平(网络年中断率)。如果容灾系统使用的通信网络是确定的,为了比较不同容灾解决方案,可以用单位存储容量的数据库在同一通信网络上的数据完全恢复时间作为一项设计指标。大部分业务系统都是数据库应用结构,但业务系统容灾并不等于是数据库容灾,还包括访问数据库的应用程序和相关配置信息。实现数据库容灾是容灾的基础,在保障数据库数据一致的前提下,还要实现应用程序和配置信息的一致性;实现应用系统的高可用性、应用程序在容灾中心与生产中心接管和切回的过程,因此,还要考虑应用的模式是C/S、B/S,两层、三层、多层次的应用结构等等。1.1.5界定灾备系统的总体架构根据实际需求、现有技术、所在地域、计划防范的灾难种类和预算投入的资金量等实际情况,确定灾备系统预期达到的级别,并以此来确定灾备系统与生产运行系统在地理位置上的距离(同城还是异地或两者兼备-堡垒节点),备份数据存储所在的介质(磁盘还是磁带或两者兼备),备份数据在生产中心与备份中心传输的方式(这就涉及到了具体的计算机存储与网络技术),以及备份中心计算机系统的处理能力和网络接管所需的具体架构(是否与生产中心采用完全同等数量、容量和性能的计算机、存储设备和网络体系结构)。第2章主流容灾技术说明2.1数据备份数据备份是系统、数据容灾的基础,也是低端容灾的实现,是高端容灾(实时数据保护)的有力保障。目前备份技术主要有快照备份、离线备份、异地存储备份。备份系统通过备份策略,对计算机信息系统的操作系统、文件系统、应用程序、数据库系统等数据集,实现某一时间点的完整拷贝,拷贝的数据处在非在线状态,不能被立刻访问,必须通过相应操作,如恢复等方式使用备份数据。这也解决了高端容灾(实时数据保护)不能解决的问题:人为误操作、恶意性操作等,这类操作,计算机系统是不能区分的,一旦执行,将造成数据中心、灾备中心同时修改;对于数据库系统,在日志方式下,可以通过回滚方式修改,对于文件系统、操作系统等其他配置信息是不能回滚的,将造成毁灭性的结果。因此在建设高端容灾系统的前提,一定要做好本地系统的备份,这是容灾技术的起点。目前成熟的备份软件有SymantecNetBackup、EMCLegato,IBMTSM,HPProtectServer等等。2.2实时数据保护实时数据保护