企业级容灾系统解决方案建议书(含链路选择)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

容灾系统第一章容灾的定义本章较为详细介绍了灾难的定义、灾难恢复的定义和灾难恢复的技术指标,以及业务连续性方面的相关内容。1.灾难恢复概述1.1.灾难的定义引起灾难的因素很多,目前,对灾难的定义众说纷纭,没有统一的认识,我们将灾难定义为任何不可预知的影响系统正常运行的事件(也包含预知事件产生的不可预知的影响)。灾难可能是部分或全部的计算机软硬件设备、附属设备、文档表格或机房环境损坏,以至于严重影响数据中心正常运行的事件,它可能由于自然灾害、突发事件、设备故障及人为因素等造成。不是所有的灾难都会毁掉整个数据中心。很多灾难规模较小,如果有的话也只会影响到一个或者两个系统。尽管没有正式的行业标准,但是大家还是可以根据灾难的严重程度定义下面这样的灾难级别。一级受到攻击和分析的威胁。如果有人声称知道业务系统里有后门可以进入或者准备用病毒发动攻击,就可认为正在受到攻击和分析的威胁。遇到这种情况就,用户需要加强安全戒备,截击攻击者。此时,企业或机构还没有受到损失,攻击行动还没有开始。二级这一情况不会对数据系统产生冲击,但是它仍然是企业或机构必须解决的问题。例如,即使安全漏洞让入侵者获得了敏感的信息,但是数据系统仍然在运行。但必须立即扭转这一局面。三级单个系统故障:单个系统故障造成其离线时间超若干分钟或者任意长时间,离线时间取决于系统受到威胁的程度。这种情况需要立即进行应用转移,如果可能的话,要转移到本地的备用系统上;否则,必须把系统从磁带上恢复到备用的硬件上。一般来说,这种情况不会对商业运行造成巨大影响,但是必须尽快解决问题。四级单处致命故障或者多处非致命故障:在这种情况下,对商业运行的直接威胁已经发生,但是,数据中心仍然在正常运行。如果有可能,还是要恢复到备用硬件或进行本地的应用转移,但是响应时间现在变得非常重要。到达这一级别,系统正面临大面积的威胁。五级数据中心即将或者已经发生故障,甚至更糟:断电、间谍活动、恐怖活动,以及自然灾害都可以归入这一类。远程的应用转移或者使用基于磁带备份的数据来重建数据中心是唯一的选择;这一级别会假设生产设施会有相当长的一段时间无法使用。1.2.灾难恢复的定义根据国际标准SHARE78的定义,自动的异地远程灾难恢复任务从低到高被定义有七种层次,分别对应于不同的投资成本与恢复所需时间。Tier0-没有异地数据即没有信息存储的需求,没有建立备援硬件平台的需求,也没有发展应急计划的需求,数据仅在本地进行备份恢复,没有数据送往异地。如:备份软件进行本地备份,备份数据不远离本地。Tier1-卡车运送访问方式作为Tier1的灾难恢复方案需要设计一个应急方案,能够备份所需要的信息并将它存储在异地,然后根据灾难恢复的具体需求,有选择地建立备份平台,但事先并不提供数据处理的硬件平台。如:使用备份软件工具进行本地备份,使用交通工具将备份数据传输到异地保存。Tier2-卡车运送访问方式+热备份中心Tier2是在Tier1的基础上,在异地建立一个热备份站点,该站点有主机系统,平时利用数据备份介质(磁带)将数据恢复到主机系统起来。一旦发生灾难,利用该主机系统将数据恢复。在这种情况下,由于备份介质是采用运输方式送往异地,会有至少一天、甚至一周的数据丢失。由于备份站点已经有主机系统,数据恢复一般需要一天的时间。如:使用备份软件工具进行本地备份,同时在异地构建备份站点,使用交通工具将备份数据传输到异地保存。Tier3-电子链接Tier3是在Tier2的基础上用电子链路取代了卡车进行数据传送的灾难恢复。接收方的硬件必须与主站点物理地相分离,在灾难发生后,存储的数据用于灾难恢复。由于热备份站点要保持持续运行,因此增加了成本。但确实是消除了传输工具的需要,提高了灾难恢复的速度。如:使用光纤或者电信线路,将本地备份软件生成的数据传送异地,同时异地有热备份站点。Tier4–在线数据库镜像与日志Tier4这种灾难恢复要求两个站点同时处于活动状态并管理彼此的备援数据,允许备援行动在任何一个方向发生。接收方硬件必须保证与另一方平台物理地相分离,在这种情况下,工作负载可以在两个站点之间被分担。Tier5–两中心两阶段确认Tier5在Tier4的基础上,在镜像状态上管理着被选择的数据(根据单一提交范围,在本地和远程数据库中同时更新数据),也就是说,在更新请求被认为是满意之前,Tier5需要应用站点与备援站点的数据都被更新。恢复的时间被降低到了分钟级。如:使用专用数据复制软硬件等。Tier6–零数据丢失的远程磁盘镜像与自动切换Tier6可以实现零数据丢失率,同时保证数据立即自动地被传输到备援站点。Tier6被认为是灾难恢复的最高级别,在本地和远程的所有数据被更新的同时,利用了双重在线存储和完全的网络切换能力,应用可以自动接管,如:使用数据复制技术以及远程自动切换接管软件等。根据容灾恢复时间和数据恢复程度等不同容灾恢复要求,将这7种容灾备份模式划分为三个等级。(1)冷备份:灾备运行系统未安装或未配置成与生产系统相同或相似的运行环境,应用系统数据没有及时装入备份系统。一旦发生灾难,需安装配置所需的运行环境,用数据备份介质(磁带或光盘)恢复应用数据,手工逐笔或自动批量追补数据,将用户通过通讯线路切换到备份系统,恢复业务运行。优点:设备投资较少,节省通信费用,通信环境要求不高。缺点:恢复时间较长,一般要数天至一周,数据完整性与一致性较差。(2)温备份:有灾备运行系统安装场地、后备运行主机和通讯设备,后备运行系统已安装配置成与生产系统相同或相似的系统和网络运行环境,安装了应用系统业务定期备份数据。一旦发生灾难,直接使用定期备份数据,手工逐笔或自动批量追补数据或将用户通过通讯线路切换到备份系统,恢复业务运行。优点:设备投资较少,通信环境要求不高。缺点:恢复时间长,一般要十几小时至数天,数据完整性与一致性较差。(3)热备份:灾备运行系统处于联机状态,生产系统通过高速通信线路将数据实时传送到灾备系统,保持灾备系统与生产系统数据的同步。也可定时在灾备系统上恢复生产系统的数据。一旦发生灾难,不用追补或只需追补很少的数据,备份系统可快速接替生产系统运行,恢复业务。优点:恢复时间短,一般几十分钟到数小时,数据完整性与一致性最好,数据丢失可能性最小。缺点:设备投资大,通信费用高,通信环境要求高,平时运行管理较复杂。1.3.灾难恢复的技术指标从理论上看,容灾系统的建设目的是防止数据的意外丢失造成系统业务的中断。,我们可以通过以下两个重要指标来衡量灾难恢复系统对系统业务的弥补效果。秒分小时日周秒分小时日周数据丢失恢复时间系统运行灾难恢复系统运行从图的最左侧算起,为系统进行容灾备份的时间点。图的中间部位表示灾难事故发生造成数据损失以及系统服务中断。图的右侧代表数据业务恢复的时间。RPO(RecoveryPointObject)指灾难发生前的数据丢失量,RTO(RecoveryTimeObject)指灾难发生后系统的修复时间。显然,这两个指标的值越小越好。下图较好地反映了RTO和RPO的关系。灾难发生点事件发现和通知紧急状态运作和决策系统在备中心恢复运行RTORPO备份点备份周期最近的一次备份点临时运行状态系统回切时间线回切完成回切动作不可用或性能低不可用或性能低恢复操作2.业务连续性计划建立灾难备份中心和灾难恢复系统的目的是为了使企业可以在遭受灾难后恢复生产,而与这些“硬”系统相配合的就是企业的灾难管理策略,其核心就是业务连续性计划(BusinessContinuityPlanning,缩写为BCP)。我们甚至可以认为业务持续性计划是指导灾难备份中心和灾难恢复系统建设的理论依据。事先制定一个完备的业务连续性计划,积极防范并且应变处理灾难发生的一系列后果,将灾难的蔓延和损失控制在企业能够承担的范围以内,已成为企业或机构管理范畴内的一个十分重要的任务。2.1.BCP的基本要素笼统地说,BCP的目标只有一个,那就是确定并减少危险可能带来的损失,有效地保障业务的连续性。而有关BCP的一些特定目标我们将在以下各个部分中加以描述。BCP实施的最终结果是:一组防范危险的评测指标;一支执行团队,在经过培训后可以处理各种危险事件;一套计划,提供危险发生时的路线图。该计划应该是充分和完备的,必须详细落实到该计划实施范围内的每一个单位、人员或设备。我们下面所要讨论的主要是与企业中IT设施相关的内容,没有涉及到企业人员在危险状况下的安全管理问题。每个企业所制定的BCP都应该有每个企业或者所处行业独有的特色,彼此之间不会完全一致,但大致上说来,一个完备的BCP主要是由以下一些关键部分构成的。2.1.1.危险评估危险评估就是认识并分析各种潜在危险的结果。这些危险的来源可能是:各种区域性的天然灾难,如洪水、地震、疫病等;人为事故或蓄意破坏造成的严重灾难,如火灾、恐怖主义袭击等;安全威胁、硬件、网络或通信故障;灾难性的应用系统错误。所有的危险都应纳入企业的危险评估范围,并且应对各种危险的可能来源地进行较准确的定位。对于每一种危险的来源都应该认识到:危险的类型;危险的程度;危险发生的可能性。比如说,如果按照有无警示性先兆来分,各类危险还可以分为:有些危险可能没有任何先兆而突然发生,无法事先防范;有些危险可以有一定的先兆,可以迅速启动应急计划加以防范,比如疫病的传播;有些危险可能从来不会发生。如果按照危险的破环类型或程度来分,它们对业务的影响可以分为:经营场所及设备完全破环;经营场所及设备部分破环;经营场所及设备完好,但人员不能进入,比如疫病的隔离、恐怖威胁造成的人员输散等。显然,对于企业来说,一个完备的BCP必须尽可能多地考虑到所有可能的危险情况,只有处理灾难性事件的计划而没有处理应用系统失误的计划,这样的BCP是不完备的;反之亦然。企业所制定的BCP应该同时兼顾两个方面——预防和控制。例如,人为事故和蓄意破坏可以通过物理安全和个人行为的评测来预防。而应用系统的错误则可以通过对软件的有效评测与测试来预防。危险评估的最后结果应该是一份有关危险效益分析的详细陈述报告,要有对危险的精确描述、哪些危险可能发生,以及需要采取的保障业务连续性和缓和危险的措施,同时要有因为克服了危险而带来的收益分析。这份报告还应该描述清楚任何现有的前提或者限制因素。2.1.2.业务影响分析(BIA)业务影响分析(BusinessImpactAnalysis)实质上就是对关键性的企业或机构功能、以及当这些功能一旦失去作用时可能造成的损失和影响的分析。对于业务运营的关键人员来说,他们需要分析:(1)影响哪种功能对于企业或机构的整体战略而言是生死攸关的;该功能在多长时间内失效不会造成影响和损失;企业或机构的其他业务功能由于该功能的失效会受到何种影响——运营影响分析;该功能的失效可能造成的收入影响——财务影响分析;该功能是否会对客户关系造成影响——客户信心的损失;该功能是否会对市场份额造成影响——市场占有率的下滑;该功能是否会对企业或机构在行业中的地位造成影响——企业竞争力的损失;该功能是否会影响今后的销售——机会的丧失;什么是最大的/可承受的/可允许的失效。(2)业务恢复需求要使该功能连续,需要哪些资源和数据纪录;最少的资源需求是什么;哪些资源可能来自企业外部;它与企业或机构其他功能的依赖关系以及依赖程度;企业或机构的其他功能与该功能的依赖关系以及依赖程度;该功能与企业或机构的外部业务、供应商、其他厂商的依赖关系以及依赖程度;在缺少试验环境的情况下进行恢复,需要采取怎样的预防措施或检验手段。在进行了这些分析之后,才有可能对企业或机构的各种功能进行分类:关键功能——如果这类功能被中断或失效,就会彻底危及企业或机构的业务并造成严重损失。基础功能——这些功能一旦失效将会严重影响企业或机构长期运营的能力。必要功能——企业或机构可以继续运营,但这些功能的失效会在很大程度上限制企业或机构的效率。有利功能——这些功能对企业或机构是有利的;但它们的缺失不会影响企业或机构的运营能力。根据各种功能的恢复需求,企业或机构便可为上述各类功能制定标准的恢复时间架

1 / 38
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功