蓝盾信息安全技术股份有限公司灾难恢复与数据备份培训部副总监徐俊博士1.概述2.业务持续性计划3.灾难恢复计划4.应急响应计划5.数据备份及实验6.案例应用及分析•业务连续性计划BCP(BusinessContinuityPlanning):是一种策略规划,当灾难发生时致使企业主要业务或服务中断时,业务连续性计划可确保迅速恢复主要业务的正常与持续运作。业务连续性计划不仅包含计算机系统的恢复计划、还包括关键业务的持续运作计划,如恢复组织、人力资源、对外沟通等。•灾难恢复计划DRP(DisasterRecoveryPlanning):是对企业的信息系统进行相应的冲击分析及风险分析并将其量化,以确定IT系统面对灾难事故时的预防和恢复策略,开发并制定相应的IT系统恢复计划、管理方法和流程,以减轻灾难对于企业IT系统的不利影响。–BCP和DR包含:准备、测试和对于关键业务保护以及网络服务失效的更新行为。–必须理解当主要业务操作规程再以外事件造成中断时所采取的保护行为。•BCP过程包含:计划和范围的初始化;业务影响分析;业务可持续计划开发;•DRP过程包含:灾难恢复计划步骤;测试灾难恢复计划;灾难恢复计划程序;•两者的主要区别:BCP强调使关键业务经得起不同的意外事件的影响DRP强调对于灾难的预防措施,以及在灾难发生时和灾难发生之后所应采取的行为和措施1.概述2.业务持续性计划3.灾难恢复计划4.应急响应计划5.数据备份及实验6.案例应用及分析•业务可持续计划是为了防止正常业务行为的中断而被建立的计划。当面对由于自然或人为造成的故障或灾难以及由此造成的财产损和正常业务不能正常使用时,BCP主要被设计用来保护关键业务步骤。BCP是最小化对于业务的干扰效果和使业务能恢复正常运行的计划。•BCP的目标是:最小化业务中断事件对公司造成的影响。•BCP的主要目标:减小财产损失风险和增强公司对于意外事件造成的业务中断的恢复能力。•BCP的作用:BCP将帮助企业最小化由于意外事件造成的损失成本和减轻相关的风险。例如:•本地和广域网络和网络服务;•远程通讯和数据通讯链路;•工作站和工作空间;•应用、软件和数据;•存储媒体和信息记录存放场地;•员工职责和生产过程;BCP和DRP处理的优先级别:BCP和DRP的优先考虑的因素是:人•大部分会造成业务中断的事件,在物理安全域中文档都作了详细的描述。这里我们主要考虑的是这样的事件:不是由于自然灾难造成的就是由于人为破坏所造成的,事件发生的实质是对企业业务的持续造成现实的威胁。所有的事件都是已经发生,且不能象运行安全中讨论的采取任何预防性的控制手段来控制。•业务持续计划被设计来最小化上述破坏事件造成的损失,同时便于迅速的完全恢复组织的业务运作能力。•自然因素造成对业务持续有破坏作用的事件:火灾、爆炸、危险物质泄漏、生化毒素的威胁;地震、风暴、洪水、自然因素造成的火灾;电力系统电力供应中断或其它的系统功能失效;•人为因素造成对业务持续有破坏作用的事件:轰炸、蓄意人为破坏、其它有目的的攻击;罢工、怠工;由于操作人员撤离危险环境造成的功能失效,或其它自然或人为造成的功能失效的情况;通信基础不可用或者与测试相关的过载(包括大部分的管理控制功能失效)•范围和计划的初始化;这个阶段标志着BCP过程的开始,它必须限定计划的范围和计划涉及的各项线定因素。•业务影响分析(BIA–BusinessImpactAssessment);被用来帮助各业务单元理解紧急事件对于业务造成的影响,这个阶段还包含漏洞分析。•业务持续计划发展;利用BIA信息来发展业务持续计划,这个过程包括计划执行、计划测试、计划运行当中的维护。•业务持续计划的批准和执行;这个阶段包括最终由企业的最高管理者签署,建立全企业对于BCP意识,执行根据变化更新处理步骤的计划维护工作。•目的:BIA目的是建立用来帮助理解对业务持续运行有影响的各种意外事件。影响可能是资金方面的(需要量化),操作方面的(需要定性),漏洞分析也常常是BIA的一部分。•目标:危险程度分类---每个关键的业务运行单元都需要被标记和赋予一个优先权,并且对会造成影响的事件作一个评价。“时效是优先处理要考虑的因素”停工期评估–BIA被用来评价企业业务运行所能容且维持公司可生存的最大停工时间(MTD-MaximumTolerableTime),在企业所有业务没有恢复的情况下,多长的时期是企业关键业务所能停顿的。通过BIA可以发现,时间不象我们设想的那么长。业务需求--关键业务所需要的资源,在BIA阶段也必须被标示。对于时间敏感的关键业务,将被分配更多的资源。•(一)收集相关的分析资料•(二)执行漏洞分析•(三)汇总、分析信息•(四)将总结写成文档,并且提出建议业务持续计划的发展引用BIA阶段收集的信息来建立恢复战略计划以达到支持关键业务功能的目的。我们使用BIA收集的信息描述出业务持续计划的战略。这个阶段包含两个主要步骤:定义业务持续战略;文档化业务持续战略;定义业务持续战略为了定义BCP战略,从BIA收集的信息用来为企业建立持续战略。这是个非常大的任务,许多企业元素必须被包含在持续战略。例如:计算:战略需要保护的硬件、软件、通讯线路、应用和数据;设备:战略需要强调的建筑物,计算机和远程的设备;人员:操作员,管理人员,技术支持人员将在持续战略中定义不同的角色;补给和装备:文件、forms,HVAC,指定的安全设备必需在持续被定义用途;文档化持续战略,文档化持续战略简单的引用在持续战略定义阶段的文档结果。在最后的阶段BCP被执行。计划必需存在执行的“路标”。执行在这列不仅仅是指执行一个灾难假想和测试计划,并且计划执行还引用下面的步骤:1、被最高管理人员批准;明确高级管理人员的职责,(对于计划负有全部的责任),为什么由他批准?(监督、执行、决定)2、建立全企业的业务持续计划的认知感;认知感的重要性,组织恢复的能力是由不同独立的部门合作完成的,计划的认知感强调组织对雇员承担的义务对于部分计划执行人员进行不要的特殊训练,使他们能完成自己的任务(qualitytraining)模拟训练的好处是能感知BCP过程的兴趣增加和人员承担的义务3、维护业务执行计划,在需要的情况下更新业务持续计划BCP经常会变得过时:同DRP计划被很快荒废一样,由于公司重组,计划中的关键业务可能和现实的业务情况不符。最常见的情况是:网络和计算基础的变化,包括硬件、软件和其它组件。可管理的理由是:麻烦的计划不容易被更新(适应新的情况),人员的遗忘或缺乏兴趣,员工轮换岗位,无论何种原因,计划维护技巧将来必需被使用以确保计划维持在可用和最新。重要的两点:维护过程保持计划版本的唯一性1.概述2.业务持续性计划3.灾难恢复计划4.应急响应计划5.数据备份及实验6.案例应用及分析•灾难恢复计划是一个全面的状态,它包括在事前,事中,和灾难对信息系统资源造成重大损失后所采取的行动。灾难恢复计划是对于紧急事件的应对过程。在中断的情况下提供后备的操作,在事后处理恢复和抢救工作•主要目标:有能力在另外的站点提供关键步骤,并且在一个时间段内恢复主站的正常运行。通过迅速的恢复步骤来最小化企业的损失。•提示:有些公司不需要灾难恢复计划,由于公司的关键业务能够抵挡意外事件的冲击。灾难恢复计划的目标和目的:•DRP主要目标是提供有组织的果断方式来应对中断时间的发生。•DRP的目标是减少危机发生时的混乱和增强组织处理危机的能力。明显的,在事故发生的现场,组织没有机会从容的建立和执行恢复计划,因此,大量的预先计划和测试将决定组织对于灾难的抵抗能力DRP目的很多,但是每一点都非常重要,DRP目的可能包含下列几点:•在由于主要的计算机和服务器不可用的情况下保护组织;•在由于延迟提供服务的情况下最小化其组织的风险;•通过测试和模拟环境来担保可信系统的可靠性;•在灾难发生时最小化做出决定的时间;•在这里我们主要检查DRP的下列领域•DRP的步骤•测试DRP•灾难恢复程序•灾难恢复计划步骤这个阶段包含恢复计划的建立和发展,这和BCP过程有些相似。然而,在BCP中,我们包含了BIA和对于企业维持持续的关键范围和资金生存能力损失尺度标示,在DRP中,我们假设标示性的工作已经完成并且基本原理已经建立。下面的工作是定义我们需要执行的步骤来在实际灾难发生时保护业务。•在灾难计划处理阶段将采取如下的步骤:•数据处理连续计划—DataProcessingContinuityPlanning针对灾难的计划和建立拷贝数据的计划•数据恢复计划维护—DataRecoveryPlanMaintenance保持计划的时效性和相关性提供数据恢复计划软件常见的可选的处理类型:•Mutualaidagreements–互助协议•Subscriptionservices–定购服务•Multiplecenter–若干中心•Servicebureaus--服务局(?)•Otherdatacenterbackupalternatives–其它数据可选备份•由于业务实际情况变更引起与现实情况不符合,因此需要计划更新维护。•无论何种原因,灾难恢复技术能在外部使用,以确保计划维持在最新的可用状态,采取的行动:在工作任务说明中描述灾难恢复计划更新,建立审计过程来报告站点的变化,必须保证没有多个灾难恢复计划存在。•目标:测试人员对于模拟灾难的响应能力。•方法:•并行测试对于恢复计划的完全测试,利用所有的人员来从事这项测试,主要不同于中断测试的地方是不中断正常的生产过程。测试在同正式生产环境并行的条件下进行,测试主要目的是关键业务能在备份站点上运行,系统能重新在备份站点上布置。测试进行后,事物处理结果和其他因素将用来做比较。这是最为通用的测试方法•全中断测试模拟真实灾难发生时对于业务造成中断的情况,停止正常的业务来测试,测试的要点包括紧急服务。这是一种引起人们惊慌的测试。也是最好的测试方式。五种主要的灾难恢复测试类型LEVELTYEPDESCRIPTION1ChecklistCopiesofplanaredistributedtomanagementforreview2Structuedwalk-throughBusinessunitmanagementmeetstoreviewtheplan3SimulationAllsupportpersonnelmeetinapracticeexecutionsession4ParallelTestCriticalsystmearerunatanalternatesite5Full-interruptionTestNormarlproductionshutdown,withrealdisaterrecoveryprocesses灾难恢复计划的主要元素:•灾难恢复小组•拯救小组•正常运行恢复•其它的恢复事项1.概述2.业务持续性计划3.灾难恢复计划4.应急响应计划5.数据备份及实验6.案例应用及分析•概况•应急组织•应急预案•应急事件处理流程•应急响应技术与工具•应急响应(IncidentResponse/EmergencyResponse)通常是指一个组织为了应对各种意外事件的发生所做的准备以及在事件发生后所采取的措施,其目的是避免、降低危害和损失,以及从危害和损失中恢复。计算机及网络攻击应急响应就是针对计算机攻击及网络攻击事件所采取的应急措施。•事件(Incident)的定义:违反安全策略的行为,这里虽说的安全策略可能是明确规定的,也可以是引申出来的。(Theactofviolatinganexplicitorimpliedsecuritypolicy。)•完整性受损•拒绝服务•滥用•损害(如病毒毁坏数据)•入侵•计算机安全应急响应的提出:1988年Morris蠕虫席卷全球•CERT/CC(ComputerEmergenceResponseTetim/CoordinationCenter,计算机安全应急响应小组/协调中心):负责在日常完成安全保障和紧