LOGO第11讲业务连续性管理业务连续性管理——BCM北京邮电大学计算机学院副教授郭燕慧LOGOBCM概述BCM规划业务影响分析确定BCM策略BCM开发和实施BCM演练和维护本讲提纲LOGO案例图为世贸大厦北楼倒塌的连续镜头。世贸大厦•世界上最大、最快的电梯•南楼共有99座电梯•每个电梯最多容纳55人•45秒内由78层到地面•大楼备用电源,应急灯•3个楼梯•楼梯扶手、天花板、楼道门上涂荧光漆,指示疏散线路•安装扬声器、疏散指挥系统•大楼设救火指挥所,每楼层有火警监督员,定期演练LOGO飞利浦芯片厂火灾危机是你改进的机遇!我们根本没有所谓的危机处理方案!EricssonNokiaLOGO灾难灾难的定义•灾难(Disaster)是导致重大损失的突发的不幸事件灾难自然的Natural人为的Man-Made系统/技术的System/Technical支持系统SupplySystemsLOGO机构的灾难对于机构来说,任何导致机构关键业务功能(CriticalBusinessFunctions)在一定时间内无法进行的事件都被视为灾难,其特点表现为:—计划之外的服务中断—超期的服务中断—中断无法通过平常的事件管理程序得到解决—中断造成重大损失LOGO灾难的危害Gartner分析报告:—2/5公司经历大灾难后再也不能恢复运作—1/3公司经历大灾难后在2年内倒闭明尼苏达大学研究:—两周内不能恢复运作,75%企业完全停顿—两周内不能恢复运作,43%企业再无法恢复LOGO什么是业务连续性管理?业务连续性管理(BusinessContinuityManagement,缩写为BCM)——是一个全面、持续的过程,包括:①识别威胁组织的潜在影响;②提供一个框架用于指导组织提升应对灾难和持续运营的能力。用于保障组织的主要股东利益,以及公司的声誉、品牌和其他创造价值的活动。BCM目标是提升组织的持续运营能力。通过事先发现组织中由各种突发业务中断所造成的潜在影响,协助组织排定各种业务恢复先后顺序,最终实现各业领域的业务持续运营。LOGOBCM对组织带来什么好处?确保组织对生死攸关的灾难性事件,做出及时响应。合理的BCM计划既满足规范和应对特殊风险的要求,同时提升了组织风险意识。组织可以通过BCM来提升自身竞争力,争取新的客户、提高利润,并且能增加客户关怀度。能最大限度发现低效的业务和平时无法揭露的隐患。提前采取BCM预防措施要比临时采取措施所花费的成本低。LOGOBCM过程BS7799所描述的BCM主要有以下要点:业务持续计划首先是组织高层管理人员的首要职责,因为他们被委任保护公司的资产及公司的生存;制定和实施一个完整的业务持续计划应从理解自身业务开始,进行业务影响分析和风险评估;由组织高层管理者形成本企业的业务持续性战略方针,然后规划业务持续性计划;进行计划的测试与实施;进行计划的维护与更新,通过审计保证计划不断改进和完善。BCM生命周期LOGOBCPVSDRPBCP业务持续计划DRP灾难恢复计划—天己经塌了,我们如何照常运转—业务—持续(Continuity)—天要塌了,我们如何恢复原貌—IT—恢复(Recovery)LOGOBCM概述BCM规划业务影响分析确定BCM策略BCM开发和实施BCM演练和维护本讲提纲LOGOBCM规划角色和职责项目准备LOGO关键活动234561组建团队BCM需求制定项目计划书确定数据收集方法工作汇报推销BCPBCMLOGOBCM策略要求BCM策略要求范围基本原则职责关键环节的原则要求目的需求指导方针责任得到高级管理层的正式批准返回LOGO项目计划项目计划里程碑预算目标与任务(Objective-to-taskmapping)任务与资源(Resource-to-taskmapping)成功因素关键环节的原则要求返回LOGOBCM规划角色和职责项目准备LOGOBCM项目负责人•业务连续性协调人做为BCM项目负责人全面负责项目的规划、准备、培训等各项工作:—接触高级管理层—影响高级管理层的决策—与管理层的沟通和联络—组建和领导BCM委员会—与计划相关所有人员进行直接接触和沟通—了解机构业务使命和高级管理层的意图—充分了解中断对机构业务的影响—熟悉机构的需求和运作,有能力平衡相关部门的不同需求LOGO其他重要角色BCM委员会高级管理层业务部门代表用户危机管理团队恢复团队系统和网络专家信息安全部门法律代表LOGOBCM概述BCM规划业务影响分析确定BCM策略BCM开发和实施BCM演练和维护本讲提纲LOGO业务影响分析BIA过程BIA概述LOGO业务影响分析(BusinessImpactAnalysis,BIA)——实质上是对关键性的企业功能,以及当这些功能一旦失去作用时可能造成的损失和影响的分析。——BIA是整个BCM流程的工作基础。LOGOBIA的作用•BIA识别关键的业务功能及其支持方面的不足•BIA分析中断事件造成的影响•BIA分析业务功能的中断忍受程度和恢复的优先顺序—定量(Quantitative)分析—定性(Qualitative)分析—确定业务功能的最大允许中断时间(MTD)—确定业务功能之间的依赖关系—确定恢复点目标(RPO)LOGO中断的影响•收入的损失•延迟收入的损失•生产力的损失•营运成本的增加•声誉和公众信任的损失•竞争力的损失•违约责任•违背法律法规LOGO业务影响分析BIA过程BIA概述LOGO•确定信息收集技术BIA过程—讨论(Discussion))—调查问卷(questionnaires)—访谈(Interview)—存在的问题—应对建议•选择受访者•识别关键业务功能及其支持资源•确定最大允许中断时间(MTD)•识别弱点和威胁•分析风险•向管理层汇报BIA结果LOGO信息收集技术讨论调查问卷访谈开会讨论能够加速得出分析结论,同时要和各个部门进行激烈的争论,最终达成一致的BIA结论。调查问卷能提供大量的BIA分析数据。如果问卷填写不完整,会降低调查信息的质量。访谈能提供很好的信息,但是比较费时间,得到的信息的格式和详细程度变化较大。LOGO调查问卷设计根据企业文化、管理风格、自身特点设计适合于受访者的BIA问卷,问卷内容可包括:—基本信息(受访者姓名、部门、职位、联络方式、受访时间等)—业务功能概况(名称、规模、运行时间、员工数量、客户数量、重要的时间段、高峰业务量、法规要求、与其它业务或支持系统的关系等)—业务中断对业务成本或收入的影响(增加开支租用额外设备或人员等)—业务中断可能承担的法律责任(合同违约、违反相关规定等)—业务中断对业务运作的影响(无法提供服务等)—业务中断对声誉的影响(失去客户信任、客户流失等)—依赖于哪些技术系统(如硬件、软件、数据、网络等)—存在哪些弱点和威胁(火灾、地震、罢工等)—现有的应对措施(应急预案等)返回LOGO支持资源的确定•人力资源(Humanresources)•处理能力(Processingcapability)•物理基础设施(Physicalinfrastructure)•基于计算机的服务(Computer-basedservices)•应用和数据(ApplicationandData)•文档和票据(Documentsandpapers)—如操作员、专家、系统用户等—如数据中心、备用数据中心、网络、小型机、工作站、个人计算机等—如办公室、办公家具、环境控制系统、电力、上下水、物流服务等—如语音和数据通信服务、数据库服务、公告服务等—计算机设备上运行的各种程序和存储的数据—如合同、票据、操作程序等文件、文档和资料R返回LOGO确定MTD•中断时间超过最大允许中断时间(MaximumTolerableDowntime)将造成业务难以恢复,越是关键的功能或资源,MTD应该越短:•根据MTDs排定关键业务功能及其支持资源的恢复顺序—关键:1小时之内—紧急:24小时—重要:72小时—一般:7天—非必要:30天返回LOGO风险分析•电力中断•火灾、洪水、风暴、地震•系统设备故障和软件故障•丧失基础设施功能(如电信等)•测试和变更造成的中断•关键人员缺席•恐怖袭击、爆炸、罢工传染病返回LOGOBCM概述BCM规划业务影响分析确定BCM策略BCM开发和实施BCM演练和维护本讲提纲LOGO确定BCM策略过程策略预防应急响应业务持续业务恢复业务复原LOGOBCM原则•预防为先•恢复为后—通过遏制、探测或降低对系统影响的防御性措施予以消减或清除风险—达不到灾难级别的风险,采取预防措施规避或降低风险—灾难级别的风险,采取预防措施降低风险—对于不可忍受的灾难,采取恢复措施LOGO预防目的——减少灾难发生的可能性预防策略制止控制预防控制——保护企业的弱点区域,以防御危险的发生并降低其影响。——减少威胁的可能性。LOGO预防措施•设施采取加固材料(建筑、设备等)•冗余服务器和通讯线路•多方多路供电、配置UPS和发电机•消防系统(火警发现、灭火)•防水措施•冗余供应商•购买保险•数据备份•介质保护•备用关键设备•人员培训LOGO确定BCM策略过程策略预防应急响应业务持续业务恢复业务复原LOGO应急响应:指一个组织为了应对各种意外事件的发生所做的准备以及在事件发生初期所采取的措施。目的:避免、降低危害和损失,以及从危害和损失中恢复。LOGO应急响应的必要性:•网络安全保护的困难;•大量的安全漏洞;•攻击系统和网络的程序的存在;•实际的和潜在的财务损失;•不利的媒体曝光的威胁;•对效率的需求;•当前入侵检测能力的局限性。LOGO准备检测抑制恢复跟踪PDCERA应急响应方法学根除LOGO准备(Preparation)——即在安全事件发生前为应急响应做好准备。这一阶段极为重要,因为安全事件多数都比较复杂,事先准备是必须的。这一阶段的准备工作包括:基于威胁建立一组合理的防御/控制措施。建立一组尽可能高效的安全事件处理程序。获得处理问题必须的资源和人员。建立一个支持应急响应活动的基础设施。返回LOGO检测(Detection)——检测意味着弄清是否出现了恶意代码、文件和目录是否被篡改或者出现其他的特征;如果是的话,问题在哪里,影响范围有多大。检测包括软件检测和人工检测。软件检测—面对今天如此种类繁多复杂的攻击,检测软件(如杀毒软件、入侵检测软件、完整性校验软件等)对应急响应工作的成功是非常必要的。—许多厂商的软件可以迅速地检测桌面系统和邮件服务器的病毒。这些软件通常还可以检测出Windows系统上是否秘密安装了后门木马程序。人工检测a.用不活跃或系统缺省账号登录。b.在非工作时间有系统活动。c.出现了不是由系统管理员创建的账号。d.出现了不熟悉的文件或程序。e.用户权限的提升或超级用户权限的使用,但对此无法解释。f.Web服务器主页或其他页面被修改。g.系统日志出现一段时间的空白或擦除。h.DNS表、路由器或防火墙规则中的无法说明的变化。i.系统性能变慢。返回LOGO抑制(Containment)——抑制的目的是限制攻击的范围,同时也就限制了潜在的损失和破坏。其只有在第2阶段观察到事件的确已经发生的基础上才能进行可能的抑制措施:—关闭所有系统。—断开网络。—修改所有防火墙和路由器的过滤规则,拒绝来自看起来是发起攻击的主机的所有的流量。—封锁或删除被攻破的登录账号。—提高系统或网络行为的监控级别。—设置诱饵服务器作为陷阱,如“蜜罐”等。—关闭存在漏洞的服务。—反击攻击者的系统。返回LOGO根除(Eradication)——在事件被抑制以后,应该找出事件根源并彻底根除。根除手段:—工具软件。比如,防病毒软件可以消灭大多数感染小系统的(甚至大系统的)病毒以及特洛伊木马程序。—对于单机上的事件,主要可以根据各种操作系统平台的具体的检查和根除程序进行操作。—大规模爆发的带有蠕虫性质的恶意程序的根除相对复杂。返回LOGO恢复(Recovery)——在事件的根源根除以后,