银行业务连续性管理实践高军修永春随着银行业务和机构的不断扩张,信息化进程突飞猛进,如何更加有效地进行风险管理,保证金融安全稳定发展,是国内银行业监管部门和经营管理者共同关心的课题。2011年12月底,中国银监会发布《商业银行业务连续性监管指引》,明确商业银行应当将业务连续性管理纳入全面风险管理体系,建立与本机构战略目标相适应的业务连续性管理体系。只有构建真正有效的应对危机事件的业务连续性管理体系,使管理科学化、手段现代化,才能保证业务的连续运行,实现可持续发展。业务连续性管理沿革业务连续性管理概念最早脱胎于传统的IT备份与容灾恢复计划,但是随着IT系统规模的不断扩大,传统的以技术为中心的灾备越来越难保障企业在灾难面前的关键业务可用性,企业更需要一套标准化、分工明确的管理体系去帮助其应对灾害,这不仅包括IT技术层面,还体现在整个机构(企业、政府、组织)的管理架构层面。通常认为,业务连续性管理是一个一体化的管理过程,通过这一过程,可以识别威胁组织机构的潜在风险,并提供一个指导性框架来建立组织机构的恢复能力和有效应急响应能力,从而保护利益相关者的资产,组织机构的信誉、品牌及其创造价值的活动。业务连续性管理的历史可追溯到20世纪60年代,那时业务连续性管理的思想和方法,是包含在风险管理、危机管理等理论中,并未单独作为一门学科来独立研究。而那时人们关注的主要是事件本身直接造成的损失(如人和物等),而对事件造成的其他损失(业务停止、工厂停工等)并未给予足够的重视,或是由于客观条件和技术手段所限,也没有能力对这方面提出更高的要求,只能是尽力而为。计算机系统在解决系统持续运行的问题时,率先对单点故障采用了冗余措施,这就是最早业务连续性管理思想的开端。70年代,出现了容灾恢复计划的概念。当出现大的故障和危机时,中断是以天为单位来计算而不是以小时为单位。金融组织,如银行和保险公司大都建有另外的后备点,备份磁带存储在远离主中心的地点。80年代后,随着计算机技术的迅速发展和普及,人们对信息技术的依赖越来越强烈,从而对数据及信息系统的安全提出了新的要求。此时催生了一种新技术的发展——灾难恢复(DisasterRecovery,简称DR),而在研究各种灾难恢复技术时,自然要考虑如何尽快恢复业务运行,即业务连续(BusinessContinuity,简称BC),因为只有业务连续才是灾难恢复的最终目的。在这种背景之下,业务连续性计划的理论和方法得到了广泛的研究和重视。90年代后,随着IT与业务的相互融合,业务连续性管理不仅仅局限于信息系统的灾难恢复服务,而是延伸到更为广泛的企业业务连续性管理领域。业务连续性管理不再局限在信息系统的可靠运行上,而是转移到了面向终端客户,转向服务的业务流程的连续保障方面。为更好地理解业务连续性管理的过去和现在,笔者简要介绍一下其发展过程中三个重要的递进的概念,即灾难恢复(DR),业务连续计划(BCP)及业务连续性管理(BCM)。在业务连续性管理理论发展的40年中,真正受到重视是在20世纪90年代,尤其是2001年美国911恐怖事件之后,开始了快速发展。2003年国际BCM权威组织DRII(国际灾难恢复协会)和BCI(国际业务持续协会)联合发布的业务连续性专业人士所用的国际最佳惯例,标志着业务连续性管理完整的知识体系形成。作为一个相对较新的概念,业务连续性管理相关工作在中国刚刚起步,政府机构、学术界和企业界都已经认识到业务连续性管理的重要性并逐步重视起来。国内在这方面研究大致从两个领域进行:一个是围绕信息安全带来的新型安全危害事件所作的研究,典型应用就是国务院信息化办公室2005年颁布的《重要信息系统灾难恢复指南》;另一个是围绕应急管理体系所作的研究和实践,以2003年SARS挑战为契机,政府适时提出了建立国家应对自然灾害、公共卫生事件的应急管理体系,并于2007年11月1日颁布了《中华人民共和国突发事件应对法》。2008年汶川地震举国上下万众一心应对灾难,有效地展现了过去了10年中国在灾难应对、危机处置、紧急救援和善后处理方面所取得的成就。国内监管现状当今银行的日常业务运营高度依赖于信息系统,任何信息系统故障都会影响到银行的正常运转,造成经济损失或社会影响。在这种业务与信息系统紧密联系的模式下,一旦因为突发灾难造成关键业务数据丢失或信息系统不能尽快恢复,将严重地影响银行业务的正常运营,甚至会带来灭顶之灾。美国明尼苏达大学对灾害所造成的影响分析显示,各行业最长可忍受损失为日常营业额的50%;如两星期无法恢复信息系统,75%的公司业务将停顿,43%的公司将无法再开展业务;没有实施灾难备份的公司,将在灾后2~3年破产。美国的权威信息调查机构StrategicResearchCorporation列出的各种行业停机一小时所造成的损失(见表1),银行业占据榜首。从社会影响层面分析,无论业务运营对信息系统的依赖程度还是信息系统管理水平等方面来看,银行业总被誉为各行业中的“领头羊”。这不仅是由于其起步早,20世纪90年代末部分银行已经开始实施数据大集中和灾备中心的建设了,更是由于2006年以来,银行业对业务连续性管理的认识不断深入。近几年,我国对业务可持续性管理及其相关的信息安全、应急管理、灾难恢复等领域相继发布了监管规范和指引,如《银行业信息系统突发事件应急管理规范》、《商业银行信息科技风险管理指引》等,《商业银行业务连续性监管指引》(以下简称《指引》)更是对银行风险管理提出了的更高、更明确的要求。《指引》强调了业务连续性管理不仅是IT部门的工作职责,还需要由上而下地覆盖各业务部门的日常工作,银行业对外服务及支持对外服务的所有业务都必须建立配套的连续性计划,并通过内部审计等方式确保业务连续性计划的良好实施。同时,IT信息系统在业务连续性管理中的作用是举足轻重的,这不仅是由于业务连续性管理脱胎于IT的信息灾备管理,更是由于信息系统故障导致的业务中断在业务运行风险中是最常见最复杂的。因此,《指引》从业务连续性管理组织架构、执行层面、风险影响分析、资源建设等方面强调了IT部门在业务连续性管理中的角色。《指引》同时还强调了商业银行在遵从监管的过程中,从风险影响识别、关键业务系统的判定、应急体系的组建、内部审核管理等方面都需要从各行的实际情况出发,制定符合各行需要的管理政策,不搞一刀切。从我国银行业的组成来看,国有五大银行、股份制商业银行、各城市商业银行、外资银行和其他银行业金融机构由于历史条件不同、管理理念差异、国家政策导向关系在业务连续性管理方面建设的成熟度差异很大,在《指引》的执行层面,也会面临不同的挑战。交通银行实践交通银行根据银监会《指引》的要求,从实际情况出发,建立了一整套业务连续性管理的企业战略,重视流程、平台、文化三方面的重点问题,以业务为中心、以流程为导向、以技术为手段、以文化为保障(见图2),获得了较为显著的效益。以业务为中心,就是强调业务保障为整体战略的出发点和效益点,从业务战略到业务需求变化,从而导致对整体信息化保障的高要求。交通银行是中国五大国有大型商业银行之一,目前各项业务发展迅猛,机构遍布国内250多个城市,营业网点数达到2600多个,且在中国香港、纽约、东京、新加坡、首尔、法兰克福、悉尼、伦敦等地设有分(子)行,在中国台北设有办事处。交通银行已经走上了国际化、综合化的道路,业务处理模式也正向全球24小时不间断运营方式发展。交通银行作为2010年上海世博会商业银行全球合作伙伴,肩负起保障世博金融服务安全的使命。世博会对应急管理和业务连续运作提出了明确、细致的要求,加之国内金融监管机构对应急管理的监督和检查力度不断加强,因此,统一应急管理工作保障制度、规范应急体系和流程、完善应急管理体系整体规划、完善信息系统和基础设施应急预案及必要的演练,对交行来说已成为保障工作的重中之重。以流程为导向,就是无论从战略角度还是各部门的执行层面,均制定了与业务连续性管理相配套衔接的服务流程,保障管理措施的规范执行。交通银行一贯重视业务连续性的建设,相继制定了一系列管理办法,如《交通银行突发事件管理办法》、《交通银行信息系统应急管理办法》、《交通银行媒体危机应对管理办法》、《交通银行数据中心可持续性管理办法》等。并且从高管层开始,建立了业务连续性管理组织架构,按照主管部门、执行部门、保障部门的分工,组建了专门的风险管理委员会,直接向董事会负责。其下由风险管理部负责日常管理事项,信息技术管理部、数据中心等各条线业务部门各司其职,共同参与业务连续性管理的各个环节。为了提高运行管理水平,数据中心按照IT服务管理的国际标准ISO20000和ISO27001建立了规范的IT服务和信息安全的管理体系。交通银行数据中心是国内金融业首家通过ISO20000的机构,在ISO20000的框架内,就包含了可持续性管理流程的内容。经过梳理的持续性管理具有以下活动和过程:风险和灾难规避评估、确定整体恢复策略、确定与建设业务持续性计划、设计开发持续性和灾备预案、预案演练、预案维护。通过ISO20000框架内各流程之间的互动关系,打破了职能部门之间的技术壁垒,实现减少服务不可用的时间或者最小化业务活动中断影响的流程目标。经过几年的摸索与实践,我们在持续性管理流程下建立了预案体系、演练体系和应急体系,并辅以管理细则和绩效评估,定期回顾流程执行情况,落实流程执行效果。预案体系分为四个层次,第一层是《生产突发事件现场应急处置预案》,其中定义了突发事件的通用应急响应流程,是所有其他预案的入口;第二层是场景预案,大致覆盖了可能遇到的绝大多数突发事件场景;第三层是技术预案,详细描述了应急恢复的技术细节;第四层是操作手册和资料性文档,作为技术预案的补充。目前数据中心已有各类预案百余份,并定期进行修订维护。演练体系分两个层面:技术部门内部演练和跨部门联合演练。目前数据中心已经初步实现演练常态化,定期进行场景演练和技术演练,也多次与业务部门联合组织进行业务应急预案的演练。应急体系可分为事件监测与发现、组织评估影响度、应急处置、后续回顾四个环节,辅以应急预案的制订和演练,尽量主动监测与预防影响业务持续性事件的发生,减少意外事件对业务的影响。以技术为手段,就是强调信息技术在实现业务连续性管理目标中的重要作用,发挥交通银行在信息技术上的领先优势,实现业务连续性管理的跨越式发展。自2006年数据中心成立以来,交通银行已经在灾备与应急方面取得重大突破,在国内金融业具有领先优势。交通银行建立了先进的同城灾难备份系统,实现了大规模系统灾备切换的自动化,大大缩短了系统切换时间,并且在国内银行中首次实现了数据中心、同城中心之间的业务系统切换运行和回切,业务恢复时间仅1.5小时,并做到了零数据丢失(RPO为0),达到了国际先进水平。2011年,数据中心又在关键系统同城双中心运行的基础上成功实现了新一代海外行系统分钟级切换,首次将灾备切换时间缩减至10分钟,取得了令人瞩目的成就。2011年,数据中心制定了两地三中心灾备体系规划,以“统筹规划、分步实施;成本优先、兼顾效率;分级灾备、保障有效”为指导原则,建设上海、武汉的“两地三中心”灾难备份体系,以增强IT防范风险能力,保障业务连续性。在充分理顺了业务连续性管理流程后,数据中心利用自身的技术能力,对管理流程进行平台化改造,在已经建设完成的BCM平台中,全面覆盖风险分析、业务影响度分析、预案开发和管理、应急演练、应急响应、应急恢复等领域,形成一套完整的IT业务连续性管理闭环。通过自动化工具提供了全新的演练方式提高演练成效,实现预案策略的快速查询和定位,在应急响应过程中提供操作和指挥层面的信息支持。这一平台工具在2011年分钟级灾备切换演练中发挥了重要作用。以文化为保障,就是充分营造业务连续性管理的企业文化氛围,统一全员意识,在各项工作中渗透融合。应急保障是数据中心的部门职责之一,为了向数据中心每个员工灌输业务连续性理念,落实流程要求,中心一方面通过培训、宣讲等方式,使员工了解业务连续性管理的概念及目标,另一方面将与业务连续性管理相关的绩效指标分解