交通银行两地三中心改造

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

交通银行、两地三中心、灾难备份交通银行在“两地三中心”建设中进行了两次大规模的真实灾备系统切换运行,实现了大型机和开放平台数据库系统的同城双活运行,在同业中产生了重要影响,推动了行业技术进步和发展。商业银行信息系统的安全、稳定运行关系着国家金融安全和社会稳定,如何保障IT系统具有高可用性和防范各种风险和灾难的能力至关重要。为此,监管机构十分重视商业银行的灾难备份体系建设,多次发布了商业银行信息系统灾难备份的相关标准和指引,对商业银行灾备系统建设提出了明确的要求。为了防范灾难和风险,国内商业银行相继建立了同城和异地灾备中心,“两地三中心”已经逐步成为商业银行广泛采纳的灾备建设模式。交通银行2006年完成了数据大集中,在上海张江建立了数据中心,于2007年将海外分行系统从香港迁移到张江数据中心运行,实现了境内外一体化的数据中心运行。为保障业务连续性,交通银行于2007年在上海浦西漕河泾建立了同城备份中心,2008年在武汉建立了异地灾备中心,形成了“两地三中心”的灾难备份体系。在灾备建设过程中,交通银行针对上述问题进行了深入的探索和实践,通过自主创新,建立了完善的灾难备份体系,交出了一份满意的答卷。一、交通银行“两地三中心”建设规划为了指导灾备体系建设,交通银行制定了“两地三中心”的发展规划,确定了灾备体系建设“统筹规划、分步实施;控制成本、保障有效;面向业务、分级灾备;平战结合、资源共享”的十六字指导方针。首先对“两地三中心”建设的目标、灾备等级,技术路线等进行总体规划;在灾备的建设顺序上,采取“先同城、后异地”的策略。其次,在保障灾备系统有效性的基础上,采取各种技术和管理手段,尽可能降低灾备系统的投资成本。再次,对业务系统进行分级,根据业务的重要性程度,确定业务的RPO和RTO目标,采用不同的灾备模式,达到不同的灾备等级,关键的业务实现双活运行,重要业务实现系统级灾备,其他业务实现数据级灾备。最后,对于大机系统和规模较大的开放平台系统,采用同城双中心运行的方式,使得备份中心的服务器资源也可以分流生产负载,实现资源共享。该规划明确了两地三中心的功能定位,张江数据中心作为生产的主中心,承担全行所有集中式业务的生产运行;漕河泾中心作为生产副中心和同城备份中心,用于防范水灾、火灾、电力中断等区域性灾难,并可应对生产容量不足、局部故障等紧急情况,同时具备在日常分流部分关键业务的生产负载和在张江数据中心出现大面积的系统瘫痪时接管生产系统运行的能力;武汉中心作为异地灾备中心和多活中心,用于防范地震、海啸、战争等城市级的灾难。在张江中心和漕河泾中心均不能对外提供服务时接管生产业务,同时要兼顾部分生产系统异地多活云计算部署的需求。规划还对各业务系统进行了分级,对各级业务系统的同城和异地灾备建设等级、RPO和RTO指标、技术实现方式等进行了规定,为业务系统的灾备建设提供了指南。二、灾备体系建设历程经过数年的建设和发展,交通银行漕河泾备份中心已经建立了完备的同城备份系统,实现了所有业务系统的数据级灾备,重点业务系统的系统级灾备(在灾备中心有备份服务器),以及部分关键业务系统的双活运行,灾备的等级达到国际和国家标准的最高级——第6级。武汉异地灾备中心已经建立了关键和重要业务的数据级灾备,目前正在推进关键业务的系统级异地灾备建设,灾备等级达到国家标准的第5级。在充分借鉴和吸收国内外先进技术的基础上,交通银行进行了大胆的技术创新,研发了多项具有自主知识产权的关键技术,在灾备系统建设上多次实现了“零”的突破,在国内同业中创造了多个“第一”。2008年8月,交通银行在同城备份中心建成后,为了验证灾备系统的有效性,进行了一次真实的大规模灾备切换演练,将核心账务、贷记卡、网银、电话银行、外汇等对外服务的关键业务系统切换到漕河泾中心,对外运行一天之后,又切换回张江数据中心运行。切换过程采用了大规模灾备切换集中控制技术,将所有的切换和验证操作脚本化和自动化,使得切换和回切时间均控制在100分钟之内。交通银行的同城灾备系统的成功切换和对外运行,在国内大型商业银行中尚属首次,产生了重要影响。新华社内参的评论认为该事件“标志着我国商业银行灾难备份系统建设跨入国际先进行列,具有重大意义”。为了有效降低大机系统的运行成本,2009年交通银行自主开发了基于大型机的远距离同城双中心交易分流处理技术,实现了核心业务和贷记卡系统在张江和漕河泾两个中心之间的同步运行。张江和漕河泾中心之间的光纤距离达到70千米。IBMGDPSMulti-Site方案也支持大机系统的双中心运行,但是,在GDPSMulti-Site模式下,交易的响应时间随着光纤距离的延长急剧下降(增长十倍以上),因此,GDPSMulti-Site支持的最大光纤距离不能超过30千米,对应的物理距离不到20千米,灾备效果大打折扣。交通银行通过交易的映射和分流,突破了IBM技术的限制,备份中心的大机和生产中心的大机构成同一个SYSPLEX,可以同时运行核心和贷记卡交易。大机双中心运行使得备份中心的资源得到有效的利用,节省了数据中心昂贵的大机CPU升级扩容费用,提高了生产系统的可用性,也使得漕河泾中心的功能从传统意义上的灾备中心转变为生产的副中心。2011年10月,在同城灾备切换和双中心运行的基础上,交通银行在海外业务系统上进一步实现了分钟级的灾备切换运行,将海外业务系统(包括大型机系统和开放平台系统)从张江数据中心切换到漕河泾副中心运行,对外服务运行一天后,再切换回数据中心运行。整个切换过程实现了高度的自动化,由于实现了双中心运行,计划内切换过程用时14分钟,没有中断业务,计划外的切换过程业务中断仅4分钟。2012年,交通银行进一步实现了开放平台DB2系统的双中心试点运行,采用IBM最新的GDPC技术,通过自行研发的JDBC分流技术,在国际上首次实现70千米距离的DB2数据库系统双中心运行。目前正在进行DB2双中心运行的推广工作。三、灾备系统的运维管理灾备系统建设投资巨大,然而,商业银行的灾备系统建设普遍面临如下问题:第一,由于大规模、关联复杂的IT系统灾备切换技术复杂、风险极高,商业银行的灾备系统往往处于“有备份、无切换”的状态,灾备系统的有效性没有经过真实切换的验证;第二,生产系统环境不断变化,灾备系统的维护成本高,可用性难以保障;第三,灾备中心用于备份的服务器往往处于空闲状态,虽然一些银行将灾备系统同时用于开发测试,但其资源仍没有得到充分有效的利用,尤其是对采用大型机运行核心或贷记卡系统的商业银行而言,灾备大机的资源十分昂贵。灾备建设投资大、周期长,但是,要确保在生产中心出现不可恢复的故障或灾难时能够及时接管业务运行却绝非易事。为了确保灾备环境随时处于可切换状态,交通银行从技术和管理方面采取了多项措施来保障灾备系统和生产环境的一致性。在技术手段上,交通银行的关键业务系统采用双中心运行模式,漕河泾副中心的双活系统视同生产系统进行维护。在新建的开放平台系统中大规模推广使用外置盘引导(SANBoot)技术,通过磁盘同步复制自动实现同城和异地灾备与生产系统的一致性。大大节省了灾备系统维护的工作量。针对原有系统,为了确保灾备和生产的一致性,交通银行数据中心还建立了灾备信息自动化比对平台,该平台每晚将灾备环境和生产系统的主要配置进行一致性比对,生成比对报表,自动发送给相关维护人员,维护人员可以随时检查灾备环境和生产的一致性。在管理体系上,交通银行数据中心将灾备环境与生产系统进行一体化的管理,将数据中心的变更、容量、配置、监控、事件、应急、安全等管理流程延伸到同城副中心和异地灾备中心,如变更管理规定生产环境变更一周必须对灾备环境进行同步变更。为了确保相关管理规定的落实,交通银行数据中心定期对生产变更同步的执行情况和灾备与生产配置的一致性进行安全审计。数据中心每年年初都会制定灾备切换演练计划,每月进行一次灾备切换演练,验证灾备系统的有效性。此外,将灾备切换成功率和灾备系统配置与生产的一致性等指标纳入对数据中心各二级部门的绩效考核。这些管理手段取得了良好的效果,灾备切换演练取得了较高的成功率。在应急处理体系上,交通银行建立了由灾备恢复计划、灾备应急处理预案和相关的操作手册组成的三级应急管理体系,开发了灾备应急处理平台,可以自动控制灾备切换(恢复)流程的执行,这些预案和流程都经过切换演练的验证,可以确保在紧急情况下发挥作用。交通银行在“两地三中心”建设中大胆创新,积累了丰富的经验,共进行了两次大规模的真实灾备系统切换运行,实现了大型机和开放平台数据库系统的同城双活运行,在国内同业中产生了重要的影响,推动了行业的技术进步和发展。在灾备系统建设的过程中,交通银行自主研发了多项具有自主知识产权的关键技术,共申请专利8项,目前已经取得了2项国家发明专利授权,1项实用新型专利授权和1项美国专利授权,其余的专利申请已经进入实审阶段。

1 / 3
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功