容灾解决方案北京荣之联科技股份有限公司广州分公司演讲者:马鹏飞1.业务容灾的挑战2.解决方案概述3.典型应用场景5.成功案例4.价值意义目录2008.5.12汶川地震2009.2.9央视配楼2003.5全国性非典传染2004.6.27湖南常德雷击灾害2008.1-2南方特大冰灾业务系统面临的威胁来源:ContingencyPlanningResearch,Inc1999(1982-1997(美国)样本数:6000宗)业务系统面临的挑战业务连续要求法规遵从风险控制技术方案灾备策略灾备成本运行管理1.业务容灾的挑战2.解决方案概述3.典型应用场景5.成功案例4.价值意义目录容灾基础:RTO/RPO7决定切换灾备中心时刻Dt+10分钟主机远程切换备份主机挂接备份存储生产存储切换到备份端存储+20分钟+90分钟业务恢复其他就绪恢复操作+120分钟秒分钟小时应用恢复数据检查网络切换与恢复业务体系应急流程RPORTO灾备决策灾难时刻•应用恢复的时间取决于数据丢失(RPO),小RPO将加速数据库的恢复速度•数据库恢复完毕后,要通过人工裁决是否需要数据追补,才能够正常启动整个系统。•正确选用复制技术,“保证数据一致性+最小的RPO“,缩短RTO。•整体系统的恢复能力–整体恢复能力取决于备份中心服务器能力、存储能力和网络能力8容灾标准之一:国际标准SHARE78最优的DR方案是各层面方案的混合,在最低的成本下覆盖最多的应用单个的技术、方法、规模不能适用于所有的应用SHAREGroup定义的灾备7层次(1992年)15分钟1-4小时4-8小时8-12小时12-16小时24小时多天1-PATM卡车运送2-PATM卡车运送+热备份站点3-电子传送数据,磁带恢复4-批量/实时的数据库快照或日志复制,时间点磁盘拷贝5-应用软件,两地点-两阶段提交保证交易完整性6-接近0或0数据丢失,远程数据镜像保证数据完整性和一致性7-接近0或0数据丢失,远程数据镜像;并且业务环境可进行高自动化的系统接管24-48小时数据重构可用的备份中心专门的远程灾备中心不能忍受长时间中断的应用忍受一段时间中断的应用容忍长时间中断的应用成本恢复所需要的时间(RTO)《信息系统灾难恢复规范》9容灾标准之二:GB/T20988-2007•实现远程数据实时备份,实现零丢失•应用软件可以实现实时无缝切换•远程集群系统的实时监控和自动切换能力6级-数据零丢失和远程集群支持•实现远程数据复制技术•备用网络也具备自动或集中切换能力5级-实时数据传输及完整设备支持•配置所需要全部数据和通讯线路及网络设备,并处于就绪状态•7*24运行;更高的技术支持和运维管理4级-电子传输及完整设备支持•配置部分数据,通信线路和网络设备•每天实现多次的数据电子传输•备用场地配置专职的运行管理人员3级-电子传输和部分设备支持•预定时间调配数据,通信线路和网络设备•备用场地管理制度•设备及网络紧急供货协议2级-备用场地支持•每周至少做一次完全数据备份•制定介质存取、验证和转储的管理制度•完整测试和演练的灾难恢复预案1级-基本支持容灾策略:灾备中心架构战略10业务级生产中心异地灾备中心高可用性,稳固的容灾体系生产中心灾难时恢复时间较长数据级/应用级异地灾备中心生产中心同城热备中心最稳固的容灾体系全方位的容灾切换应用级/业务级数据级/应用级100公里300公里生产中心同城灾备中心抵御生产中心物理破坏不能抵御城域灾难应用级容灾成本低高可靠性生产中心异地灾备中心抵御地域性灾难恢复时间较长,挑战切换决策数据级/应用级容灾策略:灾备中心运营模式双生产中心模式主-备模式前台2应用A应用B应用C应用D数据数据生产网络灾备网络应用A’应用B’应用C’应用D’数据数据单向复制前台1前台2应用A应用B应用C’应用D’数据数据生产网络生产网络应用A’应用B’应用C应用D数据数据双向复制前台1业务恢复速度技术难度维护人员要求资源复用投资主备模式慢简单简单低较低低双中心模式快复杂复杂高高高业务恢复速度技术难度维护人员要求资源复用投资1备1模式快简单复杂多低高1备多模式慢复杂简单少高低容灾策略:灾备中心布局模式生产中心存储3存储1存储2应用1应用2应用3灾备中心存储3存储1存储2应用1应用2应用3生产中心存储3存储1存储2应用1应用2应用3灾备中心存储应用1231备11备多VS容灾策略:容灾级别与能力恢复速度业务恢复难度实现难度运营维护成本投资数据级容灾较慢,RTO24小时高较低较低较低应用级容灾较快,RTO12小时较低较高较高较高业务级容灾持续可用,RTO0.5小时低高高高13•容灾级别–数据级容灾–应用级容灾–全业务级容灾•恢复能力–同级容灾–降级容灾分小时天周业务级投资恢复时间应用级数据级持续可用可以恢复快速恢复14关键业务系统数据级容灾A系统应用级主备模式容灾数据级应用级主备模式业务级主备模式业务级双中心模式第一阶段XXXX年第二阶段XXXX年-XXXX年第三阶段XXXX年-XXXX年运营模式时间B、C系统应用级主备模式容灾D系统应用级主备模式容灾A、B、C系统业务级双中心模式容灾D系统业务级主备模式容灾容灾策略:灾备建设与演进策略存储系统存储系统1235应用系统数据库卷管理器生产中心灾备中心应用系统数据库卷管理器SAN网络SAN网络41.基于应用的交易复制解决方案–应用程序在本地、远端双写I/O2.基于数据库复制的解决方案–数据库本身的远程复制3.基于主机的远程数据复制软件解决方案–卷管理器层面截获I/O,远程复制4.基于SAN网络虚拟器数据快照解决方案–交换机虚拟化设备担任复制引擎5.基于存储的远程数据复制容灾解决方案–智能存储远程数据复制主机层网络层存储层容灾方案的实现方法1-基于应用复制的容灾技术16容灾TCP/IP网络应用系统备用主机备用SAN交换机备用存储应用系统前台主机系统SAN交换机生产TCP/IP网络存储容灾TCP/IP网络应用系统备用主机备用SAN交换机备用存储应用系统前台主机系统SAN交换机生产TCP/IP网络存储•优点:不需要特殊的硬件、软件支持;数据传输量最少,节约网络资源;对磁盘子系统透明•缺点:需对应用程序作大量修改;实施维护难度较大,需定期进行一致性检查;备份中心的备份数据较难回切主中心方式一方式二2-基于数据库复制的容灾技术17•基于数据库日志的数据复制,仅能提供Oracle结构化数据的保护,不支持文件数据传输•在数据库中插入表结构、截取日志,占用主机资源,影响生产系统性能•生产系统故障时,需要人工干预装载,业务中断•受到操作系统、数据库、存储系统兼容性限制•灾难发生后回切,需要一系列人工操作,RTO小时级•实时同步复制存在系统延迟,不能实现RPO=0•扩展性能差p5p5OracleRedoLogOracle存储A存储B生产站点灾备站点日志提取日志分析日志合成日志输出日志传输日志输入日志装载RedoLogLAN3-基于卷管理器的容灾技术18存储其他存储服务器服务器同步或异步方式•主机层面基于逻辑卷复制的DR软件(VeritasVVR)–异构存储DR解决方案–同步、异步方式•优点:–无硬件锁定–自动接管-0停机–一定扩展性–保证数据一致性–阵列维护-0停机•弱点:–10-20%主机资源损耗?–同构主机平台–不支持数据级容灾–不支持RAW设备的数据复制–卷管理系统替换复杂度?–实施、维护复杂性?–技术成熟性?企业级案例?VeritasVVR示意图卷管理器应用程序文件系统VVR数据库I/O卷管理器VVRI/O生产中心灾备中心应用程序文件系统数据库4-基于SAN网络的远程快照技术19VolVolIBMEMCSANFabricClusterVolumeHACMPVCSMSCSI/OI/O将I/O分发到2个物理地址I/OActiveServerx某一存储故障无法写入I/O保持持续写入另一个存储•IPStor,DataCore,RecoveryPoint,SVC,SVM等远程快照方案–快照复制,异构存储解决方案•弱点:案例、容灾能力(容量、性能)、技术成熟性、可靠性,原有系统结构调整?5-基于存储复制的容灾技术20•逻辑卷实时数据镜像–不占用主机资源–覆盖所有数据对象–数据级、应用级容灾–高效复制性能–低实施和维护成本–双向复制,切换与回切–成熟技术,丰富案例•限制:–同构存储同步或异步方式I/O容灾数据源数据远程数据复制服务器数据库文件系统卷管理器应用程序切换与回切服务器数据库文件系统卷管理器应用程序技术实现基本要求问题常见实例基于存储系统与服务器无关;需要灾备站点购买相同盘阵,同时购买盘阵复制软件;无法实现其它存储的接入带宽链路要求极高;从架构规划来看,对一个共享式灾备系统的持续扩展造成瓶颈,无法实现更多存储系统的灾备。限制了设备的选用。EMCSRDF、IBMPPRC、HPBusinessCopy、HDSTrueCopyIBMGlobalMirror基于SAN网络与服务器和存储无关,支持异构存储虚拟化管理;接入现有SAN交换机即可,需要有富余端口;专用管理器进行数据复制不占用现有系统资源;可以在集中灾备中心和分支机构选用任何存储设备,灵活架构,优先选用;LSI:SVMEMC:RecoveryPoint基于主机系统每一台主机需要安装复制软件;需要重建文件系统;对于主机系统影响;占用生产主机资源5%~25%;成本、风险高,可扩展性差,不适合多主机、多站点平台的灾备建设IBMAIXLVM/GLVMVeritasVVR、VCS基于数据库的数据复制利用数据库复制工具实现;仅实现数据库的复制;不能实现多业务数据灾备的要求;不适合分支机构的复杂多应用,限定了数据库级别;OracleGoldengateQuestSharePlexDB2HADR基于应用的数据复制不需要特殊的硬件、软件支持;数据传输量最少,节约网络资源;对磁盘子系统透明需对应用程序作大量修改;实施维护难度较大,需定期进行一致性检查;备份中心的备份数据较难回切主中心比较少21容灾技术对比1.业务容灾的挑战2.解决方案概述3.典型应用场景5.成功案例4.价值意义目录典型应用场景:本地数据保护生产中心生产主机群1生产存储备份存储VTL/磁带库数据保护备份出库典型应用场景:业务分离/双活业务中心生产中心生产主机群1生产存储容灾中心查询主机群1生产存储数据复制典型应用场景:同城/异地/两地三中心容灾同城灾备中心同城容灾存储容灾主机群1利旧存储异构存储异地灾备中心容灾存储容灾主机群1利旧存储利旧存储生产中心生产主机群1生产存储利旧存储异构存储远程异步远程异步接管差量再同步接管同步1.业务容灾的挑战2.解决方案概述3.典型应用场景5.成功案例4.价值意义目录客户受益定制化解决方案各种级别的容灾方案,最佳数据保护和投资保护;快速备份与存储,减少恢复窗口,降低业务灾难恢复时间;自动备份与恢复,减少由于人员操作失误而引起的系统故障;在灾难和不可预知事件发生后,最快恢复关键业务数据,保障业务运营持续性改进服务质量提高安全性减少停机时间提高用户的工作效率1.业务容灾的挑战2.解决方案概述3.典型应用场景5.成功案例4.价值意义目录29数据库容灾:OracleDG/GGOracle9iRACOracle9iRACOracle9iRAC决策支持库GoldenGate单向复制GoldenGate单向复制H2000生产库Oracle9i全国各地41个口岸H2000应用GoldenGate双向复制广州北京H2000生产库决策支持库网络•远距离容灾(北京-广州)•异构平台北京:RAConHPSuperdome广州:RAConIBM690•低带宽(2M)•低延时(RPO=3s)•全国第一个可随时接管的双业务中心(每4个月互换一次)•快速业务切换(RTO15m)30主机容灾:SFHA/DR+VVR文件服务器邮件系统DB2服务器SQL服务器光纤交换机光纤交换机存储Symantec5220Symantec5220惠州总部优化复制光纤交换机光纤交换机香港香