业务连续性规划最佳实践经验许瑀资深业务连续性咨询顾问Email:xu_yu@emc.com主要内容:22•业务连续性建设定义与定位•EMC2BCSI方法论•业务连续性“规划”阶段要点•业务连续性“建设”阶段要点•业务连续性“管理”阶段要点什么是业务连续性?业务连续性管理框架BCMFramework-ConsolidatedfromDRII,BCIMethodologyBCMFrameworkRiskManagementBCMOrganizationEmergencyResponseandOperationsBusinessImpactAnalysisMaintainandExerciseAwarenessandTrainingCrisisComm.CoordinationwithExternalBCMStrategiesBusinessOperationRecoveryInformationSystemRecoveryBCMFrameworkBCMFrameworkBCMFrameworkRiskManagementRiskManagementBCMOrganizationBCMOrganizationEmergencyResponseandOperationsEmergencyResponseandOperationsBusinessImpactAnalysisBusinessImpactAnalysisMaintainandExerciseMaintainandExerciseAwarenessandTrainingAwarenessandTrainingCrisisComm.CrisisComm.CoordinationwithExternalCoordinationwithExternalBCMStrategiesBCMStrategiesBusinessOperationRecoveryBusinessOperationRecoveryInformationSystemRecoveryInformationSystemRecovery“没有IT系统的持续,就没有业务的持续。”-海关总署总工程师:杨国勋于2006年11月9日,中国BCM2006高峰会业务连续性建设IT的容灾建设:“IT服务的连续性是业务连续的重要基础,从IT服务的连续性建设开始,是进行业务连续性建设的有效途径。”-EMC公司咨询顾问:许瑀于2006年11月9日,中国BCM2006高峰会=但是:以IT为中心的业务连续性建设重要性BCMFrameworkRiskManagementBCMOrganizationEmergencyResponseandOperationsBusinessImpactAnalysisMaintainandExerciseAwarenessandTrainingCrisisComm.CoordinationwithExternalBCMStrategiesBusinessOperationRecoveryBCMFrameworkBCMFrameworkBCMFrameworkRiskManagementRiskManagementBCMOrganizationBCMOrganizationEmergencyResponseandOperationsEmergencyResponseandOperationsBusinessImpactAnalysisBusinessImpactAnalysisMaintainandExerciseMaintainandExerciseAwarenessandTrainingAwarenessandTrainingCrisisComm.CrisisComm.CoordinationwithExternalCoordinationwithExternalBCMStrategiesBCMStrategiesBusinessOperationRecoveryBusinessOperationRecovery以IT为中心的业务连续性建设内容InformationSystemRecovery回顾相关的信息保护程序1.a规划(Plan)基础架构设计定义业务需求容灾测试演习技术测试和实施8624管理(Manage)资源管理,改进及考评10建立(Build)更新及维护9项目规划A环境现状整理B启动&准备项目/服务水平的评估1调研高可用性和恢复技术3开发业务连续性计划7建立实施规划5项目管理和服务集成EMC开发了BCSI方法论,为业务连续性建设提供系统、科学的指导业务影响分析业务连续性规划包含以下内容:风险分析(可选)IT系统现状分析灾难恢复规划•容灾保护策略规划•灾难恢复策略规划•容灾技术选型•容灾架构规划•演进路线本地运营恢复规划y本地保护与恢复策略规划y本地保护与恢复技术选择y本地保护与恢复架构规划y本地保护与恢复改造路线业务影响分析:明确业务需求•定义关键业务功能和关键业务流程•定义RTO、RPO(IT系统)–ORTO、ORPO(OperationalRecovery)–DRTO、DRPO(DisasterRecovery)•定义RCO(RecoveryCapacityObjective)•定义业务运营所依赖资源(第一阶段通常只关注IT资源)关键点:业务部门的参与,获得业务部门的认同不紧迫紧迫重要不重要不紧迫紧迫重要不重要业务影响分析:各系统打分表及DRTO/DRPO业务支撑系统访谈评分优先级别DRTO(h)DRPO(m)营业系统378120开关机系统356120帐务系统289120接口库、前置机120采集系统(GSM语音)2782430计费系统2852430漫游上、下发接口2430网间结算2144248h统计分析2043248h帐务系统:欠费管理、销账管理优先级别为1其它为2,整体提升为1级业务系统可能面临的风险风险类别风险列举自然灾害气候灾害、地质灾难机房环境风险火灾、机房结构性破坏、供电系统瘫痪、空调故障社会性灾难传染性疾病或污染、恐怖主义事件、动乱、人为故障人为失误或故意破坏硬件单点故障单台服务器故障、网络单点故障、存储单部件故障硬件多点故障多台服务器故障、网络多点故障、存储多部件故障数据库逻辑故障数据库损坏、数据表误删除或修改软件故障应用软件故障、数据库软件故障、操作系统故障计划外风险系统性能严重下降主机、存储、网络、数据库、应用程序等系统升级操作系统升级、数据库版本升级、应用升级、数据库整理、硬件微码升级数据备份定期或不定期的数据备份系统迁移数据迁移、系统整合计划内风险容灾演习系统切换或回切风险分析:容灾保护策略:–同级容灾、降级容灾–应用级或数据级容灾–同步数据保护或异步数据保护–容灾数据复制技术–主备中心运营方式、双中心运营方式、多中心运营方式–演进路线–……业务连续性保护策略:本地保护策略:–本地高可用(群集或负载均衡等)–磁带备份–备份到磁盘、虚拟磁带库–基于磁盘卷复制的保护–CDP(持续数据保护)–…RecoveryContinuumLocalRemoteEMCInformationProtectionSoftwareSERVICELEVELSSynchronousRemoteMirroringTapeBackuptoDiskBackuptoDiskSnapshotBCVAsynchronousRemoteMirroring业务连续性恢复策略:本地恢复策略:–本地高可用切换–磁带恢复–磁盘备份或虚拟磁带库备份恢复–磁盘快照克隆恢复–日志恢复–CDP恢复–数据追补策略–…灾难恢复策略:–容灾切换启用条件–容灾切换最小单元–容灾切换优先级–…1.分析业务应用与IT系统映射2.分析业务应用的关联关系3.根据业务的关键性确定IT系统、IT元素的重要性应用及IT现状分析:本地运营恢复:不同级别的保护模式满足不同的备份/恢复目标RecoveryContinuumLocalRemoteEMCInformationProtectionSoftwareSERVICELEVELSSynchronousRemoteMirroringTapeBackuptoDiskBackuptoDiskSnapshotBCVAsynchronousRemoteMirroring容灾策略:技术实现手段信息的传输:SAN网络信息的整合:逻辑卷管理软件信息的驱动:服务器操作系统信息的载体:磁盘阵列信息的处理:数据库等信息的应用:业务系统信息的传输:SAN网络信息的整合:逻辑卷管理软件信息的驱动:服务器操作系统信息的载体:磁盘阵列信息的处理:数据库等信息的应用:业务系统EMCSymmetrixDMXSRDF容灾技术:完全不占用主机资源;应用及主机透明,切换/回切容易,扩展容易,备份中心数据可重用,支持异构主机;备份中心可不配置主机,存储系统不可异构,基于FCP(5)基于智能光纤交换机技术(4)逻辑卷复制主机镜像复制技术(3)操作系统(2)备用数据库技术数据库日志传送技术(1)中间件软件编程实现备份中心需配置主机,需编程实现,切换及回切复杂,扩展极复杂,基于IP备份中心需配置主机,主机性能有影响备份中心数据重用困难,切换及回切复杂,扩展复杂;只能复制数据库信息;基于IP(6)磁盘阵列数据复制技术备份中心需配置同构主机,实现复杂,主机性能影响严重,可实施性不强,基于IP逻辑卷复制技术:备份中心需配置同构主机,实现复杂,主机性能影响较严重,基于IP主机镜像复制技术:备份中心可不配置主机,实现简单,占用部分主机资源,存储系统可异构,基于FCP目前未实际应用,无可实施性需占用主机资源不占用主机资源容灾总体架构设计容灾设计参考模型典型双中心模型业务连续性技术实现:建设容灾信息技术平台回顾相关的信息保护程序1.a规划(Plan)基础架构设计定义业务需求容灾测试演习技术测试和实施8624管理(Manage)资源管理,改进及考评10建立(Build)更新及维护9项目规划A环境现状整理B启动&准备项目/服务水平的评估1调研高可用性和恢复技术3开发业务连续性计划7建立实施规划5项目管理和服务集成EMC开发了BCSI方法论,为业务连续性建设提供系统、科学的指导开发业务连续性计划(BCP):•应急响应计划–容灾管理组织–灾难初始评估流程–灾难宣布流程–灾难评估流程•容灾恢复计划(DRP)–IT切换流程/步骤/启用条件–IT回切流程/步骤/启用条件•运维恢复计划(ORP)–业务系统本地高可用恢复流程–备份恢复流程–快照/克隆恢复流程–升级为容灾切换流程–其它•业务恢复计划,主要关注以下内容:–IT恢复配合–业务验证–数据追补ORPIT容灾切换流程DRP升级调用调用总体流程示例:本地恢复和灾难恢复结合评估业务影响IT是否调用容灾切换定位受损/受影响资源灾难评估(容灾执行小组)IT是否宣告灾难?是否切换NoYesYesNoYesNoYes是否灾难No本地快速恢复——为重要场景建立本地恢复应急预案其它计划外场景其它计划内场景应用重启COREDUMP应用程序升级N/A应用类数据库物理损坏数据库逻辑故障DMX某重要部件损坏,3日之内未修复,DMX仍可用Instance1Route1DMX1SANSwitch1Appserver1StorageSAN网络类数据库软件升级计划内硬件停机调整完全失效服务器重启数据库整理端口损坏升级微码更换模块硬件扩容/维护存储类服务器类完全失效修改配置升级微码数据库宕库DMX宕机生产机及备机同时不可用数据库性能下降RAID故障服务器不可用数据库配置修改硬件扩容/调整(在线)端口损坏调整OS配置数据库扩容更换硬盘修改配置升级微码数据库重启扩盘升级微码安装操作系统PTF数据库其它计划外场景其它计划内场景应用重启COREDUMP应用程序升级N/A应用类数据库物理损坏数据库逻辑故障DMX某重要部件损坏,3日之内未修复,DMX仍可用Instance1Route1DMX1SANSwitch1Appserver1StorageSAN网络