2010-6-17信息系统的业务连续性规划信息系统的业务连续性规划pluswellpluswellPage2灾备等级定义业务连续性架构业务连续性方法论灾难备份恢复方案选择业务连续性建设常见问题pluswellpluswellPage3yy宏观规范和制度宏观规范和制度2005年4月出台的《重要信息系统灾难恢复指南》,重点的八大行业,包括银行、电力、铁路、民航、证券、保险、海关、税务¾灾难恢复的管理¾灾难恢复需求的分析¾灾难恢复策略的制定¾灾难恢复策略的实现¾灾难恢复预案的制订、落实和管理¾灾难恢复的等级划分(六个级别)¾灾难恢复预案框架国家标准GB/T20988-2007《信息安全技术信息系统灾难恢复规范》(GB/T20988-2007)于2007年11月1日正式实施¾本标准规定了信息系统灾难恢复应遵循的基本要求¾本标准适用于信息系统灾难恢复的规划、审批、实施和管理Page4国家标准定义的灾难恢复六等级及七要素国家标准定义的灾难恢复六等级及七要素Page5灾备方案的技术层次(灾备方案的技术层次(SHARE78SHARE78国际标准)国际标准)恢恢恢恢恢恢恢恢(RTO)费用15Min.1-4Hr..4-8Hr..8-12Hr..12-16Hr..24Hr..DaysTier4-批批/在在恢在在在在在在在在恢在在,重恢恢恢恢重重重,定恢恢定定在在Tier3-电电在在Tier1-人人人在Tier2-人人人在,远远远远恢恢重时时可用恢时时远远专专恢远远专时远远Tier7-接接接在接接在在接接:利用远远在在在在,在在在在在恢在在远在在在在在化恢化化接化Tier6-接接接在接接在在接接,远远在在在在远远远远在在恢远远远远远远远Tier5-软软软软软重,软两两两两(两交远远远);在重恢恢恢恢重重重点点点点在在点点点Page6国标第五级:实时数据传输及完整设备支持国标第五级:实时数据传输及完整设备支持至少一天一次全备份备份介质场外存放有符合介质存放条件的场地配备灾难恢复所需的全部数据处理设备配备网络设备配备通讯设备有恢复运作的场地采用远程数据复制技术将关键数据实时复制到备用场地就绪或运行状态就绪状态7x24小时运作具备自动或集中切换能力Page7©CopyrightIBMCorporation2007灾备等级定义业务连续性架构业务连续性方法论灾难备份恢复方案选择业务连续性建设常见问题Page8信息系统业务连续性建设包括系统高可用性、持续运行和灾难恢复三个方面信息系统业务连续性建设包括系统高可用性、持续运行和灾难恢复三个方面对关键业务数据的保护可预防和可靠的恢复业务运作在灾难发生后可以连续可预测和可管理的成本系统高可用性以容错和防错的基础设施支持持续的应用处理信息系统的业务连续性业务持续运作连续的系统日常备份和维护以及持续的应用可用性系统灾难恢复通过可靠的系统恢复,防止计划外停机,例如灾难的发生Page9系统的高可用性建设系统的高可用性建设我们发现,企业IT主管往往将信息系统的高可用性看成为产品质量问题的孤立事件,指望依赖软硬件产品质量的提升来改进系统的可用性但专业机构的调查显示,超过40%的系统故障是由人为的因素造成的,40%系统故障是由于不良的系统架构所产生,真正直接源于软硬件设备失效的系统故障不到总数量的20%(数据来源:GartnerGroup)我们还发现,企业往往没有明确的IT系统的可用性目标,即使有,也是通过对软硬件系统的可用性指标的叠加而得到,而非通过对业务影响的影响程度所设定。Ö错误的认识=〉不适当的行动=〉失望的结果=〉不满意Architecture40.0%Process40.0%Hardware10.0%OperatingSystems10.0%Source:GartnerGroup业务连续性系统高可用性Page10高可用性管理的战略目标-基于业务需求,目标系统高可用性建设框架系统高可用性建设框架高可用性的基础架构高可用性的应用体系架构完整的测试、质量管理体系高可用性的流程管理操作管理基础架构硬件、软件-技术支持,硬件、软件维护高可用性管理-端到端的体系结构衡量、标准管理体系可靠的安全体系架构Page11业务持续运作体系的建设业务持续运作体系的建设在对信息系统基础架构进行操作时,应用无需离线,如:¾系统备份的调度¾计划内的系统维护在基础设施正常运行时保障应用系统的可持续访问业务的持续运作需要信息系统基础架构、应用和数据、支持业务的流程等方面都必须紧密配合¾当前系统是否有恢复计划?¾系统恢复计划是否符合业务需求?¾对内、对外沟通渠道是否顺畅?¾数据与应用之外,是否考虑关键人员的备份?业务连续性业务持续运作Page12灾难恢复体系的建设灾难恢复体系的建设影响应用系统可用性的灾难类型¾自然灾难¾长时间大范围的计划内停机¾人为操作失误灾难影响对象分类¾影响数据,逻辑灾难¾影响人员¾影响设施、设备灾难影响范围分类¾局部灾难,影响同一机房¾区域灾难,影响10-20公里范围内¾地区灾难,至少100-200公里范围业务连续性系统灾难恢复Page13系统的高可用性与灾难恢复的关系系统的高可用性与灾难恢复的关系系统高可用考虑方向¾通常考虑局部范围¾一般没有数据丢失¾恢复时间在30分-1小时内¾自动完成恢复¾应对频繁发生的外界干扰系统灾难恢复考虑方向¾通常是广域的¾不能100%避免数据丢失¾至少几个小时以上¾手工控制,自动实现¾应对几年、几十年一遇的事件业务连续连续性系统架构灵活、效率、安全、管理Page14灾备等级定义业务连续性架构业务连续性方法论灾难备份恢复方案选择业务连续性建设常见问题Page15业务连续性方法论业务连续性方法论业务连续性流程设计应急管理的企业级规划容灾方案设计方案设计(技术、组织、运营)容灾方案实施最佳实践(功能性和非功能性的实现)容灾策略制定逐步消除差异(短中长期)当前业务环境分析关键流程的资源和资产链差异分析当前恢复能力灾难恢复预案管理日常维护演练制定IT应急计划业务风险分析明确关键流程运营中断的损失阀值定义可容忍的运营中断灾难分析潜在损失资产价值弱点安全措施有效性偶然事件可能性安全预防性方法Page16风险分析风风点风点风分分企在在在远远/在在远远可业业业恢专业vulnerabilitythreatsassetssafeguardcontrol点风分分在在点风专业灾灾恢可业远远保保保恢保保远资资资资点风分分分可业灾灾恢专业在在定远、定批恢点风分专业对点对对对对软,给给给给恢分给点风分分在在点风恢灾业、分结、给给每每专业可业每每恢每接点风由在专业由由恢由在可业每每恢由由每接点风$%200010001/10.000事软事事1/1001/10可接业点业接业每接可接业点业接业1/1.000专业xPage17业务影响分析在在业业点风点风分分与分专保与恢与远专业每灾(costsgrowt,lossofsales,lossofstockvalue,clientssatisfaction,peoplemorale,...)专业灾灾恢恢可分可恢每接点风分分分在在点专远人对恢对对、点风点风分分找给找远与远专业灾灾恢恢找远与远业灾灾远恢每接点风制制制在制批制制制制两提业每可分可远提提每接恢提提提在点风分分由在专业灾灾远提点点由每每恢由接提恢接每接由由Page18当前环境分析当当在在点风点风分分企在分专在在、相与与远点风分分点风分给分与远恢分分恢企在资资提资分(人人资分、IT架架、技技技时、技技技用远提、网网在在网)点风分给当当时分提恢恢业人点风分分分给得当在在接得业得得灾分专恢得、冗冗远提、可业每每恢在在每接网可可点风分分点风分远恢灾业、分结提给给与关与远恢冗冗远提当当恢恢业人差差专业每灾(costsgrowt,lossofsales,lossofstockvalue,clientssatisfaction,peoplemorale,...)专业灾灾恢恢可分可恢每接恢需需恢恢恢业人BusinessVolumes0102030405060708090100d-2d-1disasterd+2d+4d+6d+8d+1TimePercentageRecoveryResumptionPage19容灾策略制定分专提容制定点风分分分专相与与远costofoutagerecoverycostcriticalityresourcesalternativesplananalysis点风分分点风分分分点风分分针分分专业人恢得恢由由点风分每各提分给恢每灾点风短短-远短-长短在在提各提分给点风分在对人对提对对架架恢给给实保分给点风点风分分分专时分各提分给恢实保提容RecoveryTimeObjective(timetorecover)724824124412244872当当远短得制当当远短得制x分分y分分$$分给每灾Px计计在短RecoveryPointObjective(lossofdata)短短($$-Px)长短($$-Px)Page20容灾方案设计分专分给设计点风分分企在分点IT架架,IT点专对对、技用技技、软软软、网网架架网CostodiImplementazioneminutioregiorniDedicatedHotStandbyDataBaseShadowing/MirroringElectronicJournalTransportStandbyOperatingSystemBulkDataTranferStandardHotSiteContinuousAvailabilityTraditionalRecoveryCUSTOMERSITE1600MIPS-Produzione4TBCUSTOMERSITE24TB200MIPS-Sviluppo500MIPS2TBIBMBRSNetwork600MIPS-ProduzioneSite1Site2点风分分人工分分分点风分分根在分专提容在在两两远专业恢恢分给恢设计点风分分专业恢恢各提分给Page21灾难恢复计划设计专业恢恢计计设计点风分分分专相与在在与远点风分分人工分分分点风分分分专业灾灾当、专业灾灾分远提专业灾灾灾恢对对架架提灾分分给在在点风、时给备备备,以以远在以以专业灾灾恢在在以然业得然灾点风分分专业恢恢计计分专业恢恢计计恢备备提分分点风专业恢恢计计灾灾人专业恢恢化对灾对人对在在点专y在在点专x设时化对在在提网网技技得灾EDP对对分架领灾与关点专ColdWarmHotBusinessProcessSystemBoxSingleSystemMultipleSystemsCompleteSubsetRecoveryParametersScopeofRecoveryRangeofPlatformsAcceptableOutageDuration3to10days4to24hours1hourRecoveryVariablesThebusinesscontinuityplanningmarketwillevolveduringthenextfiveyearstoofferextendedserviceandsupportoption,addressinganincreasinglydiversesetofuserrequirements(0,8probability).Source:GartnerGroup-1997TrendsPage22企业灾难恢复计划管理企在专业恢恢计计化对BusinessContinuityOwnerContinuitymgmtteamOperationsBusinessunityBusinessunitxEquipment&facilitiesDataNetworkTechnicalsupportEDPorganizationBoardCrisisunit点风分分分专业恢恢计计保保远在在对找备给给对在给给制制分给对找恢恢制点风分分专业恢恢计计保保远对找可可专业恢恢计计对在给给HowPreparedA