连续性管理流程

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

文件编号:OP-ITSM-012文件名称:连续性管理流程版本:1.01.0简介业务目的:确保灾难或意外事件发生时,IT服务提供方能在既定的要求时间内恢复正常运作,以减少运营风险及降低业务损失。IT目的:通过业务影响分析,量化IT服务对业务的影响;通过风险分析,确定对IT服务连续性的潜在威胁和威胁成为现实的可能性,并管理已确定的威胁;制定IT服务连续性计划,并确保其有效性。2.0适用范围此流程适用IT管理手册中定义的服务范围。3.0相关流程IT服务管理手册(QM-ITSM-2011)服务规划及管理流程(OP-ITSM-004)服务级别管理流程(OP-ITSM-005)服务报告管理流程(OP-ITSM-006)事件和服务请求管理流程(OP-ITSM-007)问题管理流程(OP-ITSM-008)配置管理流程(OP-ITSM-009)变更管理流程(OP-ITSM-010)容量与可用性管理流程(OP-ITSM-014)业务关系管理流程(OP-ITSM-016)服务策划管理流程(OP-ITSM-019)一级事件(重大)处理流程(OP-ITSM-021)IT服务连续性策略工作流程(OP-ITSM-024)人员撤离应急处理操作指引(WI-ITSM-017)4.0定义4.1术语表术语缩略词/英文定义业务影响分析BIA(BusinessImpactAnalysis)重大意外灾难事件发生时,所造成IT服务提供方的运维服务中断等影响严重性的分析。风险Risk对目标不确定性的影响,事态发生可能性及产生后果的组合。风险评估RA(RiskAssessment)分析资产对业务的价值,识别对这些资产的威胁,评估每项资产面对这些威胁的脆弱程度。可接受风险RiskAcceptance对一个特定风险不采取措施减少其影响的管理决定。灾难Disaster灾难是由于人或自然的原因,造成信息系统运行严重故障或瘫痪,使信息系统支持的业务功能停顿或服务水平不可接受、达到特定的时间的突发事件,通常导致信息系统要切换到备用场地运行。灾难恢复DisasterRecovery将信息系统从灾难造成的故障或瘫痪状态恢复到可正常运行状态,并将其支持的业务功能从灾难造成的不正常状态恢复到可接受状态,而设计的活动和流程。IT服务连续性策略ITSCS(ITServiceContinuityStrategy)规定IT服务连续性对风险的降低及恢复或连续性方案的平衡范围及标准。IT服务连续性计划ITSCP(ITServiceContinuityPlan)定义恢复一项或多项IT服务所需步骤的计划,该计划还确定如何触发调用、涉及人员、沟通等,IT服务连续性计划应该是业务连续性计划的一部分。IT服务连续性管理ITSCM(ITServiceContinuityManagement)负责管理可能严重影响IT服务的风险的流程。通过将风险降低到可接受的水平,同时规划IT服务的恢复,ITSCM确保IT服务提供方能够始终提供最低约定的服务级别。最长可容忍中MTPD(Maximum如果超过这个时间范围,组织所提供的产品和服务断时间TolerablePeriodofDisruption)仍无法恢复,组织的生存能力将可能遭遇无法挽回的破坏。最大可容忍数据丢失MTDL(MaximumTolerableDataLoss)组织能接受的信息丢失的最大程度。一定时间丢失的数据可能导致组织运营无法恢复,极具价值的数据丢失,还可能威胁到组织的生存。演练Exercise用于训练人员提高灾难恢复能力的活动。完整性Integrity确保和维护资产的准确和完整,尤其是数据记录的准确与完整。目标恢复时间RTO(RecoveryTimeObjective)灾难发生后,信息系统或业务功能从停顿到必须恢复的时间要求。目标恢复点RPO(RecoveryPointObjective)灾难发生后,系统和数据必须恢复到的时间点要求。4.2角色定义表角色职责部门主管•审核《业务影响分析报告》、《风险评估报告》、《紧急统筹中心》、《IT服务连续性计划》、《演练计划》、《演练报告》、《测试记录》和《恢复报表》。紧急统筹中心•在发生灾难的情况下,进行统筹及协调工作。•《紧急统筹中心》需注明人员在应急中的职责(包括A角及B角)。如:总指挥、机房总指挥、服务器总指挥、网络总指挥、服务台总指挥、应用服务器总指挥、应用软件总指挥、应急支持总指挥等。流程经理•组织编制《紧急统筹中心》;•组织编制《业务影响分析报告》及《风险评估报告》;•组织编制及实施《IT服务连续性计划》;•组织编制《测试记录》;•组织编制《演练计划》及《演练报告》;•组织编制《恢复报表》。服务负责人•参与编制《紧急统筹中心》;•参与编制《业务影响分析报告》及《风险评估报告》;•参与编制及实施《IT服务连续性计划》;•参与编制《测试记录》;•参与编制《演练计划》及《演练报告》;•参与编制《恢复报表》。5.0内容5.1流程政策及要求•影响业务的灾难发生时,本流程能够提供有效的工作过程指导,使业务系统能够在允许的范围内重新恢复,保障业务的持续开展。•根据「IT服务连续性策略工作流程」及备份相关流程要求组织编制《IT服务连续性计划》和《演练计划》并提交部门主管审批作为灾难时执行依据。•《IT服务连续性计划》在执行若遇到资源冲突时,应由部门主管决定优先级次序,如有需要可于《IT服务连续性计划》中说明。•《IT服务连续性计划》包含安装配置指南。5.2流程输入及输出5.2.1流程触发条件•业务损失的程度和潜在启用的范围。•设施或服务中断及不可用的时间范围。•由管理者代表(或授权代表)确定需要启动连续性管理流程的一级事件(重大)。5.2.2输入•业务需求调整•「变更管理流程」触发•业务影响分析报告•风险评估报告5.2.3输出•紧急统筹中心•业务影响分析报告•风险评估报告•IT服务连续性计划•测试记录•演练计划•演练报告•恢复报表5.2.4流程关闭条件持续确保IT服务连续性计划提供的保护是最新的,并反映了服务和服务级别的所有变化。5.3流程综述5.3.1IT服务连续性管理流程执行时需遵循以下要求:•《IT服务连续性计划》应由流程经理每年组织审查与评估,以维持其有效性与适应性,所有测试及审查均应留下记录。对流程的运行情况进行监控和改进,相关的改进措施输入到《服务改进计划》。•如果连续性管理流程应用范围的服务环境发生重大变更时,需要维护和重新测试《IT服务连续性计划》,以保证其有效。•如果由「变更管理流程」触发的情况,需要进行《IT服务连续性计划》测试,以确认本次变更对《IT服务连续性计划》的影响,并回复测试结果。•《IT服务连续性计划》的变更需要通过「变更管理流程」控制,《IT服务连续性计划》的发布需要按「文件及记录管理流程」要求控制。•每次测试和《IT服务连续性计划》触发后,流程经理应组织实施评审。当发现不足时,流程经理应组织相关人士以会议的方式检讨《IT服务连续性计划》的有效性与适应性,并修正不足重新交部门主管审批。5.3.2连续性管理具体范围如下:1)地理位置:•香港总部:香港九龙湾一号九龙41楼信息技术部•中国总部:惠州市江北云山旭日集团中国总部大楼9楼信息技术部2)人员:位于上述两个地理位置内办工区域的信息技术部的相关员工。3)机房:于上述地理位置内的机房。4)网络:于上述地理位置机房内的网络。5)服务器:于上述地理位置机房内的服务器,包括基础硬件、OS、VM。6)应用服务器:于上述地理位置机房内运作的应用服务器。7)信息系统运维服务:于上述地理位置机房内运作中的信息系统运维服务。5.4流程步骤5.4.1业务影响分析(BIA)5.4.1.1概述•业务影响分析的目的是量化IT服务连续性对业务的影响,并识别最核心的IT服务;•要明确业务范围,以及相关业务服务活动中断后造成的影响;•当有全新的或变更的业务需要或协议内全新的或变更的目标时,流程经理依据客户需求、内部管理重要程度、期望值与恢复策略、中断最大可忍受时限等要素,组织进行业务影响分析并制定《业务影响分析报告》;•协商一致的需求应考虑适用的业务计划、服务需求、SLA和风险,至少应包括:•服务访问权限•服务响应时间•端到端的服务可用性•《业务影响分析报告》需送交部门主管审核。*5.4.1.2在IT服务连续性管理流程中定义的范围内,对所支持的IT服务活动,应该留意:•参考SLA要求,进行业务影响分析;•评估IT服务中断后,随着时间的推移所造成的影响;•为相关的活动定义最长可容忍中断时间(MTPD,从中断开始,活动需要被恢复的最大时间长度,活动恢复到最低水平,恢复到正常水平的时间跨度),由于中断会随着时间的推移而加重,并对相关活动造成不同的影响,影响也会随日期、月份或业务周期点而发生变化;•识别任何相互连带依赖的活动、资产、用于支持的基础设施和资源,这些也需要得到持续的维护或随时间进行的恢复。要明确IT服务连续性的要求,并对关键服务恢复资源进行评估。5.4.1.3在评估影响时,应该考虑与业务的目的、目标和相关利益方相关的内容,包括:•基础设施、技术或信息损害或丧失所造成的影响;•违背法律责任或法律要求的影响;•信誉的损害;•财政的损害;•产品或服务质量的降低;•其它因素。中断所带来的影响的评估方法、发现和结论应形成文档,以上亦是最长可容忍中断时间(MTPD)估算时的考虑因素。5.4.1.4要识别关键活动:•IT服务提供方可根据恢复的优先级别将相关的服务项进行排序;•在业务影响分析识别的,哪些活动的丧失将在最短的时间带来重大影响,并需要快速恢复的活动,可被视为'关键活动',每一个关键活动支持一个或多个产品或服务;•应关注'关键活动'的计划,但也应该认识到其它活动也需要中断的最大可容忍中断时间(MTPD)内恢复,并需要预先做好安排;•根据活动的性质,最大恢复时间期限可能从几秒钟到几个月不同,时间的敏感的活动会需要更高精确的详细说明,如分钟或小时,低时间敏感的活动精确的要求会较低;•中断的最大可容忍中断时间(MTPD)将影响每一活动的恢复时间点目标(RTO)。5.4.1.5要确定连续性要求:•其目的是提供资源信息,从而确定或推荐一个适当的恢复策略,确定内部和外部的活动依赖关系所产生的资源需求;•其结果是了解要对应时间内恢复提供约定水平的服务所需的资源,从最初的恢复到全面复原,可能是一个简单的时间点,也可能是一个复杂的时间表,确认那些为能够提供约定服务水平而进行的活动(内部的和外部的)之间的相互依赖关系;•应该评估相关活动恢复时所需要的资源,包括人、基础设施、信息和供给。-人员即员工资源,包括人、技能和知识;-基础设施即必要的工作场所和设施;-技术设施即用于支持的技术和设备;技术设施与组织相关的设备一同使用,包括但不限于:IT软件和硬件,通讯设备,或任何制造、生产能力所必要的其它厂房、机器等;-信息以前工作或当前工作进展有关信息的提供,并确保信息的实时更新和准确,以保证活动在商定的水平上有效持续运行;如果记录或工作进展等信息无法获得、不准确、或没有实时更新,都可能导致妨碍或严重耽搁活动的恢复;-供给即外部服务和供给,也就是说非集团内的外部资源情况;-最大可容忍数据丢失(MTDL)如果数据无法进行流转,组织将不能恢复其营运能力,丢失一定时间的数据可能导致组织运营无法恢复,极具价值的数据丢失,还可能威胁到组织的生存,而且有些活动在没有数据的情况下,或者使用几周之前的数据,都可以正常运行,然而有些活动无法承受任何数据丢失,所以要制定最大可容忍数据丢失(MTDL);-数据采集数据采集是为了一段时间内,如果在一个可接受水平上和在最大可容忍中断时间(MTPD)范围维持业务功能,需要多少资源,还应该考虑中断发生所产生的额外活动,以及清除积压工作的需要,还要考虑以上的资源情况;目标恢复点(RPO)的要求也直接影响到清除积压工作实施的具体工作情况;•在确定资源水平时,应考虑相关利益方的需求。*5.4.1.6业务影响分析中需明确核心系统,交部门主管确认,并进行风险评估分析。*5.4.2风

1 / 28
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功