IT服务的可持续性管理在当今服务导向的业务环境下,企业业务持续运作的能力,在很大程度上决定了其在市场上的竞争优势。对那些业务运作较多地依赖于IT的企业而言,IT服务持续运作的能力则成为决定企业竞争优势的直接因素。尤其是在发生重大灾难的情况下,如何确保IT服务运作的持续性,是值得IT服务管理人员特别关注的问题。显而易见的是,信息系统对于现代企业来说越来越重要,并逐步成为现代企业生存运转的命脉。而火灾、水灾、爆炸、地震、雷击或设备线路故障等自然原因,以及黑客破坏、人为破坏等非自然原因引起的各种灾难,时刻萦绕在企业周围,使企业无法做到高枕无忧。另一方面,IT系统变更也是导致服务中断的主要原因之一,这类变更小到软件系统的升级,大到数据中心的整体搬迁。IT服务持续性管理概述及目标:ITSCM,即IT服务持续性管理(ITServiceContinuityManagement),是指负责预防灾难发生、增强IT基础架构的恢复能力(Resilience)和容错能力(FaultTolerance),并在灾难发生后迅速恢复IT服务正常运作的服务管理流程。IT服务持续性管理需要确保组织在灾难发生后有足够的技术、财务和管理资源来维持IT服务的持续运作。BCM,即业务持续性管理(BusinessContinuityManagement),是指将业务运作所面临的风险控制在最低水平,以及在业务运作中断后立即恢复业务运作的业务管理流程。组织实施这一流程的根本目的在于确保组织业务的持续运作,其关注的对象是所有影响组织业务持续运作的因素。目标:确保业务运作所需的IT基础架构和IT服务在灾难发生后在限定的时间内能够得到恢复,从而对组织的总体业务持续性管理(BCM)提供支持。效益:可以对恢复他们的系统进行管理;减少服务不可用的时间,从而为用户提供了更好的持续性;可以最小化业务活动的终端。IT服务持续性管理的流程IT服务持续性管理流程模型:与其他流程的关系:服务级别管理、可用性管理、配置管理、能力管理、变更管理。如下图所示:IT服务持续性管理的活动1.确定IT服务持续性管理的范围2.业务影响度分析3.风险评估4.服务持续性战略5.组织和实施规划6.预防措施和恢复方案7.制定恢复计划和程序保证教育和培训评价和审计测试变更管理阶段4:执行初始测试开发恢复计划和程序实施备用方案和降低风险措施组织和实施规则IT服务持续性策略风险评估业务影响分析8.初始测试9.培养和意识培养10.评价和审查11.测试12.变更管理13.保证IT服务持续性管理的流程控制有效的流程控制取决于:关键成功因素、管理报告、关键绩效指标。关键成功因素:1.有效的配置管理流程2.整个组织的支持和承诺3.最新的和有效的工具4.对流程中涉及的所有人员进行专门的培训5.对恢复计划进行定期测试绩效指标:1.确认的恢复计划中的缺点的数量2.由于灾难所导致的收益减少3.流程的成本管理报告:1.有关灾难发生原因及影响2.如何成功应付的报告3.恢复计划测试的评价报告IT服务持续性管理的成本和可能产生的问题成本:发起、开发和实施ITSCM的时间和成本与引入风险管理有关的投资恢复安排的后续成本IT服务持续性管理的日常运作成本可能产生的问题:资源管理层承诺获得恢复设施估计损害预算得不到业务经理的支持无限期推迟失盲(BlackBoxing)IT部门熟悉业务意识的缺乏职责和角色作为“保健医生”的ITSCM为了避免灾难的发生导致IT服务的中断,IT服务持续性管理需要对支持关键业务流程的IT服务项目实施“保健”措施,即找出灾难发生可能性较大的环节,并制定相应的预防措施。这就好比对健康的人实施一定的保健和预防措施,以避免疾病的发生。具体来说,IT服务持续性管理实施“保健”措施主要有以下两项基本活动:1.实施业务影响分析(BIA,BusinessImpactAnalysis)为了主动地实施持续性管理,管理人员需要确定当灾难或其他因素导致IT服务中断时,组织能够承受损失的最大程度及损失扩散的速度。通过业务影响分析可以帮助IT持续性管理人员了解哪些属于关键业务流程、关键业务流程发生中断可能对组织产生的损害或损失、服务中断发生后危害或损失程度的变化趋势等方面的信息,从而有助于实施风险评估。2.实施风险评估(RiskAssessment)实施风险评估可以帮助识别IT服务运作过程中存在的具体风险,从而明确相关的薄弱环节和存在的威胁。风险评估包括风险分析(RiskAnalysis)和风险管理(RiskManagement)两个环节。如图1所示。风险分析主要负责识别和评价IT组件(资产)中存在的薄弱环节和威胁,并据此评估风险的大小。风险管理则主要针对这些风险制定相应的风险降低措施、灾难恢复方案或备用方案。作为“急诊大夫”的itscm针对IT服务运作的风险制定的风险降低措施,只能在一定程度上降低灾难发生的概率,但不可能完全避免灾难的发生。所以,理所当然的一个问题是,如果灾难发生该如何应付?这时,为了维持IT服务的持续运作,需要IT服务持续性管理发挥“急诊大夫”的职能,确保灾难制造的混乱在“第一时间”内得到恢复,从而将由于IT服务运作的中断对业务运作造成的影响控制在可接受的范围内。具体来说,IT服务持续性管理作为“急诊大夫”,在应对灾难发生时,可以采取的措施主要有以下两种:1.实施灾难恢复方案。IT服务持续性管理在履行“保健医生”职能时已经针对IT服务运作中存在的薄弱环节或威胁制定了相应的灾难恢复方案。在灾难实际发生时,IT服务持续性管理人员应当首先确认灾难的发生环节,并实施相应的灾难恢复方案。在实施灾难恢复方案前应当制定相应的实施计划,并确保在最短的时间内恢复IT服务的运作。灾难恢复的方式主要包括逐渐恢复、中期恢复和紧急恢复三种,IT服务持续性管理人员需要根据业务的性质及灾难的损害程度选择合理的恢复方式。2.实施备用方案。有时候,灾难恢复方案的实施本身依赖于备用方案的实施。实施备用方案可以确保IT服务中断的时间被减小到最低程度,但备用方案的实施本身也可能导致资源的闲置。因此,IT服务持续性管理人员应当根据业务的关键程度和紧急程度选择是否制定和实施备用方案。在实施备用方案时可以采取的行动包括准备备用的场所、购买和安装备用计算机系统、与外部供应商就恢复设施进行协商并达成有关的协议安排等。由于ITSM强调以合理的成本实现对IT服务的有效管理,所以资源有限的情况下,必须将主要的精力放在那些关键的业务流程和关键的IT服务项目上面。IT服务持续性管理就充分体现了这一内在要求,即IT服务管理主要“瞄准”的是那些关键业务流程中可能发生的灾难,并为此提供及时有效的支持。参考文献:1.《IT服务管理——基于ITIL的全球最佳实践》(荷兰)JanvanBon主编清华大学出版社2.赛迪网——IT服务持续性管理:“瞄准”关键业务流程——《中国计算机用户》3.《IT服务管理白皮书》4.=851IT服务持续性管理—技术专题—汉远网智培训中心