©2009XXCorporationXX银行IT服务管理事件管理流程概要设计XX项目组2015.1©2009XXCorporation文件控制记录2XX/CQCUBConfidential时间更新人版本备注2009.12.31XX项目组V1.0第一版2010.1.5XX项目组V1.1更新修正第一版内容2010.1.11XX项目组V2.0结合《应急规范》进行修改2010.1.12XX项目组V3.0根据设计研讨会结果进行修改时间接收人职务备注更新记录:去向记录:©2009XXCorporation3报告内容流程目的、基本概念、范围和指导原则事件管理角色和流程事件管理政策事件管理KPIXX/CQCUBConfidential©2009XXCorporation事件管理目标事件管理的宗旨是在对用户提供的服务受到一些计划外的违反时,采取快速、成功的行动来恢复受到影响的IT服务。目标:事件管理的目标是确保影响到用户服务的事件能够快速得到解决。事件管理关注于快速确定解决方案或变通方法。对于那些无法立即解决的事件,事件管理同时也是问题管理流程的关键驱动者。要达到这个目标的重点在于:–在第一次接到用户报告事件时,尝试解决–准确的将故障单分派给后台技术支持人员–确保用户对于事件的解决方案是满意的–为用户提供礼貌的服务,确保客户满意度4XX/CQCUBConfidential©2009XXCorporation事件管理基本概念事件(Incident)本项目中的事件主要是指XX银行科技部维护范围内的所有不属于标准服务运作的一部分,并且导致或可能导致服务中断或服务质量降低的任何事件。如:软/硬件故障、检测到病毒等。事件管理事件管理包括事件管理流程、相关的一系列事件处理政策以及对角色职责的明确定义。事件管理旨在确保检测并记录事件,跟踪事件的解决过程,使事件能在最短的时间内得到解决,并为问题管理等其它服务管理流程提供相关信息。5XX/CQCUBConfidential©2009XXCorporation事件管理的范围任何违背XX银行IT正常运作、影响或可能影响XX银行科技部提供IT服务的偏离,包括所有IT生产环境的基础设施系统或组成部分发生的异常,而不论它们影响大小或者它们影响到具体的IT组件内容。6XX/CQCUBConfidential在XX银行具体事件将包括:–终端故障–营业厅运营设备故障–操作类故障–服务器故障–网络故障–机房设备故障–软件故障–……–(注:不含桌面办公系统)IT基础设施包括:–软件与应用•网上银行系统、反洗钱系统、办公系统等业务系统•数据库、其他应用软件•网络软件–硬件•服务器、个人终端•运营设备、网络硬件•机房、通讯设备–手册、文档本项目事件管理范围不包括:–服务请求(如数据提取、密码重置、政策信息查寻等)–需求管理(各类系统的需求管理、审批等)–其他在事件管理范围外的请求将通过变更或者其他服务流程处理,但它们可能一开始寻求的是服务台的支持,服务台将会把这些请求转到相应处理流程©2009XXCorporation事件管理指导原则1.XX银行科技部需要建立统一的事件管理流程,生产环境中发生的事件都由统一的事件管理流程进行管理。2.XX银行科技部的员工都应遵守事件管理的流程、政策和步骤。3.必须首先恢复受到影响的服务,之后再进行问题根源分析;特别是批量故障发生后,将优先恢复服务。4.对所有的事件问题必须清晰记录,并通过知识库详细记录故障特征与解决方法。5.优先等级将在科技部内定义、记录和发布。6.需要定期产生事件报表,并不断优化。7.事件的责任人(不是指“引起事件的责任归咎”,而是指负责某一个事件处理解决的人员)必须是XX银行科技部内的员工,负责解决或协调供应商解决事件,并填写事件单处理信息。如果服务提供商参与事件处理解决,须确保向事件责任人提供事件处理的信息。7XX/CQCUBConfidential©2009XXCorporation8报告内容流程目的、基本概念、范围和指导原则事件管理角色和流程事件管理政策事件管理KPIXX/CQCUBConfidential©2009XXCorporationXX银行事件管理的支持架构9XX/CQCUBConfidential服务台(前台服务岗)网络维护岗数据库管理岗第三方厂商支持基础设施及硬件维护岗系统管理岗安全维护岗服务台(一线):作为服务台,响应客户的任何请求,需要IT部门所提供的服务都有所了解,不仅仅包括服务器、网络,还要包括应用系统;但是以常见问题为主。需要定期接受二线人员的培训。二线支持:是各个领域的专家,由各服务的负责部门人员组成第三方厂商:第三方的服务商、集成商、原厂商协助二线支持响应客户的服务请求应用支持岗开发岗流程负责人,事件经理事件流程负责人:由IT部门负责建立和推广制度的人员担任负责制定和推行事件管理制度和流程负责确保事件管理流程达到事件管理的目标事件经理:由具有较强沟通协调能力的同事担任负责推动事件管理流程的日常执行©2009XXCorporation事件管理角色定义10XX/CQCUBConfidential角色主要职责XX银行对应人员事件管理流程负责人负责建立和推行事件管理流程对整个事件管理流程的成效负责运维中心主管或指定的代理人事件经理协调事件管理流程的日常执行管理事件管理中的一些调度工作服务台主管事件分析员(二线支持)快速进行事件的分析和解决,以保证中断的服务能够尽快恢复。系统管理岗、安全维护岗、网络管理岗、应用支持及测试岗、基础设施及硬件维护岗、数据库管理岗、灾备操作岗等服务台(一线支持)是IT服务部门面向最终用户群体的主要接口。处理用户的请求,从开始直到解决。提供一线支持。前台服务岗©2009XXCorporation事件管理总体流程11XX/CQCUBConfidential事件管理总体流程图工具事件经理事件分析员服务台客户外部流程知识库管理问题管理电话、邮件IM01事件检测和记录IM02事件分类和初步支持IM03事件调查和诊断IM04事件解决和恢复IM05事件关闭知识库管理是否可在线解决已知错误数据库找不到解决方案或变通方法变更管理IM06事件监控和跟踪ITSM流程数据库ITSM流程平台是否©2009XXCorporation事件管理总体流程12XX/CQCUBConfidential本步骤的目的是快速、准确地在故障发生的时候识别出事件,并收集创建一个事件单所需要的信息。本步骤定义事件的严重性等级和分类,并尝试通过匹配可用的解决方案或变通方法来尽快恢复服务。如果没有可用的解决方案或变通方法。则将该事件分派给适当的事件分析员进行调查。事件的初步解决不成功,需要进行更深入的调查和诊断,以找出恢复服务的变通方法。如需要,可以请一个或者多个事件分析员来寻求变通方法。如果无法找出变通方法,将引入问题管理流程。如果解决方案需要变更请求,将引入变更管理流程。如果不需要变更,将与用户进行沟通,执行解决方案/变通方法。如果解决方案无法引出正确的结果,需要进行进一步诊断。如果需要进行问题根源分析,则创建一个问题单。如果事件得到解决,或者与事件相关联的问题得到解决,并且用户验证并接受结果,该事件即可准备关闭,如果需要的话,知识库也可以随之更新。最终,该事件单将被关闭。如果用户不接受解决结果,事件将被报告给事件经理。检测与记录事件分类和初步支持调查与诊断解决与恢复事件关闭©2009XXCorporation事件管理总体流程13XX/CQCUBConfidential对于事件的生命周期都可进行监控。监控始于事件的开始,结束于事件的关闭,包括人工和自动两种方式:–人工方式:帮助台与用户验证事件的解决结果时,用户表示对结果不满意或认为事件未被解决,则应通知相关人员(事件分析员或事件经理),必要时对事件进行升级。–自动方式:设定事件处理的一系列阀值(如处理时间、转派次数等),通过自动化工具进行监控,当阀值被超出时,自动对事件进行升级处理,相关人员得到通知。事件监控与跟踪©2009XXCorporation步骤1:事件检测与记录14XX/CQCUBConfidential检测与记录事件经理服务台用户外部流程电话、邮件1.1识别用户信息1.2鉴别新的还是现存事件新事件?1.3创建事件单监控事件处理否是监控平台1.4更新并跟踪原事件单至结束2分类与初步支持©2009XXCorporation步骤1:事件检测与记录——流程要点事件单的产生:–运维中心外部发现并报告的事件单,由服务台开单、派单和跟踪。–运维中心内部发现的事件单,发现者开单,发现者或服务台派单,服务台跟踪。–监控告警时,由监控平台或统一事件管理平台完成过滤后,符合条件的自动开单;另外,服务台或者监控人员发现了未符合自动开单条件的告警,也可开单,服务台负责派单和跟踪。客户信息记录:–XX银行暂时未有LDAP来记录所有行内人员的信息。–建议:在ITSM系统中维护行内人员信息。15XX/CQCUBConfidential©2009XXCorporation步骤2:事件分类和初步支持16XX/CQCUBConfidential分类和初步支持事件经理事件分析员服务台用户和外部流程12.1确定优先级和分类事件性质?2.2提供初步支持知识库可解决?42.4分派事件接受分派?2.5如有需要重新分类2.6接受事件32.7关联事件到主事件2.8如有需要创建或更新公告信息2.9解释详细情况2.10关联事件到问题已知错误数据库问题管理监控事件处理继续处理主事件独立事件已知错误重复事件是否重大事件?否2.3报告事件。如有必要,科技部启动应急流程或灾备流程是检测与记录解决与恢复调查与诊断5事件关闭©2009XXCorporation步骤2:事件分类和初步支持——流程要点分派事件:–派单:按照事件类别(CTI)来判断分派给哪个组、哪个人。既可分派到具体的人,也可分派到组,由组内人员主动接单。–重新派单:(1)组内转派,允许事件分析员直接转派。(2)当事件分析员判断不属于本组处理范围,需退回服务台,由服务台重新分派。重大事件:–如果发生特别重大突发事件或重大突发事件,或者事件特征符合应急方案或者灾难恢复计划的决策条件,须考虑启动应急方案或灾难恢复计划。–服务台尽快向管理层报告重大事件,然后继续开单和派单,事件处理人员在实施应急方案或灾难恢复计划后,继续填单和关闭单,以作未来统计分析之用。重复事件:–当服务台或者事件分析员判断是重复事件(同一故障引发多人报障)时,直接把重复的事件单关联到已经有的事件单(主事件单),不必继续处理重复的事件单。17XX/CQCUBConfidential©2009XXCorporation步骤3:事件调查与诊断18XX/CQCUBConfidential调查与诊断事件经理事件分析员服务台外部流程2分类与初步支持3.1寻找类似事件重复事件?3.2关联事件到主事件3.3与服务台沟通有关情况3.4诊断事件3.5如有需要重新分类找到解决方案/应急预案?知识库需要转派?4解决与恢复继续处理主事件3.6转派事件接受转派?4事件关闭未解决事件3.7创建问题单5解决与恢复问题管理关联问题解决否是是是是否否否监控事件处理©2009XXCorporation步骤3:事件调查与诊断——流程要点事件单转派策略:–同上一流程步骤的重新派单要点。诊断事件:–如果事件特征符合应急预案的启动条件,须确定合适的应急预案并加以执行。–如果事件特征不符合应急预案的启动条件,则事件分析员分析诊断事件,并检查可行的解决方案,如果没有发现可行的解决方案,则需要启动问题管理流程来寻找临时措施和解决方案。19XX/CQCUBConfidential©2009XXCorporation步骤4:事件解决和恢复20XX/CQCUBConfidential解决与恢复事件经理服务台/事件分析员外部流程问题管理变更管理问题管理分类与初步支持2调查与诊断34.1调查是否需要变更需要变更?4.2创建变更