信息技术工程部新员工培训公共课程课程提供:系统运行管理部2005年7月1.0版事件管理流程(INCIDENTMANAGEMENTPROCESS)IT-SO目录事件管理流程概念介绍华为公司事件管理流程TSD规范IT事件的升级及管理故障报告管理制度及注意事项故障公告管理规定案例库建设FAQIT-SO突发事件:任何不是服务标准操作组成部分的事件,它们能导致或可能导致服务中断或服务质量下降。服务请求:并非由于IT基础设施出现某种故障而导致的各项事件。问题:可能或已经导致一个或多个突发事件的潜在、未知的故障原因。事件管理流程的目标:尽快恢复正常的服务操作;将对业务操作受到的负面影响降为最低;根据SLA确保尽可能高的服务质量和可用性级别。事件管理流程概念介绍IT-SOIncidentActivitiesInvestigation&DiagnosisClassification&InitialSupportIncidentDetection&RecordingResolution&RecoveryOwnership,Monitoring,TrackingandCommunicationIncidentClosureServiceDeskresponsibilitySource:OGC(ServiceSupport)IT-SO目录事件管理流程概念介绍华为公司事件管理流程TSD规范事件的跟踪、升级故障报告管理制度及注意事项故障公告管理规定案例库建设FAQTSD监控系统Timei注:timei(i=1,2,3,4)的值参阅《SLA指标定义及测评方法》故障确认B公告发布人员接收事件是否设备故障其它故障线路故障电源故障A接收报障单恢复服务监控信息问题记录问题记录015016019时间系统INCIDENT管理流程用户提出请求否IT热线人员IT客户请求处理子流程是机房监控人员技术支持人员三级支持/供应商记录问题是否为突发事件?事件分析、定位是否有解决方案?关闭事件检验解决方案是信息请求提供方案恢复服务否记录问题是否有解决方案?关闭事件恢复服务故障定位IT问题根源分析流程原因不明或重复出现的事件001002003004005006007008009010011012013014INCIDENT管理流程用户BIT热线人员系统时间Timei机房监控人员技术支持人员三级支持/供应商公告发布人员TSD关闭问题检验解决方案复查问题记录信息事件分析是否有解决方案?关闭问题是恢复服务否检验解决方案注:timei(i=1,2,3,4)的值参阅《SLA指标定义及测评方法》A接收问题记录单复查问题记录信息事件分析恢复服务或提供解决计划IT问题根源分析流程是否有变更?否变更管理流程是否要发公告发布故障公告是是否017018020021022023024025026027028028030031032原因不明或重复出现的事件IT-SO华为公司事件管理流程—事件级别定义按照《IT问题升级与管理制度》中的定义,判断问题级别的原则如下:紧急程度1---对业务有至关重要的影响:业务系统完全丧失了服务功能或丢失了所有的资源,工作无法再继续进行。界定原则:SLA协议中承诺的应用系统完全不可用,如:ERP系统崩溃、NOTES/EMAIL服务器出现严重故障、ASMS、WMS、SAP、Proxy、HW-Card、条码、OSP、WEB、公共数据平台等系统不可用;或整个办公区网络主干中断,影响关键业务系统无法继续进行,如:海外主干线路中断、国内研究所和重要办事处所有主、备线路同时中断、数据中心网络故障。紧急程度2---对业务有严重的影响:业务系统丧失了重要的服务功能或丢失了重要的资源。例如:ERP数据库表不能正常访问、单台NOTES服务器不可用或局部网络中断,导致主要的应用系统不能正常运行。紧急程度3---对业务有较小的影响:业务系统丧失了较少的服务功能或丢失了较少的资源,个别用户某些业务功能不能使用。例如:一些ERP的功能特性不能正常发挥,但不影响系统的正常运行。紧急程度4---对业务没有影响:用户工作正常,没有因为该问题的存在而妨碍其工作,可正常查询和报告信息。例如:查询技术信息和使用技巧、海外当地非工作时间的网络故障。实例列举:SO管理库—操作指导—IM—“如何判断事件级别”IT-SO华为公司事件管理流程--及时处理和及时解决要求发生突发事件后,要求各级技术支持必须在以下时间内处理并解决该突发事件:(h:小时、wd:工作日)紧急程度IT热线二级技术支持三级技术支持处理时间解决时间处理时间解决时间处理时间解决时间1立即2h/4h立即2h/4h立即2h/4h2立即2h/4h立即2h/4h立即2h/4h32h1wd2h1wd1wd1wd44h2wd1wd2wd2wd2wd特别提醒:•1级问题和2级问题的解决时间在正常上班时间和非正常上班时间是有区别的。正常上班时间内的解决时间是2小时;非正常上班时间的解决时间是4小时。•解决时间是在TSD中从登记事件记录时开始计算的。IT-SO目录事件管理流程概念介绍华为公司事件管理流程TSD规范事件的跟踪、升级故障报告管理制度及注意事项故障公告管理规定案例库建设FAQIT-SO在TSD系统登记问题时,要求登记:用户信息、问题状态、紧急程度、问题描述、解决方案、SCIM几方面信息,如图所示:特别提醒:机房监控、二/三级技术支持直接接到用户问题或主动发现系统问题时,都应在TSD中登记问题。TSD规范注:给用户做了现场支持的DesktopSupportProvided要打勾,没有去现场支持的不能打勾IT-SO及时和详细填写WorkHistory,记录在TSD以外对问题的判断和解决过程WorkHistory的填写有利于:固化各级技术支持的经验和问题解决方案知识库的扩充;为将来解决类似问题提供参考;方便其它支持人员了解对该问题已做的工作和加快问题的解决。填写Status规范:先概要说明再具体说明。问题解决方案填写规范:填入对问题的判断、已经针对该问题所做的工作和下一步准备做的工作。不要只简单的写“已处理”、“已OK”。在问题最终解决后,需要在Status中提供问题的最后的解决方案再将问题置为FIXED状态。TSD规范IT-SO在问题传递给后一级技术支持后,后一级技术支持要及时接管问题。为了保证技术支持及时接管问题,技术支持应养成经常查看邮件的习惯。如果技术支持当天有事或有会议等原因,要事先通知相关技术支持,以免传递的问题无人接管。在问题的解决过程中,根据对问题的进一步判断,需要不断更新和细化问题的SCIM。即:问题级别、问题类别、问题原因收到SLA问题报警通知后需要及时处理问题,如果无法及时解决问题,需要及时调度其它资源和升级问题。TSD规范IT-SO在解决完问题后如果由于其它原因无法登录到TSD及时关闭问题时,可以通过发邮件或打电话等方式通知热线或其它人员帮忙及时关闭问题,需要同时提供问题的解决方案以更新问题的Status,以免由于无法更新问题而导致人为因素SLA超标。二/三级支持解决完问题要关闭问题时,一定要用FIXED,以便用户收到解决方案邮件并进行确认,不能在TSD中直接CLOSED-SAT。问题被关闭后,不能轻易重新打开,除非的确是问题没有解决。对于没有解决的问题则需要重新打开并传递给相应的支持人员继续解决。TSD规范IT-SO一级支持注意事项:1、在TSD中记录问题时,记录信息要准确并尽可能详细;特别是龙岗地区办公地点要详细到园区,如:华电科研楼、科研中心等。2、提交1、2级重大问题后,为确保问题得到及时解决,要求热线人员必须打电话联系相应技术支持,若电话联系不上,直接联系其主管协调处理。3、若发生影响范围广的紧急重大问题时,如:吃饭时间卡系统故障,热线在第一时间电话通知技术支持处理后,还应电话通知到相应主管关注。TSD规范IT-SO二级支持注意事项:1、为确保热线问题的有效传递,二级支持公出、休假或工作重点转移时需做好工作交接并知会热线hotline群组;2、二级支持接到热线问题后,要尽快响应、及时处理;3、如果热线对问题级别、类别、原因的初步定位不准确时,二级支持可以做进一步修改,如果没有修改热线和技术支持共同承担责任;技术支持可以修改问题级别,例如一个二级问题,热线传递时定为三级了,可以将问题升级。4、问题解决后,如果特殊无法登录到TSD及时关闭问题时,可以通过发邮件或打电话等方式通知热线或其它人员帮忙及时关闭问题(owner会修改了5、二/三级支持解决完问题要关闭问题时,一定要用FIXED,以便用户收到解决方案邮件并进行确认,不能在TSD中直接CLOSED-SAT,对传递问题时标记了请邮件或电话等方式联系用户,请按该方式联系用户,也要求fix问题(热线查看解决方案)。6、二级支持直接接到的用户问题和主动发现的系统问题,都应在TSD中进行登记。(无论是通过任何方式,发现的所有问题都需要在TSD进行登记。)TSD规范IT-SO二级支持注意事项:•解决方案填写的要求:注意需提供问题的解决方案(方法),不能简单地填写“已处理”、“已OK”,不能写联系供应商解答等非对问题的解决办法(要求热线进行检查的)•对于问题较多时要及时请领导调派人员协助(如某地区上某策略或搬家,故障较多时),并知会热线,如果没有请他人协助,且没有及时处理的话,要承担相应责任•对于被传递的自己不能处理的,3、4级及问题请于2小时内及时传递给相关责任人或热线,1、2级问题应该立即传递,否则问题打破SLA也要承担相应责任•没有解决的问题不能关闭,不能因为联系不上用户,或问题要信息就将问题FIXED或关闭,这个需要给用户发邮件进行联系来获取相关信息,•每个月会出打破SLA的数据,只有以下几个问题不算个人原因打破SLA的。详细见下页TSD规范IT-SO二级支持注意事项:•一些界定的原则:•下面这些不记入个人打破SLA的统计数据中:•1、对于3-4级问题,如果在打破SLA问题前四个小时热线还没有把问题传递给您,记为热线原因标记黄色•2、对于要打破SLA前二小时或打破SLA后用户拒绝问题,算用户原因打破SLA标记为绿色•3、对于热线传递给其他技术支持,该技术支持需要传递给您处理,打破SLA前四小时没有传递给您算其他技术支持原因导致打破SLA,做灰色标记•因供应商原因打破SLA的也记入其他技术支持原因做灰色标记•4、对于TSD系统故障原因导致打破SLA算TSD原因,标记为蓝色•5、对于不记入SLA类的问题标记为紫色如facility,目前只有这一类问题•6、对于技术支持发了休假或出差知会邮件给热线但热线还是传递了问题,记为热线原因•记入SLA数据中的:忘记处理了,处理后忘记fix问题,自己客观不能关闭但没有及时通知他人代关闭问题,自己负责维护的系统出现故障,因复制原因不能及时关闭等原因!每个月初会发给打破SLA的责任人进行确认,并根据情况界定TSD规范IT-SO目录事件管理流程概念介绍华为公司事件管理流程TSD规范事件的跟踪、升级故障报告管理制度及注意事项故障公告管理规定案例库建设FAQIT-SO事件的跟踪和升级管理制度:参阅《IT问题升级及管理制度》操作指导:参阅《华为IT问题升级、跟踪操作指导》注意事项:请技术支持及时知会热线故障进展情况,最好是以邮件方式发送hotline,如果不方便请以电话方式知会热线28560160IT-SO事件的跟踪和升级—操作指导IT-SO目录事件管理流程概念介绍华为公司事件管理流程TSD规范事件的跟踪、升级故障报告管理制度及注意事项故障公告管理规定案例库建设FAQIT-SO故障报告管理制度及注意事项管理制度:参阅《故障报告管理制度》模板:参阅《故障报告模板》IT-SO故障报告管理制度及注意事项从五月十日起,故障报告必须采用WORD模板;故障报告文档的命名规范为:日期(YYYYMMDD)+应用类别+系统故障报告,如:20050314ERP系统故障报