运维应急方案文件状态:[√]草稿[]正在修改[]正式发布文件标识:当前版本:1.0作者:完成日期:目录1前言................................................................................................................................32目标................................................................................................................................33组织结构........................................................................................................................34应急预警........................................................................................................................34.1应急预警级别..................................................................................................34.2应急预警处理流程..........................................................................................44.2.1一级预警处理...........................................................................................44.2.2二级预警处理...........................................................................................54.2.3三级预警处理...........................................................................................55附件................................................................................................................................65.1.1故障报告单...............................................................................................61前言运维部负责公司业务系统运行维护工作。为了保障公司因业务系统的安全、平稳运行,运维部特此指定运维应急方案,通过此方案来保证系统的安全。2目标保障公司游戏服务器的正常运行、网络的畅通。严格岗位制度、明确工作职责,规范工作流程。工作规范化,制度化,加强文档管理力度。3组织结构根据运维工作的范围和性质,下设三个小组:系统维护组应用维护组技术值班组4应急预警4.1应急预警级别预警级别预警标志警报内容预警级别介绍一级预警网络流量升高主机性能降低数据备份出现异常异地备份出现异常某台工作站出现病毒一级预警表示系统出现故障,但不影响运维系统的正常运转。监控软件出现故障二级预警网络中断或网络设备异常主机、阵列和带库硬件出现故障数据库相关故障黑客入侵或病毒大面积发作二级预警表示系统出现故障,影响运维系统的正常运转,但运维工程师可以在短时间内进行故障排除。三级预警网络防火墙宕机无法正常使用。主机、阵列、带库宕机并无法启动数据库或数据仓库无法正常使用受到不可抗力或自然灾害的破坏。三级预警表示系统出现故障,影响运维系统的正常运转,运维工程师不能在短时间内进行故障排除或无法排除。4.2应急预警处理流程运维过程中出现重要故障或紧急情况时,按以下规定流程进行处理及汇报。在遇到故障时,及时汇报上级领导并采取措施及时解决,具体汇报流程如下:4.2.1一级预警处理运维过程中,如果遇到一级预警,按以下流程进行处理:1.当通过监控或得知系统出现故障时,首先在最短的时间查看故障点状态,并分析故障原因。2.运维工程师在排查出故障后,立即着手解决。3.在故障排除后,对所发生故障的设备进行事后跟踪。4.在故障排除后,运维工程师应对故障原因及解决办法进行详细说明。4.2.2二级预警处理运维过程中,如果遇到二级预警,按以下流程进行处理:1.当通过监控或得知系统出现故障时,首先在最短的时间内查看故障点状态,并分析故障原因。2.立即报告给组长,运维小组长应通过电话或当面把故障报告相关部门领导,在故障完全排查清楚后以书面形式递交“故障报告单”。3.运维工程师在排查出故障后,如能够立即解决,则立刻解决故障,如需要设备厂商的技术人员到现场,应立即拨打技术厂商的技术工程师联系电话,请求立即到现场进行故障排除。4.在故障排除后,运维工程师应对故障原因及解决办法进行详细说明。4.2.3三级预警处理运维过程中,如果遇到三级预警,按以下流程进行处理:1.当通过监控或得知系统出现故障时,首先在最短的时间查看故障点状态,并分析故障原因。2.立即报告给运维中心主管人员,主管人员应通过电话或当面把故障报告给相关领导部门,在故障完全排查清楚后以书面形式递交“故障报告单”。3.运维工程师在排查出故障后,如能够立即解决,则立刻解决故障,如需要设备厂商的技术人员到现场,应立即拨打技术厂商的技术工程师联系电话,请求立即到现场进行故障排除。4.如果因硬件设备出现故障而无法修复,需要更换时,应报运维中心主管人员,主管人员办理硬件更换事宜。5.在故障排除后,运维工程师应对故障原因及解决办法进行详细说明。5附件5.1.1故障报告单文档编号:yw-gzbg-0001故障报告单报告人:报告日期:故障所属:□系统故障□数据库系统故障□网络设备故障□其它应用软件系统故障故障描述:□已解决□未解决解决方案:审核人:审核日期: