运维标准化工作流程应急安全事情的处理方案运维标准化的工作理念:以客户为中心提供IT服务;提供高质量、低成本的服务;提供的服务是准确计价的。机房日常事件发生请求:1、客户请求2、数据中心监控报警3、巡检中发现的异常1、客户请求:当收到客户请求要求运维人员对设备、数据和无法远程完成的操作提供服务时,运维应与客户核对三项或三项以上客户信息,保障数据操作安全。2、数据中心监控报警:运维人员收到监控软件的报警信息时,应立即对报警信息进行分类和识别,详细地做好记录并诊断、提供初步的技术支持,视情况而是否向上级领导报备。3、巡检中发现的异常:运维人员应每天定时定点对机房进行巡检,发现设备或数据异常时,应立即对异常信息进行分类和识别,详细地做好事件记录并诊断、提供初步的技术支持,视情况而是否向上级领导报备。客户请求自动监测事件巡检事件事件的识别和记录分类、初步技术支持调查和诊断请示直接上司或与相关技术人员沟通解决和恢复事件关闭问题管理日常工作流程应急安全事情的处理方案一、安全应急事件等级分类和相应的处理流程根据应急事件的特点及实发事件所产生的损失程度,将应急事件分为三级:一般应急事件单一地点的网络故障或服务器受损,如:局部网络瘫痪、个别设备死机,对该地点的系统运行及业务运作造成严重损害,持续时间小于24小时的事件(超过24小时的事件为较大应急事件)。处理流程:判断事件原因——事件分类(确定为一般应急事件)——初步技术支持(保障系统和公司业务正常运做)——调查和诊断——解决和恢复——事件的记录——事件的关闭——问题管理较大应急事件两个及以上地点的网络故障或服务器系统受损,如:较大规模的网络瘫痪、个别硬件设备损坏或遗失。对该地点的系统运行及业务运作造成严重损害,持续时间小于24小时的事件(超过24小时的事件为重大应急事件)。处理流程:判断事件原因——事件分类(确定为较大应急事件)——初步技术支持(保障系统和公司业务正常运作)——向上级领导报备并提供解决方案——调查和诊断——解决和恢复——事件的记录——事件的关闭——问题管理重大应急事件多个(两个及以上)地点系统瘫痪,对业务运作造成巨大损失的安全事件以及火灾或遭可抗拒力破坏机房造成损毁和人员伤害等。处理流程:判断事件原因——事件分类(确定为重大应急事件)——初步技术支持(保障公司业务数据和设备安全)——向上级领导报备并提供解决方案——调查和诊断——解决和恢复——事件的记录——事件的关闭——问题管理二、应急文档的备存1、各类网络设备和服务器、PC及其附属设备的型号、序列号等;2、硬件设备供应商、生产厂商的电话、联系人、网址;3、操作系统、关键业务应用软件开发商或供应商的电话、联系人;4、网络拓扑图;分区未归档笔记的第1页4、网络拓扑图;5、路由器、防火墙、入侵检测设备的配置文档,服务器登录用户及原始密码文档;6、各类软件的技术文档及其他需要保存的文档。三、应急设备及软件备存1、正版的操作系统启动盘、安装盘;2、正版的防病毒软件(注明安装及升级序列号);3、数据库管理系统软件,数据库备份软件及最近完整的数据备份存储介质;4、相关的设备驱动程序(含主板、显卡、网卡等)及更新到最新的服务器注册表文件;5、备用网线、万用表、测网仪、螺丝刀等必要工具;6、其他必备的应急工具。四、日常预防管理1、定期检查服务器和网络设备;2、及时更新服务器的防病毒软件病毒库;3、定期对所有服务器进行漏洞扫描、补丁修复;4、定时备份重要数据;5、实行值班制度。五、预警机制预警信息分为外部预警信息和内部预警信息两类。外部预警信息指本公司外突发的可能破坏网络或者最新病毒等可能产生重大影响的事件警报;内部预警信息指单位内通信网络的中断或部分计算机系统奔溃对业务操作有影响的事件警报和运维人员在机房定时巡检中发现的服务器和设备的异常。运维人员在获得外部预警信息后,对预警信息加以分析,通知公司各部门做好预防和网络保障应急准备工作,并报备上级领导;通过监控软件或机房巡检获得的内部预警信息,分析后按照早发现、早报告、早处置的原则,避免可能演变为严重应急事件的情况。六、应急事件处理1、确定事件类型1)、运维人员及时判断事件的类型和紧急程度;2)、确定事件范围(多少地点发生事件),检查敏感信息失密情况及其程度,分析攻击来源及侵入点。3)、判断事件危害性及损失程度、分析人为原因、事件潜在危害性;4)、确定事件发生时间及延续时间;5)、判断需采用的方法及准备处理事件需要的必备资源;6)、根据损失程度及延续事件等情况确定等级,较大、重大信息的报警信息需报备上级领导,采取相应的措施之后启动应急预案。七、事件报告1、报告方式1)、根据事件的类型及紧急程度及时向上级领导报告(口头或书面报告),并制定具体措施;2)、运维人员在收到监控软件报警或发现机房巡检时发生异常,识别分析之后需要对设备进行下架检查或需查看系统、数据等信息时,应本着尽快解决故障的原则对上级领导报备,如需其他部门同事的协调解决也应及时反馈。2、报告内容事件的基本信息(故障发生的时间、故障点、故障情况)、事件的类型、表现出来的现象、涉及的网络,事件当前的状态及可能造成的后果,以及事件解决的建议和措施。计算机病毒1、断网、升级系统补丁及防病毒软件,查找病毒源,进行杀毒;2、查找不出时,应向有关部门进行报告,提供病毒样本;3、查找计算机病毒感染的存储介质;4、对病毒利用的系统漏洞要通过补丁和升级的方式进行填补。5、记录全部处理过程。黑客入侵1、记录系统状况2、立即复制系统登录文件、历史文件、日志文件等重要文件;3、修改防火墙、路由器等网络安全设备的过滤规则。4、断开被攻主机、关闭不需要的服务。5、处理可疑的文件和程序;6、修改不安全的帐号和口令;7、恢复被修改的的软件和数据。8、安装相应的补丁程序,填补安全漏洞。9、编写报告,详述事件过程及处理步骤。八、现场处理备注:采取必要措施抵御入侵行为,保护系统和数据安全,利用完整性检查工具进行检查,必要时向公安机关报告并申请技术协助。分区未归档笔记的第2页助。局域网无法使用1、磁盘陈列(存储介质)设备问题:用同规格的备用硬盘进行替换,其他故障要及时与供应商联系修复;2、服务器问题:启用备用服务器,通过热备服务服进行双机热备恢复(包括数据服务配置)。提供故障服务器型号、序列号并与服务器供应商联系,取得技术支持,检查服务器软件,将原有数据信息存盘并实施用户数据备分后移支正常服务器上使用,并与软件供应商联系,尽早解决问题。3、路由器、交换机、防火墙等硬件故障:使用备份端口或备份硬件,并检查或配置相关内容,与供应商联系,尽早解决问题;4、通信线路故障:用测网仪进行测试,用好的网线进行替代,关键业务使用应急通信线路,向受影响的单位发出通报,立即与线路供应商联系,在线路供应商承诺的时间内解决问题。5、网络带宽阻塞:通过网管软件,判断阻塞原因及阻塞包发包点,再按情况逐个断网排查,直至网络恢复正常。对已断网计算机进行系统补丁升级、查毒等方式,找到原因并恢复正常后方能接入网络。广域网无法使用1、路由器、交换机、防火墙等硬件故障:使用备份端口或备份硬件,并检查或配置相关内容,与供应商联系,尽早解决问题;2、通信线路故障:关键业务使用应急通信线路,向受影响的单位发出通报,立即与线路供应商联系,在线路供应商承诺的时间内解决问题。3、网络带宽阻塞:通过网管软件,判断阻塞原因及阻塞包发包点,再按情况逐个断网排查,直至网络恢复正常。对已断网计算机进行系统补丁升级、查毒等方式,找到原因并恢复正常后方能接入网络。数据库无法正常使用1、记录故障情况;2、检查数据库服务是否启动,若未起,则重启数据库服务;3、检查文件系统,若有问题则在备份重要数据文件后用文件修复软件修复;4、与数据库供应商联系,取得技术支持;5、重装数据库;6、分析原因,编写报告,详述事件过程及处理步骤。核心设备无法正常使用1、检查核心设备无法正常工作的原因2、系统软件故障:和相关负责人联系,尽快恢复工作3、硬件故障:及时报告上级领导并查找、确定故障设备及故障原因,进行初步处置,同时联系设备供应商共同检测并排除故障。4、若短时间之内无法修复,应启动备份设备,保持系统网络正常运行,将故障设备脱离网络,进行故障排除。5、故障排除后,在网络空闲时期,替换备用设备,如故障仍然存在,立即联系厂商进行返厂维修或调换设备。断电1、启动应急电源;2、使用备用UPS进行供电;3、与相关部门联系,尽快恢复供电;4、若在UPS供电时间范围内不能恢复供电,要在UPS能正常供电的时间段内进行对主要系统及数据进行备份工作,备份工作完毕后,对主要设备进行系统关闭,请示上级领导后,关闭非关键设备,确保关键设备供电。火灾1、立即发出火灾警报并报告;2、根据情况立即断电;3、有秩序、有步骤地抢救数据资料和硬件设备4、火险情况解除后,尽快检查并恢复应用系统的工作。事件后期恢复及评估1、清理系统、恢复数据、程序、服务。把所有被攻破的系统和网络设备彻底还原到它们正常的任务状态。恢复工作应该十分小心,避免出现误操作导致数据的丢失。另外,恢复工作中如果涉及到机密数据,需要额外遵照机密系统的恢复要求。2、备份硬件设备或配件代替使用后,应及时将损坏设备进行维修或者更新。3、检查威胁造成的结果,评估事件带来的影响和损害:如检查系统、服务、数据的完整性、保密性或可用性,检查攻击者是否侵入了系统,以后是否能再次随意进入,损失的程度,确定暴露出的主要危险等。九、事件总结记录每次应急事件处理完后应对此次应急事件进行分析,形成总结报告。报告应包括事件类别、事件发生时间、有无预警信息、事件所造成的影响、参与人员、采取的措施和效果、事件的损失评估、经验教训等内容。并及时向上级领导报备。运维工作的注意事项:1、值班人员交接班时应注意帐号的登出登入,做好工作交接记录,检查上位在岗运维是否编写值班事件记录、事件记录是否全面详细、有无事件的最终解决方案。2、收到监控软件报警和巡检时发现的异常,应做好事件识别分析和记录,需要对设备进行上下架检查时,应报备上级领导;需要查看系统、数据以解决问题时,应请示上级领导后方可;需要其他部门的协调解决时应及时与相关同事进行沟通。分区未归档笔记的第3页查看系统、数据以解决问题时,应请示上级领导后方可;需要其他部门的协调解决时应及时与相关同事进行沟通。分区未归档笔记的第4页