服务器系统故障应急预案1、服务器应用系统出现故障,系统恢复应急预案(1)当服务器应用系统出现故障,安全管理员、系统管理员、应用管理员应当立即初步确定故障的严重程度,估计出现故障的应用系统故障排除需要的时间,并根据应用系统需要保障的无故障运行时间,采取不同的应用系统恢复策略。(2)如果应用系统不能停机,立即启用热备份系统进行工作。如果应用系统不能停机,而故障又可以在10分钟之内排除,那么安全管理员指导系统管理员和应用管理员立即排除故障,恢复系统正常运行。应用系统可以停机而故障又可以在2小时内排除,安全管理员,应该断开服务器的网络连接,配合系统管理员和应用管理员,处理服务器故障,尽快排除故障,恢复系统运行。应用系统可以停机但故障排除不能在2小时之内完成,而应用系统有冷备份系统,安全管理员,应该断开服务器的网络连接,通知系统管理员和应用管理员启动冷备份系统,完成应用系统的安装、设置,并进行数据的恢复,保证系统正常运行。应用系统可以停机,而又没有冷备份的应用系统,那么安全管理员应该通知系统管理员和应用管理员,备份现有系统的数据和程序,如果不能进行备份系统的数据和程序,安全管理员应该从备份管理员那里得到应用系统的最新备份。安全管理员在确定了应用系统有备份的情况下,通知系统管理员重新修复或安装操作系统,并配合应用管理员重新安装或修复应用系统并恢复最新备份的数据。如果备份丢失或不存在,安全管理员应该报告信息网络事件应急小组,并求助技术支持商,完成对硬盘数据的恢复。(3)备份管理员在应用系统出现故障时,应该及时查找本地的数据备份,本地的数据备份损坏或丢失,应该立即从异地数据备份复制应用系统的数据备份到本地。(4)系统管理员和应用管理员应在确认安全的情况下,重新启动故障服务器系统;重启系统成功,则检查数据丢失情况,利用备份数据恢复;若重启失败,立即联系相关厂商和技术支持,请求援助,分析故障原因,若经设备厂商或技术支持认定是硬件损坏,那么需要请求厂商更具维修协议,进行保修或维修。在服务器硬件正常的情况下,尽快做好系统软件的恢复或重新安装,之后再进行应用软件的恢复或重新安装,再进行应用系统的数据恢复,应用系统完全恢复正常运行后,重新启用恢复的应用系统服务器,再将备用系统停掉。2、不良信息和网络病毒事件应急预案(1)发现不良信息或网络病毒时,系统管理员应立即断开网线,终止不良信息或网络病毒传播,并报告信息网络事件应急小组。(2)安全管理员应采取隔离网络等措施,协助系统管理员和应用管理员及时杀毒、排除不良信息、追查不良信息来源,并估计出故障排除的时间,然后根据服务器应用系统的重要级别,采取不同的措施。(3)事态或后果严重的,信息网络事件应急小组应及时报告上级主管领导。(4)处置结束后,安全管理员和事发部门应将事发经过、造成影响、处置结果在调查工作结束后一日内书面报告信息网络事件应急小组主任。(5)应急预案技术措施,如果出现网络病毒,系统管理员采用瑞星杀毒软件或卡巴斯基杀毒软件和360木马查杀工具,对整个计算机进行杀毒。对不能确定是否为病毒的文件,应该询问安全管理员和应用程序员来确定。如果出现不良信息,安全管理、系统管理员程序管理员要设法找到不良信息的文件或不良信息存在数据库中的位置,对非法信息,进行手工删除,或编程删除,若不能清除,采用程序和数据备份进行恢复。3、软件系统故障应急预案(1)发生服务器软件系统故障后,安全管理员、系统管理员、应用管理员应立即对服务器进行查看,分析故障原因,采取并及时报告信息网络事件应急小组;同时安排将故障服务器脱离网络,保存系统状态不变,取出系统镜像备份磁盘,保持原始数据,按照系统恢复应急预案进行。(2)事态或后果严重的,信息网络事件应急小组。(3)处置结束后,系统管理员应将事发经过、处置结果等在调查工作结束后一日内报告信息网络事件应急小组。(4)技术措施:安全管理员、系统管理员、应用管理员在故障发生后立即查看服务器系统状态,如果是系统软件出现故障,并且能进入系统,且可以清晰定位故障原因,并可以立即排除,那么立即进行排除。如果估计在3小时之内都不能定位故障原因,那么报告信息网络事件应急小组,请求系统软件厂商及技术支持协助排除,或根据技术支持的建议进行重新安装操作系统和应用系统。排除操作系统故障的方法,检查操作系统进程是否都正常,有无非法进程,操作系统文件有无损坏丢失,是否受到病毒和木马程序侵害,黑客攻击。如果不是操作系统故障,安全管理员应该只是应用管理员对应用系统进行检查,检查方法,查看应用系统代码和数据是否被破坏,损坏,丢失,如果丢失,从正确的备份进行恢复。4、黑客攻击事件应急预案⑴当发现网络被非法入侵、网页内容被篡改,应用服务器上的数据被非法拷贝、修改、删除,或通过入侵检测系统发现有黑客正在进行攻击时,使用者或管理者应断开网络,并立即报告信息网络事件应急小组。⑵接报告后,信息网络事件应急小组应立即指令系统管理员和安全管理员核实情况,关闭服务器或系统,封锁或删除被攻破的登陆帐号,阻断可疑用户进入网络的通道。⑶系统管理员应及时清理系统,恢复数据、程序,恢复系统和网络正常;情况严重的,不能准确判断黑客攻击行为和采取防护和阻断措施的,报告网络事件应急小组,并请求支援。⑷处置结束后,系统管理员和安全管理员应将事发经过、处置结果等在调查工作结束后一日内报告信息网络事件应急小组。(5)技术措施:查看是否存在黑客程序及非法进程,用杀毒软件,360木马查杀工具,以及手工方法清除非法程序,若安全管理员、系统管理员、应用管理员不能完全清除黑客程序,安全管理员应及时报告信息网络事件应急小组,请求安全厂商及安全技术支持协助排除,或根据技术支持的建议进行重新安装操作系统和应用系统。5、服务器硬件故障应急预案(1)发生服务器设备硬件故障后,安全管理员和系统管理员应及时报告信息网络事件应急小组,并组织查找、确定故障设备及故障原因,进行先期处置。(2)根据系统恢复应急预案,确定故障的服务器上的应用系统的应急恢复措施。(3)处置结束后,系统管理员应将事发经过、处置结果等在调查工作结束后一日内报告信息网络事件应急小组。(4)技术措施:初步判断硬件故障的方法,观察系统能否正常启动,记录启动时显示器屏幕上的提示信息,记录服务器状态指示灯状态,记录系统状态显示屏上的信息,安全管理员、系统管理员初步判断服务器硬件故障后,咨询硬件管理员、硬件厂商、技术支持确定硬件故障的具体原因和故障部件,并联系进行维修。5、业务数据损坏应急预案⑴发生业务数据损坏时,系统管理员和应用管理员应及时报告信息网络事件应急小组,检查、备份业务系统当前数据。⑵系统管理员负责调用备份服务器备份数据,若备份数据损坏,调用异地备份数据,应用管理员应配合系统管理员完成数据恢复工作。⑶系统管理员和应用管理员应待业务数据系统恢复后,检查历史数据和当前数据的差别,由相关系统操作员补录数据;重新备份数据,并写出故障分析报告,在调查工作结束后一日内报告信息网络事件应急小组。6、重大事故报警制度⑴网站出现严重的非法或有害信息,政府类网站出现严重被篡改的情况,系统管理员和安全管理员应该立即报告信息网络事件应急小组,留存非法信息画面,保存相应的系统访问日志。⑵信息网络事件应急小组应该根据情节的严重性向公安局网络警察支队报警,并请求安全技术厂商和安全技术服务商,对事故进行分析,找出入侵的源头的IP地址,并帮助安全管理员,详细描述事故的现象、攻击的方法、攻击的源头,形成报告,作为报警的依据。