服务器运维管理手册1XXXX有限公司服务器运维管理手册XXXX有限公司运维服务部2012/8/30服务器运维管理手册2一、文档简介...............................................................................3二、文档目的...............................................................................3三、文档范围...............................................................................3四、事件处理流程........................................................................4五、具体操作说明........................................................................41)服务器硬件管理....................................................................42)服务器系统管理..................................................................101.Windows系统管理...........................................................102.Linux系统管理.................................................................12六、相关文档.............................................................................15服务器运维管理手册3一、文档简介本文档根据桑菲消费通信服务器硬件设备与系统应用管理需求,针对日常维护内容进行技术归类于总结,描述具体操作步骤与操作方法,积累服务器事件处理能力,使之服务运维能力更为主动可控。二、文档目的标准服务器故障处理方法指引,服务器管理知识库积累。三、文档范围服务器硬件故障判断与标准处理操作服务器系统日常性能检测与标准检测服务器运维管理手册4四、事件处理流程五、具体操作说明1)服务器硬件管理1.检查与故障判断:服务器硬件的主动检查方式主要分三种:设备面板指示灯检查硬件系统日志检查服务器运维管理手册5第三方工具检查(一)面板指示灯检查IBM服务器上面有,电源指示灯,硬盘/IDE设备活动指示灯,网卡指示灯,系统过热报警灯.硬盘槽还有硬盘指示灯。HP服务器上面指示灯一般为UID,内部和外部健康灯,其他就是电源网口灯了,DELL的机种有的上面有风扇,内存,CPU,指示灯情况,图标都是很直观的,其它服务器与IBM,HP的差不多。图示说明详细描述:服务器运维管理手册6服务器运维管理手册7服务器运维管理手册8(二)系统日志检查检查内容硬件历史异常报错信息计算机管理-系统工具-事件查看器,查看系统日志重点关注:红色高危事件信息、日常频繁硬件报错信息备注:查看硬件历史异常故障情况,分析硬件性能与使用生命周期(三)第三方检测工具检查检查内容硬件历史异常报错信息HP诊断工具:打开开始——程序——HPSystemTools——HPInsightDiagnosticsonlineEditionforWindows——HPInsightDiagnosticsonlineEditionforWindows。DELL诊断工具:第三方硬件设备诊断工具IBM诊断工具:IBMSystemsDirector、IBMSystemsDirectorActiveEnergyManager、IBMServerGuide相关图解:进入诊断网页,在第一选项卡Survey中,上部有2个下拉项,左侧选择Advanced,右侧选择All,会显示出更多硬件信息,点击右下的Save按钮保存。服务器运维管理手册9此界面可以看到服务器所有硬件信息。2.硬件设备变更操作标准:判断并确定最快恢复时间判断是否有做冗余设置判断是否需要关机操作磁盘设备检测并确定阵列信息,确定有做数据备份是否对其它关联应用有影响制定回退方案,保证数据与应用的可用性设备变更操作设备兼容性测试应用系统运行测试设备变更后正式应用服务器运维管理手册103.相关巡检记录单:备注:《服务器信息列表》《服务器指示灯巡检表》服务器信息列表.xlsx服务器指示灯巡检表.xlsx2)服务器系统管理服务器系统管理主要分为:Windows系统管理Linux系统管理1.Windows系统管理1.1.磁盘空间使用计算机管理——磁盘管理磁盘空间使用率是否已经到达80%1.2.进程监控任务管理器——进程查看进程的CPU使用率和内存使用率是否超阀值1.3.CPU性能任务管理器——性能查看CPU最高峰值与一般使用率是否超阀值服务器运维管理手册111.4.内存性能任务管理器——性能查看内存最高峰值与一般使用率是否超阀值1.5.网络查看任务管理器——联网检查是否能正常访问站点页面1.6.日志记录错误报警信息内存使用率是否超过70%或者其他定义阀值服务器运维管理手册12——应用程序日志由应用程序或者系统程序记录的事件——安全性日志查看有效和无效的登录尝试事件,以及资源使用相关的事件——系统日志Windows系统组件记录的事件2.Linux系统管理2.1.平均负载(uptime)描述:uptime命令过去只显示系统运行多久。现在,可以显示系统运行多久、当前有多少的用户登录、在过去的1,5,15分钟里平均负载时多少。2.2.磁盘空间使用率(df-h)描述:Filesystem文件系统Size文件系统容量Used文件系统已经使用的容量Use%文件系统使用百分比Mountedon挂载的目录服务器运维管理手册132.3.进程监控(ps–ef|grepjava)查看应用程序启动进程数是否正常2.4.内存监控(free-m)描述:total:总计物理内存的大小used:已使用多大free:可用有多少shared:多个进程共享的内存总额buffers/cached:磁盘缓存的大小。第三行(-/+buffers/cached):used:已使用多大。free:可用有多少。2.5.CPU占用率(top)描述:top提供一个当前运行系统实时动态的视图,也就是正在运行进程。在默认情况下,CPU使用率最高的任务排在第一行,并每5秒钟刷新一次。服务器运维管理手册142.6.I/O监控(vmstat210)process:–r:等待runtime的进程数–b:在不可打断的休眠状态下的进程数memory:–swpd:虚拟内存使用量(KB)–free:闲置内存使用量(KB)–buff:被当做buffer使用的内存量(KB)swap:–si:swap到磁盘的内存量(KBps)–so:从磁盘swap出去的内存量(KBps)IO:–bi:每秒读取的块数(blocks/s)–bo:每秒写入的块数(blocks/s)系统:in:每秒中断数,包括时钟中断cs:每秒上下文切换数。CPU(以百分比表示):us:用户进程执行时间(usertime)sy:系统进程执行时间(systemtime)id:空闲时间(包括IO等待时间)wa:等待IO时间2.7.日志系统——系统日志(cat/var/log/messages|grep‘Jul23’|greperror)记录报警信息——硬件启动日志(dmesg|greperror)记录系统启动错误信息服务器运维管理手册15——应用系统日志服务器各个应用的日志系统,比如:/var/log/httpd/error_log等等备注:《系统主机信息表》《系统主机巡检表》《系统事件记录表》系统主机信息表.xlsx系统主机巡检表.xlsx系统事件记录表.xlsx六、相关文档《系统主机信息表》《系统主机巡检表》《系统事件记录表》《服务器指示灯巡检表》《服务器信息列表》《IDC环境管理制度》