当前位置:首页 > 商业/管理/HR > 信息化管理 > 华为服务器日常维护及故障处理介绍V
©2013HuaweiTechnologiesCo.,Ltd.Allrightsreserved.华为服务器日常维护和故障处理介绍Copyright©2013HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page2目标学完本课程后,您将能够:掌握服务器日常巡检及日常维护操作掌握服务器故障诊断的思路熟悉服务器日志信息收集方法掌握服务器常见故障处理方法熟悉服务器部件更换流程及注意事项掌握服务器日常问题求助渠道Copyright©2013HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page3目录1.服务器日常维护1.1维护准备1.2日常巡检1.3软件升级2.服务器故障处理2.1故障诊断流程2.2故障信息收集方法2.3故障定位方法2.4部件更换流程及注意事项2.5求助渠道Copyright©2013HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page41.1维护准备-硬件工具服务器日常维护硬件工具一览表(按需提前准备)。名称说明浮动螺母安装条用于牵引浮动螺母,使浮动螺母安装在机柜的固定导槽孔位上。螺丝刀用于拆装螺钉,一般为一字、十字、六棱套筒等。斜口钳用于剪切绝缘套管、电缆扎线扣等。万用表用于测量电阻、电压,检查导通关系等。防静电腕带用于接触或操作设备和器件,可防止静电放电。防静电手套用于插拔单板、手拿单板或其他精密仪器等,可防止静电放电。线扣用于绑扎线缆。梯子用于高处作业。便携机自备网线,用于通过网络访问管理网口或业务网口,捕获数据。串口线服务器侧串口接口一般为DB9或RJ45。温度计/湿度计用于监控机房温度、湿度是否满足设备稳定运行环境。Copyright©2013HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page51.1维护准备-软件工具服务器日常维护软件工具一览表(按需提前准备)名称说明SSHSecureShellClient开源工具,用于Windows客户端命令行方式访问Linux系统以及文件传输。UTestTools服务器U盘检测工具,用于检测服务器硬盘、内存、SSD卡、BBU电池、出厂拷机等。InspectTools用于服务器日常远程批量巡检以及带外日志收集。FusionUpgradeTools用于批量升级服务器固件iMana/BIOS,以及BIOS批量设定。Winrar第三方软件,需自备,用于压缩文件或解压。Office第三方软件,需自备,用于编辑Word、Excel等文档。bmc_collect.shmm_collect.sh用于服务器带外日志收集(联系TAC工程师获取)。Collection.shWinInfoCollection.bat用于Linux/Windows日志收集(联系TAC工程师获取)。Copyright©2013HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page71.1维护准备-必读资料服务器日常维护前必读资料如下表)名称说明资料获取《用户指南》各型号服务器的用户指南,介绍服务器产品的结构、规格和安装。资料获取方式:通过浏览器访问链接=zh&pid=9856522&idAbsPath=7919749|9856522,进入相应服务器目录。《维护指南》各型号服务器的维护指南,介绍服务器产品的结构、规格和安装。《告警参考》各型号服务器的告警参考,介绍iMana/MM所支持的服务器产品各类型告警信息及处理建议。《机房规范》客户机房日常维护规范,现场维护时必须严格遵守客户机房管理规范。以实际客户机房规范为准。Copyright©2013HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page8目录1.服务器日常维护1.1维护准备1.2日常巡检1.3软件升级2.服务器故障处理2.1故障诊断流程2.2故障信息收集方法2.3故障定位方法2.4部件更换流程及注意事项2.5求助渠道Copyright©2013HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page91.2日常巡检-意义服务器日常维护巡检目的如下:及时发现并消除设备运行过程中可能存在的缺陷或隐患,并采取适当的措施予以恢复和处理,维持设备的健康水平,降低设备的故障率。实时掌握设备和网络的运行状况,了解设备和网络的运行趋势,提高维护人员对突发事件的处理效率。通过定期维护和保养设备,使设备的健康水平长期处于良好状态,确保系统能够安全、稳定、可靠的运行。通过定期检查、备份、测试、清洁等手段,及时发现设备在运行过程中出现的自然老化、功能失效、性能下降等缺陷,并采取适当的措施及时予以处理,以消除隐患,预防事故的发生。Copyright©2013HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page101.2日常巡检-基本原则采用唯一的标识或名称创建问题解决记录日志一次只做一个改动,并记录结果使用华为提供的工具、资源、软件清楚操作系统和应用软件的更新制定可靠的备份计划现场保留备件,故障时及时更换保存最新网络拓扑图方便解决问题Copyright©2013HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page111.2日常巡检-现场巡检现场巡检包含机房环境和设备运行状态两方面。机房环境巡检常见安全标识参考下表。图标说明提示危险用电器件。请注意防止电击危险。请勿打开此器件。警告:所有带有此标识的器件都存在电击危险,被标识区域没有可维护的器件!提示危险器件。该器件可能造成电击危险。被标识区域没有可维护器件,请勿打开此器件。警告:请注意防止电击危险,请勿打开此器件!提示高温表面。警告:小心烫伤,请等器件降温后再接触!提示危险用电器件。该标识表示误操作可能会导致设备损坏或人身伤害。该标识是设备外部的接地标识。接地电缆的两端分别接在不同设备上,表示设备必须通过接地点接地,保证设备正常运行及操作人员的人身安全。该标识是设备内部的接地标识。接地电缆的两端都接在同一个设备上的不同组件上,表示设备必须通过接地点接地,保证设备正常运行及操作人员的人身安全。该标识表示为静电敏感区,请勿徒手触摸设备。在该区域操作时,请采取严格的防静电措施,例如佩戴防静电腕带或者防静电手套。Copyright©2013HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page121.2日常巡检-现场巡检机房环境检查主要包括机房内部的温湿度、供电等序号技术指标项结果参考1工作温度10℃~35℃(41℉~95℉)2.存储温度-40℃~+65℃(-40℉~149℉)3温度变化率15℃/h(59℉/h)4工作湿度8%RH~90%RH(无冷凝)5存储湿度5%RH~95%RH(无冷凝)6工作海拔高度≤3000m7电源交流供电:输入电压范围100VAC~240VAC,50/60Hz直流供电:标称-48VDC,电压波动范围–38.4V~–57.6VDCCopyright©2013HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page131.2日常巡检-现场巡检服务器相关线路布局巡检,参考下表,如需插拔线缆,务必在客户授权后方可进行。序号检查内容检查结果备注1线缆总布放强电、弱电线应该分别从机柜两边走线,即业务、电源线分离。特别注意光纤是否有被小角度弯曲或强行拉伸。2电源线布放整齐、美观、有序,尽量与机房内其余机柜布线风格保持一致,电源线禁止挽圈。3业务线布放整齐、美观、有序,尽量与机房内其余机柜布线风格保持一致。4地线连接服务器设备要按规定接地。5线缆标签标注、粘贴标签字体清晰,标注明确且含义准确,粘贴牢固。6电源线插头检查检查服务器的电源线是否牢固插入电源插座。7信号线插头检查检查服务器、交换机等设备之间的信号、数据线连接是否牢固。Copyright©2013HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page141.2日常巡检-现场巡检服务器运行状态巡检,参考下表序号检查方式备注1服务器指示灯巡检华为服务器前后面板分别提供UID按钮/指示灯、HEALTHY健康指示灯、网口指示灯、电源开关按钮指示灯等。通过观察指示灯状态可以初步诊断当前服务器的状态。指示灯状态说明参考服务器产品文档。2服务器iMana健康信息巡检如果客户现场有管理网络,则使用客户管理网络进行巡检,否则用网线连接iMana管理网口和便携机网口。登录iManaWeb对健康状态进行查询,相关告警信息参考《iMana告警参考》进行分析处理。3MM管理模块健康信息巡检如果客户现场有管理网络,则使用客户管理网络进行巡检,否则用网线连接主用MM管理模块网口和便携机网口。通过MMWeb界面查看刀片服务器MM管理模块、服务器刀片、交换模块、电源模块、风扇模块的健康状态。相关告警信息参考《MM告警参考》进行分析处理。Copyright©2013HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page151.2日常巡检-现场巡检服务器现场巡检后输出报告,参考下表项目名称XXX服务器设备巡检清单以及报修联络方式巡检人/联系方式巡检时间巡检地址相关保障人员现场接口人故障主接口人我司现场值守工程师报修电话企业中国区:4008229999企业全球TAC:运营商中国区TAC:客户400830218/800830218/02986360000工程师/合作方:8008303118/02981770177运营商全球TAC:02981770999主机序列号/单板序列号设备所在位置巡检项巡检内容巡检检查项巡检结果备注前面板健康指示灯系统故障指示灯状态红色常亮或红色闪烁表明异常,绿色表示工作正常□正常□不正常前面板电源按钮/指示灯系统电源指示灯状态绿色常亮为正常运行□正常□不正常前面板硬盘指示灯硬盘状态指示灯状态绿色常亮或闪烁为正常,黄色或不亮为异常□正常□不正常后面板指示灯交流电源指示灯(电源模块)绿色常亮为正常运行,不亮为无电源输入□正常□不正常风扇风扇运行状态风扇很响或异响为异常,平稳运行为正常□正常□不正常网线以及其他线缆线缆连接状态网线及光纤线是否插好,接口指示灯是否亮□正常□不正常iMana健康信息通过iMana查看服务器健康状态和告警日志信息查看服务器的健康状态日志信息、散热管理及电源管理的当前状态是否有任何告警□正常□不正常MM健康信息通过MM查看刀片服务器健康状态和告警日志信息通过Web界面查看Tecal刀片服务器MM管理模块、服务器刀片、交换模块、电源模块、风扇模块的健康状态及告警信息。□正常□不正常其他其他部件如果硬件其他有异常请联系现场值守工程师□正常□不正常备注指示灯对应关系及iMana、MM健康状态和告警信息的查询,请参考服务器产品文档(产品文档可在配套光盘中获取到,或者通过登录进行下载)。Copyright©2013HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page161.2日常巡检-远程巡检通过客户网络远程访问服务带外管理软件(iMana或SMM),使用巡检工具进行服务器健康状态巡检。巡检工具具有以下特点:图形用户界面(GUI)和命令行界面(CLI)32位系统和64位系统
本文标题:华为服务器日常维护及故障处理介绍V
链接地址:https://www.777doc.com/doc-2912132 .html