2020/2/11Inspurgroup服务器日常维护及常见故障排除方法2020/2/11Inspurgroup主要内容•故障维修注意事项•常见故障处理及调试2020/2/11Inspurgroup故障维修注意事项•服务器故障排错的基本原则•服务器硬件维护注意事项•关于最小化和还原出厂配置2020/2/11Inspurgroup服务器故障排错的基本原则•1.尽量恢复系统缺省配置a:硬件配置:去除第三方厂商备件和非标配备件;b:资源配置:清除CMOS,恢复资源初始配置;c:BIOS,F/W,驱动程序:升级最新的BIOS,F/W和相关驱动程序;d:TPL:扩展的第三方的I/O卡属于该机型的硬件兼容列表(TPL)吗?•2.从基本到复杂a:系统上从个体到网络:首先将存在故障的服务器独立运行,待测试正常后再接入网络运行,观察故障现象变化并处理。b:硬件上从最小系统到现实系统:指从可以运行的硬件开始逐步到现实系统为止。c:软件上从基本系统到现实系统:指从基本操作系统开始逐步到现实系统为止。•3.交换对比a:在最大可能相同的条件下,交换操作简单效果明显的部件;b:交换NOS载体,既交换软件环境;c:交换硬件,既交换硬件环境;d:交换整机,既交换整体环境2020/2/11Inspurgroup服务器硬件维护注意事项•只有合格的技术人员才可以对主板进行设置•系统电源开关:系统前面板上的直流电源开关并不能关闭系统电源的交流输入,系统中尚有8mA的伺服电流,在设置之前,必须拔下系统交流电源电缆•系统外界设备:必须拔下系统外接网线和Modem等外接设备,否则可能会对人员或设备造成意外伤害•静电释放和静电释放保护措施:静电释放会对主板、硬盘、板卡和系统的其它部件造成损害,在您要对系统硬件进行设置时,最好在防静电环境下进行(一端接地)•静电释放和板卡持拿:因为板卡上的芯片对静电特别敏感,持拿板卡必须小心,只能接触主板的边沿。当板卡暂时不用时,必须把它放回专用的防静电袋中,芯片朝上放在接地平台上•机箱盖:为了系统正常散热和空气流通,在系统上电前一定要安装机箱盖,否则会对系统部件造成损害,机架式服务器要特别注意2020/2/11Inspurgroup硬件维修注意事项•确保在机箱和主板之间不存在短路•把和主板相连接的线缆断掉,包括键盘和鼠标•移走所有的外插板卡•安装一颗CPU(确保安装牢固)•连接机箱扬声器连线和电源指示灯LED连线到主板•检查主板等部件的跳线设置是否正确2020/2/11Inspurgroup关于最小化和还原出厂配置•遇到复杂问题时,需要进行机器的最小化操作来进行问题定位,笼统的讲,最小化指单cpu、单内存或双内存(根据主板要求决定)、主板、电源接显示器开机测试,其他的板卡、跳线等都去掉。•但由于机型的差异,通过一些案例分析,我们真正做到最小化了么?•还原到出厂配置要求保证原厂的部件,去掉用户自己扩配的部件,甚至要求bios版本的还原。2020/2/11Inspurgroup排除非浪潮部件干扰非常重要•硬件故障并不单单指硬件有问题,它也指硬件之间不兼容。因为服务器的正常运作需要各部件之间的大力协调。建议大家在采购各元件时,都采用同一品牌原装的,并且要采用能发挥服务器性能的元件(上例中的旧式网卡即使正常也会严重影响服务器性能),这样才不会发生莫明其妙的故障2020/2/11Inspurgroup外设故障不可小看•这些外设部件往往是最容易被忽略的,但这些故障会被引起以下故障:蓝屏-切换器导致开机报错-键盘导致开机报警-鼠标线缆被老鼠咬了!!!-键盘故障显示器-安装as4.6死机,安装其他系统没问题。•必要时要替换测试2020/2/11Inspurgroup主要内容•故障维修注意事项•常见故障处理及调试2020/2/11Inspurgroup常见故障处理及调试•硬盘相关故障•开机无显•机器不加电•意外重启•风扇故障•前面板状态灯相关说明•系统相关故障•数据读写缓慢•网络相关故障2020/2/11Inspurgroup硬盘相关故障•硬盘无法识别1.检测不到硬盘2.可检测到硬盘数量不正确•开机自检硬盘报错检测到硬盘时报错:smarterror或diskI/Oerror•硬盘亮红灯•阵列中硬盘频繁掉线2020/2/11Inspurgroup硬盘相关故障:硬盘检测问题•硬盘无法识别问题可从以下几个方面考虑1.重新拔插硬盘电源及数据线缆,注意是否有接触不良的问题。2.更换硬盘至原先可正常检测到的槽位,如果仍然检测不到则可能存在硬盘损坏故障。3.可检测到硬盘数量不正确实的情况要注意先确定bios中是否设置了正确的参数,然后再排除上述1.2问题。4.硬盘背板故障。5.磁盘控制器可能存在故障。2020/2/11Inspurgroup硬盘相关故障:硬盘检测问题•Sata硬盘的识别问题更多表现在bios设置上,例如NF190/NF280G2/NF190Ebios中相关sata参数设置2020/2/11Inspurgroup硬盘相关故障:硬盘检测问题•例如NF190D/NF280Dbios中相关sata参数设置2020/2/11InspurgroupNF190D/NF280DESB2SATA•3种模式:Compatible、AHCI、HostRaid2020/2/11InspurgroupNF190D/NF280DSATARAID•关于SATAHostRAID有如下限制:•RAID-0•Min2drives,max4drives.•RAID-1•Min2drives,max2drives.•RAID-10•Min4drives,max4drives.•thesamelimitationwithSCSIHostRAID2020/2/11InspurgroupNF190D/NF280DSATA•CompatibleMode:IDE0Mas,IDE0Sla,SATA0,SATA2orSATA1,SATA3,支持Windows,Linux,nodriverrequired•EnhanceIDEMode:IDE0Mas,IDE0Sla,SATA0,SATA1,SATA2,SATA3,支持Windows,nodriverrequired•EnhanceMode(AHCIorRAIDenabled):IDE0Mas,IDE0Sla,SATA0,SATA1,SATA2,SATA3,SATA4,SATA5,driverisrequired.2020/2/11Inspurgroup硬盘相关故障:开机自检硬盘报错•检测到硬盘时报错:smarterror、diskI/Oerror或预期错误1.使用现有的硬盘控制器校验硬盘。2.出现此类报错时背板或主板也是故障原因但几率较小。2020/2/11Inspurgroup磁盘相关故障-硬盘亮红灯•很多机器背板有硬盘故障检测功能,如硬盘亮红灯一般意味着硬盘掉线、背板检测到硬盘存在故障隐患,此时可以从raid卡配置界面中查看硬盘的状态,如果处于非掉线状态,需要安装对应的管理软件,从管理软件中查看是否有磁盘mediaerror,有一点需要强调,硬盘亮红灯并不一定意味着硬盘掉线。2020/2/11Inspurgroup硬盘相关故障-硬盘掉线•对于硬盘频繁掉线的故障,首先校验硬盘是否有坏道,如确定有坏道建议立即更换而不是通过其他修正的方法•经过校验确认硬盘没有坏道,但此硬盘频繁掉线,同样需要更换硬盘,然后依次考虑背板、主板或raid卡、数据线、终结器故障。2020/2/11Inspurgroup常见故障处理及调试•硬盘相关故障•开机无显•机器不加电•意外重启•风扇故障•前面板状态灯相关说明•系统相关故障•数据读写缓慢•网络相关故障2020/2/11Inspurgroup开机无显的维护思路•ClearCMOS•检查供电环境,零-火;零-地电压?•检查电源指示灯,如果亮,正常吗?•按下电源开关时,键盘上指示灯亮吗?风扇全部转动吗?•是否更换过显示器,更换另一台显示器。•去掉增加内存•去掉增加的CPU•去掉增加的第三方I/O卡•检查内存和CPU插的是否牢靠•主板是否有显示屏蔽的跳线•更换主要备件,如主板,内存和CPU2020/2/11Inspurgroup开机无显-清cmos•NF190/NF280G2清cmos方法:用跳线帽将跳线2的b-c短接,保持5秒钟;重启机器使设置生效;关掉机器,将跳线帽接回原先位置即可。2020/2/11Inspurgroup开机无显-清cmos•NF190D/NF280D清cmos方法:用金属物体(如小螺丝刀)将JBT1的两个脚点短接即可。2020/2/11Inspurgroup开机无显-内存最小化•单条内存插法:1.NF280G2/NF190单内存插在靠近主板边缘的A1或B1槽位2.NF190D/NF280D单内存插在靠近主板内部的DIMM1A槽位上•主板power开关跳线位置:NF280D/NF190D:2020/2/11Inspurgroup常见故障处理及调试•硬盘相关故障•开机无显•机器不加电•意外重启•风扇故障•前面板状态灯相关说明•系统相关故障•数据读写缓慢•网络相关故障2020/2/11Inspurgroup主机不加电•确定外插电源线是否正常,更换电源线测试•清cmos、最小化•拔插相关部件•在确定外部电源没有问题的情况下,将电源单独取出,插上电源线后短接电源24针插座的绿、黑接口,看电源风扇是否转动来确认电源故障。(台达的一些电源有空载保护机制,不能通过此方法进行测试,还有一些电源有节电功能,必须在电源内部温度达到一定阀值才启动风扇,如NP110D共享工程机器,所以也不能用此方法测试)•更换主板测试,(依照现场更换情况定位最终故障)2020/2/11Inspurgroup常见故障处理及调试•硬盘相关故障•开机无显•机器不加电•意外重启•风扇故障•前面板状态灯相关说明•系统相关故障•数据读写缓慢•网络相关故障2020/2/11Inspurgroup意外重启•查看bios相关日志及系统日志考虑相关因素•如果是蓝屏重启,可查看dump日志进行分析•与系统有关,重装系统•内存和主板是导致硬件蓝屏的主要原因,可对内存进行校验,或对内存进行最小化测试2020/2/11Inspurgroup关于系统蓝屏故障的分析•关于windbg•Dump文件的生成,及设置•Windbg设置•如何分析dump文件•具体案例分析2020/2/11Inspurgroup关于windbg•什么是windbg微软在DDK和SDK中提供的一个调试工具,既能调试驱动程序也能调试应用程序。同时可以对系统进行调试,对于蓝屏后产生的dump文件也有很强大的分析能力,帮助我们找到在蓝屏发生的最后一刻,系统在执行什么操作。•Windbg下载•分析性能如何1,如果是软件原因造成的,尤其是杀毒软件防火墙原因造成,确定的成功率可以达到90%以上。2,如果是硬件原因造成的蓝屏,不能唯一确定到哪个硬件,但是可以大体上判定问题出现在哪一路上2020/2/11InspurgroupDump文件生成•当一个核心态错误发生的时候,windows缺省的方式是产生一个带有报错代码的蓝屏。•有三种类型的dump文件:•完全内存转储•核心内存转储•最小内存转储2020/2/11InspurgroupWindbg设置•Symbolfilepath•1,下载并安装•2,直接连接到微软网站•SRV*d:/temp/*案例分析讲解•杀毒软件原因•瑞星,天网等杀毒软件或防火墙软件。•驱动问题•硬件故障•实例:河北省沧州市计生委207990484NF380D接网线蓝屏stop:0x000000FC(f78ae884,2fbf0963,f78ae7f0,