IBMPC服务器故障诊流程

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

IBMPC服务器故障诊断流程一、状态确定:状态确定是指发生故障的设备是当前是什么状态,是业务正常在跑,前面板有指示灯告警,比如一些冗余部件的故障(硬盘、电源、风扇等等);还是出于宕机状态,不能正常进入到操作系统里面,这里又得分为两种情况讨论,一是设备开机没有自检,直接黑屏;二是开机有自检,自检阶段有POST蜂鸣声或者报错码,面对这种情况可结合前面板LED,光通诊断板,主板LED,POST阶段的一些现象具体问题具体分析。故障定位侧重于判断坏在哪里;二、故障定位:故障定位的时候,我们用到的手段非常多,下面,利用POST的过程;1、POST阶段复习:广义的POST过程是指从按下电源开关到开始引导系统,共分为三个过程:电源供电阶段核心部件初始化阶段狭义POST阶段2、电源供电阶段:从按下电源开关的瞬间开始,设备就开始工作了;电源是动力的源泉,供电系统的良好是设备正常运转的基础;如果问题出现在电源这边,那么之后的一切都进行不下去了;电源问题:供电系统的良好是设备正常运转的基础;只有供电系统OK了,设备才可以开始自检;故障表象:机器开机无电,电源灯不亮,电源风扇不转,按电源按钮开机无反应。诊断方法及过程:供电系统是一条完整的链路,不是单指电源模块;市电及插座电源线电源模块电源分配板主板;首先,要确认市电供电是否正常;包括使用的插座或者PDU(powerdistributionunit)模块;其次,查看电源线是否接好,电源线本身是否OK;诊断方法:替换法+最小化法+指示灯法+排除法;替换法:拿确认完好的备件去替换故障设备上的相应备件;最小化法:将链路裁减至最小(要保障设备能正常运行),再进行故障排除;IBM的问题确定与维护手册诊断章节之未确定的问题当中提供了服务器能够启动的最低配置,以IBMX346(8840)为例,下面为IBMX346(8840)能够启动的最低配置:指示灯法:一般在电源模块上都有相应的指示灯,来表征电源模块的状态;比如AC(交流电)和DC(直流电)。3、核心部件初始化阶段:核心部件初始化问题:电源OK之后,在真正的POST开始之前,其实要有一个准备过程,即核心部件的初始化过程;如下:电源→CPU→BIOS→CMOS→内存(前64k)→I/O总线控制器→显卡系统这些部件都是POST要开始的必须条件,POST实际上是由他们来完成的,所以在他们初始化成功之前,POST不会开始;注:核心部件的初始化,只是为了满足POST,他们初始化成功,并不代表他们所有功能都OK;所以,在他们初始化之后,还会有一个对他们自己的POST过程;所以在整个POST过程中,CPU之类的核心部件会被检查两次,一次初始化,一次才是真正的POST;IBM:(1).机器电源风扇转,电源灯常亮,但机器无显示。(2).机器无显示,机器前面板!指示灯和光路诊断板上的LED指示灯亮黄灯或者红灯;(3).机器无显示,但有明显的B-B-CODE报警声。诊断方法及过程IBM:(1).确认机器显示器是否连接正常,并正常工作。(2).确认机器前面板上的LED指示灯是否正常,确认光路诊断板上的指示灯是否正常;确认主板上的LED指示灯是否正常;Eg:IBMX346(8840)为例:前面板指示灯:查询手册:HardwareMaintenanceManualandTroubleshootingGuideChapter1.GeneralinformationFrontview硬盘:①硬盘驱动器活动指示灯(绿色)该灯闪烁表示硬盘有数据读写操作;②硬盘驱动器状态指示灯(绿色)该指示灯点亮,则表示驱动器发生故障。如果服务器中安装了可选的IBMServeRAID控制器且该指示灯在缓慢闪烁(每秒闪烁一次),就表示正在重建(rebuild)驱动器。当指示灯快速闪烁(每秒闪烁三次)时,表明控制器正在识别该驱动器。黄灯点来那个就说明该驱动器发生了故障,频率较高的闪烁表明服务器正在识别该驱动器,频率较低的闪烁说明服务器正在重建驱动器。操作信息面板:操作员信息面板的含义:系统错误指示灯如果该指示灯点亮,则表示发生了系统错误。系统错误指示灯还位于服务器背面。系统板上光通路诊断面板上的指示灯也点亮,以帮助隔离错误。该指示灯由BMC控制。释放滑锁按下操作员信息面板右侧的释放滑锁来将操作员信息面板滑出并查看光通路指示灯和按钮。电源指示灯如果此绿色指示灯点亮并不闪烁,则表示服务器打开。如果该指示灯在闪烁,则表示服务器关闭,但是仍连接到交流电源。当此指示灯熄灭时,表明已切断交流电源或者电源或指示灯本身出现了故障。服务器后部也有电源指示灯。注:如果此指示灯熄灭,并不表示服务器没电。此指示灯可能已烧毁。要切断服务器的所有电源,必须从电源插座拔出电源线。电源控制按钮按下该按钮可手动打开和关闭服务器。电源控制按钮护罩与服务器一起提供。您可以安装此磁盘形状的护罩以防止意外关闭服务器。硬盘驱动器活动指示灯如果此绿色指示灯点亮,则表示某个硬盘驱动器正在使用。注:在两个位置显示了SCSI驱动器的硬盘驱动器活动:硬盘驱动器本身和操作员信息面板上的硬盘驱动器活动指示灯。SATA驱动器没有硬盘驱动器活动指示灯。SATA驱动器指示硬盘驱动器活动的唯一位置是在操作员信息面板上位置指示灯如果服务器位于其它服务器中间,此中间(蓝色)指示灯可以帮助您从视觉上区分出该服务器。可以使用IBMDirector来远程点亮该指示灯。该指示灯由BMC控制。信息指示灯如果此淡黄色指示灯点亮,则表示发生了一般事件。请检查光通路诊断面板光路诊断板指示灯:查询手册:HardwareMaintenanceManualandTroubleshootingGuideChapter3.DiagnosticsLightPathDiagnostics光通诊断板的含义:光路诊断板点亮,系统错误LED点亮或者系统信息LED点亮含义操作OVERSPEC点亮表示没有足够的电量为系统供电,NONRED和LOG也会点亮1.如果只安装一个了一个电源,请安装另外一个可选电源;2.更换故障的电源PS点亮表示一个电源故障或被卸下;冗余电源中一个电源的DC灯熄灭1.保证电源冗余;2.更换故障电源LINK保留CPU点亮微处理器发生故障;闪烁表示发生了无效的CPU配置确保正确安装处理器;发生了配置错误保证所安装的CPU的各个参数都一致VRM点亮表示微处理器稳压模块发生故障;闪烁表示进行了无效的配置更换故障的VRM,如果问题仍存在请更换主板;保证正确安装VRMLOG点亮表示BMC日志或者系统错误日志中,两个之一已满或者全部几乎已满系统错误日志为75%已满;如果可以保存并清除日志;检查日志可以找到潜在的错误MEM点亮内存故障;闪烁表示进行无效的内存配置更换系统板上点亮LED的故障内存;保证DIMM的正确安装NMI点亮表示出现机器检查错误检查系统错误日志和BMC日志PCI点亮PIC适配器出现故障;PCI-X板上相应的检查BMC日志或者系统错误日志;更换故障的PCI适配器LED也会点亮SP点亮服务处理器发生故障从服务器上卸下交流电源;然后将服务器重新连接到交流电源并重新启动服务器;如果故障仍存在请更换系统板DASD点亮出现硬盘驱动器错误;出现错误的硬盘驱动器上的错误指示灯也会点亮检查驱动器上的指示灯并更换指示的驱动器RAID点亮RAID控制器出现故障检查BMC日志系统错误日志;更换故障的RAID卡NONRED点亮表示服务器正在使用非冗余的电源;LOG灯也有可能点亮更换故障电源;TEMP点亮表示温度超出系统阙值确定风扇是否发生故障;保证机房内温度在正常范围内FAN点亮风扇发生故障或者转速过慢;故障的风扇在系统板上的指示灯也会点亮更换故障的风扇PCIBRD点亮表示PCI-X板出现故障重新安装PCI-X板组合件CPUBRD点亮表示微处理器托盘出现故障重新安装微处理器托盘I/OBRDI/O板出现故障重新安装;更换故障I/O板注意:不是所有设备的光路诊断板都可以从前面板上拉出来查看的,一些老设备是将光路诊断板设计在机箱内的,需要开盖查看;主板指示灯:查询手册:HardwareMaintenanceManualandTroubleshootingGuideChapter4.CustomerreplaceableunitsSystem-boardLEDlocations(3).确认机器报警声信息。查询手册:HardwareMaintenanceManualandTroubleshootingGuideChapter6.Symptom-to-FRUindexBeepsymptoms(4).最小化测试4、狭义POST阶段:在显示器开始有显示之后,进入我们所谓的狭义POST阶段,在这个阶段,我们开始告别两眼一抹黑的困境;首先,CPU的基本功能初始化完成,他可以执行POST代码对部件进行全面的自检,并且,显卡POST功能的通过,我们又有了可供CPU反馈POST结果的平台,报错码、诊断工具纷呈出台;所以,在这个阶段,最核心的思想就是:掌握好设备的报错码分析手段和诊断工具的使用;IBM:(1).指示灯法:和核心部件阶段的方法一样;(2).报错码:HardwareMaintenanceManualandTroubleshootingGuideChapter6.Symptom-to-FRUindexErrorsymptoms和POSTerrorcodes;(3).F2诊断程序,自检阶段根据提示F2forDIAGNOSTICS,可以根据提示选择Quicktest,测试硬件设备,查看测试日志;①开启服务器并观察屏幕。注意:为了运行检测程序,必须使用所设置过的最高级别的密码启动。就是说,如果设置了管理员密码和开机加电密码,则用户要运行检测程序就必须输入管理员密码,而不是开机加电的密码。②当看到F2的检测程序信息出现时,按F2进入。③如果设置了密码,输入正确的密码然后按回车。④在屏幕最顶端的菜单中选择Extended或Basic来执行两种检测模式。⑤当检测程序菜单界面出现的时候,从中选择你想运行的检测项目,然后按照屏幕上的提示操作。a、用户可以在运行检测程序的时候按F1获得帮助信息,并且用户还可以在帮助窗口内按F1来获得在线的文档帮助,从中用户可以选择不同类别的信息。要从帮助信息中退出,按ESC。b、如果服务器在检测过程中停止并且用户不能继续执行检测程序,重新启动服务器并且尝试再次运行检测程序,如果检测这个设备依旧出现服务器停止的问题,更换这个部件。c、键盘和鼠标(点击设备)的检测假定有一个键盘和鼠标已经连接到服务器上。d、如果用户在没有连接键盘或鼠标的情况下运行检测程序,那么将无法使用NextCat和PrevCat按键来操作在不同类别的检测项目之间进行切换。所有其它的功能选项均提供鼠标可点击的按钮,并且也支持使用功能键。e、用户可以使用常规的键盘检测项目来检测USB的键盘,而常规的鼠标检测也可用来检测USB鼠标。当没有USB设备连接的时候,用户还可以使用USB接口的检测只检测端口。f、用户可以通过选择顶端的HardwareInfo选项来查看服务器的配置信息(如系统的配置、内存容量、中断请求(IRQ)的使用、直接内存存取(DMA)的使用及设备驱动等等)。如果检测程序没有检测出任何硬件错误,但是在系统正常运行过程中依旧出现问题,那么有可能是软件错误导致的。如果用户怀疑是软件问题,可以查看通过软件补丁生成的信息。查看检测日志:当检测完成后,用户可以用过选择屏幕顶端的Utility项目,然后选择ViewTestLog来查看检测日志。用户也可以将检测日志生成一个文件并保存到软盘或硬盘上。测试结果:我们常常关注的是Failed和Warning这两项。(4).F1forSetup,自检阶段根据提示F1forSetupEvent/Errorlog查看分析和清除系统错误日志,以及进入高级设置AdvancedSetup清除BMC日志;5、操作系统无法启动:系统无法启动,IBM服务器如果外加的阵列卡IBMServeRAID

1 / 8
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功