F5LTM故障检测及信息收集这篇文章是介绍硬件故障的处理和报错信息的收集,用于向F5SUPPORT提出RMA或DOA申请(软件以及系统设置方面的故障这里没有包括),综合现场工程师和我所经手处理过的故障现象,总结了F5提供的解决方案和现场处理方法,以及RMA处理的一些经验。主要分以下三个方面:常见故障现象故障处理和报错信息的收集注意事项一、主要故障现象分为两个部分:V4.5系统和V9系统。V4.5系统对应的机型为F51000、2400、5100系列。V9系统对应的机型为F51500、3400、6400、6800系列1、V4.5系统常见的故障现象电源故障风扇故障CF存储卡故障光纤端口故障系统启动故障2、V9系统常见故障电源故障风扇故障CPU温度过高的故障系统启动故障机器内部的板卡故障二、故障处理和报错信息的收集1、对于V4.5的系统由于没有专项的检测程序,所以我们要收集以下主要内容:QKVIEW的运行结果(机器能够启动进入OS)LOG文件(机器能够启动进入OS)观察机器故障时的前面板状态灯的情况、风扇工作情况、电源和电源风扇的工作情况;CONSOLE口的输出内容;有条件的话,对故障机器拍照(针对一些特殊的故障现象)。2、对于V9系统由于有硬件检测程序,我们主要收集以下内容:硬件检测程序EUD的运行结果(机器能够启动或使用外置USB光驱运行);CONSOLE口的输出内容观察机器故障时的前面板状态灯的情况、风扇工作情况、电源和电源风扇的工作情况以及前面板液晶屏幕的显示内容;有条件的话,对故障机器拍照(针对一些特殊的故障现象);启动进入系统后,运行一些命令的结果。3、下面介绍一些针对不同故障的信息收集和一些常见故障的解决方法。(1)电源故障现象:开机无反应、风扇不工作、CONSOLE口无输出等。这种故障比较明显,只需观察机器故障时的前面板状态灯、风扇工作情况、电源和电源风扇的工作情况以及前面板液晶屏幕的显示内容并记录下来即可。(2)风扇故障现象:系统报警,提示风扇错误,这种故障情况要观察风扇是否工作,因V4.5的系统出现过风扇误报警的情况,针对这个情况工程师包宏宇已经提出了解决方法,具体现场操作时要分清情况区别处理。如风扇确实不工作或转速过低可运行/usr/local/bin/system_check–d命令并将运行结果保存起来,还要保存系统LOG文件以便用于RMA操作。(3)CF卡有坏块(针对V4.5的系统)现象:系统提示文件系统故障。系统启动过程中,出现如下信息,可确认CF卡有错误。..numdirsiszero,tryusinganalternatesuperblockAutomaticfilesystemcheckfailed!Initiatingautomaticfsck-y.**/dev/rwd0gnumdirsi/var:filesystemnotclean,cannotmountread/writeszero,tryusinganalternates/var:filesystemnotclean,cannotmountread/writeuperblock*****FILESYSTEMSTILLDIRTY*****/dev/wd0gon/var:filesystemnotclean,cannotmountread/write/dev/wd0gon/var:filesystemnotclean,cannotmountread/write对于这种故障,F5SUPPORT要求在单用户模式下运行diskdefect命令来修复,具体命令如下:#/sbin/diskdefect-a-swcvwd0,执行后还要运行CompactFlashRepairUtility命令进行检测,命令为:#/sbin/hwtest/cfrepairwd0执行结果的最后三行如下:这说明还有2016个坏扇区**Sectorsscanned:1000755**Badsectorsfound:2016**Badsectorsfixed:0需要将所作的过程和结果保存下来用于做RMA操作。(4)光纤接口损坏现象:光纤连接中断,无数据流量,端口状态灯不亮。多出现于2400机型对于这种故障的确认缺乏有效的检测命令,要申报F5的RMA需要收集qkview的运行结果,里面有各个网络接口的连接状态,现场有条件的话拍摄故障机器照片。其他网络接口故障的信息收集也与此相同。下面是我在维修操作间拍摄的一组照片,用于表明光纤接口2.1故障(5)系统启动故障现象:系统启动过程中止,console口输出信息如下:Systemisbooting,pleasewait...Hitanykeytostopautoboot:0kernel.core_uses_pid=0kernel.core_pattern=/var/core/%e.sccp.coreHostConsoleShell---PressESC(forcommandmenu.对于这种故障可以进行的操作是通过网络重新安装系统,V9的系统还可以使用外置USB接口的CD-ROM/DVD来重新安装系统。如果无法重装系统则需申请F5公司的RMA操作。注:以上介绍的故障都是V4.5的系列为主,V9系列机型的故障检测相对容易,因为V9操作系统有了专用的硬件检测程序EndUserDiagnostics(EUD),所以故障的检测均以运行EUD为主。(6)CPU温度过高造成系统挂起。现象:系统启动后报警,Cpu1:temperature(99)istoohigh.然后系统挂起。这个故障多见于6400系列,在其他机型也偶有出现。进入系统后要运行两个命令来确认故障点:#system_check–d#bplatform运行结果示例如下root@bigip:Active]config#system_check-dCpu1:temperature26,fan_speed6750Cpu2:temperature99,fan_speed6750Chassisfan101:status1-(good)Chassisfan102:status1-(good)Chassisfan103:status1-(good)Chassisfan104:status1-(good)Chassisfan105:status1-(good)Chassisfan106:status1-(good)Chassispowersupply101:status1-(good)Chassispowersupply102:status2-(notpresent)Chassistemperature101:temperature35Chassistemperature102:temperature28[root@bigip:Active]config#bplatformPLATFORMINFORMATION--|TypeD63a|Chassis:serialbip218733s|200Levelpartnumber:200-0215-03REVB|Switchboard:serialPCA0101MP8F9partPCA-0101-01REVA|Hostboard:serialTY6FB35A0063partMOB-0018-03REVA|Annunciatorboard:serial91022566partOEM-0029-05REVA|baseMAC:00:01:D7:5E:5E:C0+-CPU1temp26degCfanspeed6750rpm+-CPU2temp99degCfanspeed6750rpm||CHASSISTEMPERATURE|(101)35degC(102)27degC||CHASSISFAN|(101)active(102)active(103)active(104)active(105)active|(106)active||POWERSUPPLY|(101)active(102)missing通过察看输出结果,可以看到这两个命令可以有效检测CPU温度和散热风扇的转速,机箱内部温度和风扇的状态以及电源工作情况。三、注意事项:1、EUD的版本尽量使用最新的。因为旧版本的EUD对于F5公司新出的机器支持的不好,旧版本的EUD在检测第8项的时候会报错,例如9.1.2系统的EUD,而新版本则不会。下面为EUD的检测菜单:01-HardwareReport02-RuntheswitchboardCPLDtests03-VerifyswitchboardI2Cdevices04-VerifyPCIdevices05-RuntheSystemRamtest06-RuntheLCDfunctionalitytest07-InternalPacketPathtest08-RuntheDiskDrivetest09-RunthePVAxmemorytests10-RuntheSSLtest11-RuntheFIPStest12-RuntheCompressiontest13-S.M.A.R.Ttest14-Runfsckonalldrivepartitions15-RunalloftheaboveapplicableNonUserInteractivetests16-Runalloftheaboveapplicabletests17-DisplayTestReportLog18-ExitEUDTestandRebootSystem2、6400及以上机型的电源为可更换模块,对于此类机型申请电源故障的RMA请求,F5公司只更换电源模块。附件:V4.5系统如何进入单用户重新启动系统1.CMOS检测之后,当显示BSDbootsequence4-3-2-1时按任意键,停止启动.2.在boot:提示符,输入命令:bsd3.当看到下面的提示符:rootdevice?输入:wd0aNote:IfyouarerunningonhardwaremanufacturedbyDell,youmustentersd0a,insteadofwd0a.4.提示要使用的shell时,输入如下命令:/bin/bash或按Enter键使用bourneshell.