非常详细的IBM小型机故障定位方法IBM,小型机,故障定位一故障的定义.弄清楚系统发生了什么问题.系统现在能做什么?不能做什么?.故障什么时候发生的?.有没有做平时不同的操作?.故障有没有规律?定时还是不定时?发生的频率有多高?.是一台机器出现故障还是多台机器故障?故障现象是否相同?.最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设置。二故障信息的收集1)收集故障信息对于判断、诊断故障原因,修复系统非常重要。2)系统故障记录(errorlog)errdemon进程在系统启动时自动运行记录包括硬件、软件及其他操作信息故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析errpt命令的使用(普通用户权限也可使用)#errpt|more列出简短出错信息ERROR_IDTIMESTAMPTCRESOURCE_NAMEERROR_DESCRIPTION192AC0710723100300T0errdemonErrorloggingturnedoff0E017ED10720131000PHmem2Memoryfailure9DBCFDEE0701000000T0errdemonErrorloggingturnedon038F25800624131000UHscdisk0UNDETERMINEDERRORAA8AB2410405130900TOOPERATOROPERATORNOTIFICATIONTIMESTAMP:MMDDHHMMYY(月日时分年)论T(类型):P永久;T临时;U未知(永久性的错误应引起重视)C(分类):H硬件;S软件;O用户;U未知#errpt-dH列出所有硬件出错信息#errpt-dS列出所有软件出错信息#errpt-ajERROR_ID列出详细出错信息#errpt-aj0502f666---ERROR_ID用大小写均可例:LABEL:SCSI_ERR1ID:0502F666Date/Time:Jun1922:29:51SequenceNumber:95MachineID:123456789012NodeID:host1Class:HType:PERMResourceName:scsi0ResourceClass:adapterResourceType:hscsiLocation:00-08VPD:---VirtalProductDataDeviceDriverLevel.........00DiagnosticLevel............00DisplayableMessage.........SCSIECLevel....................C25928FRUNumber..................30F8834Manufacturer................IBM97FPartNumber.................59F4566SerialNumber...............00002849ROSLevelandID............24Read/WriteRegisterPtr.....0120DescriptionADAPTERERRORProbableCausesADAPTERHARDWARECABLECABLETERMINATORDEVICEFailureCausesADAPTERCABLELOOSEORDEFECTIVERecommendedActionsPERFORMPROBLEMDETERMINATIONPROCEDURESCHECKCABLEANDITSCONNECTIONSDetailDataSENSEDATA0000000000000000000000000000000000000000000000003)控制面板上的LED代码.8位代码,通常系统故障灯会同时亮起。某些机型还会同时显示故障设备位置代码。.4位代码,通常是Exxx。.3位代码,通常为0yyy,只看后3位。.8位和4位代码可查看系统服务手册(ServiceGuide)。3位代码可查看系统诊断手册(DiagnosticInformationforMultipleBusSystem)。.闪动的888,系统崩溃,硬件或软件原因造成。按reset键会显示更多内容。888-102一般为软件故障(888-102-207例外)系统会产生一个dump。888-102-xxx-0C9系统正在做dump,请等待。888-102-xxx-0C0系统dump完成,可关电重启。888-103或105硬件故障,一般有SRN代码及位置代码。4)SMS(SystemManagementService)故障记录如何进入SMS菜单当主控台出现键盘图标后(LED显示E1F1时)按1键。选择\Utilities\选择\ErrorLog\,抄下8位故障代码(在SMS中还可以更改系统启动顺序表)5)MAIL#mail系统会向root用户发mail报告出错信息。通常系统出现故障后没有进行检查修复,系统会定时提醒root。6)运行故障诊断程序(Diagnostic),对系统硬件进行检查和诊断。当发现有硬件故障时应立即使用diag#diag;选高级诊断(AdvanceDiagnostic);选问题诊断(ProblemDetermination)或选系统检查(SystemVerification)选PD会对系统错误记录进行分析)diag运行后会给出SRN代码,故障设备名称及百分比,地址代码等。对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析。7)其他用于收集系统信息的命令lsdev-C系统设备信息#lsdev-Ccdiskhdisk0Available00-06-00-2,04.5GB16BitSCSIDiskDrivehdisk1Available00-06-00-1,04.5GB16BitSCSIDiskDrivehdisk2Defined00-06-00-4,016BitSCSIDiskDrivelspv查看物理卷信息#lspvhdisk00007821160af3d76rootvghdisk1000782117f571294rootvghdisk20000000045c45bdedatavglsvg查看卷组信息#lsvgdatavgVOLUMEGROUP:datavgVGIDENTIFIER:0000000055e2458bVGSTATE:activePPSIZE:4megabyte(s)VGPERMISSION:read/writeTOTALPPs:2169(8676megabytMAXLVs:256FREEPPs:1(4megabytes)LVs:3USEDPPs:2168(8672megabytOPENLVs:2QUORUM:2TOTALPVs:1VGDESCRIPTORS:2STALEPVs:0STALEPPs:0ACTIVEPVs:1AUTOON:yesMAXPPsperPV:2032MAXPVs:16#lsvg-lrootvgrootvg:LVNAMETYPELPsPPsPVsLVSTATEMOUNTPOINThd5boot111closed/syncdN/A...lv00jfs511021closed/stale/ibmcxxlv01jfs111open/syncd/cics_regionslv02jfs441open/syncd/var/mqmlslpp查看文件组信息#lslpp-L|grep23100020....devices.pci.23100020.rte4.3.2.7CIBMPCI10/100EthernetAdapt看某个文件组是否已安装,如以太网卡驱动。也用于查询补丁程序的版本。lsattr查看设备参数设置#lsattr-Elent2busio0x7fffc00BusI/OaddressFalsebusintr9BusinterruptlevelFalseintr_priority3InterruptpriorityFalsetx_que_size512TRANSMITqueuesizeTruerx_que_size256RECEIVEqueuesizeTruerxbuf_pool_size384RECEIVEbufferpoolsizeTruemedia_speed10_Half_DuplexMediaSpeedTrueuse_alt_addrnoEnableALTERNATEETHERNETaddressTruealt_addr0x000000000000ALTERNATEETHERNETaddressTrueip_gap96Inter-PacketGapTruelscfg查看VPD信息(VirtualProductData)#lscfg-vlssa1DEVICELOCATIONDESCRIPTIONssa130-68IBMSSAEnhancedRAIDAdapter(14104500)PartNumber.................097H0645FRUNumber..................097H0645--备件号SerialNumber...............C8217227ECLevel....................0000F20825Manufacturer................IBM053ROSLevelandID............7201--微码版本LoadableMicrocodeLevel....04DeviceDriverLevel.........00DisplayableMessage.........SSA-ADAPTERDeviceSpecific.(Z0)........DRAM=032DeviceSpecific.(Z1)........CACHE=0DeviceSpecific.(Z2)........000000062955dab2DeviceSpecific.(YL)........P2-I7--槽号不同的硬件设备有不同的VPD,所含的格式和信息都不一样。通常备件号和微码版本最有参考价值。注:FRU(FieldReplaceUnit)才是真正的备件号。三硬件故障定位方法IBM小型机故障定位方法包括小型机I/O柜上的显示面板上的Checkpoints信息,ErrorCode和SRNs。Checkpoints检查点是系统加电CMOS初始化程序(initialprogramload(IPL))运行后显示在I/O柜的显示面板上一系列信息。IPL流程当交流电源接到系统后,IPL流程就开始了,IPL流程包括四个步骤:.Phase1:ServiceProcessor的初始化Phase1开始于交流电源接到系统后,直到OK显示在I/O柜上的显示面板上为止。在这个步骤会显示8xxx或9xxxcheckpoints代码Phase2:由ServiceProcessor引导的硬件初始化Phase2开始于按下I/O柜上的白色电源开关。在这个步骤会显示9xxxcheckpoints。91FF是最后的代码标志着第三步骤的开始.Phase3:系统固件的初始化在Phase3,一个系统处理器接管控制并继续初始化系统资源,在这个步骤会显示Exxx。E105是最后的代码标志着第四步骤AIX启动的开始。在这个过程中还会显示各种位置码(位置码代表着系统的每一个部分).Phase4:AIX启动当AIX开始启动时,显示面板上的代码为0xxx,同时位置码会出现在第二行。当AIX的登录窗口出现在控制台上时第四步骤结束同时显示面板上再无任何信息出现。ErrorCode当系统运行有错误发现时,一个8位码会显示在显示面板上,同时在第二行显示相对应问题硬件的位置码。SRNs(Servicerequestnumbers,服务请求码)当系统运行有错误发