日常管理与故障处理RS/6000RS/6000系统系统日常管理与日常管理与故障的处理故障的处理RS/6000Admin&PD日常管理与故障处理内容提要系统健康检查常用操作故障的处理IBM服务热线日常管理与故障处理系统健康检查日常管理与故障处理系统健康检查机房环境检查–电源线的母头是否为左零右火电压值是否为240V–零地电压是否小于1V–温度(摄氏℃)–10℃-40℃–湿度(%)–8%-80%查看硬件情况–检查设备故障灯,一般为橙色并有标志。–有没有异常声响,如硬盘、风扇等。–有没有破损的电缆等日常管理与故障处理系统健康检查检查文件系统–查看有没有“满”的文件系统。文件系统满可导致系统不能正常工作,尤其是AIX的基本文件系统。如/(根文件系统)满则会导致用户不能登录。#df-k(查看AIX的基本文件系统)Filesystem1024-blocksFree%UsedIused%IusedMountedon/dev/hd424576145295%259922%//dev/hd26144002806896%2296715%/usr/dev/hd9var8192454045%64932%/var/dev/hd31679361579686%891%/tmp/dev/hd116384533268%140235%/home日常管理与故障处理系统健康检查除/usr文件系统,其他文件系统都不应太满,一般不超过80%。处理方法1:找出(删除)垃圾文件#du-sk*|sort–rn|head查找出当前目录下占空间最大的子目录,逐层往下直到找出占空间最大的文件。(要区分哪些目录是文件系统的mountpoint,哪些是文件系统的子目录)删除文件,释放空间。有时删除文件后空间并不马上释放,这是由于你删除的文件正被某个程序打开。只有当这个程序停止后空间才释放,有时甚至需要重起系统。日常管理与故障处理系统健康检查处理方法2:增加文件系统大小–#smittychjfs–文件系统可以在任何时候加大,前提是卷组(VG)中有剩余空间。检查文件系统的完整性–#umountfilesystem_name–#fsckfilesystem_name–#fsck-yfilesystem_name注意:文件系统必须先umount,再做检查和修复,否则可导致未知的后果。日常管理与故障处理系统健康检查查看卷组信息–lsvg-lvg_name–有没有stale状态的逻辑卷。–用syncvg命令修复。#smittysyncvgLVNAMETYPELPsPPsPVsLVSTATEMOUNTPOINThd5boot122closed/syncdN/Ahd6paging48962open/syncdN/Apaging00paging32642open/syncdN/Ahd8jfslog122open/syncdN/Ahd4jfs122open/syncd/hd2jfs32642open/syncd/usrhd9varjfs5102open/syncd/varhd3jfs482open/syncd/tmphd1jfs122open/syncd/home日常管理与故障处理系统健康检查检查内存交换区(pagingspace)使用率–#lsps-s–使用率不要超过70%。–增加交换区,或增加内存。–观察内存大小的命令:lsattr–Elmem0#lsps-sTotalPagingSpacePercentUsed2048MB15%#lsps–aPageSpacePhysicalVolumeVolumeGroupSize%UsedActiveAutoTypehd6hdisk0rootvg2048MB15yesyeslv日常管理与故障处理系统健康检查网络检查–netstat-i查看网卡状态–Ierrs/Ipkts和Oerrs/Opkts是否1%–pinghost_name/IPAddress–查看是否通和是否有丢包。–路由表–#netstat-rn–查看路由表是否正确,ping各路由器是否通。–核对主机名–#hostname日常管理与故障处理系统健康检查#ifconfig-aen0:flags=4e080863UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT,PSEGinet172.40.10.31netmask0xffff0000broadcast172.40.255.255lo0:flags=e08084bUP,BROADCAST,LOOPBACK,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BITinet127.0.0.1netmask0xff000000broadcast127.255.255.255inet6::1/0#ifconfig用法–ifconfigen0inet11.0.0.1up–ifconfigen0ns110:02.60.8c.2c.a4.98up–(还有很多)日常管理与故障处理系统健康检查#lsattr–Elinet0authm65536AuthenticationMethodsTruehostnameqtsmsHostNameTruegatewayGatewayTrueroutenet,,0,172.40.10.1RouteTruebootup_optionnoSerialOpticalNetworkInterfaceTruerout6FDDINetworkInterfaceTrueroute属性是否有相应的路由信息。格式为:net,,0,172.16.23.81如果没有缺省路由,执行命令:#chdev–linet0–aroute=0,172.16.23.81其中172.16.23.81为网关如果缺省路由不正确,则先删除路由,再增加缺省路由:#chdev–linet0–adelroute=net,,0,133.16.23.81#chdev–linet0–aroute=0,172.16.23.81日常管理与故障处理系统健康检查检查dump设置#sysdumpdev–lprimary/dev/hd6secondary/dev/sysdumpnullcopydirectory/var/adm/rasforcedcopyflagTRUEalwaysallowdumpFALSEdumpcompressionOFF–若不正确请用下列命令修改:–#sysdumdev–P–p/dev/hd6–s/dev/sysdumpnull日常管理与故障处理系统健康检查系统故障记录(errorlog)–errdemon进程在系统启动时自动运行–记录包括硬件、软件及其他操作信息–故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析–errpt命令的使用(普通用户权限也可使用)日常管理与故障处理系统健康检查#errpt|more列出简短出错信息ERROR_IDTIMESTAMPTCRESOURCE_NAMEERROR_DESCRIPTION192AC0710723100300T0errdemonErrorloggingturnedoff0E017ED10720131000PHmem2Memoryfailure9DBCFDEE0701000000T0errdemonErrorloggingturnedon038F25800624131000UHscdisk0UNDETERMINEDERRORAA8AB2410405130900TOOPERATOROPERATORNOTIFICATIONTIMESTAMP:MMDDHHMMYY(月日时分年)T(类型):P永久;T临时;U未知(永久性的错误应引起重视)C(分类):H硬件;S软件;O用户;U未知#errpt-dH列出所有硬件出错信息#errpt-dS列出所有软件出错信息#errpt-ajERROR_ID列出详细出错信息日常管理与故障处理系统健康检查#errpt-aj0502f666---ERROR_ID用大小写均可LABEL:SCSI_ERR1ID:0502F666Date/Time:Jun1922:29:51SequenceNumber:95MachineID:123456789012NodeID:host1Class:HType:PERMResourceName:scsi0ResourceClass:adapterResourceType:hscsiLocation:00-08VPD:---VirtalProductDataDeviceDriverLevel.........00DiagnosticLevel............00DisplayableMessage.........SCSIECLevel....................C25928FRUNumber..................30F8834Manufacturer................IBM97FPartNumber.................59F4566SerialNumber...............00002849ROSLevelandID............24Read/WriteRegisterPtr.....0120日常管理与故障处理系统健康检查DescriptionADAPTERERRORProbableCausesADAPTERHARDWARECABLECABLETERMINATORDEVICEFailureCausesADAPTERCABLELOOSEORDEFECTIVERecommendedActionsPERFORMPROBLEMDETERMINATIONPROCEDURESCHECKCABLEANDITSCONNECTIONSDetailDataSENSEDATA000000000000000000000000000000000000000000000000日常管理与故障处理系统健康检查发给root的mail信息–#mail–#mail–f;查看已经存起来的邮件–#Ctrl+d;存盘退出,存在/var/spool/Mail目录下,每个用户一个文件–#mhmail;将邮件另存至/Mail/inbox目录下,每个邮件一个文件系统会定期将PD的结果以邮件形式发送给root,比errlog更详细准确。日常管理与故障处理系统健康检查磁带机–磁带机应定期清洁,每使用30小时(8mm20GB为72小时)或至少每月清洁一次,不要等故障灯亮起后再清洁。–不同类型的带机用要不同的清洗带,不要混用。–用/usr/lpp/diagnostics/bin/utape-c-drmt0-n可查看磁带机使用时数。–4mmDDS3磁带机可读写DDS2,但对DDS1只能读。–8mm20GB磁带机只能读5GB和7GB磁带,而且在读过低密度磁带后需要清洗,所以最好不要使用低密度磁带。需要清洗时液晶板上有提示信息。日常管理与故障处理系统健康检查磁盘阵列状态检查(ssadisk)–如果在errlog或mail中发现了ssa的报错,则进入smittyssaraid详细观察日常管理与故障处理系统健康检查ListingAllDefinedSSARAIDArraysCOMMANDSTATUSCommand:OKstdout:yesstderr:noBeforecommandcompletion,additionalinstructionsmayappearbelow.hdisk3095231779F0737Kgood3.4GRAID-5arrayhdisk409523173A02137Kgood3.4GRAID-5arrayF1=HelpF2=RefreshF3=CancelF6=CommandF8=ImageF9=ShellF10=Exit/=Findn=FindNext日常管理与故障处理系统健康检查Lis