IBM P系列小型机日常维护故障定位故障排除

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

默认分类2007-08-2920:49:20阅读92评论0字号:大中小订阅IBMP系列小型机日常维护/故障定位/故障排除第一章、机房环境及物理检查一、机房内环境要求1.温度与湿度:最佳工作温度:20-25摄氏度极限工作温度:10-40摄氏度湿度:8-80%(在23摄氏度条件下)如果不是工作在最佳温度,请注意改善机房环境2.同时机房要保证清洁.机房应保持清洁,若空气灰尘过多,很容易造成资源读写错误及磁盘机中磁盘或读写磁头毁损。二、电源要求电压:要求电压稳定,尖峰电压会损坏设备电压范围:220V+/-10%,即200-240V,50-60Hz电源功率:视机器类型和系统配置而定电源线:标准的零,地,火三相电,其中零,地电压不得超过3.0V.电源接驳:用符合电流要求的空气开关或其他设备和主机电源线接驳,保证计算机系统的可靠工作应使用稳压电源和UPS,并建议配备发电机组;对于冗于电源的接入,建议采用两路单独输入.三、硬件检查检查服务器、磁阵的安装、电源线、7133和主机接线符合要求。服务器状态检查:1.当服务器处于启动和正常工作状态时,其前面板上的液晶显示屏上应无信息显示。2.当液晶显示器上出现带数字和字母的信息时,说明有硬件告警。可以通过查询相关机型的ServiceGuide查到相应告警原因,情况严重的,则要立即通知IBM技术专家进行问题排查。7133状态检查:磁阵前面板上有7133机柜的状态灯(与电源灯并排)和各硬盘的状态灯(一排小灯,与各硬盘位置一一对应)。1.当机柜的状态灯出现橙黄色时,说明有硬件告警,此时要检查磁柜的电源、接线、硬盘等。如果有硬件故障则立即进行更换和更正,如果查不出具体问题,则需要联系相关专家进一步诊断。2.当硬盘工作正常时,与各硬盘对应的硬盘灯会呈绿色,如无读写,则绿灯一直亮,如该硬盘有读写操作,则绿灯会不规则闪烁,当硬盘损坏时或SSA环路出现问题时,则硬盘状态灯将熄灭,或者呈闪烁状态:以1~3秒的频率有规律地、不停地闪烁第二章、系统日常维护流程2.1系统启动系统启动正常顺序如下:首先对外设(磁盘阵列、磁带库等)加电。待所有外设加电自检完成后,主机加电正常起机。主机加电后,系统进行自检,在液晶显示屏显示”ok”后,才能按白色POWER键起机.启动主机HACMP,启动后可用命令tail-f/tmp/hacmp.out来检查启动情况,在HACMP未完全启动前不要进行下一步。检查服务器的网络地址,路由表(可用netstat-i,netstat-rn等),检查文件系统,逻辑卷(可用mount,lsvg-o等)。检查各项应用是否工作正常。2.2系统关闭停止HACMP(smittyclstop)。查看HACMP的状态,检查服务器的网络地址,路由表(可用netstat-i,netstat-rn等),检查文件系统,逻辑卷(可用mount,lsvg-o等)。在HACMP未完全停止前不要进行下一步。关闭主机(shutdown–F)。重启系统可以使用:shutdown-Fr如有必要的话,按磁盘阵列前方的白色按钮关闭磁盘阵列。2.3查看系统的错误记录在系统运行时,一些系统错误会记录在errlog中,其中有些错误还会在终端上显示。检查错误日志可用以下命令:#errpt|more查看系统所有的记录IDENTIFIERTIMESTAMPTCRESOURCE_NAMEDESCRIPTIONE85C5C4C0426104399PSCFGLFTSOFTWAREPROGRAMERROR2BFA76F60426104099TSSYSPROCSYSTEMSHUTDOWNBYUSER9D4CF6E70426104399TOerrdemonERRORLOGGINGTURNEDON1E2AC07E0426103999TOerrdemonERRORLOGGINGTURNEDOFF1E5EER4T0423132999TOclstrmgrOPERATORNOTIFICATION其中IDENTIFIER为错误编号,当需要检查详细信息时常会用到。TIMESTAMP为时间标签,它记录的是出错时间,其格式:月月日日时时分分年年T为Type,它记录的是错误类型P:为永久错误,需引起注意T:为临时错误。C为Class,它记录的是错误种类,如H:HardwareS:SoftwareO:ErrlogercommandmessagesU:undeterminedRESOURCE_NAME为错误来源DESCRIPTION为错误描述#errpt-ajIDENTIFIER查看系统详细记录内容其中IDENTIFIER为错误编号,如#errpt-aj0426104399#errpt-dH查看系统所有的硬件出错记录2.4系统与数据备份有效及时的系统备份是系统管理的非常重要的一环。当系统出现故障时,特别是文件系统被严重损坏或硬盘损坏时,常需要使用系统备份来恢复系统。在以下情况下应做系统备份:1、新装机。在硬件及系统软件安装完成后,应做系统备份。2、软件改动。系统软件或应用软件有改动时,应做系统备份。3、定期备份。对系统进行定期备份,最好每两或三个月做一次备份备份注意事项:进行系统备份无须停止业务,业务可以继续进行。建议客户进行定期的系统备份(使用命令smittymksysb)。客户也可根据需要利用SMIT对系统的特定的VG或FS进行备份。smittymksysb只备份rootvg中mount起来的文件系统,其它文件系统或数据并没有做备份,所以数据备份需要另外完成(建议客户使用TAR格式)在条件允许的情况下,最好有一盘以上备份带,以防止磁带损坏。系统备份过程中有时候会提示有些/tmp目录下的文件无法备份,显示如下:Creatinglistoffilestobackup...Backingup34025files..............................1694of34025files(4%)..............................2733of34025files(8%).........backup:0511-449Anerroroccurredaccessing./tmp/sh34736.1:Afileordirectoryinthepathnamedoesnotexist.backup:0511-449Anerroroccurredaccessing./tmp/sh34736.2:Afileordirectoryinthepathnamedoesnotexist.backup:0511-449Anerroroccurredaccessing./tmp/sh34736.3:Afileordirectoryinthepathnamedoesnotexist......................15458of34025files(45%)..............................31920of34025files(93%)...........0512-003mksysbmaynothavebeenabletoarchivesomefiles.ThemessagesdisplayedontheStandardErrorcontainedadditionalinformation.这是正常现象,备份成功。2.5系统恢复当系统发生比较严重的故障以致采取一般性维护手段不能在短期内恢复原系统,在与客户进行蹉商后,可将最近一次的系统备份带倒回机器内以全面恢复系统到最近一次做备份时的系统环境,然后可将当日的数据备份再倒回系统内。至此,系统可恢复正常运行。此后,客户应当与IBM工程师再进行整个事件的全面分析与回顾,以期找到故障发生的原因,并采取相应措施以杜绝类似事件再次发生。2.6DUMP当系统运行出现软件故障导致系统down机时,机器的液晶显示器会出现888102xxx0c0(xxx可能为700或其它),AIX常会将当时系统的运行情况记录下来,这就是DUMP。当DUMP产生后,请将磁带放入磁带机,用命令#snap-a-o/dev/rmt0将DUMP文件拷贝到磁带设备/dev/rmt0中。注明磁带机的blocksize,DUMP产生的日期和机器的型号及序列号。同时,请用#errpt-a/tmp/err.log将errorlog记在/tmp/err.log中,并将/tmp/err.log和/tmp/hacmp.*拷贝到软盘或磁带上。将磁带和软盘交给IBM工程师。2.7日常检查服务器状态的项目及其相关命令1运行lsdev命令配以各种参数,所列各种设备状态都应为Available。#lsdev–C–H–Sa列出系统中可用设备。#lsdev–Ccprocessor列出系统中的所有CPU。#lsdev–Ccmemory列出系统中的所有内存。#lsdev–Ccdisk列出系统中的所有硬盘。#lsdev-Ccadapter|grepent列出系统中的所有网卡#lsdev-Ccadapter|grepscsi列出系统中的所有SCSI卡。#lsdev-Ccadapter|grepssa列出系统中的所有SSA卡。2lspv命令#lspv显示系统中可用的PV。#lspvhdiskn显示hdiskn的具体信息。#lsdev–Ccpdisk显示磁盘阵列的硬盘的具体信息。对SSA硬盘的检测:在对主机进行工作之前可以先把磁盘阵列上电,等主机完全启动后,登录到主机上,运行以下命令“lsdev–Ccpdisk“,应该可以看到所有SSA硬盘,并且状态应为Available.。3lsattr命令#lsattr–E–lmem0列出系统中内存mem0的大小,本项目中内存有4GB。4lsvg命令#lsvg列出系统中所有的vg。#lsvgrootvg列出rootvg的详细信息。#lsvg–o列出激活的vg5oslevel命令#oslevel显示操作系统版本信息。6netstat命令#netstat–in显示系统中各网卡的配置。可查看网卡的IP配置好了没有。7通过运行#diag命令运行硬件诊断程序检测主机内所有硬件,检测结果为“Notroublefound”显示各部分工作正常。8使用#diag命令(选择:TaskSelection-SSAServiceAids)对SSA硬盘链路连接的校验,可以通过SSA工具里的LinkVerification来检测。如有必要,可以用CertifyDisk运行硬盘诊断部分进行硬盘的表面分析测试,由1%至100%,检测结果显示主机内置硬盘的所有扇区均读写正常。9lsps–a查看PAGINGSPACE的使用情况,如果使用率超过70%,就需要采取措施。10lsvg–o|lsvg–il|grep–istale查看有无stale的lv,如果输入该命令之后有输出结果,就需要采取措施11有否发给root用户的错误报告(mail)。12检查双机状态:lssrc–gcluster检查ha三个工作进程是否激活,/usr/sbin/cluster/clstat–a检查双机状态是否up,并检查hacmp.out日志,看是否有异常信息。13用vmstat,topas,sar命令检查系统性能,检查cpu\memoyr\IO,是否存在性能瓶颈。14检查能否顺利进入CDE界面,如果不能进入的话,要检查/etc/hosts表中有否错误的项目。15用smittyssaraid查看磁盘阵列RAID盘的状态是否是Good。如果是degrade或其他状态表示RAID盘出现问题了16用sysdumpdev–l查看系统的DUMP设置是否正常。17用instfix–ik|grepML当前操作系统补丁版本补丁程序(PTF)是否满足稳定运行的需要。一般要求433操作系统补丁要打到10以上,5.1操作系统补丁要打到5以上18使用df–kP查看磁盘空间占用率,请确保以下文件系统的占用率高于80%立即上报://var/usr/home/tmp/zxindata/zxinbak,其余文件系统的占用率

1 / 19
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功