运维巡检报告及操作手册(AIX)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

巡检报告单机器型号:序列号:检查时间:_______年____月____日1.机房环境:温度□符合要求□不符合湿度□符合要求□不符合2.机器清洁(根据需要清洁机器各部件):□已清洁□不需要3.检查系统硬件情况:设备故障灯是否有亮□有□无是否有其他否异常情况(如硬盘、风扇异常的声音,电缆破损)□有□无4.系统错误报告(ErrorLog):有否硬件故障□有□无故障内容:若有硬件,运行故障诊断分析错误报告(eg:diag-edhdisk1)结论(如SRN,FRU等):有否软件故障□有□无故障内容:结论:5.有否发给root用户的错误报告(mail):□有□无结论:6.检查hacmp.out,smit.log,bootlog等:□正常□不正常7.文件系统的使用率不大于80%:□是□否8.查看卷组信息(lsvg-lvg_name),有没有stale状态的逻辑卷:□是□否若有,用syncvg命令修复stale逻辑卷。备注:9.系统性能,有否性能瓶颈(topas,vmstat等):□有□无交换区使用率是否超过70%(lsps-s),实际值____CPU是否繁忙(sar110),idle值_____I/O平衡(iostat1)10.备份:有否合符要求的系统备份:□有□无最近一次系统备份的时间_________有否符合要求的用户数据备份:□有□无有否符合要求的用户数据备份:□有□无磁带机是否需要清洗:□需要□不需11.通信:网卡的状态、IP地址、路由表等:□正常□不正常网卡通信(ping):□正常□不正常/etc/hosts文件或DNS设置:□正常□不正常12.系统DUMP设置是否正确:□正常□不正常13.HACMP测试:ClusterVerification:□正常□不正常;相关参数设置检查:□正常□不正常(根据需要)接管测试:□正常□不正常14.系统硬件诊断:系统板、CPU、内存、I/O板:□正常□不正常网卡、SCSI卡、SSA卡:□正常□不正常系统其他扩展卡:□正常□不正常硬盘、磁盘阵列:□正常□不正常磁带机、磁带库:□正常□不正常15.查系统参数是否正确:□是□否I/Opacing:HighWaterMark/LowWaterMark:33/24Syncd:10Aio:available/etc/environment文件中TZ不应有夏时制Hacmp系统中PowerMonitor子系统应关闭16.补丁程序(PTF)检查,现有补丁维护版本为_____:根据系统运行状况决定是否安装新的PTF。需要安装的补丁程序:17.运行#snap–ac,生成文件命名为snap+s/n.pax.Z。18.检查errdemon,srcmstr是否正常运行:□是□否巡检内容及操作指导1.IBMRS6000小型机机房要求:1.机房的卫生状况,要求清洁,键盘、显示器、机柜上没有灰尘。2.温度(摄氏℃)10℃-40℃湿度(%)8%-80%2.设备故障灯分类:主机故障灯面板上不能有数字显示,如果有的话,说明系统有故障。FAStT700磁盘阵列故障灯告警灯为黄色表示有故障磁带机故障灯告警灯为黄色说明有故障或磁带机太脏,须清洗。3.系统错误报告(ErrorLog)的检查:硬件故障检测命令:#errpt-dH-TPERM若有故障执行命令#errpt-a-dH-TPERM/tmp/harderror.log保存,分析结果报告给客户软件故障检测命令:#errpt-dS-TPERM若有故障执行命令#errpt-a-dS-TPERM/tmp/softerror.log保存,分析结果报告给客户4.有否发给root用户的错误报告(mail):#mail1.观察所有未读消息,注意有关diagela的消息。2.常用命令:h[num]Displayheadingsofgroupcontainingmessagenumt[msg_list]Displaymessagesinmsg_listorcurrentmessage.nDisplaynextmessage.qQuit3.对发现的问题详细分析,结果报告给客户5.文件系统的检查:命令:#df–kP%Used为文件系统的使用率。所有文件系统的使用率不能大于80%6.磁带机清洁的检查:命令:#/usr/lpp/diagnostics/bin/utape-cdrmt0–n显示结果为磁带机使用的小时数,若大于72小时,则不论磁带机黄灯是否亮都应用清洁带清洗。6.通信系统的检测:1.网卡的状态命令:#ifconfig–a输出判断:en0:flags=7e080863UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT,CHECKSUM_OFFLOAD,CHECKSUM_SUPPORT,PSEGinet192.168.1.3netmask0xffffff00broadcast192.168.1.255主备网卡的flag为UP属正常。同时检查ip地址和netmask是否正确。2.路由的检测命令:#lsattr–Elinet0hostnameshaixsvrHostNameTruegatewayGatewayTruerouteRouteTruebootup_optionnoSerialOpticalNetworkInterfaceTruerout6FDDINetworkInterfaceTrueauthm65536AuthenticationMethodsTrue3.网络的检测命令:#ping[ipaddress]输出判断:用ping命令对/etc/hosts文件中的IP地址进行操作,检测网络是否联通。RAID的Hotspare属性是否打开#smittyssaraidChange/ShowAttributesofanSSARAIDArray检查EnableUseofHotSpares属性是否为YES8.系统DUMP设置的检查命令:#sysdumdev–l输出判断:结果应为primary/dev/hd6secondary/dev/sysdumpnullcopydirectory/var/adm/rasforcedcopyflagTRUEalwaysallowdumpFALSEdumpcompressionOFF若不正确请用下列命令修改:#sysdumdev–P–p/dev/hd6–s/dev/sysdumpnull9.HACMP配置检测:ClusterVerification:命令:#/usr/sbin/cluster/diag/clconfig-v'-tr'输出判断:结果无Fail项输出。10.系统硬件诊断:命令顺序为:1.#diag2.Enter3.DiagnosticRoutines4.SystemVerification5.AllResources6.F7输出判断:结果应为Notroublewasfound.11.补丁程序(PTF)的检查1.系统维护补丁版本为ML05,检查命令为:#instfix–i|grepML12.系统参数的检查1.HIGHwatermarkforpendingwriteI/Os#lsattr-Elsys0|grepmaxpout输出判断:结果应为maxpout33HIGHwatermarkforpendingwriteI/OsperfileTrue2.LOWwatermarkforpendingwriteI/Os#lsattr-Elsys0|grepminpout输出判断:结果应为minpout24LOWwatermarkforpendingwriteI/OsperfileTrue更改命令为:#chdev-lsys0-amaxpout='33'-aminpout='24'3.Syncd参数#grepsyncd/sbin/rc.boot输出判断:结果应为nohup/usr/sbin/syncd10/dev/null2&1&更改命令为:#vi/sbin/rc.boot4.aio参数#lsdev-Ccaio输出判断:结果应为aio0AvailableAsynchronousI/O#lsattr-Elaio0输出判断:结果应为minservers1MINIMUMnumberofserversTruemaxservers10MAXIMUMnumberofserversTruemaxreqs4096MaximumnumberofREQUESTSTruekprocprio39ServerPRIORITYTrueautoconfigavailableSTATEtobeconfiguredatsystemrestartTruefastpathenableStateoffastpathTrue更改命令为:#smittyaio5.Limits文件的设置:#ulimit–a输出判断:结果应为time(seconds)unlimitedfile(blocks)2097151data(kbytes)262144//尤其是这项参数stack(kbytes)32768memory(kbytes)32768coredump(blocks)2097151nofiles(descriptors)2000更改命令为:#vi/etc/security/limits更改data为524288巡检内容及操作指导1.IBMRS6000小型机机房要求:1.机房的卫生状况,要求清洁,键盘、显示器、机柜上没有灰尘。2.温度(摄氏℃)10℃-40℃湿度(%)8%-80%2.设备故障灯分类:主机故障灯面板上不能有数字显示,如果有的话,说明系统有故障。FAStT700磁盘阵列故障灯告警灯为黄色表示有故障磁带机故障灯告警灯为黄色说明有故障或磁带机太脏,须清洗。3.系统错误报告(ErrorLog)的检查:硬件故障检测命令:#errpt-dH-TPERM若有故障执行命令#errpt-a-dH-TPERM/tmp/harderror.log保存,分析结果报告给客户软件故障检测命令:#errpt-dS-TPERM若有故障执行命令#errpt-a-dS-TPERM/tmp/softerror.log保存,分析结果报告给客户4.有否发给root用户的错误报告(mail):#mail1.观察所有未读消息,注意有关diagela的消息。2.常用命令:h[num]Displayheadingsofgroupcontainingmessagenumt[msg_list]Displaymessagesinmsg_listorcurrentmessage.nDisplaynextmessage.qQuit3.对发现的问题详细分析,结果报告给客户5.文件系统的检查:命令:#df–kP%Used为文件系统的使用率。所有文件系统的使用率不能大于80%6.磁带机清洁的检查:命令:#/usr/lpp/diagnostics/bin/utape-cdrmt0–n显示结果为磁带机使用的小时数,若大于72小时,则不论磁带机黄灯是否亮都应用清洁带清洗。6.通信系统的检测:1.网卡的状态命令:#ifconfig–a输出判断:en0:flags=7e080863UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT,CHECKSUM_OFFLOAD,CHECKSUM_SUPPORT,PSEGinet192.168.1.3netmask0xffffff00broadcast192.168.1.255主备网卡的flag为UP属正常。同时检查ip地址和netmask是否正确。2.路由的检测命令:#lsattr–Elinet0hostnameshaixsvrHostNameTruegatewayGatewayTruerouteRouteTruebootup_optionnoSerialOpticalNetworkInterfa

1 / 22
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功