华为-IBM联合巡检指导书050831

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

IBM公司信息系统服务事业部Page1of36华为技术有限公司IBM平台2005年联合巡检操作指导书2005年8月31日IBM公司信息系统服务事业部Page2of36目录1.联合巡检工作内容及注意事项……………………………32.巡检详细操作步骤…………………………………………73.巡检紧急处理流程…………………………………………254.附录一:Patch及Microcode准备说明…………………325.华为公司IBM平台联合巡检报告表…………………………426.故障分析报告………………………………………………50IBM公司信息系统服务事业部Page3of36联合巡检工作内容及注意事项巡检主要工作内容和时间计划:华为公司各业务系统IBM平台联合巡检包括以下内容:一:主、备机操作系统备份(1小时/台)(可以在巡检前完成)建议IBM工程师提前到达现场进行系统备份。二:主、备机数据库备份及应用备份(华为工程师可以在巡检前提前完成)三:备机预防性维护服务检查(半小时/台)四:备机参数调整(1小时/台,调整完须重起)五:备机安装AIX系统补丁(1小时/台,安装完须重起)六:备机升级小型机硬件微码(1小时/台,安装完须重起)七:备机收集系统信息(半小时/台)八:确认备机正常后将业务从主机切换到备机(半小时/台)九:主机预防性维护服务检查(半小时/台)十:主机参数调整(1小时/台,调整完须重起)十一:主机安装AIX系统补丁(1小时/台,安装完须重起)十二:主机升级小型机硬件微码(1小时/台,安装完须重起)十三:主机收集系统信息(半小时/台)十四:主、备机操作系统二次备份(1小时/台)IBM公司信息系统服务事业部Page4of36不包括数据库备份、应用备份及系统备份,预计每台全部完成需要4.5小时/台,每套(两台)全部完成需8.5小时/套。巡检信息采集和返回(IBM工程师完成):为准确收集并返回巡检的信息,IBM工程师应特别注意如下事项:1.巡检收集的信息包括两个方面:一个是巡检时填写并由用户签字认可的联合巡检报告(联合巡检报告模板见附件),一个是巡检时得到的信息收集文件(snap命令执行结果的压缩文件)2.对于巡检报告,请工程师在执行完巡检后立即将相应的巡检报告传真至:FAX:0755-84485403,TEL:0755-84485135夏玲收。注意需将主机序列号填写清楚。3.IBM工程师将snap执行完的文件ftp到GZ的服务器上(IP地址为9.181.44.199),用户名为ptf,密码为ptf,主目录为/huawei/huaweipm2005/。请先建立省份的目录,如福建为fujian再将文件放入相应的目录中。另外,请将Snap命名为:产品线名机器型号snap.pax.Z。4.巡检前的补丁软件包请从服务器GZPTF(IP地址为9.181.44.199)上下载文件/huawei/huaweipm2005/ptf/IBM公司信息系统服务事业部Page5of36巡检各部分工作对业务影响情况如下:是否需要双机同时停机,终止业务实际业务中断时间操作系统备份及系统盘镜像不需要N/A预防性维护服务检查不需要可以单机运行业务业务切换时间X切换次数参数调整不需要可以单机运行业务业务切换时间X切换次数升级小型机硬件微码不需要可以单机运行业务业务切换时间X切换次数安装AIX系统补丁不需要可以单机运行业务业务切换时间X切换次数收集系统信息不需要N/A双方的准备工作及分工华为公司的准备工作:1.根据上表列出的业务中断时间向局方申请停机或业务切换。2.在IBM工程师进行系统备份时,需要提供同磁带机制式相配的磁带。3.提前进行主备机数据库、应用备份IBM工程师的准备工作:1.和华为公司联系人确定巡检的具体实施时间,了解场地情况。2.准备现场工作必备的工具。IBM公司信息系统服务事业部Page6of363.准备巡检所需的补丁光盘或补丁文件。(补丁光盘中应包括HACMP的补丁)4.用户现场每套小型机打印一份本文档。5.用户现场每套小型机打印一份联合巡检报告表《华为-IBM2005年度联合巡检报告XXX省XXX产品-机型-序列号(磁盘阵列型号序列号)》并根据实际情况填写空白的XXX部分。如《华为-IBM2005年度联合巡检报告广东省无线智能网-70266C4-XXXXXX(7133YYYYYY)》6.提前到达用户现场进行主备机系统备份。华为公司的现场工作:1.完成联合巡检八部分中的数据库备份部分,以及在巡检过程中进行业务切换,配合IBM工程师完成巡检,主机shutdown/reboot工作。2.进行应用系统的测试工作。IBM公司的现场工作:1.依照巡检操作手册进行巡检前的准备工作以及完成联合巡检八部分中的系统备份、预防性维护服务检查、硬件微码升级、系统参数修改、系统软件补丁包打包、二次系统备份以及snap抓取七个部分。2.完成巡检以上七个部分的操作后,对每一套小型机(主机IBM公司信息系统服务事业部Page7of36及备机)包括机柜内附属的磁盘阵列填写一张报告表《华为-IBM2005年度联合巡检报告XXX省XXX产品-机型-序列号(磁盘阵列型号序列号)》。由于各点系统配置不同,有些步骤不适用或不全部适用,未完成的步骤请在实测结果中标注原因。3.完成巡检后该报告表每一套小型机一式三份,需请华为工程师及局方负责人签字确认,局方、华为工程师及IBM工程师各执一份。4.如在巡检过程中发现问题,请终止巡检,并依照巡检意外情况处理流程进行诊断维修。IBM公司信息系统服务事业部Page8of36巡检操作步骤注:对按照指导书中命令执行后显示不符或发现有故障的请仔细填写故障分析报告请进行完每一步操作后,填写相应的巡检结果表。一、主、备机操作系统备份此步骤为HUAWEI和IBM共同完成.可根据情况提前完成.步骤一:操作系统备份1.在主备机的环境下,建议对主备机分别进行备份。2.将磁带插入磁带机3.#smittymksysb进行系统备份4.当COMMANDSTATUS页面中Command:OK出现后,表示备份成功。5.取出制作完毕的磁带.6.磁带上的标签上注明备份机器的名称和序列号二、主、备机数据库备份及应用备份华为工程师完成.此步可根据情况提前完成.三、备机预防性维护服务检查步骤一:机房环境的检查IBM公司信息系统服务事业部Page9of361)测量机柜内PDU插孔的零-地电压和火-地电压参考值零-地电压小于1V火-地电压200-240V2)测量机房温度及湿度参考值温度(摄氏℃)10℃-40℃湿度8%-80%步骤二:系统及外设指示灯检查1)检查小型机前后面板的指示灯,包括网卡等检查磁盘阵列,外设的指示灯步骤三:系统日志检查a)执行errpt–dH检查是否有硬件故障b)执行mail检查有否发给root用户的错误报告c)执行oslevel–r记录操作系统版本d)执行date察看系统时间,检测值应改为BEIJING或TAIST,时间和当前实际的时间一致e)执行lscfg–vlssaX记录SSA卡微码版本f)执行sysdumpdev–l检查dump是否设置为alwaysallowsysdumpg)执行sysdumpdev–e检查当前dump大小应该为主dump设IBM公司信息系统服务事业部Page10of36备的大小的80%以下h)执行lsvg-lrootvg检查有否stale状态的逻辑卷i)执行lsps-s检查内存交换区占用情况j)执行df–k检查文件系统的分配状况k)执行lsdev–Ccdisk检查硬盘状态为availablel)执行lsdev–Ccadapter检查PCI卡状态为availablem)执行lsdev–Cctape检查磁带机状态为availablen)执行lsdev–Ccprocessor检查CPU状态为available执行lsattr–Elsys0|grepautorestart检查系统crash后是否自动重新启动执行lsattr–Elsys0|grepcpuguard检查CPUGUARD是否开启o)执行lsattr–Elmem0检查内存状态正常size=goodsizep)执行vmstat2iostattopas观察us,sy,pi,po,内存占用率,硬盘读写速度等检查是否有性能瓶颈q)执行netstat–in和netstat–rn观察网络状态执行entstat–denX检测网卡运行速率与交换机速率是否匹配执行ping命令检查网络连接状况IBM公司信息系统服务事业部Page11of36执行lsdev–C|grepaio检查异步IO是否可用r)执行lssrc–gcluster查看是否有三个进程均为active状态s)执行/usr/sbin/cluster/clstat–a查看cluster状态是否正常t)检查/etc/hosts,确保双机配置中IP别名不会存在包含关系(share_ip1包含了share_ip)u)执行more/usr/es/adm/cluster.logmore/usr/es/sbin/cluster/history/*cat/tmp/hacmp.out检查这三个日志中是否有error或者fail.v)检查7133面板上的指示灯,如果黄灯亮则需要诊断问题w)HOTspare磁盘检测1、检查是否有raid保护#smittyssaraid---ListAllDefinedSSARAIDArrays2、检查是否有HotSpare#smittyssaraid---ListComponentsinaHotSparePoolx)对于7133,执行SmittyssaraidListAllDefinedSSARAIDArrays查看7133raid状态,正常应该为good状态。对于7133,执行SmittyssaraidChange/ShowUseofanSSAPhysicalDisk查看7133硬盘状态,正常应该为member或者spare状态y)对于FastT,分别登录上两个controller,查看是否有IBM公司信息系统服务事业部Page12of36错误日志。z)记录检查结果步骤四:硬件系统测试为了防止在测试时干扰主机的正常运行和防止某些部件测试失败时不能工作造成应用切换或机器宕机,执行测试时需要在测试机上停止双机和应用系统1)请华为工程师终止测试机的应用系统,数据库及双机软件2)在磁带机中插入DDS测试带,CD-ROM中插入测试光盘,执行diag3)选中AdvancedDiagnosticsRoutinesSystemVerificationAllResources4)F7执行检测并记录结果步骤五:HA心跳线连接检测注意HA心跳线的连接,确保连接在正确的串口上。参考值:不能够连接在S1和S2上IBM公司信息系统服务事业部Page13of36四、备机升级小型机硬件微码IBM工程师完成.根据巡检时所查到的platform微码级别分别对各机型进行微码升级。对于不同的机型要确保升级至以下版本或更高.此项操作须重起机器,需先升级完备机,切换业务正常后再升级主机.步骤一:小型机硬件微码的要求注:考虑到微码对于日后关键硬件的更换有一定影响,因此,对于微码版本过低的建议升级。微码版本(SystemFWlevels/SvPFWlevels)M80,6M1MM030829orhigherH80,6H1CM030829orhigherS7A20030117/20030120orhigherH70SST03115/ss020419orhigherSSAC4007133disk6911/6909orsimilarversion(differentwithdifferentdrivetype)P6303R041021orhigherP6503K041021orhigherP670,P6903H040602orhigher步骤二:小型机硬件微码的检测命令:S7A:#lscfg-vp|grep-palterableSystemFirmware:ROMLevel.(

1 / 36
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功