故障演练方案1硬件故障1.1硬件故障1.1.1主机硬盘现两台小型机本机的硬盘,都做了逻辑卷组镜像,可以通过以下步骤来完成硬盘更换工作第一步:查看相关信息:物理卷:lspv;逻辑卷组:lsvg;硬盘状态:lsdev-Ccdisk;第二步:停止HACMP:smittyclsstop第三步:取消镜像:unmirrorvgrootvghdisk0第四步:将磁盘从rootvg中去除(以hdisk0为例):reducevgrootvghdisk0第五步:在hdisk1上创建启动镜像bootimage:bosboot-adhdisk1,cd0第六步:改变启动设备的顺序:bootlist-mnormalhdisk1第七步:删除hdisk0:rmdev-lhdisk0-d第八步:关机并拔出损坏硬盘:shutdown-F第九步:开机,将发现的hdisk0加入rootvg:extendvgrootvghdisk0第十步:创建创建启动镜像bootimage:bosboot-adhdisk0第十一步:改变启动设备的顺序:bootlist-mnormalhdisk0,hdisk1,cd0第十二步:重新启动机器:shutdown-Fr第十三步:启动HACMP:smittyclstart检验:查看启动顺序:bootlist-mnormal-o查看HA、RAC是否正常:smittyhacmp.crs_stat-t1.1.2存储硬盘目前存储硬盘都做的RAID5的冗余,在巡检过程中入发现有故障及时更换就可以了。1.1.3存储电池机器故障现象通过StorageManager8进入到系统里面,“Recoverfromfailures(小听诊器)”在闪动,点开后,发现里面报A、B控制器电池错误,即有效期已到,一般是3年。更换步骤备份数据,里面有两个逻辑盘,分别放在A控制器和B控制器。先在B控制器里操作(带电热插拔控制器):、1.在SM里面,用鼠标右键点Arr22(逻辑盘2)changeCacheSettings,把Enablereadcaching、Enablewritecaching、Enablewritecachingwithoutbatteries前面小方框的的“勾号”去掉,点OK,即把Cache关了;2.然后在右边栏目里,Back一栏里,用鼠标有键点控制器B,选Placeoffline,即把控制器B关掉;3.取下来B控制器,更换电池,把控制器B再插入原来位置;4.然后在右边栏目里,Back一栏里,用鼠标有键点控制器B,选Placeonline,即把控制器B打开;5用鼠标右键点Arr22(逻辑盘2)changeCacheSettings,把Enablereadcaching、Enablewritecaching、Enablewritecachingwithoutbatteries前面小方框的的“勾号”加上,点OK,即把Cache打开;6在SM里看到两个逻辑盘现在都在A控制器里面,正常切换;7.B控制器电池更换完毕。1.1.4电源损坏第一步:关闭小机:shutdown-F第二步:更换电源,重新启动:shutdown-Fr1.1.5其他比如光纤模块损坏,光纤线路断开,网卡损坏等及时进行更换就可以了。1.2软件故障1.2.1系统文件系统损坏进行逻辑卷的修复:fsck-y/file1.2.2oracle数据库问题一.表空间使用率超过极限1.查看表空间对应的数据文件selecta.name,b.namefromv$tablespacea,v$datafilebwherea.ts#=b.ts#;2.查看对应数据文件逻辑卷PP个数及其一个PP大小lsvg-loracle_vglsvgoracle_vg3.根据对应数据文件创建裸设备逻辑卷mklv-traw-y数据文件名-ae-ex-oyoracle_vgPPS;或用smitty菜单中的HACMP中的并发卷来建立。4.根据此表空间数据文件权限给新建LV在两个节点赋予LV权限chown-R***:***数据文件名5.对应表空间上增加数据文件altertablespacebtas_staadddatafile'/dev/r数据文件名'size****m;二.数据丢失1.丢失controlfile;步骤:1.startupnomount;2.restorecontrolfile;3.alterdatabasemount;4.restoredatabase;5.recoverdatabase;6.alterdatabaseopenresetlogs;2.丢失datafile步骤:1.startupmount;2.restoredatefile‘num’;3.recoverdatafile‘num’;4.alterdatabaseopen;(这里的‘num’是通过dba_data_files查询得出)3.丢失redo步骤:1.sqlstartup2.sqlrecoverdatabaseuntilcancel;3.sqlalterdatabaseopenresetlogs;4,表空间损坏(这时数据库可以启动)比如:citsm_zone坏了步骤:1.sqlaltertablespacecitsm_zoneoffline;2.sqlrestoretablespacecitsm_zone;3.sqlrecovertablespacecitsm_zone;4.sqlaltertablespacecitsm_zoneonline;1.3网络故障