磁盘阵列故障紧急预案大唐电信科技股份有限公司©DATANG2006.大唐电信科技股份有限公司版权所有,保留一切权利。未经大唐电信科技股份有限公司书面许可,不得以任何形式或手段使用或复制本说明书的任一部分。本说明书内容若有变动,恕不另行通知。2006年8月16日2006年第一版发布时间:2006年8月i目录第一章综述.........................................................1第二章OMC磁盘阵列紧急预案..........................................22.1紧急预案的实施说明...............................................22.2OMC数据备份.....................................................22.3盘阵损坏后的操作................................................32.3.1临时回复操作................................................32.3.2盘阵修复后的操作............................................42.4OMC数据说明.....................................................6第三章HLR磁盘阵列紧急预案..........................................83.1紧急预案的实施说明...............................................83.2HLR数据备份.....................................................83.2.1现网版本备份................................................83.2.2多局组网版本备份...........................................103.3磁盘阵列故障紧急预案............................................123.3.1磁盘阵列软件故障时恢复数据库...............................123.3.2磁盘阵列硬件故障时恢复数据库...............................123.3.3磁盘阵列恢复后程序启动.....................................133.3.4用户数据的恢复.............................................133.4紧急预案的补充说明..............................................143.4.1公单数据恢复...............................................143.4.2系统故障恢复方案...........................................14ii第四章NETPLUS磁盘阵列紧急预案.....................................154.1紧急预案的实施说明..............................................154.2NETPLUS数据备份.................................................154.2.1备份数据库的所有数据文件...................................164.2.2备份数据库表...............................................154.3NETPLUS系统数据恢复.............................................184.3.1磁盘阵列出现故障现象.......................................184.3.2系统数据恢复...............................................18综述1第一章综述磁盘阵列是OMC系统、HLR系统和Netplus系统的一个组成部分,也是系统运行中比较容易出现故障的一个物理媒介,为了保证在磁盘阵列出现故障的时候,能够进行紧急恢复,特编写本手册,供工程维护人员参考。本手册分三个主要部分,分别描述了OMC、HLR和Netplus系统正常运行时的备份工作,以及磁盘阵列出现故障时的紧急处理方法。OMC磁盘阵列紧急预案2第二章OMC磁盘阵列紧急预案2.1紧急预案的实施说明OMC盘阵损坏是比较常见的故障,为防止因盘阵损坏而导致OMC系统业务中断的可能,需对OMC先做备份操作,并在系统出现故障后,实施临时回复操作和盘阵修复后的操作,以恢复OMC系统的业务。注意:有些地区的双机软件为RoseHA,则需注意,其/back、/user两个文件并不是盘阵的挂载点,盘阵只挂载了一个分区在/opt/sybase-12.5目录下,/back、/user是两个软连接,连接在盘阵分区的两个目录下,以下描述中,如遇RoseHA的地方,以红色字体标明2.2OMC数据备份以下操作在两侧处理机都以root身份执行1.执行df–h指令,确定本地磁盘上剩余空间的大小;2.如果空间足够大可将数据库及执行程序都进行备份,如果空间不够对数据库进行备份,则只能备份执行程序目录。对数据库执行一次备份操作就可以了,对于执行程序,要求每次更换程序成功后都执行备份操作,并将前次备份的目录删除;1)mkdir/restore2)cp-r/user/restore/user_bakYYYYMMDDYYYYMMDD:填当日日期如果是RoseHa局,则执行的是如下操作mkdir/restore/user_bakYYYYMMDDcp-r/user/*/restore/user_bakYYYYMMDD/3)cp-r/opt/sybase-12.5/restore/sybase-12.5_bakOMC磁盘阵列紧急预案33.该操作仅在主用侧服务器执行,执行以下指令,记录下IP地址的分配情况1)/sbin/ifconfig/restore/iptable2)通过ftp方式将主用侧restore目录下iptable文件拷贝到备用侧处理机的restore目录下保存2.3盘阵损坏后的操作2.3.1临时恢复操作1.当盘阵故障后,两侧服务器的HA软件都应是停止状态,但为了安全起见,可执行如下操作:1)将HA软件停止2)在两侧服务器均执行以下操作:serviceclusterstop2.在两侧服务器中,任选一台,执行恢复操作,在盘阵恢复以前只能单机工作。3.检查不执行恢复操作的服务器上是否有浮动IP,如果有DOWN掉浮动IP。4.在执行恢复操作的服务器上执行如下操作1)删除盘阵挂载点,服务器中的/back、/user目录是提供给盘阵的挂载点,将以下两个目录删除rm-r/backrm-r/user如果是RoseHA的局,则将/back、/user两个软连接改名mv/back/back_softbakmv/user/user_softbak2)cp–r/restore/user_bakYYYYMMDD/user3)mkdir/back4)如果有数据库的备份则执行如下操作rm-r/opt/sybase-12.5OMC磁盘阵列紧急预案4cp-r/restor/sybase-12.5_bak/opt/sybase-12.5chown-Rsybase:sybase/opt/sybase-12.55)检查/restore目录下的iptable文件,按照文件内容在网卡上浮动IP地址,以下的指令举例在eth0上浮动出200.200.200.253的地址/sbin/ifconfigeth0:1200.200.200.253up5.至此OMC已经可以恢复运行,执行如下指令servicesybasestart约一分钟后/user/super/load/monitor.shstart&注意:按这种方式修复的数据库,由于种种原因,数据库可能不正常,如果不正常则与数据库相关的dbman、traffic、almdeal进程不能正常运行,只能等盘阵修复后,重新安装数据库解决,以上程序不能运行仅对话务统计告警功能造成影响,对操作维护没有影响。2.3.2盘阵修复后的操作1.盘阵修复后,需按OMC调机手册对盘阵进行分区及格式化的操作2.停止程序的运行1)/user/super/load/monitor.shstop2)/user/super/load/loadallstop3.删除/back目录下的内容1)、rm-rf/back/*如果是RoseHa局,则是将/back目录删除rm-rf/back将备份的软连接改名mv/back_softbak/back4.删除/restore目录下user目录的旧备份,并将user目录移动到/restore目录下备份OMC磁盘阵列紧急预案51)rm-rf/restore/user_bakYYYYMMDD删除旧的备份目录2)mv-rf/user/restore/user_bakYYYYMMDD建立新的备份3)mkdir/user重新建立/user目录做为盘阵挂载点4)mount/dev/sdb5/user将盘阵分区挂载到/user目录下5)cp-r/restore/user_bakYYYYMMDD/*/user/将备份的程序拷贝到盘阵上以上操作如果是在RoseHA局,则按以下步骤执行1)rm-rf/restore/user_bakYYYYMMDD删除旧的备份目录2)mkdir/restore/user_bakYYYYMMDD建立新的备份目录3)cp-r/user/*/restore/user_bakYYYYMMDD/在新建的备份目录中拷入执行程序4)将备份的软连接改名mv/user_sofrbak/user5.如果对数据库做了备份,并且数据库正在运行中,则执行以下指令1)servicesybasestop停止数据库运行2)rm–rf/opt/sybase-12.5/*删除/opt/sybase-12.5目录下所有文件,该目录将做为盘阵的挂载点3)mount/dev/sdb3/opt/sybase-12.5挂载盘阵4)cp-r/restore/sybase-12.5_bak/*/opt/sybase-12.5/5)chown–Rsybase:sybase/opt/sybase-12.56)如果是RoseHA局,还需按照/user,/back两个软连接指向的目标地址在盘阵上建立相应的目标目录,执行cd/user,cd/back两条指令,确保能进入到盘阵的相应目录下7)cp-r/restore/user_bakYYYYMMDD/*/user将备份的程序拷贝到盘阵上OMC磁盘阵列紧急预案66.如果之前没有对数据库做备份或备份的数据库不正常,则只能按OMC的调机手册,重新安装sybase数据库,重装前需先将以前装入的安装包删除,否则安装不上,执行以下指令删除。重装数据库的操作,在一侧服务器执行即可。rpm–esybase-esql-12.5-3rpm–esybase-sqlremote-7.0.2-1rpm–esybase-openclient-12.5-3rpm–esybase-efts-12.5.0.1-1rpm–esybase-chinese-12.5.0.1-1rpm–esybase-ase-12.5.0.1-1rpm–esybase-common-12.5.0.1-1如果是Rose