中国联通HLRN+1冗余备份应急预案(浙江华为基地)目录一二HLR备份方案主备HLR倒换总体原则三倒换的准备工作和涉及范围四应急倒换至容灾HLR流程五倒换回主用HLR流程六其它注意事项目前主流的HLR备份设置方案:1+1实时热备、N+1实时主备(N=1)、N+1非实时主备,华为在中国联通浙江基地采用的方式是N+1(同构容灾)实时主备。华为提供了大容量HLR,采用信令处理与业务处理相分离的专业化体系结构,可以带400万动态用户,并提供2000万静态用户数据的存储能力。容灾HLR的动态容量满足现网最大的1个HLR故障时的容灾要求。建立一套华为HLRN+1容灾备份中心,基本解决了全网HLR的局点级备份。一、HLR备份方案1、概述(1)静态数据的建立第一次采用割接的方法,在容灾HLR中建立主用HLR中所有用户的业务数据。后续的静态过程采用自动备份方式完成,通过MML命令完成建立。静态数据可以按照时间、数据内容进行定制,结果可以进行查询。(2)动态数据的建立MML指令增量数据同步通过营业系统发出的操作指令数据。主用HLR将MML执行并得到成功响应后,将所更新的表和具体的操作记录下来,根据一定的规则按照接口定义放入私有同步消息中(利用DCN网FTP方式实时取主用局的生成增量静态数据(约5分钟生成一个))发送往容灾局。MAP消息增量数据同步MAP消息增量数据包括包括用户位置信息(VLR,SGSN地址),手机操作的各种业务(激活呼转号码,修改密码等)。主用HLR在MAP操作成功响应,将所更新的表和具体的操作记录下来,根据一定的规则按照接口定义放入私有同步消息中(MAP消息)发送往容灾局。一、HLR备份方案2、数据备份方式华为容灾HLR的数据是实时进行同步,无需另外单独备份,仅需要按月对主冗HLR数据进行一致性核对即可。日常维护过程中主容局间的数据一致性检查、增补通过MRV校验工具来保证数据一致,并同时处理差异数据。3、数据备份周期一、HLR备份方案省外MSC省外GMSCHSTP营业厅BOSS系统本地MSC本地GMSCSCP华为主用HLR(9套)华为容灾HLR(1套)容灾HLR接入后的结构图4、组网拓扑图信令连接建立HSTP1/2到主用HLR、容灾HLR两个信令通道,现网容灾HLR通过HSTP转接与MSC/GMSC/SCP/SMS相连,容灾HLR与HSTP之间采用2M信令链路对接。HSTP1/2到容灾HLR的信令作为HSTP1/2到主用HLR的备用链路。一旦主用HLR宕机,MSC/GMSC/SCP/SMS到HSTP信令自动切换,维护人员将到主用HLR的链路闭塞,将信令切换到备用链路上,可实现快速切换。MAP接口的流量一般按照1条64k/万用户进行估算,容灾HLR共120万动态用户,故所需2M信令链路数=120/16=8条2M。DCN网BOSS系统与容灾HLR间采用内部的IP网络,采用TCP/IP协议,由于所需带宽极小,采用现有内部DCN网即可。主用HLR与容灾HLR的增量数据也通过内部DCN网进行通讯,这部分带宽最大时小于5M,因此采用现有内部DCN网即可(需要保证DCN网稳定、传输质量高)。一、HLR备份方案5、组网说明目录一二HLR备份方案主备HLR倒换总体原则三倒换的准备工作和涉及范围四应急倒换至容灾HLR流程五倒换回主用HLR流程六其它注意事项在系统/网络超负荷、系统/设备单元宕机、自然灾害(汛/台/火等)、传输或信令中断抢通处理等情况,优先启动主备HLR的倒换,在解决完主用HLR的故障后,倒换回原主用HLR。一旦发生故障,容灾HLR可以随时接管,接管过程不限制HLR网元,不限制HLR的用户类型(包括2、3G)。二、主备HLR倒换总体原则一般包括:交换机的信令中继故障直至到某一局向的信令全阻;由于CPU负荷超标产生的设备故障;由于交换机升级、打PATCH或软件故障等不明原因问题导致交换出现故障。系统/网络超负荷遇设备宕机或重要单元故障不能工作,一般处理方法为对交换机和相关的重要单元执行重启操作。如在对交换机重启之后系统仍无法恢复正常,则执行应急HLR启用。系统/设备单元宕机遇自然灾害等紧急情况故障,启用应急HLR接管方案。自然灾害(汛/台/火等)一般包括:HLR至HSTP信令全部中断;HLR至本地MSS/MGW信令全部中断;HLR至所有局向信令全部中断传输或信令中断抢通处理二、主备HLR倒换总体原则1、倒换原则场景的说明HLR至各局向的信令负荷,降低负荷的解决方法•关闭短信的下发,由短信中心来完成。以降低HSTP到HLR、MSS到HLR、MSS到HSTP的信令负荷•关闭VLR中手机鉴权功能。以降低HLR到MSS的信令负荷•紧急扩容HLR/STP/MSC/SGSN链路•停止营业厅操作营业厅交换机主CPU负荷升高,降低短时间内呼叫次数,排除限呼的解决方法•由于短信群发造成CPU负荷过高:由于短信群发引起的设备故障,只要停止群发就可以缓减设备故障•由于集会或是其它原因造成用户试呼次数上升,而导致CPU负荷升高:采用先关闭短信功能;关闭2次寻呼的功能/关闭鉴权等对用户呼叫没有影响的功能;关闭部分基站形成覆盖空洞,让用户无法起呼•设备进程吊死引起的CPU故障,以对用户影响最小为原则,考虑对交换机做重新启动•启动TCAP层手工流控,降低HLR负荷;MSC启用C/D口业务流控,限制C/D口消息流量,降低信令链路负荷和HLR负荷;SGSN启用Gr口业务流控,限制用户接入,减少Gr口消息流量降低信令链路负荷和HLR负荷2、正常HLR应急措施二、主备HLR倒换总体原则目录一二HLR备份方案主备HLR倒换总体原则三倒换准备工作和涉及范围四应急倒换至容灾HLR流程五倒换回主用HLR流程六其它注意事项在主用局和容灾局分别执行LSTSUBDATA进行用户数据和鉴权数量的比对;在容灾局上检查用户的动态数据和静态数据(BOSS增量指令)是否能够正常同步;检查容灾局上GT数据是否符合要求制作(到HSTP为DPC寻址,其他网元为GT寻址);需要提前准备好被接管的主用HLR的测试卡;准备好主容灾HLR的GT、HLRSN值、IP地址等基本网元信息;后三项由于日常演练倒换已经确认过,在应急时可以跳过。三、倒换准备工作和范围1、检查准备工作HSTP1/2(1)新增HSTP1/2到容灾HLR的信令链路。(2)HSTP1/2能够支持主备链路的自动/手工倒换。MSC/GMSC/SCP/SMSMSC/GMSC/SCP/SMS通过HSTP与容灾HLR相连,能够支持主备链路的自动/手工倒换。营帐系统(1)营业系统增加对容灾HLR的支持。(2)能在故障时主用HLR的操作指令切换到容灾HLR。主用HLR(1)完成数据同步备份;(2)主备HLR版本一致。三、倒换准备工作和范围1、倒换涉及范围目录一二HLR备份方案主备HLR倒换总体原则三倒换准备工作和涉及范围四应急倒换至容灾HLR流程五倒换回主用HLR流程六其它注意事项主用HLR发生故障时的操作流程端局信令自动切换到HSTP上,在主用HLR侧采用手动方式闭塞主用HLR到HSTP的所有直达链路(在特殊情况可以通过周边网元配合闭塞直达链路)。HSTP1/2采用自动倒换备用链路的方式,HSTP1/2自动激活它到容灾HLR的备份链路,使得业务请求能够送到容灾HLR。容灾HLR接管主用局后,路由层的HLRGT和MAP层的HLRID一致,以防止因个别VLR的判断机制导致被叫失败。启动营帐系统到容灾HLR的备用连接,使得营帐指令送达容灾HLR。四、应急倒换至容灾HLR流程1、倒换操作流程以下以将WZHLR8业务倒换到HZHLRB1为例,其中861314834000为容灾局HLRNO,HLRSN=200;861302968000为WZHLR8的HLRNO,HLRSN=78;(1)在被接管的主用HLR局上发送RESET消息,若该主用HLR故障不能操作,则直接跳过该步骤。SNDRESET:HLRSN=78,DEST=VLR,RANGE=ALL;(2)容灾HLR上修改被接管主用HLR的IDMODHLRSN:HLRSN=78(主用局的HLRSN),STATUS=ACTIVE,HLRNO=861314834000;(3)断开所有主用HLR和HSTP、关口局、端局的链路DEAN7LKS:LSX=1;(1为链路集编号,需要针对所有链路集)(4)在容灾HLR上再对原主用局ID发送RESETMODHLRSN:HLRSN=199,STATUS=INACTIVE,HLRNO=861302968000;SNDRESET:HLRSN=199,DEST=VLR,RANGE=SOME,TPLNO=188,REVERSE=FALSE;SNDRESET:HLRSN=199,DEST=VLR,RANGE=SOME,TPLNO=199,REVERSE=FALSE;SNDRESET:HLRSN=199,DEST=VLR,RANGE=SOME,TPLNO=200,REVERSE=FALSE;(5)找一个主用局的用户,检查在所漫游华为端局里的状态是否为UNCONFIRMED,即是否打上RESET标记。四、应急倒换至容灾HLR流程2、倒换具体步骤在应急切换的过程中一般会存在因HLR的变化导致的位置更新信令负荷过高、主被叫不一致等问题。一般采取如下措施解决。(1)倒换过程中,通过容灾局模拟故障主用局发送RESET消息,使用户发生手机行为时,进行位置更新。发送RESET消息时,在容灾局专门建立发送RESET消息的VLR模板数据,针对该模板数据进行RESET下发.该模板数据包括(本地、省内、国内3个模板),分批次下发,降低信令链路负荷。(2)应急HLR接管后短期内大量用户位置更新导致导HSTP信令链路拥塞的解决方法:临时关闭MSC鉴权,包括短消息鉴权,位置更新鉴权、关闭PS区域SGSN的附着鉴权。分批次、分VLR发送RESET消息。(3)将HSTP到各直连网元逐步改造为开通2M信令方式实现,包括以下类型:容灾HLR到HSTP;主用HLR到HSTP;各本地MSC到HSTP。3、异常情况及措施说明四、应急倒换至容灾HLR流程基本呼叫业务;闭锁类测试;前转类测试;ODB测试;短消息测试;鉴权测试;主动申请停机测试;区域漫游业务测试。营业指令测试。四、应急倒换至容灾HLR流程4、业务测试验证目录一二HLR备份方案主备HLR倒换总体原则三倒换准备工作和涉及范围四应急倒换至容灾HLR流程五倒换回主用HLR流程六其它注意事项1、容灾HLR中用户数据的回切:容灾HLR自动将接管期间的增量数据同步到主用HLR。2、信令回切:激活故障主HLR和外部网络实体的链路,信令自动回切。3、营帐系统回切:启动营帐系统到主用HLR的连接,使得营帐指令到达主用HLR。4、如果恢复和故障之间间隔时间较长,还需要考虑发送RESET同步动态数据。五、倒换回主用HLR流程1、倒回操作流程以下以将HZHLRB1业务倒回到WZHLR8为例,其中861314834000为容灾局HLRNO,HLRSN=200;861302968000为WZHLR8的HLRNO,HLRSN=78;(1)恢复主用HLR和LSTP的链路ACTN7LKS:LSX=1;(2)在容灾局针对容灾接管涉及到的主容HLRID发送RESET,范围为ALLMODHLRSN:HLRSN=199,STATUS=INACTIVE,HLRNO=861314834000;SNDRESET:HLRSN=199,DEST=VLR,RANGE=SOME,TPLNO=188,REVERSE=FALSE;SNDRESET:HLRSN=199,DEST=VLR,RANGE=SOME,TPLNO=199,REVERSE=FALSE;SNDRESET:HLRSN=199,DEST=VLR,RANGE=SOME,TPLNO=200,REVERSE=FALSE;MODHLRSN:HLRSN=199,STATUS=INACTIVE,HLRNO=861302968000;SN