河南移动GSM网华为MGW应急方案[编号:省-河南-GSM-MGW-V1.1.1(2007.11)](一)应急方案启动条件本方案是针对河南移动华为MSC(G9设备)在运行过程中或者操作过程中可能出现的紧急问题,如主机设备瘫痪、BAM瘫痪、iGWB瘫痪、全局业务阻塞、MGW业务阻塞等而制定的操作指导,其目的是在设备发生故障时,提供紧急维护的手段。(二)应急方案执行原则1.遭遇影响业务的故障时,处理人员应遵循业务抢通优先原则。2.处理某一MSCSERVER/MGW的故障时,应以不连带影响其他相邻网元出现故障为准。3.启用应急方案时挑选迂回路由的原则:对于信令转接,应尽量选用负荷低于0.2ERL的信令;对于话务转接,应尽量选用每线话务负荷低于0.6ERL的局向。4.遭遇影响业务的故障时,处理人员应按照故障管理办法相关要求及时通知上报主管领导。5.遭遇传输大面积阻断或单一局向传输全阻时应及时通知传输进行抢修或增调中继。6.至某一网元的业务大部分或全部阻断时,需及时通知相邻网元启用应急方案作相应修改。(三)网络结构现状河南移动G9软交换端局采用大本地网方式,网元分为MSCSERVER和MGW两部分,MSCSERVER负责呼叫控制,MGW负责话务承载。并采用双归属方案进行冗灾备份方案.1、MSCSERVER采用华为G9MSOFTX3000软交换设备,MGW采用华为UMG8900通用媒体网关设备。话务网络拓扑示意图如下:2、IP承载网网络拓扑示意图如下:IP专线采用星型双归属结构,在郑州设置两台NE40-8作为全省的核心,实现核心冗余备份,地市分别设置1台双引擎、双电源模块的NE40-4作为地市的接入层,NE40路由器均通过网线与骨干传输网第二平面传输设备的MSTP接口相连。MSCServerMGW9MGWMSCServerMSCGMSCMSCGMSC话路TDM承载H.248IP承载网心跳线郑州地市地市GMSCGMSCMSCMSC地市地市MGWMGWA/B/TMGMGWMGWMGWMGWSoftSoftLSWLSW100M100MFEFEFEFEFEFE郑州中心IP承载网网管中心CR-2NE40-8CR-1NE40-81-AR-1NE40-42-AR-1NE40-43-AR-1NE40-44-AR-1NE40-4LSWLSWLSWLSWS3528GS3528GS3528GS3528GMGWMGWMGWMGWSoftSoftLSWLSW100M100MFEFEFEFEFEFE郑州中心IP承载网网管中心CR-2NE40-8CR-1NE40-81-AR-1NE40-42-AR-1NE40-43-AR-1NE40-44-AR-1NE40-4LSWLSWLSWLSWS3528GS3528GS3528GS3528G3、信令网络拓扑示意图如下:MSCServerMSCServer郑州SCPLSTPMGWGMSCMSCMGWGMSCMSCMGWGMSCMSCMGWGMSCMSC心跳线HLRHLRHLRHLR准直连LinkM3UA直连Link(四)破坏原因及破坏结果分析突发事件对MGW的影响包括:4.1MGW至某网元的话路路由全部阻断形成原因:(1)对端局故障,如对端交换机瘫痪造成;(2)传输阻断造成。破坏结果:MGW至该方向话务阻断。4.2MGW至某网元的信令路由全部阻断形成原因:(1)对端局故障,如对端交换机瘫痪造成;(2)传输阻断造成。破坏结果:MGW至该方向信令阻断,如有局向只能通过其作信令转接,则该局向话务全阻。4.3MGW负荷过高(包括设备负荷、信令负荷、话务负荷)而产生话务溢出形成原因:(1)节假日期间(如春节,中秋节等)产生话务高峰;(2)重大会议、大型展览会或集会产生的话务高峰。破坏结果:某些方向的呼叫难以接续;由于交换机自身设有过载保护,CPU负荷过高有可能引起不同程度的限呼,具体限呼比例可设置。4.4郑州MSCSERVER瘫痪形成原因:(1)MSCSERVER交换机硬件故障;(2)MSCSERVER交换机软件故障;(3)通信电源故障;(4)数据改动错误;(5)自然灾害或者意外造成的设备损坏。破坏结果:(1)当其中一个MSCSERVER瘫痪时,根据大本地网双归属设置方案,其所带MGW将注册到另外一台MSCSERVER,高话务负荷将会对此MSCSERVER设备造成安全隐患;(2)当郑州多个互为双归属的SERVER同时瘫痪后,将影响这些SEVER所带地市语音业务及数据业务.4.5地市MGW瘫痪形成原因:(1)MGW交换机硬件故障;(2)MGW交换机软件故障;(3)通信电源故障;(4)数据改动错误;(5)自然灾害或者意外造成的设备损坏。破坏结果:地市MGW瘫痪,将会影响该MGW下的登记的所有用户。(五)预防保障措施5.1设置各种负荷门限包括:(1)话路负荷门限:0.7ERL;(2)信令负荷门限:0.2ERL;(3)模块最大CPU负荷门限:70%。以上各项负荷门限均属于最大预警门限,话路负荷和信令负荷如果接近此门限就需要增加话路和信令。某一模块的CPU负荷如果超过门限则需要查看其他模块的负荷,然后根据不同情况采取不同的应对措施。如只有部分模块负荷高,分析各模块的呼叫次数,如是话务负荷较高引起则可以从调整中继、信令的模块分布来均衡各个模块的负荷比例;如果较多模块的负荷均高于门限,则需要考虑进行扩容或增加设备。定期提取相关的话务统计,各个方向的负荷都应当有相应的平均负荷,这样当某一方向的负荷超过平均负荷时,就应当关注此现象产生原因,以防止话务过高而短期不能增加电路而造成的话务溢出。5.2调整端口在可预计的大话务负荷来临之前(如节假日等),需要在可能发生拥塞的方向增加电路,必要时可以暂时删除部分负荷较低的电路以保证高话务负荷方向有足够的电路端口。增加的电路方向和数量需要参考以往节假日的高话务量的统计数据和平时的统计数据。5.3按规范进行局数据设置交换机各种数据的设置应严格按照华为G9交换机的数据设置规范设置以保证系统的稳定运行。华为交换机大部分重要单元均采用2N备份,硬件数据的设置应严格按照华为G9交换机的硬件数据设置规范设置以保证系统的稳定运行。中继信令路由应按设置原则设置备用路由,紧急情况下按业务启用应急路由。从组网高可靠性的角度出发,本局到相邻网元的信令数据的配置应参照《河南移动华为G9交换机局数据设置规范》设置信令保护路由,到同一个局向的中继电路应尽量分担在至少两块E32板上,某局向如有直达七号信令链路,则应配置两条以上的链路且应配置到至少两块SPF板上。对于一个模块内的多条链路,最好能分在不同的PCM、不同的中继板上。在配置MSOFTX3000和UMG8900互联数据时H.248LINK和M3UALINK时尽量分配在不同的WBSG模块中,确保不会由于某一块WBSG的故障,造成某一个MGW退出服务。5.4遵照河南移动G9软交换端局维护作业计划做好日常维护在日常维护中应严格按照维护细则做好重要单元主备倒换测试,按时完成系统数据、计费文件的备份工作,做好备品备件管理及时提出设备容量预警消除安全隐患。(六)应急措施6.1全局业务中断全局业务中断属于极端情况,这时告警台应首先有异常告警出现,随后通过用户申诉或拨测将使情况完全显现出来。当维护人员确认系统发生了全局业务阻塞的紧急事故后,应立即按照“排除硬件设备运行故障→排除承载网运行故障→排除传输故障→排除配置数据错误→排除WIFM模块运行故障→排除WCDB模块运行故障”的基本思路来进行处理。6.1.1设备硬件故障引起的全局业务中断由于主机设备瘫痪必然同时引发全局业务阻塞事故,因此,维护人员在处理全局业务阻塞事故时,应首先检查MSOFTX3000是否发生了主机设备瘫痪的事故,例如基本框掉电、基本框WSMU模块瘫痪、基本框WIFM模块瘫痪、基本框WCDB模块瘫痪等。若MSOFTX3000发生了主机设备瘫痪的事故,维护人员应立即参考“G9交换机设备类故障应急处理”的相关内容进行事故处理。6.1.2IP承载网故障引起的全局业务中断在MSOFTX3000硬件设备运行正常的情况下,当系统发生业务阻塞事故时,维护人员应首先检查承载网的运行是否正常。常用的检查方法有:(A)在客户端的接口跟踪任务中使用“Ping”工具,检查MSOFTX3000与发生业务阻塞的网关之间的网络通信是否正常。(B)在客户端的接口跟踪任务中使用“Tracert”工具,定位承载网中发生故障的路由器的IP地址。(C)与数据部门联系,使用专用的仪器或软件测试承载网的传输时延、误码率、丢包率、抖动等参数,以确认承载网是否存在网络拥塞、网络风暴、病毒攻击等故障。当承载网的运行出现故障时,请立即联系数据部门执行承载网事故处理。6.1.3传输故障引起的全局业务中断硬件故障的可能性排除后,可以通过告警来判断是否有传输故障存在。查看相关E32板上中继状态:首先根据实际配置来确定到该局向链路所在的E32单板位置,然后在维护台查看这些单板的中继状态是否正常,传输正常时对应端口应无告警,如果有多个告警一般说明出现传输故障。1、MGW到各相邻网元的信令保护路由按《本地局数据规范》进行了设置,故无需另设;若信令全阻,需通知传输部紧急增调中继并增加信令。2、MGW到个别TMSC的中继电路群阻断时,因路由已按《本地局数据规范》设为所有TMSC负荷分担,故无需另设临时转接路由;MGW到所有TMSC的中继电路群阻断时,需通知传输部紧急增调中继。3、MGW到端局MSC的电路群全阻或大部分阻断时,为保证本地来话仍能接通,可以将话务路由临时改为经TMSC转接。4、具体业务路由备份原则当有紧急情况发生时为疏通话务,应根据实际情况设置临时转接路由,但要避免迂回电路产生的话务溢出。5、主要局向信令路由备份原则局向路由备用路由应急路由MTP路由HSTPHSTPH1和H2互为备份LSTPLSTPL1和L2互为备份ZZMGAZZMGAHSTPA局HSTP应急时开设直达信令B局LSTP应急时开设直达信令ZZSSAZZMGAHSTP本地MSC直达信令LSTPSCCP路由HSTP直达信令点H1和H2互为备份,负荷分担LSTP直达信令点L1和L2互为备份,负荷分担注:信令路由数据设置总原则为:避免形成信令环路。6.1.4数据改动错误引起的全局业务中断在MSOFTX3000正常投入运行以后,维护人员不能随意修改WCDB模块的中央数据库功能、FE端口的IP地址等配置数据。如果维护人员不正确地修改了这些配置数据(例如删除了WCDB模块的网关资源管理功能),则当系统重新启动后,MSOFTX3000将可能出现全局业务阻塞的事故。在这种情况下,维护人员可使用LSTCDBFUNC、LSTFECFG等命令来查询相关数据的配置是否正确。处理数据修改引起的全局业务中断应按以下思路进行处理:1.查看数据修改日志:首先要确定引起错误的数据修改操作,如果不能确定修改了哪些数据可通过查看数据修改日志来确定。查看操作日志的命令为:LSTLOG,可通过输入起始时间和终止时间参数来确定一段时间内的修改,可以只输入日期而不输入具体时间,年月日时分秒间用&间隔。2.重新设定数据:如果确认数据没有修改错,则需要检查是否已将修改的数据正确设定到主机。因为业务中断有可能是由于部分数据设定不成功,表间数据不一致造成的。通过使用开始CRC校验命令:STRCRC,可以验证前后台数据是否一致,错误数据将出现在检查结果列表的最后。然后将未设定进主机的数据重新设定。使用发送超时待重发的数据命令:SNDUSD,填写模块号参数向相关模块发送数据,也可不填模块号参数,向所有模块发送未设定的数据。通过使用查询超时待重发的数据信息命令:LSTUSD,可以确定哪个模块的数据需重新设定。3.查找批命令操作中执行失败的命令:在执行批命令操作中,有部分命令可能会因原有数据的影响而没有执行成功,导致表间数据不一致。此时可通过查询命令日志信息命令:LSTLOG来查找执行失败的命令,在其中填写适当的命令执行时间、工作站等参数,针对不同的命令,采取相应的措施改