OptiXSDH系列光传输产品故障定位指导书业务中断问题2003-07-09第1页,共6页第1章业务中断问题第1章业务中断问题..................................................................................................................11.1概述......................................................................................................................................11.2必备知识和技能....................................................................................................................11.3业务中断故障的类型.............................................................................................................21.4导致业务中断的常见原因......................................................................................................21.5处理业务中断故障的一般过程与方法...................................................................................21.5.1排除外部设备故障......................................................................................................31.5.2定位故障到单站.........................................................................................................31.5.3故障定位到两站之间的光板后的业务中断故障处理...................................................31.5.4故障定位到单站后的业务中断故障处理.....................................................................41.6网上常见的业务中断问题......................................................................................................51.6.1配置没有下发到单板..................................................................................................51.6.2OptiX155/622设备处在保护倒换状态时不允许配置业务..........................................51.6.3删除逻辑系统导致业务中断.......................................................................................61.1概述由于业务中断故障对电信运营者的影响是最大的,因此要求尽快地给予定位和排除。但维护人员在处理业务中断故障时,首先要保持冷静。传输业务中断故障的排除,相对其它一些故障,如误码、指针调整等问题,要容易得多。处理方法也比较简单,不外乎自环、换板、复位、插拔、掉电重启、重下配置等方法。因此维护人员首先要消除心理上的恐慌,冷静地去分析、定位、排除故障,避免误操作等问题导致事故的扩大。本节介绍业务中断故障处理的基本思路和方法,并通过举例给予说明。1.2必备知识和技能维护人员处理OptiX传输系统业务中断故障的必备知识和技能是:熟练掌握SDH的告警原理和信号流;熟练掌握OptiX系统查询告警和性能数据的操作;熟练掌握OptiX系统线路板和支路板的通道软硬件环回操作;OptiXSDH系列光传输产品故障定位指导书业务中断问题2003-07-09第2页,共6页熟练掌握OptiX系统复位、插拔单板的操作。掌握通过网管和命令行配置、查询网元的数据,掌握命令行的书写规范。1.3业务中断故障的类型一般有几种分类方法:按业务中断的时间长短来划分,可分为瞬断和长期中断两种类型。这里对“瞬断”的定义是,业务短时间(一般不超过一分钟)中断,且业务的恢复是自动的,没有人为的干预。按同一地点同一种业务中断现象发生的频率来划分,可分为偶发性业务中断故障和多发性业务中断故障。按中断业务的保护模式来划分,可分为链型无保护业务中断故障、通道环业务中断故障和复用段业务中断故障。1.4导致业务中断的常见原因业务中断的可能原因是多方面的,如外部的供电电源故障、交换机故障、光纤电缆故障,人为的误操作、配置错误以及设备本身的故障等。设备问题引起的业务中断,有些可能是由于指针调整太大引起的,有些可能是误码过大引起的,这两方面的内容请参看后面有关误码和指针故障问题的处理介绍。对由于保护倒换失效所导致的业务中断,参见“保护倒换问题的处理”一章。1.5处理业务中断故障的一般过程与方法各种类型的业务中断故障,除瞬断问题处理比较特殊和复杂外,其它类型故障都可以按一般的业务中断故障的处理方法进行处理。对于业务瞬断问题,只能通过长期对全网告警、性能数据的仔细分析,通过对设备、单板运行状态的深入查询,并通过替换法等多种方法,逐一排除电源低OptiXSDH系列光传输产品故障定位指导书业务中断问题2003-07-09第3页,共6页压问题、光纤电缆问题、接地不良问题、单板软硬件稳定性等问题,最终将故障排除。此类故障的排除过程,只能是一个不断尝试的过程,没有固定的方法或规律可循。处理一般业务中断故障的过程和方法仍然是:1.5.1排除外部设备故障先通过自环法、替换法、告警分析法等方法排除外部设备故障的可能性;1.5.2定位故障到单站然后,在通过告警性能事件分析法一时无法确定故障点的情况下,应用逐段环回法迅速将故障定位到单站;故障定位到站点后,再利用状态、配置数据检查、分析法排除掉人为误操作、配置错误、设备状态异常等情况,最后通过更换单板、重下配置、更改配置、复位、掉电重启等方法将故障排除。我们知道,通过逐站自环的方法,可以将故障定位到单站或两站之间的光板上。下面讲述的是通过自环法将故障定位到单站或两个站间的光板之后,如何再进一步排除业务中断故障。1.5.3故障定位到两站之间的光板后的业务中断故障处理第一步:分析故障现象,并根据各种单板处理信号的特性,判断可能是哪个站的哪块板有问题。如,对于SS31T16板,该板一片芯片处理的是连续四个奇数或偶数个VC4通道信号;而SS31R16板一片芯片处理的是四个连续的VC4通道。若此时故障现象是四个连续的偶数个VC4通道有问题,则可以判断是T16的问题。第二步:若通过分析法无法定位故障的单板,则只能带上备用光板,到现场通过对光口硬自环的方法判断出问题的光板了。注意:OptiXSDH系列光传输产品故障定位指导书业务中断问题2003-07-09第4页,共6页对于复用段环,硬自环前,应首先锁定保护倒换或停止保护倒换协议。对于软内自环业务正常的光板,若再使用光纤硬自环(注意光功率不要过载),业务也正常,则可判断该板没有问题,问题出在对端光板。应到对端站点,换掉有问题的光板,排除故障;若再硬自环后,业务不通,则说明该板有问题,可通过更换该板排除故障。1.5.4故障定位到单站后的业务中断故障处理1、若能通过告警性能事件分析法迅速定位出故障的单板,则通过更换单板排除故障。2、若一时无法定位出故障位置,则按以下步骤进行。第一步:检查有无误操作。如支路板、线路板通道有无软自环或硬自环的现象等。第二步:检查一些基本配置是否正确。如对于通道环,应检查逻辑系统属性以及支路板通道属性配置是否正确;对于复用段,应检查逻辑系统属性以及节点参数配置是否正确;检查时隙配置、母板类型配置、业务装载配置是否正常等。这一步在改动了网元数据的场合尤为重要(比如升级扩容),因为我们经常发现由于命令行配置文件的小错误而导致业务中断,在用PTP命令查询了一堆数据、眼花缭乱后,才发现是命令行文件的书写错误。第三步:检查系统自动生成的数据以及单板状态参数是否正确,主要采用PTP命令。如,对于通道环,检查交叉板备用总线生成的数据是否正确;对于复用段,检查各页面数据是否正确;检查单板的状态参数,如内、外定时、总线选择等参数是否正确。第四步:若通过以上步骤都无法定位故障,则使用经验处理法,如重下配置、复位拔插单板、掉电重启等方法尝试能否排除故障。第五步:若经验处理法也无效,则只能通过逐一更换单板的方法,排除故障。OptiXSDH系列光传输产品故障定位指导书业务中断问题2003-07-09第5页,共6页1.6网上常见的业务中断问题1.6.1配置没有下发到单板某局新增TDA板业务不能正常开通,表现为TDA板相应的2M通道有的站报TULOP、有的站报LP-SLM。询问得知TDA的业务是用网管添加的,估计是TDA板的业务未能下发到单板。用cfg-get-autoload查询,发现报TUAIS的站状态为disable,发现报LPSLM的站的状态是enable。说明报TUAIS的网元的配置未能下发到单板。在这种状态下用cfg-get-slotsysall命令查询是正常的。现说明如下:1、autoload状态缺省为“enable”。如果设置为“disable”,重新下发配置也不能下发到单板;也就是说在“disable”状态下,“cfg-init”命令并不能使状态恢复为enable。2、如果设置为“disable”,网元掉电、单板复位可以正常开工,但是用网管更改配置(如时隙)却不能下发到单板。3、在autoload的“disable”状态下,配置校验成功后,如果要使配置能下发到单板,还要依次执行如下两条命令::cfg-set-autoload:enable;:cfg-load-bdpara:板位号;建议不要轻易使用“:cfg-set-autoload”命令将状态设置为“disable”。另外,查询配置是否正确下发到单板,还可以使用“:cfg-check-board:板位,板类型;”命令。此命令是将单板侧bddb库中的内容和主机侧bsdb库中的内容相比较,如果一致则返回成功。1.6.2OptiX155/622设备处在保护倒换状态时不允许配置业务155/622交叉板在倒换时是不允许进行业务配置的。此时如果配置业务会导致:OptiXSDH系列光传输产品故障定位指导书业务中断问题2003-07-09第6页,共6页1、下发了新的业务配置,主机校验后,向所有相关板发送新的配置,包括线路板、支路板、交叉板。线路和支路接受了新的配置,但交叉板不理睬,从而导致业务不通;2、然后主机产生新的复用段的保护页面数据;3、这时停止协议时,主机下发部分新的数据(交叉连接),业务还是不通的,因为交叉板的其他配置未下发。4、因此这种情况下必须拔插或复位交叉板,修改的数据才能加载到单板。1.6.3删除逻辑系统导致业务中断逻辑系统被删除后,其相应的业务也被删除。