BSC告警分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

APACChinaCustomerNetworkResolutionCenterBSC/RXCDR/PCU告警分析摩托罗拉昆明分公司宽带及移动网络事业部,2009-07内容简介告警格式与组成告警处理的优先级别常见的BSS告警告警的格式与组成告警的种类和格式告警可以分为硬件告警和软件告警两种:硬件告警是由于BSS内的硬件故障所引起的告警。软件告警是由GPROC检测到软件进程运行出错所引起的告警。只有GPROC设备(BSP,CSFP,DHP,BTP,poolGPROC)才会产生软件告警息。软件告警(SoftwareFaultManagement或SWFM)分为两类。•告警举例:•#0–NEW–*NONE*.•CommuncationFailureEvent-CAGE-BSS01(BSS01:SITE-0:):0CAGE1-30/03/199914:23:56.•ExpansionKSWXSlot22CommunicationFailure-FMIC-Major--/-.•(BSS01:SITE-0:):0SITEImpactedtoMajor.•#0:告警ID•NEW:告警状态•NONE:正在处理此告警的人员•CommuncationFailureEvent:告警的类型•CAGE:告警级•BSS01(BSS01:SITE-0:):0CAGE1:发生告警的位置•30/03/199914:23:56:告警发生时间•[18]:告警编号•ExpansionKSWXSlot22CommunicationFailure:告警描述•FMIC:告警的清除类型•Major:告警严重等级•(BSS01:SITE-0:):0SITEImpactedtoMajor:告警附加信息告警的类型告警编号对于每种设备都有唯一的一个十进制数表示。每种设备的告警编号从0到254。对于不同的设备告警编号可能重复,但与设备相关的编号是唯一的。有些情况下同样的告警编号表示类似的告警。例如254号告警表示设备fail。在OMC-R上将告警分成不同的六种类型,可以在OMCR的告警说明中找到“FailureEvents”字段,其为不同类型告警的名称。它们分别是:告警的等级告警严重级别表明此故障发生对系统的影响程度,系统将告警的等级分为六级:告警处理的优先级我们可以根据告警的严重级别,以及出现告警的网元在系统中的重要性,对不同的告警情况进行相应的处理。在此我们提供一般原则下的优先级别。对于基站来说从RXCDR到BSC,再到BTS;信令链路按照MTL、RSL、XBL的次序;告警严重级别由高到低分别是Critical、Major、Minor、Warning、Investigate、Clear。在相同的告警级别中,Critical告警按照以下顺序AllRXCDR-AllMTL-AllBSC-AllRSL-AllBTS-AllX.25link-AllotherCriticalalarms。Major告警按照以下顺序AllRXCDR-AllBSC-AllBTS-AllotherMajoralarms。其它告警按照Minor、Warning、Investigate、Clearalarms的顺序进行处理。•Thesites•RemoteTranscoder(RXCDR)•BaseStationController(BSC)•BaseTransceiverStation(BTS).••Thelinks•MessageTransferpartLink(MTL)•RadioSignallingLink(RSL)•X.25link.•Critical告警按照以下顺序:•AllRXCDR-Criticalalarms•AllMTL-Criticalalarms•AllBSC-Criticalalarms•AllRSL-Criticalalarms•AllBTS-Criticalalarms•AllX.25link-Criticalalarms•AllotherCriticalalarms常见的BSS告警1、OML为E-U或D-U的问题在BSC或RXCDR看到此现象时,还可能看到相关的一些告警,如OML242号告警等。背景原理:OML链路是OMCR到RXCDR或BSC的信令链路,主要用于BSS的操作维护。OML使用X.25协议。OMCR通过Router与BSS相连,在BSS端,操作数据在2M线的某些时隙中传输,到达Router后,Router中的虚拟交换电路把它们分门别类送往OMCR进行处理。同时OMCR的数据也通过Router交换后发往相应的NE。可能引起此类告警的原因:①相关的MMS口退出服务②主用MSI板没有插③数据库中关于OML链路的定义不对④DTE地址定义不对⑤路由器定义不对⑥软件进程问题解决思路:如果OML链路从来没有起来过,那么首先应该检查硬件连接是否正确,特别是主用的MSI板是否插上了,因为主用MSI板上定义了NE起来时用于从OMCR下载软件和数据库的OML链路。然后核对DTE地址及路由器的设置是否正确。如果OML链路以前是好的,那么首先要搞清是否有人对OML相关的参数改动过,如数据库中关于OML链路的定义、DTE地址、路由器设置等。在确认没有改动过后,应检查硬件问题,如MMS口是否退服、MSI板是否故障等。参考操作步骤:OML链路的问题涉及的设备比较多,例如:OMCR,路由器,RXCDR等,为了正确定位故障应结合数据收集来处理问题。进入BSC键入state0命令查看BSC的状态;进入RXCDR键入state0查看RXCDR的OML状态;在RXCDR键入disp_links查看RXCDR内的链路连接,以确定与OML相关的MMS位置;在出现问题的BSC或RXCDR中键入disp_p0查看哪个GPROC控制OML链路;键入disp_act_a0查看是否有相关的告警;键入disp_eq0oml**查看每条OML的配置情况。处理步骤⑴进入BSC键入state0命令查看BSC的状态;⑵进入控制OML的GPROC;⑶运用msg_send命令;⑷lock/unlockOML,看OML的状态;⑸再运用msg_send命令;⑹lock/unlockOML所属的MMS,查看OML的状态;⑺lock/unlockOML所属的MSI,查看OML的状态;如果OML仍为E-U状态,继续以下步骤。⑻键入命令以停止和激活AGENT进程,然后lock/unlock此OML链路;⑼键入命令以停止和激活AGENT进程、X.25PLP进程然后unlock/lock此OML;(10)排除硬件故障,考虑是软件进程问题造成OML故障,可以考虑激活挂OML的GPROC,如果还是不能解决可以考虑resetBSC。2、GCLK无法锁相的问题GCLK无法锁相时会产生GCLKFailedPhaseLock的提示,并可能伴随出现4、14、13号等告警。背景原理:GLCK的功能是使得系统与更准确的时钟同步,对于BSS来说,GCLK要与MSC的时钟同步。时钟同步的目的是在射频部分提供0.05ppm(ppm为百万分之一。即如时钟为16.384M,则频率误差为16.384×0.05=0.8192Hz)的高精度的时间同步。因此要提供参考时钟的E1/T1链路要尽量减少滑帧和失同步。GCLK要与上一级时钟同步必须要有上一级时钟的参考信号,时钟参考信号是根据数据库的定义从指定的MMS口上提取的。在database中需要定义不同MMS口的时钟提取优先等级。GCLK在工作时有四种不同的状态:①自由振荡状态:此状态是当GCLK刚上电时,其内部的晶体振荡器(OCXO)需要有预热的过程,以保持其正常的工作环境。此时间是固定不变的(30分钟),无法更改。在自由振荡状态下,GCLK内的DAC输入为80H,时钟输出保持在0.05ppm的精度内。②HoldFrequency:此状态是GLCK与2M失锁时的状态。此时GCLK使用前一次ADC输出的值输入DAC以控制时钟,此状态是一个过渡状态,一般持续10秒。③SetFrequency:此状态一般在HoldFrequency之后。使用LTA(LongTermAverage)值输入DAC以控制时钟。正常锁相工作时GCLK每30分钟采样一个ADC输出值——2位16进制数,存入内部存储器,存储器最大可以存放48个值,采用先入先出原则更新。这48个值也可以被GPROC通过MCAP总线读取或设置。所谓LTA就是指将这48个值取平均输入到DAC。SetFrequency状态下,GCLK不再往存储器中存放新值,只是使用以前的旧值,存储器停止更新,这是与锁相状态的不同之处。④锁相状态:此状态分为两个子状态,AcquiringFrequencyLockState,此状态是一个过渡状态,由硬件决定。FrequencyLockState,此状态内GCLK已与E1/T1锁相,但需等待一段时间,以确定锁相稳定之后就进入锁相状态。可能引起此类告警的原因:①因传输问题引起MMS退服②MSI板或MMS口硬件故障③数据库定义不合理④GCLK本身的问题,需要校正或更换解决思路:当出现GCLK无法锁相的告警时首先要搞清楚参考时钟是从哪里来的。检查一下数据库中有关GCLK的参数设置是否合理,如锁相应向上锁,即RXCDR向MSC锁、BSC向RXCDR锁、BTS向BSC或上一级的BTS(只有菊花链的情况)锁,向下一端的MSI口的时钟提取优先级应设为0,另外也不能只允许一个MMS口可以提取时钟。如果数据库设置没有明显不合理之处,应注意一下与时钟提取有关的MMS口和MSI板的状态,MMS口退服可能是传输问题引起的,也可能是MSI板或MMS口硬件故障引起的,如果MSI板工作正常则应着重检查传输质量。在排除了数据库、MSI硬件和传输原因之后,应校正或更换GCLK板。参考操作步骤:⑴为了利于问题的分析应收集以下数据:①statelocationgclk**(查看GCLK的状态)②disp_elphase_lock_gclklocation(查看是否允许锁相)③disp_eq0mmsid1id2id3(查看MMS的参数,主要是时钟提取优先级)④disp_elwait_for_reselectionlocation(查看时钟提取切换时间)⑤disp_ellta_alarm_rangelocation(查看LTA告警范围)⑥disp_gclk_avgslocationgclk_id(查看GCLK的长期平均值)⑦disp_eqlocationgclkid_1id_2id_3full(查看GCLK硬件版本信息)⑵当GCLK无法锁相时可采用以下的方法:①reattempt_pllocationgclk_id1②使用lock/unlock命令看是否能使得GCLK锁相恢复。③查看MSI,MMS是否处于正常状态,是否有E1的相关告警产生,是否有MMS作为时钟源。④查看提供时钟的MMS是否与上一级的链路连接,上一级的时钟是否正常工作。⑤查看提供时钟的MMS的等级是否设置正确(一般为255)。⑥试着使用其它的MMS作为时钟源。(对于M-CELL可更换NIU)。3、MTL告警背景原理:MTL链路是MSC与BSC的信令链路,其在整个系统中起着MSC与MS、BSS连接的作用。MTL出现问题会导致其下属所有的BSS瘫痪。MTL最多的告警一般为0号告警,出现此告警时MTL为D-U。此告警表示MTL链路与MSC已经失去联系。这是由于MTP第二层出现问题,而退出服务。但系统会不断尝试恢复此链路。另外当一条MTL链路退出服务时,其负荷会分配到其它MTL上,加重其它MTL的负担,而由于GPROC的处理能力的原因,MTL链路的平均利用率不能超过30%。因此MTL链路负担过重,会使得GPROC退出服务,从而导致更多的链路退出服务。此告警与BSS0号告警的区别为:MTL0号告警表示一条MTL退出服务,而一个BSS可能有多条MTL链路,BSS

1 / 34
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功