IP承载网与CE维护经验交流

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

主讲:谭学亮13438337454本次交流的内容——一.华为单板转发异常问题的分析与处理方法二.更换引擎板操作的特别注意事项三.防尘网清理告警的处理方法四.对光功率指标的日常维护关注意义及手段五.光功率整治流程及方法六.IP承载网与IP内部信息承载网的区别七.对IP承载网及CE维护应急能力的要求八.IP智能管家v2.3新增功能前瞻注:如果这次交流没有能参加到没关系,我们还会组织召开现场交流(暂定5月),届时会有更加详细的介绍。一、华为单板转发异常问题的分析与处理方法背景:目前现网华为设备有一定概率发生“转发异常”类故障,现象通常表现为:业务降质、部分业务阻断、链路丢包、无告警。作为隐性故障,维护人员难以及时发现,对客户感知的影响相对较为严重。成因:每块业务单板都有一个NP(网络处理器),每个NP又包含16个ME(微引擎),ME之间采取分布式处理,各自负责不同的业务,并且负载分担。一旦某块ME异常或失效,经由其处理的业务就会转发异常,或丢包、或改包。转发平面其他部件(如TM等)失效,也会导致类似故障。一、华为单板转发异常问题的分析与处理方法(续)已经采取的措施:(1)华为研发了“智能心跳”机制,通过发送并校验模拟业务报文的方式,用于检测转发平面各元件的工作状态,一旦发现异常,可采取复位、隔离等操作,同时上报告警。但还不能做到100%的发现能力。目前AR的软件补丁为SPH050,据华为称,到下一个补丁版本SPH055,可达到模拟90%业务的测试功能。(2)质量监测系统,包括目前正在部署的“向CE延伸”部分,通过挂接测试代理(TA),发送并监测测试包,实现对业务通道性能指标的监测。一旦发现丢包率超阀值的情况,监控中心可以及时发现并通知维护人员处理。但质量监测系统也无法做到100%的发现能力,原因主要有三:a.对多条物理链路捆绑的情况,测试流量只会经由其中固定某一条,因此难以测到其余物理链路质量;b.不同ME负责不同业务,如出现负责路由协议的ME异常,而负责业务流量的ME正常,则质量监测系统可能不会告警;c.测试包并非实时不间断发送,目前间隔时间是15分钟,因此测试间隔期发生的故障不能立刻发现。一、华为单板转发异常问题的分析与处理方法(续)维护人员需要掌握的分析及处理技巧:第一步:接到业务投诉、监控通知或网管告警时,如何判明是否存在“转发异常类故障”?根据已知信息,分析共性,缩小范围,进行ping测Ping测须知“-c-s-a-vpn”等参数的含义第二步:发现丢包链路,如何判断丢包原因?查看端口计数器是否有异常增加SCMIY-BA-IPNET-RT01-NE80Edisintpos2/0/0Pos2/0/0currentstate:UPLineprotocolcurrentstate:UPDescription:TO-[SCCD-BB-IPNET-RT01-NE5000E]-Pos14/0/1-10GRoutePort,TheMaximumTransmitUnitis4470,Holdtimeris10(sec)LinklayerprotocolisnonstandardHDLCTheVendorPNisTRF5013FN-GA420BW:10G,TransceiverMode:SingleModeWaveLength:1310nm,TransmissionDistance:10kmRxPower:-4.19dBm,TxPower:-3.61dBmPhysicallayerisPacketOverSDHScrambleenabled,clockmaster,CRC-32,loopback:noneFlagJ0NetEngineFlagJ1NetEngineFlagC222(0x16)SDHalarm:sectionlayer:nonelinelayer:nonepathlayer:noneSDHerror:sectionlayer:B127718linelayer:B25280699REI19468456pathlayer:B329965REI298424Statisticslastcleared:2010-06-1900:07:18Last300secondsinputrate173429616bits/sec,175337packets/secLast300secondsoutputrate128929032bits/sec,147236packets/secInput:4288449391609packets,516615573665937bytesInputerror:831001shortpacket,0longpacket,134464CRC,0lostpacketOutput:3632071391762packets,389765440460318bytesOutputerror:0lostpacketsOutputerror:0overrunpackets,0underrunpacketsSCMIY-BA-IPNET-RT01-NE80Ediswanintgi4/0/0GigabitEthernet4/0/0currentstate:UPLineprotocolcurrentstate:DOWNPhysicallayerisPacketOverSDHScrambleenabled,clockmaster,CRC-32,loopback:noneWANfull-duplexmode,PauseFlowcontrol:ReceiveEnableandSendEnableSDHalarm:sectionlayer:nonelinelayer:nonepathlayer:noneSDHerror:sectionlayer:B180838linelayer:B215512914REI22140099pathlayer:B380317REI350797WANAlarm:noneLast300secondsinputrate111568424bits/sec,135143packets/secLast300secondsoutputrate114920064bits/sec,140780packets/secInput:344474683111654bytes,3447083405908packetsOutput:350754530903358bytes,3540292383612packetsInput:Unicast:3447014714460,Multicast:68645131Broadcast:46317,JumboOctets:0CRC:1,Symbol:1Overrun:0InRangeLength:0LongPacket:0,Jabber:0Fragment:0,UndersizedFrame:0RxPause:25Output:Unicast:3540229209899,Multicast:63166670Broadcast:7043,JumboOctets:0System:0,Overruns:0TxPause:12多次执行disint指令(如果是10GWAN口则用diswanint指令,重点看B1/B2/B3误码和CRC错误,是否有增长。有无传输、尾纤、光模块问题单板转发异常1.协调传输专业检查2.插拔、清洁、更换尾纤3.更换光模块最有效的定位方法:打环测试见下页一、华为单板转发异常问题的分析与处理方法(续)维护人员需要掌握的分析及处理技巧:第三步:判明存在“转发异常类故障”后,如何处理?联络职责部门,尽快将业务切走(故障处理原则:先恢复业务,后分析处理)interfacex/x/xospfcost10ospfcost100建议不要用shutdown,而要采用增大cost的方式(约定增加到100),5分钟内可以观察到链路流量逐步降至接近于0。理由1:如果shutdown,则业务就处于单边运行,一旦另一边再发生故障,业务将全阻理由2:shutdown后不利于后续故障原因定位分析此外,若是传输、尾纤、光模块原因引起的丢包,只要路由协议没有发生切换,建议也要人工将业务切走。注:如果是AR互联或上联接口,采用IS-IS协议,则开销在原基础上增加100000。第四步:如何处理异常单板?复位ME,复位单板,更换单板(毋忘流程)注:稳妥起见建议请厂家专业人员处理二、更换引擎板操作的特别注意事项分公司作为现场维护第一职责,时常需要对故障单板进行更换操作,对于LPU板的更换相对简单,而对于MPU板(引擎板)的更换则有一些特别注意事项:1.CF卡与内存条的更换CFcard1CFcard2RAM1&2MPU板载有两块CF卡和两块内存条,通常在更换故障MPU板时,备件并不会包含CF和RAM,需要利旧原MPU上的,需要注意:a.CF卡和RAM条的安装位置(如下图)b.CF卡的位置顺序不能颠倒,RAM条的顺序位置则无要求c.CF卡和RAM都不支持热插拔,必须先插好,才能将MPU推入插槽(包括更换LPU时,光模也必须先插好,这是避免丢失配置,而不是热插拔的原因)二、更换引擎板操作的特别注意事项(续)2.引导文件(bootfile)的设置步骤类似于PC启动需要在C盘引导区寻找操作系统引导文件,路由器MPU板也需要在CF卡中找到VRP文件用于引导。但一块全新的引擎版无法得知CF卡中启动文件的确切路径以及文件名,因此首次启动需要人工指定。更换LPU板时,现场维护人员可以不携带笔记本电脑及CONSOLE线缆,但更换MPU板时,则必须要带!a.提前记录好当前CF卡中VRP文件的文件名(dir指令可以看到),后面用到如:cfcard:/v300r003c02b697.ccb.新单板插入后,立刻将CONSOLE线缆插入该MPU的CONSOLE口(不要插错到METH口,否则可能会烧)c.根据《操作笔记》中的步骤指定引导文件位置及文件名注册时间正常应该在20分钟以内,超出则不正常,请联系技术支持三、防尘网清理告警的处理方法为保证系统散热和通风状况良好,避免防尘网被灰尘堵住,必须定期清洗防尘网。华为研发考虑到维护人员可能会忘记,因此设计了一项计时器,缺省365天会产生一条告警,用于提醒。实际防尘网清洗间隔应根据机房环境情况酌情掌握(建议1到3个月)。Quidwaydispalarmall----------------------------------------------------------------------------IndexLevelDateTimeInfo1Error11-02-1607:57:56Theairfilterisfailed,Maybeitisnotcleanedasscheduled.Pleasecleanitandruntheresetdustproofrun-timecommand----------------------------------------------------------------------------若收到故障工单:防尘网告警,可登陆设备用disalarmall指令确认,会看到:这时需要做的:1.清理防尘网(若近期刚清过则不必)2.执行resetdustproofrun-time以清除告警(不会自动清除)注:告警并没有和实际拆装防尘网的动作关联NE80E防尘网拆卸方法NE40E防尘网拆卸方法四、对光功率指标的日常维护关注意义及手段链路中断或者丢包,影响业务尾纤受损光模块故障路由器与尾纤、传输与尾纤接口松动ODF架接口松动光衰失效路由器收光不符合规范,偏高或者偏低根源表因表象维护难点:光功率巡检低效、数量多、分布广,且均为哑设备、无法监控—迫切需要自动巡检手段快速发现光功率隐患,实现对影响光功率的各类哑设备监控1、光功率异常影响业务的故障1、某省出省链路中断,出省业务中断1小时53分。故障原因:链路一侧设备尾纤与ODF架接口松动光功率偏低

1 / 17
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功