华为MA5200&ME60设备详细故障处理手册1目的MA5200&ME60产品应急预案,是针对华为公司BRAS设备在现网运行过程中或者操作过程中可能出现的紧急问题,如业务异常倒换、网络流量异常、设备异常告警、报文转发故障、单板异常、端口异常等而制定的操作指导,其目的是在网络发生故障时,提供紧急维护的手段,迅速恢复业务同时最快速度收集处理信息。2使用对象设备维护人员3适用场合指导一线工程师进行迅速恢复业务、初步的故障定位与排除。4故障处理第一步:定位出故障点时间要求:本步骤最长时限为半小时;可参考资料:重点网络应急预案;周边资源:办事处工程师、400工程师。4.1故障处理的总体思路无备份路径或备份节点故障出现找故障点有备份路径或备份节点4.2定位故障的几个关键点:1、确定故障的影响范围,初步判断网络故障位置;2、确定通过ping、trace命令逐步查找除故障点,初步确定大致故障点,ping、trace命令使用时请灵活携带源地址、MTU等参数;3、通过查看设备状态、单板状态、路由状态、日志等信息,判断属于网络问题还是设备的软、硬件问题,将故障点定位到单台设备、单个单板、单个端口、甚至更小;5故障处理第二步:故障信息采集(如存在备份路径,请先考虑通过备份路径恢复业务。)为了后续问题的定位与彻底解决,工程师需尽可能全面的采集相关故障信息:1.故障定位的过程中需保留所有操作记录;2.就各故障,给出相应需要采集的信息,可参考各产品应急指导书。时间要求:本步骤最长时限为15分钟;可参考资料:各产品应急指导书,故障信息采集工具;收集信息恢复业务恢复业务收集信息周边资源:办事处工程师、研发工程师。5.1MA5200&ME60产品故障的信息采集列表:5.1.1MA5200&ME60系列产品和其他产品对接问题信息采集列表1.查看端口状态dispinterface至少执行三次以上(双方设备都执行)2.通过ARP命令查看是否能学到对端端口的MAC地址3.了解组网,有无传输、光电等中间设备4.检查两端设备端口模式5.查看路由情况dispiprouting-table6.查看有无配置相关ACL7.两端设备的告警信息8.POS/ATM等接口,了解时钟,JO,J1等参数的配置5.1.2框式MA5200产品信息采集:按照信息脚本进行信息采集即可5.1.3MA5200F产品信息采集除按照信息采集脚本采集相关信息以外:1.单个端口业务不通[MA5200E-diagnose]looptestport[端口号]internal100010//做端口内环测试[MA5200E-diagnose]looptestport[端口号]external100010//做端口外环测试2.整机自动重启[MA5200E-diagnose]dispdiagnose-trap[MA5200E-diagnose]dispexception050MA5200Fmoredyingwish5.1.4MA5200G产品信息采集1.按照信息采集脚本进行信息采集2.按照各类问题信息生成工具生成脚本,进行信息采集3.收集硬盘上的当月的log信息5.1.5ME60产品信息采集1.按照信息采集脚本进行信息采集2.收集CF卡的log信息6故障处理第三步:恢复业务在重大事故处理过程中,工程师最重要的任务就是在要求的时间范围内恢复业务。本步骤给出常用的恢复业务方法,及其对应的使用环境等。时间要求:本步骤最长时限为15分钟;可参考资料:各产品应急指导书、办事处重点网络应急预案;周边资源:办事处工程师、研发工程师。6.1启用备份路径(数据调整)1.适用环境:MA5200&ME60产品接入侧一般没有备份路径,对于双上行或者端口捆绑的应用可以启用备份路径的操作2.操作方法:将故障的一条链路down掉,拔掉故障链路的光纤,使业务在正常的链路上运行即可3.注意事项:操作前注意采集端口状态、收发包情况等端口信息6.2配置恢复:此恢复措施主要用于设备配置数据丢失的情况,目前MA5200&ME60产品上未遇到此类事故。6.3复位接口复位接口的一般操作方法,建议按照下面的顺序进行操作1.命令复位shutdown、undoshutdown2.插拔网线和光纤6.4复位(更换)单板:插拔单板恢复业务时,对于MA5200G产品,一定先执行downsfu的操作,以免导致其他单板复位6.5复位整机整机复位,建议依次按照以下顺序进行复位1.命令行复位2.按主控板的reset键复位3.设备直接掉电复位6.6版本倒回此恢复业务的方法主要用在版本升级后的重大事故,把重新制定下次设备重启的实主机版本和配置文件,设备整机复位即可6.7割走业务在规定的时间内以上操作均不能恢复业务的,需要将中断的业务割接到其他槽位或者其他设备,在最短时间内恢复业务