13处理以太网故障关于本章本章介绍以太网相关故障原因和处理方法。13.1业务劣化介绍以太网业务劣化的故障处理步骤。13.2LB测试失败LB测试失败的原因及处理。13.3测试帧无法使用测试帧功能无法正常使用时的常见故障原因和处理。13.4以太网业务类案例与以太网业务相关的案例分析。13.1业务劣化介绍以太网业务劣化的故障处理步骤。故障现象业务发生劣化。对系统的影响影响业务。可能原因以太网业务劣化的可能原因如下:故障处理流程图以太网业务劣化的故障处理流程如图13-1所示。业务量大,带宽配置不够或者带宽充足,但业务突发量大业务量过大时,对端设备不响应端口属性和对端设备不匹配,造成工作在异常状态物理层出现故障图13-1以太网业务劣化的故障处理流程图否否否否否否否是是是是操作步骤原因1:业务量大,带宽配置不够或者带宽充足,但业务突发量大。1.故障导致相应网元的RMON事件,关于RMON事件的处理步骤,参见《告警与性能事件参考》。原因2:业务量过大时,对端设备不响应。1.通过使能两端设备流控功能来抑制网络中业务的传输量,减少或者抑制丢包。关于使能流控功能的步骤,请参见《配置指南》。原因3:端口属性和对端设备不匹配,造成工作在异常状态。1.检查端口属性设置,并修改不匹配的设置。关于端口属性的设置,请参见《配置指南》配置以太网业务。原因4:物理层出现故障。1.检查告警,是否有ETH_8B10B_ERR告警,如果有,处理此告警。----结束13.2LB测试失败LB测试失败的原因及处理。故障现象LB测试失败IEEE802.3ahOAM自动发现失败(上报ETHOAM_DISCOVER_FAIL告警)远端严重故障(本端上报ETHOAM_RMT_CRIT_FAULT告警)远端链路以太网性能劣化(本端上报ETHOAM_RMT_SD告警)本章主要讲解如何处理LB测试失败的情况,其余3种情况请参考《告警和性能事件参考》手册处理。可能原因LB测试失败的可能原因如下:原因1:MP所在的外部物理端口没有使能。原因2:源宿MP所在的端口的端口属性不一致。原因3:源宿MP所在的端口的端口属性为UNI时,TAG标识不一致。原因4:MP的VLANID和业务的VLANID不一致。原因5:源和宿MP的级别不一致。原因6:源和宿MP之间存在级别更高的MEP或者MIP。原因7:以太网业务是单向业务。原因8:以太网业务中断。工具、仪表和材料U2000操作步骤原因1:MP所在的外部物理端口没有使能。1.网元管理器中选择网元。2.导航树中选择以太网业务处理单板。3.在功能树中选择以太网接口管理以太网接口,单击。4.选择外部端口。5.单击基本属性选项卡,确保维护点所属的端口的端口使能为使能。原因2:源和宿MP所在的端口的端口属性不一致。1.网元管理器中选择网元。2.导航树中选择以太网业务处理单板。3.在功能树中选择以太网接口管理以太网接口,单击。4.选择外部端口或内部端口。5.单击网络属性,查看端口属性是否一致。原因3:源和宿MP所在的端口的端口属性为UNI时,TAG标识不一致。1.网元管理器中选择网元。2.导航树中选择以太网业务处理单板。3.在功能树中选择以太网接口管理以太网接口,单击。TAG属性,查看端口的TAG标识是否一致。只有端口属性为PE或UNI时,TAG标识才有意义。原因4:MP的VLANID和业务的VLANID不一致。1.在导航树中选择以太网业务处理单板,在功能树中选择配置以太网维护以太网业务OAM,单击。2.单击查询,检查MP的VLANID是否和业务的VLANID一致。原因5:源和宿MP的级别不一致。1.在导航树中选择以太网业务处理单板,在功能树中选择配置以太网维护以太网业务OAM,单击。2.单击查询,检查源和宿MP的级别是否一致。原因6:源和宿MP之间存在级别更高的MEP或者MIP。1.在导航树中选择以太网业务处理单板,在功能树中选择配置以太网维护以太网业务OAM,单击。2.单击查询,检查同一维护域内源和宿MP之间是否存在级别更高的MEP或者MIP。原因7:以太网业务是单向业务。1在导航树中选择以太网业务处理单板,在功能树中选择配置以太网业务。2选择以太网专线业务或者以太网专网业务,单击。LB测试是基于双向以太网业务的。原因8:以太网业务中断。1.参见4处理业务中断故障。----结束13.3测试帧无法使用测试ahref=魔兽私服/a帧功能无法正常使用时的常见故障原因和处理。故障现象测试帧功能无法正常使用。对系统的影响无可能原因原因1:使能测试帧的VCTRUNK端口未绑定时隙。原因2:对接两端交叉业务的时隙不一致。原因3:对接两端VCTRUNK端口的测试帧承载方式不一致。工具、仪表和材料U2000操作步骤原因1:使能测试帧的VCTRUNK端口未绑定时隙。1.确认需要使能测试帧的VCTRUNK端口是否绑定了时隙。原因2:对接两端交叉业务的时隙不一致。2.确认对接两端交叉业务的时隙是否一致。原因3:对接两端VCTRUNK端口的测试帧承载方式不一致。1.确认本端VCTRUNK端口与对接的对端VCTRUNK端口的测试帧承载方式是否一致。----结束13.4以太网业务类案例以下案例涵盖OptiXWDM系列产品的相关案例。相关案例:MC-A3FDG单板在凌晨上报R_DATA_LOST告警MC-A4LOG单板与FDG单板客户侧对接不成功MC-A5LQG单板有ALM_DATA_RLOS和ALM_DATA_TLOS告警瞬报MC-A6LDG单板不断瞬报ALM_DATA_TLOS和ALM_DATA_RLOS告警MC-A17波长不匹配导致LQG对应通道上报ALM_DATA_RLOS及ALM_DATA_TLOS告警MC-A30OptiXMetro6100设备的LDG单板上报INBADOCTS_OVER告警MC-A96L4G单板以太网业务测试中发生丢包MC-A117LBE单板上报ALM_DATA_RLOS和ALM_DATA_TLOS告警的分析处理MC-A158OptiXOSN6800设备以太网测试帧使用说明14处理ECC故障关于本章WDMahref=魔兽私服/a系统之间的通信模式为:首先网管和网关网元之间通过TCP/IP协议传递信息,然后网关网元和非网关网元之间通过ECC进行通信;昀终实现了网管和非网关网元之间的通信。14.1ECC通信中断介绍ECC通讯中断的故障的可能的原因和处理方法。14.2ECC通信时断时通ECC通信时断时通故障的处理方法。14.3主控频繁复位介绍ECC通信负荷过重导致主控板频繁复位故障的解决方法。14.4ECC类案例与ECC相关的案例分析。14.1ECC通信中断介绍ECC通讯中断的故障的可能的原因和处理方法。故障现象主业务正常,ECC通信中断故障导致网元脱管。对系统的影响对脱管网元无法管理。可能原因原因1:网元的ID重复。原因2:OSC单板的尾纤故障。原因3:SCC单板故障。原因4:OSC单板故障。原因5:OTU单板故障。工具、仪表和材料WEBLCT、光功率计操作步骤原因1:网元的ID重复。1.WEBLCT登录网元,根据记录恢复原网元ID。该操作参见《调测指南》修改网元ID和IP。原因2:OSC单板的尾纤故障。1.沿信号流方向检测故障网元OSC单板的尾纤情况。若松动,请插紧尾纤;若尾纤有问题,清洁或更换尾纤。清洁尾纤操作参见《任务集》检查及清洁光纤连接器。OSC单板尾纤连接情况,确保正确。在开局调测过程中,由于FIU单板、光监控信道板接口较多,接口名称相近,容易引起连接错误。建议在调测一个方向时,最好将监控信道板另外一个方向目前不使用的RM光口和TM光口加光衰减器自环,避免连接错误的问题。原因3:SCC单板故障。1沿信号流方向,先复位故障站点的SCC单板,查看是否可以登录。2若不能登录,拔出故障点SCC单板,使ECC穿通,观察下游站点是否恢复正常。若恢复正常,说明SCC单板故障,更换SCC单板。原因4:OSC单板故障。1.沿信号流方向更换故障点OSC单板,观察网络是否恢复正常。若恢复正常,说明OSC单板故障,更换该单板。原因5:OTU单板故障。1.沿信号流方向更换故障点OTU单板,观察网络是否恢复正常。若恢复正常,说明OTU单板故障,更换该单板。----结束14.2ECC通信时断时通ECC通信时断时通故障的处理方法。故障现象ECC通信时断时通,造成网元频繁脱管。对系统的影响脱管网元无法管理。可能原因原因1:时钟跟踪设置错误。工具、仪表和材料WEBLCT操作步骤原因1:时钟跟踪设置错误。1.设置正确的时钟跟踪。正确的时钟设置请参见《配置指南》设置网元时钟源配置时钟跟踪的要求为,全网设备必须跟踪同一时钟源。对于波分设备,需要将某个站点(对于链形组网,时钟源一般设置在端站,不建议设置在中间站点。)的内部时钟源设置为最高优先级,其他站点均跟踪此时钟源。----结束14.3主控频繁复位介绍ECC通信负荷过重导致主控板频繁复位故障的解决方法。故障现象ECC通信负荷过重导致主控板频繁复位,网元频繁脱管。对系统的影响脱管网元无法管理。可能原因原因1:ECC通信负荷过重。工具、仪表和材料WEBLCT、测线仪操作步骤原因1:ECC通信负荷过重。网络规模过大,网元间ECC通信的规模超过网元处理能力的极限,使主控频繁复位。1检查网络规模。网络规模需要控制在100个网元以内。当网络规模超过上述数目,则必须对ECC网络进行划分,为每个网络建立DCN管理通路,成为相对独立的ECC子网。一个网关网元下所带的网元数目要求不超过50个。2检查单站网元规模。当多个设备通过HUB相连(或者使用子架间级联)使用网口的扩展ECC功能进行通信时,建议连接在同一HUB上开启自动扩展ECC功能的设备不超过4个,4个以上的建议采用人工扩展ECC方式进行通信,避免ECC风暴。人工扩展ECC设置参见《调测指南》设置人工扩展ECC通信。----结束14.4ECC类案例相关的案例分析。以下案例涵盖OptiXWDM系列产品的相关案例。相关案例:MC-A22OTU的激光器关闭导致NEESC通信中断MC-A64由于ECC风暴造成大量BD_STATUS告警MC-A81ALC不能运行MC-A110关于波分网元扩展ECC的常见疑问MC-A113波分HUB连接DCN网络后,设备与DCN网络之间通信不通MC-A135由于主机软件无法将ECC通道由光监控信道类单板自动切换至光波长转换类ahref=魔兽sf/a单板,导致网元出现脱管MC-A181路由器处理能力不足导致网元频繁脱管15处理时钟故障关于本章本章介绍以时钟不同步故障的因和处理方法。15.1PTP时钟不同步本节介绍PTP时间不同步故障的可能原因和处理步骤。15.2物理层时钟不同步本节介绍物理层时间不同步故障的可能原因和处理步骤。15.1PTP时钟不同步本节介绍PTP时间不同步故障的可能原因和处理步骤。故障现象处理时钟故障时,通常会遇到以下故障告警:TIME_LOS,EXT_TIME_LOC,TIME_NO_TRACE_MODE。消除设备上报的告警后,故障也随之排除。对系统的影响网络中时间源丢失时,会影响1588时间的跟踪,影响整网时间的同步,影响整个网络系统的高精度时间输出。可能原因原因1:优先级表中业务板上的同步时间源丢失。原因2:外部时间源丢失。原因3:时钟进入非跟踪工作模式。工具、仪表和材料U2000操作步骤原因1:优先级表中业务板上的同步时间源丢失。1.U2000上查询STG单板是否有TIME_LOS告警。具体操作请参见《任务集》的在U2000上查询部件的当前告警和性能事件。2.参考《告警和性能事件参考》手册,处理TIME_LOS告警。原因2:外部时间源丢失。1.U2000上查询STG单板是否有EXT_TIME_LOC告警。具体操作请参见《任务集》的在U2000上查询部件的当前告警和性能事件