LTE网络速率不稳定分析处理思路1.问题描述昆明电信接到用户投诉,反馈在昆明郊县嵩明电信公司站点下,4G用户使用FDDLTE网络上网时,出现速率不稳定的情况,时而正常,时而无法进行高速下载业务,现场测试当前UE占用嵩明电信局站点PCI211和PCI212信号RSRP在-65dBm左右,现场多次插拔终端测试后有时能进行FTP下载业务,有时不能进行FTP下载业务如下截图:速率异常的情况测试软件截图:速率正常的情况测试软件截图:2.问题分析(1)查询基站运行状态告警信息:无功率及RSSI值正常(3)核查网管参数从接入参数、重选参数、切换、3G-4G互操作涉及参数进行核查对比,核查结果参数配置正确;(4)CQT定点测试现场选点进行CQT定点测试,选取速率异常的情况,截图如下,从层三信令上看,已经RRC连接完成,在核心网侧进行信令跟踪,根据核心网反馈的信息,跟踪的测试卡,有业务正常的情况,也有异常的情况,当异常的时候,网站对ue发送的数据包有大量的重传,而当正常的时候,很少会有重传(见截图),部署的东华、二枢核心网上的都存在相同的问题,在昆明进行测试,未发现异常的情况,所以怀疑承载网络、基站无线侧有问题。基本可以排除核心网侧的问题。速率异常的情况测试软件截图:正常时数据抓包截图:(按数据包大小进行降序排列)异常时数据抓包截图:(按数据包大小进行降序排列)(4)选取多个站点进行对比测试现场选取物理不关联的嵩明河东口站点进行测试,和在电信大楼基站测试情况类似;由此可以确定,不是单站的问题,而是嵩明片区可能存在共性的问题;由此,进行排查传输故障;(5)PING包测试根据核心网反馈的的情况,现场进行业务面PING包测试,结果如下:包长为800以下无问题大于830的包无法PING通;体现的故障现象和核心网反馈的信息基本吻合,需要进一步进行排查,整个传输环节,可能导致基站建立业务连接时候,可能导致大包重传率高的故障,采用逐段分析法进行排查:基站通过A设备接入IPRAN传输网络,往上是B设备,通过波分网络再到部署在昆明东华中心机房的ER设备,ER设备经过波分到达昆明4GEPC核心网,由于所测试的2个基站,上挂不同的传输IPRAN网络的A设备,通过对A设备参数的核查对比,没有发现问题,而且该故障只发生在嵩明片区,昆明市其他区域正常,由此,得出结论:需要重点排查嵩明B设备及B设备到ER设备整个传输通道链路;因此我们进行如下测试:1)A设备同时连接嵩明B1设备和B2设备时现场插拔终端,会随机性出现速率异常的情况。测试效果如下:2)将嵩明B1设备和B2设备的互联电路断开,A设备只连接B2设备;重复进行多次测试开关机,重选网络进行接入,没有速率异常的情况发生,测试业务正常。测试效果如下:3)将嵩明B1设备和B2设备的互联电路断开,A设备只连接B1设备重复进行多次测试开关机,重选网络进行接入,速率异常的情况始终发生,测试业务始终异常。测试效果如下:由此可以看出,只要传输路径选取A设备到B1设备的时候,业务始终异常,只要传输路径选取A设备到B2设备的时候,测试始终正常,问题的故障,出现在B1设备及到昆明东华中心机房ER设备链路上,需要具体的进行故障处理;3.问题处理通过对故障问题的分析、排查、判断,故障出现在嵩明B1设备及到昆明东华中心机房ER设备链路上,我们又选取了3-4个基站进行验证,测试的情况和上述故障现象一致,基本可以定位为:B1设备及到ER设备链路上;需要具体的进行故障处理;1)排查B1设备参数,经过传输人员对B2设备的参数核查及对比,没有发现异常;2)排查B1设备到ER设备的链路质量问题,通过对光路质量的排查:光路收发光功率正常,波分设备上检查的结果也正常,没有异常的情况;3)排查ER设备端口,检查ER设备对接B1设备的端口参数配置,没有问题;4)检查ER设备对接嵩明B1设备的端口设备,查看尾纤是否插紧,通过拔插光模块,发现光模块有发热的迹象,尝试更换该端口的10G光模块,清洗尾纤,重新进行测试;测试场景:将嵩明B1设备和B2设备的互联电路断开,A设备只连接B1设备,之前测试的结果全部异常,更换光模块测试后测试,测试结果全部正常;5)选取3-4个站点继续进行测试,重复进行多次测试开关机,重选网络进行接入,没有再出现异常的情况,基本定位了故障原因,并进行相应的处理;6)恢复嵩明B1、B2设备的互联电路,并恢复其下挂A设备的正常双路径的连接关系,对之前测试异常的站点进行复测,测试情况已恢复正常,没有出现速率异常的情况,核心侧跟踪,也没有发现大包重传的故障,故障得以解决;4.问题总结嵩明电信FDDLTE网络速率不稳定问题的排查,从排查初期,没有系统的收集分析客户投诉,没有通过严谨的测试去判断故障问题点,出发点始终在无线网络上各环节,很容易忽略了传输网络可能存在故障,同时,传输网络存在故障的可能性,是通过对嵩明片区基站共性问题得以暴露,缺少有效联合定位排查手段,这是我们需要在今后维护工作中重点去总结的;通过此次故障排查,我们得知:IPRAN核心层是通过VPNV4-ECMP(等价路由)来进行链路的保护,从B设备网关会有两条等价的路由到EPC,业务流量上行和下行具体路径是无法人为确定的,是通过哈希算法随机计算的,但总体上保持两条链路负载分担,当流量跑在有问题的链路上时,就造成业务影响。LTE网络全IP、扁平化的架构,使无线侧和传输侧、核心网侧联系的更加紧密,但对维护技能提出更高的要求,传输侧光模块已经进行更换,此类故障问题故障点比较隐蔽且发现的手段较少,是需要我们在日常故障中去积累的经验,也需要日后重点去寻求发现问题的有效手段,为现有网络安全运行提供坚实的保障基础。