WLAN网络维护优化指导手册(V1.0)湖南公司网优中心2011年8月2目录第一章设备维护篇............................................................................41.AC故障问题...............................................................................41.1上线bas错误问题.....................................................................41.2发生上线bas错误的原因及案例分析......................................51.3错误话单问题..........................................................................101.4发生错误话单的原因及案例分析...........................................111.5错误话单问题小结..................................................................141.6其他AC设备故障....................................................................152.AP故障问题.............................................................................192.1AP设备问题..............................................................................212.2POE交换机问题........................................................................232.3断电问题..................................................................................252.4传输问题..................................................................................262.5数据配置问题..........................................................................27第二章网络优化篇..........................................................................311.无法搜索到移动信号问题........................................................311.1无法搜索到网络问题排障流程................................................3231.2无法搜索到网络问题案例........................................................332.无法关联问题...........................................................................432.1无法关联问题排障流程............................................................442.2无法关联问题案例...................................................................443.无法上网问题...........................................................................513.1无法上网问题排障流程............................................................513.2无法上网问题案例...................................................................524.速度慢问题...............................................................................644.1速度慢问题排障流程................................................................644.2速度慢问题案例.......................................................................655.掉线率高问题...........................................................................915.1掉线率高问题排障流程............................................................915.2掉线率高问题案例...................................................................926.用户不能正常登录问题...........................................................1006.1用户不能正常登录问题处理流程..........................................1016.2用户不能正常登录问题案例..................................................1024第一章设备维护篇1.AC故障问题1.1上线bas错误问题上线bas错误产生原因分析:上线bas错误的定义:在认证过程中ac返回了网络错误的错误码(4),或者返回未知错误码,或者接收ACK-CHALLENGE或ACK_AUTH包超时15秒失败,一般认为是网络或设备原因。在用户上线流程图中,和发生上线bas相关的交互步骤:(1)如果查询成功,PortalServer向AC请求Challenge;(2)AC分配Challenge给PortalServer;(3)PortalServer向AC发起认证请求;(4)而后AC进行Radius认证,获得Radius认证结果;(5)AC向PortalServer送认证结果;WLAN用户门户网站(Portal)接入控制器(AC)连接请求请求认证认证结果推送归属地定制的页面,通知用户认证结果,并启动正计时提醒用户请求,通过AC强制到Portalserver统一认证页面推送请求Challenge分配Challenge查询用户信息返回查询结果及用户连接时长相关信息RadiusRADIUS认证流程如果查询失败,直接给出提示信息,结束认证判断归属地用户上线Chap认证流程图上线bas错误包括以下四种情况:5(1)AC未发送Ack_challenge、Ack_auth或者发往Portal服务器的Ack_challenge、Ack_auth丢失。(2)Portal服务器接收Ack_challenge、Ack_auth超时15秒。(3)AC发往Portal服务器的Ack_challenge或者Ack_auth的报文带有errcode4信息。以下2种情况AC将发送带有错误码4的报文:AC在准备发送Ack_challenge时,发现Req_challenge报文中的保留字段不为0或者AC没有能产生16位的挑战值,此时AC将发送携带错误码为4的Ack_challenge报文到Portal,表示AC设备告诉PortalServer此用户请求Challenge失败。AC在收到REQ_AUTH时,发现该报文中的REQ_ID和之前Req_challenge中的REQ_ID不相等,从而认为该用户登录操作出现异常,发送携带有错误码4的AUTH_ACK报文到Portal,表示AC设备告诉PortalServer此用户认证失败。(4)AC设备设计缺陷,在发往Portal服务器的Ack_challenge或者Ack_auth的报文中带有其他未知errcode值信息。上线bas错误产生的主要原因:(1)AC设备问题(2)参数设置问题(3)设备性能问题(4)网络丢包问题1.2发生上线bas错误的原因及案例分析1.2.1AC设备问题主要原因:(1)AC因设计缺陷,在发往Portal服务器的Ack_challenge、Ack_auth的报文中带有其他未知errcode值信息。(2)AC内进程发生错误导致无法响应Portal服务器的请求,导致Portal服务器无法接收到响应报文,记录为上线bas错误。(3)AC和Portal之间通过UDP报文进行交互,在交互过程中UDP端口学习错误,将导致Portal无法接收到正确的响应报文,发生上线bas错误。(4)网络丢包导致AC和Portal之间的数据包丢失重传,因丢包重传引发超时,发生上线bas错误。相关案例分析:6案例一:AC响应Portal服务器的认证报文中携带有未知errcode值,发生上线bas错误。故障描述:某厂家现网AC发生认证接通率低的问题,通过抓包分析发现,在AC相应Portal的报文中存在errcode10。AC设备版本设计缺陷导致在发往Portal服务器的Ack_challenge、Ack_auth的报文中存在错误代码errcode10,此代码不符合移动集团规范,Portal将带有errcode10消息的响应报文记录为上线bas错误。导致用户认证失败。解决方案:依据《中国移动WLAN用户接入流程技术规范(WEB)V3.0.0》要求,在AC版本中,将errcode10值修改为符合规范的errcode值,解决因未知errcode值导致的上线bas错误。案例二:AC内认证模块异常退出,导致发生上线bas错误。故障描述:某厂家设备出现大量上线BAS错误通过AC日志分析发现AC认证模块发生重启的现象。进一步根据AC调试信息进行定位:分析认证代码后发现认证模块在发送停止计费时有空指针的现象。如果进程发生空指针那就会出现异常,从而引起进程退出。分析认证逻辑后发现在认证模块启用了STOP机制,也就是防止用户吊死在RadiusServer的功能情况下发送STOP停止计费报文就会有空指针的风险,这就会导致认证模块异常退出。在认证模块退出情况下,如果发起认证请求,则AC无法响应报文challenge或Auth报文导致认证,就会造成上线bas错误。解决方案:通过升级新版本,修改认证模块代码,解决因认证模块异常退出而发生上线bas错误的问题。案例三:交互过程中AC学习UDP端口号错误,导致发生上线bas错误。故障描述:AC和Portal之间通过UDP报文进行交互。通过抓包发现AC存在UDP端口号学习错误的问题。在交互过程中,如果期间有其他用户进行认证交互,AC会学习到其他用户的端口号。以这个端口号给Portal回应确认报文,AC无法识别7该确认消息,发生上线bas错误。用户将显示认证失败,不能正常登录使用。2011-03-0211:18:53.251408igw8021x[2248]:debug[P]STA(10.0.20.75)ReceiveREQ_AUTHfromPortalS