XX公司问题处理报告2015年1月■版权声明一、编写目的本报告主要贵公司使用AC设备出现断网问题排查过程及结果反馈,并根据在2014年12月30日的问题现象为主要分析依据,根据分析结果提交我司问题分析处理报告。二、问题分析与处理结果汇报2.1问题现象客户在12.30的下午14.18分钟左右,反馈断网了五分钟左右。2.2问题影响导致客户网络全网中断5分钟2.3问题排查过程根据客户反馈时间点,取了当天的黑匣子,分析黑匣子,事发点负载、内存、CPU均是正常,系统服务、dmesg无异常。接下来我们分析接口流量。LAN口接收、发送流量图如下:WAN口接收、发送流量图如下:根据接口流量看,出问题时间点大概在14点15分----14点22分之间。从14点15分开始,lan口接收流量突然变小了,pps在400至600之间,而发送流量几乎很小;wan口同样接收流量几乎很小,发送流量和lan口接收流量一直。分析流量结果是:出问题时候,内网请求外网流量突然变小了,而外网几乎没有回应内网请求。根据如上现象分析原因:1.根据设备记录,设备lan口和wan口流量一致,内网有流量发出去,是外网没有回应,外网有问题可能性大。此时若是AC有问题,那么wan口的接收流量是不会和lan口的发送流量一致的,因为AC拒绝的原理是PC请求之后,外网会回应,这时流量会到达AC的wan口,AC再去reset外网的回应,也就是说这时候AC的wan口是可以看到有接收流量的,但实际上并没有,所以AC出问题可能性不大。若客户内网可以分析到出问题时核心交换机流量和出口设备流量,是否和AC一致,也可以判断出问题所在。2.客户反馈出问题,登录AC开直通就好了。根据我们分析设备本身并无异常,且若开直通正常,设备会记录被拒绝的日志(可查询数据中心出问题时间段日志)。且若全网断网,这个时间段的数据中心日志应该是几乎没有的,因为数据外网不回应,就不能够被设备识别了。所以AC问题可能性很小,可能刚好客户开直通时网络恢复了,但未查明具体原因之前,我们并不排除AC有问题。三、解决方案根据分析结果,给出以下方案:1.内网全网断网情况,那么到外网是不通的。我们可以用ping简单测试下,是到哪里开始不通的。例如内网环境:PC----SW----AC-----R-----ISP,我们可以拿PC,同时去pingSW地址、pingAC地址、PC路由器地址、pingISP运营商地址、ping外网dns地址,根据ping结果反馈是到哪里开始不通的,即可判断出故障点。2.我们给设备打上抓包工具,待经过设备流量变小时,启动抓包脚本,抓取经过设备的数据包,根据数据包分析,判断出故障点。