CSNA网络分析专家案例分析报告报告提交时间2010-11-23报告提交人陈金绚2010年11月网络分析报告系统,在每天业务高峰(22:30至23:30)时段都会接到大量的用户投诉:网站访问不了!在故障时间段,web服务器和各网络设备的进程、资源开销与平时相比并无异常;事后查看各设备的日志,也找不到故障的原因。1.2.基本环境描述用户基本网络拓扑如下图所示,3G手机用户经过无线网络后,通过3G核心网访问webportal系统,webportal系统内部由多台服务器上联到一台交换机,通过Redware做负载均衡,再通过出口路由器和防火墙上联到3G核心网:系统管理员一直尝试通过监控服务器和网络设备本身的状态、进程和日志的手段来解决问题,但这种传统的网管方式存在以下几个难点:系统结构复杂:系统管理员没有3G核心网的管理权限,而webportal系统内部需要监控的设备很多,工作量大,无法迅速定位是webportal系统内部还是3G核心网端的问题;无法关联分析:不同设备的监控数据无法进行有效的关联分析,无法拿出一个整体解决方案;缺乏故障回溯数据:各设备的日志系统内容有限,无法对故障进行回溯;监控网络设备时无法获取应用信息,监控应用服务器时无法获取网络信息。网络分析报告分析目标借助网络协议分析工具,能够从网络的角度分析到应用信息,实现webportal系统端到端的性能监控,分析webportal系统在故障时间段与平时相比有何异常,最终定位到有问题的设备节点。2.2.分析设备部署在webportal的出口路由器上抓包分析,能够迅速的定位到时webportal内部问题还是3G核心网端的问题。网络分析报告基本流量分析流量负载分析:由下图可见,webportal系统的平均流量为8.060Mbps,与平时相比并无异常,也没有发现异常爆发的广播和组播流量;平均包长为718.507字节,并无异常。流量突发分析:由下图可见,在故障时间段,并未发现明显的流量突发。包尺寸分析:未发现异常小结:通过流量的负载和突发分析,没有发现异常现象,可以排除网络异常流量原因,可进一步分析网络层以上的信息网络分析报告连接分析如下图所示,通过TCP统计信息我们发现:在故障时间段,总共有135个用户访问了该web服务器,建立的TCP连接数为5235个,而可疑的是这5235个连接,有2213次是通过TCP复位发送(RST)来结束连接,而不是通过正常的4次握手来结束连接。3.3.通过三次握手分析网络时延技巧业界通过三次握手分析网络时延的技巧如下图所示:我们可以利用网络时延分析的技巧,为正常的TCP连接建立模型,以便在对异常连接分析时能够提供对比。网络分析报告连接时序图如下所示:由上图可见,该客户端通过三次握手与服务器建立连接,再进行数据传输:其中,第二个数据包“SYN,ACK”与第一个数据包“SYN”的时间差T1=0.032毫秒,可视为webportal系统内部网络时延,第三个数据包“ACK”与第二个数据包“SYN,ACK”的时间差T2=102.036毫秒,可视为手机用户到webportal系统的网络时延,包括了出口路由器、3G核心网端的网络时延。通过以上分析分析,我们可以得出这样的结论:正常情况下,webportal系统内部网络时延大致在1毫秒以内,而3G核心网端(包含出口路由器)的时延为100毫秒左右。3.5.失败连接快速发现失败的连接一般数据量较少,因此我们根据“字节”进行排序,能够快速的定位到那些响应失败的连接:网络分析报告连接时序图,从图中可以看出,该客户端向服务器发起了三次建立连接的请求,三次都以失败告终。右上图可见,服务器回应客户端同步请求的“SYN,ACK”数据包都是在1毫秒内完成的,由此可见,webportal系统能够快速的响应客户端的连接请求,并非连接失败的原因。而在服务器同步确认后,客户端反而发送“RST(TCP复位发送)”数据包中断了连接,从而导致在10秒钟内三次连接都没有成功,从手机用户的角度来看就是“网页打不开”,之前的TCP统计中我们发现5235个连接中,有2213次这种连接失败,于是便有大量的用户投诉。由于RST数据包来至客户端方向,我们可以初步定为问题在于:webportal出口路由器或者3G核心网端。进一步查看上图,我们发现这三次RST的时延分别为:a)(0.398-0.032)毫秒=0.366毫秒b)(3.279895-3.275531)秒=0.00034秒=0.344毫秒c)(9.359916-9.359537)秒=0.000379秒=0.379毫秒全部都在1毫秒以内,结合我们之前建立的分析模型,如果该RST是由3G核心网端发起的,响应时延应该在100毫秒左右,而只有在本地网络的出口路由器的RST包能够1毫秒内到达我们的数据分析点。通过时延的判定,可以确认出口路由器就是导致本次故障的根源。网络分析报告管理员将分析结果提交给出口路由器得厂家支持人员,厂家支持人员很快发现这是路由器的bug,最后通过升级路由器解决问题。运营商、金融、政府及大型企业的业务系统,由于网络业务系统结构复杂、网络节点及设备繁多,且业务量日益增长,系统管理员碰到的问题也会越来越复杂;当遇到问题时,很难迅速的定位到有问题的节点,通过传统的网管方式独立的去分析每一台网络设备或服务器,就像是管中窥豹,往往消耗很多时间也解决不了问题。而通过网络协议分析工具,用“旁观”的方式、从网络角度对业务应用进行端到端的分析,能更快速、有效的定位到问题。