IP核心网络维护与故障排查-NTM1

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

核心网络安全维护与故障排查一体化解决方案吴世军18618185948Tony.wu@flukenetworks.com现在网络遇到的问题3问题1---应用数据分析摄像机•应用层流量、核心业务性能感知能力差1.网络中各种应用流量的分布及变化状态?2.网络中哪个IP流量最活跃?3.哪个网站被访问的频率最高?4.音视频质量情况如何?5.对于突发的故障如何定位?4ISP2ISP1问题2---故障定位•复杂链路状态下,多层组合应用的系统分析,如何定位问题点,确定责任归属,防止各部门之间“扯皮”?5•如何对包含VoIP等多种应用的复杂网络完成瓶颈分析?进行网络优化。软交换网络管理TG防火墙中心机房TG分支#3关口局1关口局27号信令AGPBXAGAGAGE1VideoPhone分支#1IPPhoneSoftPhone分支#2VideoPhone会话边缘管理器应用服务器应用服务器SG问题3---网络优化6•对相关人员的网络行为缺乏有效的监控机制、安全性无法保障。1.企业内部机密信息通过Email、BBS、MSN等在不经意的流失;2.重要服务器数据访问缺乏有效的记录;3.非法网站的访问。问题4---安全7总之•网络IP化的结果丰富了网络应用,同样也带来各种应用的故障和风险。–不当操作、非法登陆、黑客攻击、客户投诉、突发的故障、IP的语音质量、……–我们该如何实现针对网络应用的监视和故障分析呢?•网络IP化的结果丰富了网络应用,随之也带来了众多的网络管理工具–PING、telnet、tracerouter、SNMP网管、流量模拟测试、信令分析工具、负荷分担设备、IDS\IPS管理设备、防火墙过滤、上网行为管理、探针布控、远程控制界面、端口控制、等等……–实际使用时,到底该如何进行整体网络分析和问题定位呢?8传统如何处理问题•一般网络故障处理流程–通过监控平台发现网络故障–判断故障责任归属:骨干承载、传输动力、无线接口、语音交换、...–由相应维护团队进行业务恢复–如无法及时恢复,则将问题升级通报–或者通知设备厂商到现场troubleshooting,直至业务恢复–待业务恢复后,进一步分析故障rootcause•这些故障谁去分析了呢?–故障设计环节太多很难分析,缺少必要环境无法重现问题、时间久了淡忘了、…–众多的网络应用故障都成了“无头公案”,过段时间问题又出现了!!–有什么更好的办法吗?9如何处理问题•捕包解码——破解IP网络“无头公案”的利器–IP网络应用的本质是协议交换的过程–只要在关键节点安装捕包工具,在故障发生时抓取必要信息–事后可通过捕包记录,重现故障环境。分析协议过程,了解故障根本原因网络系统分析工具有很多,但使用它的工程师却很少10如何处理问题•为什么大多数工程师不喜欢使用网络系统分析工具?–我也知道“捕包分析”是分析应用故障基本手段,可那些生涩专业的网络协议内容,我根本看不懂怎么办?–等网络发生故障了再抓包就晚了,但我又不能把抓包工具7x24小时挂着。–现在网络带宽越来越高,在1G/10G核心线路上根本抓不到有效的分析数据!–即使抓到了有效的1G/10G线路数据,我也没时间分析海量数据!–更重要的是,如今的网络应用故障不再是一台服务器、一种应用的简单问题。往往牵涉到一连串的服务器、路由器、和各种不同应用的配合工作。谁搞得清楚问题出现在哪一步?11如何处理问题•简单来说,我们对网络系统分析工具的期望是–协议分析要像白话文那样通俗易懂–能够7x24小时待命,时刻准备着抓取故障信息–抓1000M,甚至10G线路时不会发生丢包–能够快速分析海量数据,方便我工作–能够把多地采集的信息进行统一分析,这样我才能总揽全局ThisisNTM12NTM分布式探针NTM分布式探针管理器NTM分布式探针NTM分布式探针分布式部署-全网监控14•选定某个捕包记录,显示这条记录的所有信息和对应参数的趋势图。分析流程——数据捕获15分析流程——快速发现问题指定并放大感兴趣的某段数据•通过趋势图,发现异常,通过鼠标快速的定位问题范围。16分析流程——问题数据截取•选择'ShowTrace'按钮,可以根据设定的条件来查看和保存捕获到的数据17钻取式应用分析—简单直观展现问题钻取式18钻取式钻取式应用分析—故障细节分析19钻取式应用分析—问题数据解码20NTM案例分析21案例1:3G运营商——ClearWire•ClearWire:提供高速Internet无线接入的运营商–总部在Kirkland,WA,USA,一共有23个数据中心–核心网是全IP的,并且在开展4G业务(WiMax)•关键需求:要求在23个数据中心的10G线路上相对长期线速捕包,为故障诊断提供可靠数据•产品配置:–23套NTM专业版,10G,48VDC,10TB–100份CSA分析软件–3年金牌服务(所有产品)22产品亮点•线速捕包:客户要求稳定6G,我们可以达到10G•存储能力:专业型标准配10TB,可升级至66TB•解码能力:支持WiMax,PBB/PBT及其它隧道协议,而且将来LTE等解码与容易扩展•提供便携式的产品,客户已经购买了便携式的产品(1Gand10G)•基于笔记本的CSA工具,让工程师能够在现场捕包,再进行整合分析•支持48VDC,顺应新一代的机房和客户的要求•界面简洁,使用方便23案例2:数据中心进行服务器故障诊断需求监控/故障诊断ISP产品服务器背景数据中心服务器用于提供服务给最终客户协议:SQL,FTPISP想监控/捕获服务器之间通讯失败的所有数据当通讯失败的时候,可以专注在相应的跟踪数据中去分析识别原因重点项目捕获服务器间的所有会话千兆速率下长期不间断无丢包捕获分析无捕获暂停失败的情况下,放大到相关的数据,快速和应用网络/应用分析.SQL和FTP应用协议的强大的分析功能NTM解决方案千兆以太网速率下线速长期捕获不丢包存储数据量可达4TB用户自定义门限的告警通知捕获同时进行Tracefile相关数据的分析快速放大相关追踪文件的分析按某组织风格显示每个应用协议流控制台PC(远程桌面)・・・・・100M100M100M100M100M1GigabitNetworkTimeMachine服务器群汇聚型TAP24案例3:关键数据访问监测需求保存所有来自不同终端的访问,识别非法的数据访问关键点保存5年的数据(about10TB)千兆线速捕包,不丢失任何一个数据包关键字查找快速从海量数据中查看有关数据输出文本的分析报告NTM方案一台专业型NTM保存10TB(5年)的所有数据长期千兆线速捕包,无丢包同时具备分析功能超强的查找和过滤功能HostComputerTerminalNetworkTimeMachineConsolePC(RemoteDesktop)25案例4:某省公安厅需求:–建立全省公安网络监控系统,由省公安厅统一管理,对全省现有网络进行分析,进行网络优化。关键点:–分布式部署,省中心统一管理,减少人力投入–大流量数据全部采集。–多种应用的故障告警。–有效、准确的故障定位。配置方案:–CSN/NTM-ST3-EA1套–CSN/CSR-EX34套•TAP-1004s套•AXTAP2206LX-SFP/T2套•AXTAP2206SX-SFP/T1套–ES•ES2-LAT-KIT/C1套•ES2-LAN1套–DTX•DTX-1800-MSOAP1套26实际解决问题的案例分析27责任归属实例为什么访问Web这么慢WebSeverNetworkCloudClientNTMProbeNTMProbe时钟同步28从一段来看OnlyClienttime/SevertimeNotimesyncNoautomerge这个瓶颈出现在网络、客户端,还是服务器端呢?责任归属——常规方法29Multi-Segment多段分析结果FlowTime:12.51sClientTime:8.26sServerTime:2.97sNetworkTime:1.28sClientTimeServerTime30瓶颈分析报告瓶颈出现在客户端!31数据库故障实例•故障现象:–同一台数据库服务器,从通信部访问,无法建立链接,提示链接超时。但是ping该数据库服务器没有任何问题。–从其他部门访问该数据库服务器,可以正常链接并访问。32数据库故障实例•初步分析:–从故障现象来看,由于只有通信部无法访问该数据库服务器,其他部门访问没有任何问题,故初步判断,服务器应该没有问题。–通信部无法访问该数据库服务器,但是ping却没有任何问题,初步估计通信部和数据库服务器之间的链路没有问题。那问题到底出现在哪里呢?33数据库故障实例•测试方法:–故障数据采集•在信通中心的服务器,做了一个简单的端口镜像,监控一台主机的通讯。•使用该主机模拟故障现象,获取故障通讯数据。–正确数据采集•在省公司进行正确的访问该数据库服务器的通讯数据。–故障数据和正确数据对比分析。34•正确链接过程:35•正确链接过程分析:–链接完成后,用户提供用户名后,数据库服务器给出一个地址重定向指令,用户按照这个指令指定的IP地址去访问数据库。–正确的地址重定向指令,将指向数据库自身的对外IP地址。用户通过这个地址可以正确访问该数据库。36•故障链接过程:37•故障链接过程分析:–当完成TCP链接后,提供用户名,该服务器IP重定向的地址,不是该服务器本身的地址,而是指向了172.16.0.2,这个私网地址。–用户按照这个IP地址请求访问,无法建立连接。–经查证,172.16.0.2为该数据库服务器的私网地址。38•结果分析:–该故障产生的原因为数据库对通信部的用户访问,做了错误的设置。•建议:–检查数据库对通信部用户的相关配置,将IP重新定向的地址设置成服务器本身对外IP地址。39核心应用故障实例•核心应用-销售系统40核心应用故障实例•故障现象:–核心应用-销售系统,客户端连接服务器有的时候出现白屏,重新启动电脑后,该销售系统又可正常使用。出现白屏现象的客户端并不固定。41核心应用故障实例•数据采集:–采集了一周的核心应用-销售系统服务器群的所有数据。42核心应用故障实例•获取问题数据:43核心应用故障实例•问题数据与正确数据对比分析44核心应用故障实例•问题数据与正确数据对比分析45核心应用故障实例•分析结果:–销售系统在调取‘/4GPOS/main_bk4.GIF’时,无法找到该文件,main_bk4.GIF为该销售系统的底板图片,因此出现了白屏的现象。46NTM产品简介47NTM产品NetworkTimeMachine(NTM)是一个整体解决方案,集合实时监视,分析,捕获和长时间记录各种网络环境(10/100/1000Mb/sand10Gb/s)下的以太网数据。功能特点实时监控、深入分析,积极主动地预防损伤。灵活的硬件过滤、分片和触发进行高效捕获。可捕获,存储,归档和回顾高达60TB的真实通信量对于复杂的网络性能和业务,给予深入的洞察力和简易的可视性。Atlas组件可以非常方便地挖掘并分析特定时间范围内的应用、网络和物理数据,同时展示其相应的趋势图,流和数据包。NetworkTimeMachine机架型NetworkTimeMachine便携型48•NTM最高可线速捕获最高达60TB的网络通信。这意味着,在普通企业网络GbE链接速率下,可捕获长达38天的网络数据。网络管理员还可以执行更加复杂的应用,如:数据取证和数据挖掘等。•捕包性能最好,故障诊断技术最先进大容量、高性能存储49不同型号适应各种应用和环境Express使用小型网络环境Portable1A&Portable2(1G/10G))适用于现场应用Standard3适用于中型或大型网络环境Premium3(10G)适用于万兆大型网络,研发和实验室环境5050型号参数对比51产品优势•简单友好的中文操作界面•高性能海量数据存储(高达10G/s)•海量数据整体分析(多达60T)•多种应用分析•VoIP深入分析•多段式数据整合•钻取式数据

1 / 70
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功