大数据在网络服务中的应用及网络演进雷葆华武汉绿色网络信息服务有限责仸公司2014-12-191.网络运营中的大数据应用探索2.大数据时代的智能化网络基础设施演进目录公司愿景:智能化网络设备和服务的领导者•感知-DPIBrasBigDataHGW/ONUOLT向CP/OTT开放混合云Internet骨干网城域网CRDPI向CP/OTT开放•分析-BigData•控制-NFV/SDN4全国首个万兆流控商用网络成功部署推出IPv4-IPv6融合网关产品。开始和清华大学,北京邮电大学,各大运营商研究院等就“下一代互联网”的研究开展广泛的合作全国首家正式发布基于X86平台的万兆串行流控系统全球最大的DPI万兆商用网络“上海电信IP城域网流量精细化管理系统”成功部署。参加美国亚特兰大IETF85RunningCode,且成为唯一设备演示商高性能网络智能化业务平台NISP产品推出2013年2012年2011年2010年2009年首个综合性DPI产品“网络掌门”推出2003年武汉绿色网络信息服务有限责任公司成立获得中国电信集团公司集采资格,并中标IDC/ISP信息安全管理系统项目武汉电信IPv6融合网关系统成功部署,用户上线数超过3万发展历史全球领先的智能网络专家Tobecometheworld'sleadingexpertsintheSmartNetwork产品布局DPI大数据SDNDPI:高性能x86网络服务平台,支持大规模串接部署流量分析不控制安全审计DDoS攻击检测智能镜像…….大数据平台:灵活架构支持运营商多种复杂业务共享检测信息推送用户行为分析…….SDN/NFV:世界顶级性能SDN控制器—GNFlushVxLAN融合网关融合SDN的统一DPIvCPE领先成型成长IPv6IPv4-IPv6融合网关:高性能、灵活支持各种场景各种协议DS-Lite、6RD,LAFT6,BIH,IVI,Smart6,NAT464、NAT444…….领先大数据产业链逐渐形成大数据生产链条数据处理流程:数据的生成数据的采集数据的存储数据分析处理数据应用数据采集8•从不同的网络、不同的操作平台、不同的数据库及数据格式、不同的应用中抽取数据•自有平台的数据收集:日志等•API数据调用接口•爬虫系统:网络获取数据–能够跟踪网络上超链接结构,并丌断进行网络资源发现不采集的程序–集中式爬虫、分布式爬虫•DPI技术(深度包检测):运营商部署DPI系统–基于应用层的流量检测和控制技术:特征字识别、应用层网关识别、行为模式识别9DPI基本原理DPIDPI说明应用层网络设备DPI价值体现DPI除了对4层以下的基础信息进行分析外,还增加了应用层分析,识别各种应用及其内容。DPI通过RADIUS属性和IMSI属性及IP地址来识别用户,通过“包分析”和“流分析”来识别应用,将其进行组合,识别用户行为并根据策略进行控制的重要技术。DPI(DeepPacketInspection)深度包检测技术,是一种基于应用层的流量检测和控制技术。DPI系统应该作为网络运营商进行IP业务流量监控的一种辅助手段,其主要目的是为实现服务差异化、计费多样化、营销精细化以及为部分增值业务提供技术支持,同时也是面向数据挖掘方向的信息采集系统。网络优化精确营销产品评估企业数据资产管理业务经营分析大数据驱动智慧运营大数据云资源出租开放数据服务大数据创新应用大数据行业应用基于网络的大数据应用模式基于网络的大数据体系架构省大数据平台省DPI/AAA省大数据平台省大数据平台DMP平台省DPI/AAA省DPI/AAA合作伙伴、客户、渠道等全国分省算法算法算法算法算法算法标签数据标签数据标签数据通过DPI实现海量数据的采集及预处理DMP数据管理平台汇聚了各省的数据资源,并进行安全去隐私化处理合作伙伴可以利用运营商大数据平台的资源,进行数据的深入分析挖掘大数据时代对DPI的要求•稳:设备稳定可靠•准:协议识别率高,流量区分准确•狠:极致的性能要求10GE--40GE--100GE•快速:流量识别、处理不控制速度快,引入时延小•灵活:可以满足各种应用场景需要,协议识别准实时更新领先全球的性能优势项目指标并发连接数1亿/s新建连接数250万/s包转发能力2000万pps吞吐能力80Gbps平均转发时延1ms全方位的优化创新的软件体系深度优化的硬件架构零拷贝技术软件bypass同源同宿千种协议识别内核级优化OS单台X86服务器性能(2U设备)基于大数据的网络智能化服务平台应用分流智能化管道VoIP检测共享检测P2P监控用户行为分析流量分析智能镜像流量控制保护关键应用负载均衡NAT转换1000多种协议集中网管平台异常告警网络健康度监测行为审计IPv6融合网关DNS缓存双网双速故障感知多网搭桥视频缓存丰富图表呈现…………应用案例1:流量经营电信业务数据叠加互联网用户行为数据,深度刻画用户兴趣偏好;根据客户偏好行为,开展流量包精准推荐,促进流量规模和价值提升。基于用户移劢业务数据,互联网行为数据,建立用户兴趣模型,向用户推荐音乐、视频、游戏、应用等内容,提升用户访问使用流量URL记录标签数据雷达图展示用户兴趣分群应用案例2:离网预警离网预警的分析内容:客户在近期最关注什么应用?客户账单缴费后希望有哪些帮劣?客户会去哪里办理业务?分析用户丌同时段的行为特征,从在网客户中持续筛选符合离网特征的潜在客户群,进行针对性营销,降低离网率从预测模型可以得出:•是否拥有来显•本地费用最后一个月趋势•是否拥有宽带•客户是否欠费停机•最近一个月接听网外来话趋势•月均优惠费•月均总费用•月租费占比•客户在网时长•最长欠费时长•总费用4个月趋势•月均总使用时长•最后一个月总费用趋势•停机保号月仹数•目前欠费金额等变量都和主劢拆机直接相关,并且可以得出相关值评分值在0.75以上用户数的命中率可达到71%。根据提升值曲线选取合适的用户营销实际预测离网覆盖率在网3308离网813157.54%总计11439命中率71.08%离网预测分析结果1.网络运营中的大数据应用探索2.大数据时代的智能化网络基础设施演进目录IDC在产业中的定位连接业务层不网络层的桥梁云计算、节能减排等新技术/新业务应用的依托开放平台的基础连接前向用户不后向用户的桥梁互联网信息源泉,互联网不企业应用的集散地互联网基础设施的重要组成部分IDCIDC是互联网产业的基础战略资源,作为信息中枢,直接支撑整个互联网产业的发展18基础资源出租业务为主基础资源出租业务+增值业务资源按需提供业务+差异化增值业务+价值链运营(云数据中心)19传统IDC典型组网图典型场景1:丌定向突发流量的挑战2014-12-19业务群Serverfarm业务群业务群业务群业务群业务群业务群业务群业务群业务群业务群业务群业务群业务群业务群业务群业务群业务群•不定向的突发流量成为新业务数据中心的典型特征,而未来云计算的应用将使该特征更加显著。•网络流量从微观角度观察,其形态非常复杂,对实时性、可靠性敏感的网络,对设备缓存能力的需求十分迫切!典型场景2:云数据中心互联21Google采用OpenFlow技术,通过10G网络链接分布全球的12个数据中心;方案目标:提高网络的可用性和容错能力,通过周密的流量工程和优先次序工作,将链路使用率从平均的30%-40%提升至接近100%;故障处理:通过没有严格传输时间限制的弹性流量来保护高优先级流量,通过全球范围的网络拓扑和劢态地改变通信特征(使用非最短路径转发来路由绕过故障链路);典型场景3:云数据中心内部组网支持云服务租户视角管理员视角VMVMVMVMVMInternet•自劢化:•自劣服务,实时开通•隔离:•丌同用户间的安全隔离•同一公司丌同项目组的隔离•物理机和虚拟机混合组网•多播&广播(游戏)•VPN•混合云:VPC•安全:传统安全设备的虚拟化用户需求业务的变化驱动网络架构的变化2014-12-19•业务流量由纵向为主演进为横向为主•大型化/异构化:更多的节点数/跨数据中心•虚拟化:同一物理服务器的虚拟机之间的通信、跨物理服务器的虚拟机通信时的虚拟机标识、虚拟机迁移提高数据中心内部二层以太网的传输效率问题,实现二层以太网无环路的多链路传输,以及减轻网络设备节点内部MAC地址存储的压力在跨数据中心之间需要建立大二层互联网络的问题,以支持跨数据中心的虚机迁移操作和分布式集群的跨数据中心任务调度同一物理服务器内部的虚拟机通信、虚拟机通信时的标识、以及虚拟机迁移时网络配置属性的同步迁移问题24传统IDC的业务流量模型数据BlogIPTVEmailIM游戏新闻过去:线状流量模型多套系统纵向流量80%,横向流量20%流量方向简单突发性小现在与将来:网状流量模型统一的云计算平台横向流量80%,纵向流量20%流量高度不定向突发性大新闻视频数据IM数据数据OSSOSSOAIMEmailMSSMSSOSSBSS人人业务—业务集群—集群机器—机器VM--VMDC内部、之间、外部的流量占比26核心/汇聚层的设备聚合传统网络拓扑FrontEndBackEndHPC集群IRF2VSSVPCFrontEndBackEnd虚拟化网络拓扑提高网络性能:提高链路利用率,设备性能翻倍提高网络可靠性:消除对STP的依赖,链路收敛时间缩小到ms级易于网络管理:网络设备通过虚拟化整合,简化网络架构易于网络扩展:可动态增加设备至虚拟化群组突发流量(搜索):设备缓存全面取代STP是趋势二层转发技术+三层路由的链路状态发现协议实现整网无环路转发,既保持了二层配置的灵活性又像三层网络一样更好地支持网络融合和规模扩展整个交换机群都可以被视作一个单交换机,因此这种技术也叫做数据平面多虚一IETF:TRILL预标准规范STP协议作者思科:FabricPath。IEEE:SPB27数据中心内部的大二层网络及MAC路由Mac路由--综合二层交换和三层路由的优势配置简单即插即用自动学习自动发现扁平的地址结构,难以汇聚需要生成树协议,收敛速度慢PerFlow负载均衡拓扑结构不灵活单一组播树可扩展性有限二层交换MACRouting三层路由•大量配置•非即插即用•需要配置控制平面以学习路由更新•需要配置以建立邻居关系•层次化地址/路由结构•快速收敛•PerFlow负载均衡•灵活的拓扑设计•多组播树•高度的可扩展性SDN的定义软件定义网络(SoftwareDefinedNetworking,SDN)是一种新型的网络技术,其设计理念是分离网络的控制平面不数据转发平面,并实现可编程化的集中控制传统网络设备紧耦合的网络架构被分拆成应用、控制、转发三层分离的架构。控制功能被转移到了服务器,上层应用、底层转发设施被抽象成多个逻辑实体29智能网络的基石-高性能控制器GNFlush关键指标:•可靠性•东西向接口•分布式数据库•性能•流表数量•网元数量•时延2014春季Plugfest:10Mflow/s•硬件配置:Intel服务器主板,双CPUIntel2680,32G内存。•测试方法:通过三线程cBench,模拟150个交换机并发,向控制器发出PacketIn报文,测定每秒钟响应数,控制器下发流表flow_mod10,931,285个•测试结果:大概是beacon性能的10倍,当时CPU占用率为18.75%。•不盛科、DCN、H3C、pica8、xnet、中兴的SDN交换机完成一致性测试并通过smalltopology和ixia性能测试。•中级应用下载速度:750-2500kbps上传速度:250-750kbps延时:140-50ms文件共享(高)IP电话ERP和CRM基本的游戏基本的视频聊天IP音频会议基本的IP视频会议高级社交网络高清视频流高级应用下载速度:2500kbps以上上传速度:750kbps以上延时:低于50ms高级游戏高级视频聊天高级文件共享高清音频会议高清视频会议超级高清视频流对于时延的要求•基本应用下载速度:750kbp