大数据发展趋势及应用提纲大数据带来的挑战•大数据带来的挑战Itl大数据应用案例•Intel大数据应用案例IntelHadoop平台介绍•IntelHadoop平台介绍大数据时代-数据爆发性增长统计、分析、预测、实时处理IDC预测全球的数据使用量到2020年会增长44倍达到352ZB(1ZB=10亿TB)IDC预测全球的数据使用量到2020年会增长44倍,达到35.2ZB(1ZB10亿TB)*Source:McKinseyGlobalInstituteAnalysisSGCrossAssetResearch,PwC大数据处理速度要求越来越高•大数据与海量数据的一个重要区别在于不但HighutilityDiminishingutilityArchivalvalueHigh个重要区别,在于不但数据尺寸大,而且对数据处理的响应速度有有着更高的要求Value着更高的要求•传统的以周,天,小时L传统的以周,天,小时为单位的运算处理周期,下降到以分钟,秒为单位Low单位•大数据高价值的重要体TimeNegative现-处理速度Source:IDCDigitalUniverseStudy,sponsoredbyEMC,May2010数据的多样性•数据形式的多样:–结构化数据,数据间有很强的因果关系半结构化数据数据间因果关系较弱–半结构化数据,数据间因果关系较弱–非结构化数据,数据间无因果关系Flatfile•数据来源的多样性:–不同的应用系统–各种设备互联网–互联网–其它Source:IDCDigitalUniverseStudy,sponsoredbyEMC,May2010创造显著业务价值(VALUE)大据著的业务价值大数据分析显著的业务价值3V特性驱动下创建挖掘数据资产价值,通过数据驱动业务,变成本中心为利润中心© Copyright 2011 EMC Corporation. All rights reserved.数据处理需求与传统平台扩展能力之间的差距不断增大不断增大数据处理需求与传统平台硬件扩展的差距不断扩大大数据处大大数据处理需要的扩展能力Industry Progress大数据分析不同于传统BI分析集群化非结构化分析传统BI分析大数据分析事务关系型数据库批处理数据仓库分析集群化非结构化流式分析组织多种数据源(MapReduce)•结构化数据•数据规模一般为TB规模集中式为了分析进行大量数据移动数据向计算靠近•结构化/非结构化混合分析的能力•数据规模从数十TB到PB级别分布式计算向数据靠近•集中式,为了分析进行大量数据移动,数据向计算靠近•批处理为主•分布式,计算向数据靠近•支持流式分析Examples:TelcoGovtFinanceWeb云计算技术是处理大数据的有效手段大数据和云是两个不同的概念,但两者之间有很多交集。BigBigData之间有很多交集。支撑大数据以及云计算的底层原则是一样的,即规模化、自动化、资源配置、自愈性,因此实际上大数据和云之间存Big自愈性,因此实际上大数据和之间存在很多合力的地方。大数据应用是在云上跑的、非常典型的应用。——大数据处理离不开云提纲大数据带来的挑战•大数据带来的挑战Itl大数据应用案例•Intel大数据应用案例IntelHadoop平台介绍•IntelHadoop平台介绍移动用户上网记录集中查询与分析支撑系统建设上网记录集中查询与分析支撑系统意义重大建设上网记录集中查询与分析支撑系统意义重大查询查询查询查询为客户服务人员提供客户上网记录快速查询服务,解决流量投诉问题为用户提供准实时的异常大流量上网记录自助查询服务对数据流量进行统计终端分析iPhoneiPad其他智能手机分布新终端推广效果分析终端分析:iPhone、iPad、其他智能手机分布,新终端推广效果分析热门流量、热门网站(业务)网络分析:2G/3G基站流量分析,网络优化数据挖掘分析分析分析分析数据挖掘根据流量分布,分析用户群特征提供套餐设计参考,优化用户体验通过感知业务态势制定市场策略指导业务产品发为市场营通过感知业务态势,制定市场策略,指导业务产品开发,为市场营销提供丰富的数据支持难点分析上网记录是海量数据上网记录是海量数据用户每月的上网记录约几万至用户每月的上网记录约几万至数数十万十万用户每月的上网记录约几万至用户每月的上网记录约几万至数数十万十万在Gn(SGSN与GGSN之间)接口上部署采集设备来生成用户上网记录用户手机访问一次网页,约会产生数十条,甚至数百条请求,意味着产生数十条和数百条上网记录访问手机新浪网首页,约产生20条记录访问新浪首约产生条记录访问新浪iPad首页,约产生40条记录在iPad中看一条新浪新闻,产生超过180条记录访问淘宝触摸屏版,约产生60条记录大量的DNS查询、推送服务记录(如苹果通知服务)等以中国联通某省分公司为例,日均上网记录数近10亿条,每月数据量近9TB,31个省份数据量12T/day移动互联网处于快速发展期:每移动互联网处于快速发展期:每66个月,流量翻一番个月,流量翻一番移动互联网处于快速发展期:每移动互联网处于快速发展期:每66个月,流量翻一番个月,流量翻一番移动互联网用户快速增加,智能终端迅速普及、户均流量显著增长,上网记录数据将进一步猛增一步猛增难点分析采用何种方式进行存储和检索是一个问题采用何种方式进行存储和检索是一个问题采用关系型数据库进行上网记录的存储已不可行采用关系型数据库进行上网记录的存储已不可行采用关系型数据库进行上网记录的存储已不可行采用关系型数据库进行上网记录的存储已不可行存储:如此大的数据量已经超越了当前关系型数据库可管理的容量上限查询:关系型数据库上对大规模数据进行操作会造成系统性能严重下降重下降当数据集和索引变大时,传统关系型数据库如Oracle、Sybase,在对大规模数据进行操作会造成系统性能严重下降,因为在处理数据时SQL请求会下降,因为在处理数据时SQL请求会占用大量的CPU周期,并且会导致大量的磁盘读写,性能会变得让人无法忍受成本成本小型机+高端存储+关系数据库成本导致扩展困难移动用户上网记录集中查询与分析支撑系统全国集中的一级架构,电信行业首次将Hadoop/HBase引入到商用电信服务系统建设中全国集中的一级架构,电信行业首次将Hadoop/HBase引入到商用电信服务系统建设中系统系统构成构成系统系统构成构成系统采用全国集中的一级架构方案进行建设,主要包含数据采集子系统、数据入库子系统、数据存储子系统、数据查询与分析子系统解决基本基本技术技术基本基本技术技术采用Hadoop/HBase作为上网记录存储方案采用MapReduce/Hive作用统计分析和数据挖掘工具解决方案上网记录入库时间:一般小于30分钟,实际约10分钟关键性能指标数据数据存储存储数据数据存储存储具备存储全国移动用户不小于6个月的原始上网记录能力历史5个月+当前月统计分析的中间报表数据保存不小于5年能指标数据数据查询查询数据数据查询查询上网记录查询速度:不高于1秒(不含用户访问查询页面的时间)支持并发查询数目:1000请求/秒查询查询查询查询支持并发查询数目:1000请求/秒系统部署系统部署系统部署系统部署系统部署两路x86服务器(基于Intel®Xeon两路x86服务器(基于Intel®XeonE5600系列处理器)NameNode节点:3台DataNode(数据存储节点):DataNode(数据存储节点):178台Zookeeper节点:7台集群监控节点:1台集群监控节点:1台入库服务节点:24台Web查询应用服务节点:20台网络交换设备网络交换设备机框间通过万兆交换机连接,以完成快速的数据交换Intel®Hadoop发行版满足高性能的数据导入和快速查询。稳定、易于部署和管理的企业级方案。中国移动某省海量通过详单存储分析–业务数据特点:•6个月360TB通话详单•每天详单增加大约2TB•详单类型包括:语音,短信,GPRS,3G,WLAN,增值业务–业务难点:•海量数据中高并发实时联机查询详单明细(HBase)•海量数据中,高并发实时联机查询详单明细(HBase)•CDR统计Statistics&Analysis(HiveonHBase)–原有方案:台型query/s•2台IBMp5595小型机,48CPU•1台IBMDS4800storagesystem(100TB)•80%CPU利用率,96%磁盘利用率•只能支持每秒100个查询200400600query/s能支持每秒个询•硬件投入大于500万–IntelHadoop高可扩展方案:•80节点x86服务器可提供960TB存储0200PreviousperHBase•80节点x86服务器,可提供960TB存储•可支持每秒32000个查询•硬件投入小于400万pserverA query is to get all the CDR for one person within one month 某市智能交通应用项目举例•项目的要求–年过车信息数据量达数百亿级记录规模–市局和区县的数据中心两级架构,分布式存储,集中管理。–支持多条件组合快速查询:卡口名称、车道名称、车辆类型、车牌类型、车牌号码、车身颜色、车牌颜色、车速范围、车长范围、号牌段范围、时间范围。–支持海量过车信息的模糊匹配检索。–支持各种统计分析、数据挖掘:车辆违章率统计、过车识别率统计、套牌分析、关联性分析、支持各种统计分析、数据挖掘:车辆违章率统计、过车识别率统计、套牌分析、关联性分析、黑名单等过车记录单个区数据中心全市数据总和每秒钟~6MB/s1200条记录/s120MB/s24000条记录/秒每小时~20GB/hour432万条/小时~400GB/hour8640万条/小时每天~480GB/day1亿条/天~9.6TB/day20亿条/天每月~14.4TB/month30亿条/月~288TB/month600亿条/月三个月~43.2TB/3months90亿条/三个月~0.8PB/3months1800亿条/三个月违章车辆图片数据单个区数据中心全市数据总和每小时~1.8GB/h36GB/h每天~43.2GB/day~864GB/day每月~1.2TB/month~24TB/month三个月~3.6TB/3months~72TB/3months基于IntelHD实现智能交通管理系统规模系统需求:•数据量(过车记录+违章图片+数据冗余+异地容灾):~6PB•数据采集终端:12000个,写入性能24000记录/秒•用户数:1000集群规模及指标(不考虑应用系统)•IntelHadoop集群共580台服务器•每台服务器•12块1TSAS硬盘48GBDDR3内存•48GBDDR3内存•两路共八核Intel至强服务器•性能:写入100000条记录/秒,20000主键查询/秒性能写条记录秒,键查询秒基于英特尔Hadoop的技术方案–解决了海量过车信息(结构文本+图片)存储问题。–解决了分布式数据查询问题。–系统提供了易于使用的API,方便进行二次开发。–系统做了较多优化,性能很好的满足了项目的实时性要求求。系统的稳定性好–系统的稳定性好。基于海量数据进行车辆轨迹分析实时路况信息区域号牌管理碰撞分析碰撞分析。。。。。。。。。。提纲大数据带来的挑战•大数据带来的挑战Itl大数据应用案例•Intel大数据应用案例IntelHadoop平台介绍•IntelHadoop平台介绍什么是Hadoop?•开源Apache项目,灵感来源于Google的MRd白皮书和Gl文件系(GFS)MapReduce白皮书和Google文件系(GFS),Yahoo完成了绝大部分初始设计和开发•Hadoop核心组件包括:-分布式文件系统-Map/Reduce–分布式计算p分布式计算•用Java编写•运行平台:•Linux,MacOS/X,Solaris,Window