Intel-大数据发展趋势与应用-Hadoop

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

大数据发展趋势及应用Hadoop介绍提纲大数据带来的挑战•Intel大数据应用案例IntelHadoop平台介绍••大数据时代-数据爆发性增长统计、分析、预测、实时处理IDC202044,35.(1ZB亿着更高的要求大数据处理速度要求越来越高HighutilityDiminishingutilityArchivalvalue大数据与海量数据的一个重要区别,在于不但•High数据尺寸大,而且对数据处理的响应速度有有着更高的要求传统的以周,天,小时•Low为单位的运算处理周期,下降到以分钟,秒为单位Time大数据高价值的重要体•Negative现-处理速度Source:IDCDigitalUniverseStudy,sponsoredbyEMC,May2010Value半结构化数据互联网数据的多样性数据形式的多样:•–结构化数据,数据间有很强的因果关系–半结构化数据,数据间因果关系较弱–非结构化数据,数据间无因果关系数据来源的多样性:•–不同的应用系统–各种设备–互联网–其它Source:IDCDigitalUniverseStudy,sponsoredbyEMC,May2010Flatfile©Copyright2011EMCCorporation.Allrightsreserved.创造显著业务价值(VALUE)大数据分析显著的业务价值3V特性驱动下创建挖掘数据资产价值,通过数据驱动业务,变成本中心为利润中心不大数据处理需求与传统平台扩展能力之间的差距不断增大数据处理需求与传统平台硬件扩展的差距不断扩大大数据处理需要的扩展能力IndustryProgress集中式数据向计算靠近计算向数据靠近大数据分析不同于传统BI分析传统BI分析大数据分析集群化非结构化分析关系型数据库数据仓库组织事务批处理分析流式(MapReduce)多种数据源•结构化数据•数据规模一般为TB规模•集中式,为了分析进行大量数据移动,数据向计算靠近•结构化/非结构化混合分析的能力•数据规模从数十TB到PB级别•分布式,计算向数据靠近•批处理为主•支持流式分析Examples:TelcoGovtWebFinance云计算技术是处理大数据的有效手段大数据和云是两个不同的概念,但两者之间有很多交集。支撑大数据以及云计算的底层原则是一样的,即规模化、自动化、资源配置、自愈性,因此实际上大数据和云之间存BigDataBig在很多合力的地方。大数据应用是在云上跑的、非常典型的应用。——大数据处理离不开云Hadoop介绍提纲大数据带来的挑战•Intel大数据应用案例IntelHadoop平台介绍••建设上网记录集中查询与分析支撑系统意义重大查询查询终iPhone其机布数据挖掘分析分析通过感知业务态势指导业务产品为市场营移动用户上网记录集中查询与分析支撑系统建设上网记录集中查询与分析支撑系统意义重大对数据流量进行统计终端分析:iPhone、iPad、其他智能手机分布,新终端推广效果分析热门流量、热门网站(业务)网络分析:2G/3G基站流量分析,网络优化数据挖掘根据流量分布,分析用户群特征提供套餐设计参考,优化用户体验通过感知业务态势,制定市场策略,指导业务产品开发,为市场营销提供丰富的数据支持分析为客户服务人员提供客户上网记录快速查询服务,解决流量投诉问题为用户提供准实时的异常大流量上网记录自助查询服务查询上网记录是海量数据用户每月的上网记录约几万至用户每月的上网记录约几万至数数十万十万访问新浪约产生移动互联网处于快速发展期:每移动互联网处于快速发展期:每66个月,流量翻一番个月,流量翻一番一步难点分析上网记录是海量数据一步猛增移动互联网处于快速发展期:每6个月,流量翻一番移动互联网用户快速增加,智能终端迅速普及、户均流量显著增长,上网记录数据将进用户每月的上网记录约几万至数十万在Gn(SGSN与GGSN之间)接口上部署采集设备来生成用户上网记录用户手机访问一次网页,约会产生数十条,甚至数百条请求,意味着产生数十条和数百条上网记录访问手机新浪网首页,约产生20条记录访问新浪iPad首页,约产生40条记录在iPad中看一条新浪新闻,产生超过180条记录访问淘宝触摸屏版,约产生60条记录大量的DNS查询、推送服务记录(如苹果通知服务)等以中国联通某省分公司为例,日均上网记录数近10亿条,每月数据量近9TB,31个省份数据量12T/day采用何种方式进行存储和检索是一个问题采用关系型数据库进行上网记录的存储已不可行采用关系型数据库进行上网记录的存储已不可行重下难点分析采用何种方式进行存储和检索是一个问题采用关系型数据库进行上网记录的存储已不可行存储:如此大的数据量已经超越了当前关系型数据库可管理的容量上限查询:关系型数据库上对大规模数据进行操作会造成系统性能严重下降当数据集和索引变大时,传统关系型数据库如Oracle、Sybase,在对大规模数据进行操作会造成系统性能严重下降,因为在处理数据时SQL请求会占用大量的CPU周期,并且会导致大量的磁盘读写,性能会变得让人无法忍受成本小型机+高端存储+关系数据库成本导致扩展困难全国集中的一级架构,电信行业首次将Hadoop/HBase引入到商用电信服务系统建设中系统系统构成构成基本基本技术技术数据数据存储存储能指标数据数据移动用户上网记录集中查询与分析支撑系统全国集中的一级架构,电信行业首次将Hadoop/HBase引入到商用电信服务系统建设中系统采用全国集中的一级架构方案进行建设,主要包含数据采集子系统、数据入库子系统、数据存储子系统、数据查询与分析子系统解决方案能指标上网记录入库时间:一般小于30分钟,实际约10分钟关键性数据存储具备存储全国移动用户不小于6个月的原始上网记录能力历史5个月+当前月统计分析的中间报表数据保存不小于5年数据上网记录查询速度:不高于1秒(不含用户访问查询页面的时间)支持并发查询数目:1000请求/秒基本技术采用Hadoop/HBase作为上网记录存储方案采用MapReduce/Hive作用统计分析和数据挖掘工具系统构成系统部署系统部署系统部署系统部署两路x86服务器(基于Intel®XeonE5600系列处理器)NameNode节点:3台DataNode(数据存储节点):178台Zookeeper节点:7台集群监控节点:1台入库服务节点:24台Web查询应用服务节点:20台网络交换设备机框间通过万兆交换机连接,以完成快速的数据交换Intel®Hadoop发行版满足高性能的数据导入和快速查询。稳定、易于部署和管理的企业级方案。型•节点服务器可提供存储中国移动某省海量通过详单存储分析业务数据特点:–•••6个月360TB通话详单每天详单增加大约2TB详单类型包括:语音,短信,GPRS,3G,WLAN,增值业务业务难点:–海量数据中,高并发实时联机查询详单明细(HBase)•CDR统计Statistics&Analysis(HiveonHBase)•原有方案:–query/s6004002000•••••2台IBMp5595小型机,48CPU1台IBMDS4800storagesystem(100TB)80%CPU利用率,96%磁盘利用率只能支持每秒100个查询硬件投入大于500万IntelHadoop高可扩展方案:–PreviousperHBaseserver80节点x86服务器,可提供960TB存储可支持每秒32000个查询硬件投入小于400万•••AqueryistogetalltheCDRforonepersonwithinonemonth某市智能交通应用项目举例项目的要求•年过车信息数据量达数百亿级记录规模市局和区县的数据中心两级架构,分布式存储,集中管理。支持多条件组合快速查询:卡口名称、车道名称、车辆类型、车牌类型、车牌号码、车身颜色、车牌颜色、车速范围、车长范围、号牌段范围、时间范围。支持海量过车信息的模糊匹配检索。支持各种统计分析、数据挖掘:车辆违章率统计、过车识别率统计、套牌分析、关联性分析、–––––黑名单等违章车辆图片数据单个区数据中心全市数据总和每小时~1.8GB/h36GB/h每天~43.2GB/day~864GB/day每月~1.2TB/month~24TB/month三个月~3.6TB/3months~72TB/3months过车记录单个区数据中心全市数据总和每秒钟~6MB/s1200条记录/s120MB/s24000条记录/秒每小时~20GB/hour432万条/小时~400GB/hour8640万条/小时每天~480GB/day1亿条/天~9.6TB/day20亿条/天每月~14.4TB/month30亿条/月~288TB/month600亿条/月三个月~43.2TB/3months90亿条/三个月~0.8PB/3months1800亿条/三个月基于IntelHD实现智能交通管理48GBDDR3系统规模系统需求:数据量(过车记录+违章图片+数据冗余+异地容灾):~6PB数据采集终端:12000个,写入性能24000记录/秒用户数:1000•••集群规模及指标(不考虑应用系统)IntelHadoop集群共580台服务器每台服务器•12块1TSAS硬盘•48GBDDR3内存•••两路共八核Intel至强服务器性能:写入100000条记录/秒,20000主键查询/秒•求基于英特尔Hadoop的技术方案解决了海量过车信息(结构文本+图片)存储问题。–解决了分布式数据查询问题。–系统提供了易于使用的API,方便进行二次开发。–系统做了较多优化,性能很好的满足了项目的实时性要求。–系统的稳定性好。–碰基于海量数据进行车辆轨迹分析实时路况信息区域号牌管理碰撞分析。。。。。。。。。。平台提纲大数据带来的挑战•Intel大数据应用案例IntelHadoop平台介绍••MRdGl(GFS)•X86什么是Hadoop?开源Apache项目,灵感来源于Google的•MapReduce白皮书和Google文件系(GFS),Yahoo完成了绝大部分初始设计和开发Hadoop核心组件包括:-分布式文件系统-Map/Reduce–分布式计算•用Java编写•运行平台:•Linux,MacOS/X,Solaris,Windows•普通的X86硬件平台•ShuffleReduceMap估计未来年650%80%比如每天收集的数据会有数据平台出现为什么Hadoop很重要?非结构化数据暴增:–估计未来5年,企业的数据将增长650%,其中80%•都是非结构化数据–比如FACEBOOK每天收集100TB的数据,Twitter会有每天产生3500亿的tweets非结构化的数据同样蕴藏巨大价值需要新方法利用所有数据进行业务分析••–ApacheHadoop作为一个分析存储大量数据的关键数据平台出现台之拥有的代码来并行处理架构标准之Hadoop与“大数据”Hadoop是致力于“大数据”处理的最重要平台之一•能够轻松扩展到PB级别的数据存储,处理规模–带有高度容错能力的并行处理架构基于普通的X86平台硬件架构,硬件成本低廉––用内置格式存储/处理数据基于开源项目,拥有当量的代码来源,并且传统厂商也日益重视对其的支持,它已经成为重要的并行处理架构标准之一––越来越多的企业接纳Hadoop2010200820092007TheDatagraphBlogSource:HadoopSummitPresentationsData利用关系型数据库与Hadoop协同处理大数据的数据仓库逻辑模型ExistingDataRawDataBI/StatWarehouse(HundredsofTB’s)Tools•ETL•DataEnrichmentDirectQuery•StructuredDataHadoopClusterApplicationsandTools(Modelingon100’sofTBsto(Hund

1 / 31
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功