英特尔Hadoop发行版数据中心软件部大数据在中国大数据–新一轮“信息革命”DataGrowthStatements–MckinseyGlobalInstitute200PB/季度智慧城市数据中国某一线城市2090亿2021年RFID标签销售量2011年是1200万1.8ZBin20112天的数据量文明起始到2003年3.88亿/5.3亿移动/互联网用户中国2012年6月$8000亿10年个人位置信息服务创造的价值5PB/年健康档案数据中国某一线城市“数据日益成为商业的新源材料:一种与资本和劳动力并列的新经济元素.”—TheEconomist,2010“信息将成为21世纪的石油”.—Gartner,20102速度数据量多样化传统数据大数据GB-TBTB-PB以上数据量稳定,增长不快持续实时产生数据,年增长率超过60%主要为结构化数据半结构化,非结构化,多维数据“大数据”指数据集的大小超过了现有典型的数据库软件和工具的处理能力。与此同时,及时捕捉、存储、聚合、管理这些大数据以及对数据的深度分析的新技术和新能力,正在快速增长,就像预测计算芯片增长速度的摩尔定律一样。—McKinseyGlobalInstitute大数据在中国大数据–四大区别于传统数据的特征统计和报表价值数据挖掘和预测性分析3大数据在中国大数据–正在快速涌现的生态系统大数据不仅仅是指大量的复杂数据;大数据描绘了一个正在快速涌现的生态系统,从新技术、新技能、新实践到崭新的商业模式,使企业和组织有能力对大量的、不断增长的、多样的、多维的、结构化以及非结构化数据进行管理、分析并据此采取行动。.新技术人员和技能最佳实践商业模式大数据4大数据在中国英特尔Hadoop发行版5Hive0.9.0数据仓库Sqoop1.4.1关系型数据库同步工具Flume1.1.0日志收集工具IntelHadoopManager2.2安装、部署、配置、监控、告警和访问控制Zookeeper3.4.5分布式协作服务Pig0.9.2数据流处理Mahout0.6数据挖掘英特尔Hadoop发行版组件稳定的企业级hadoop发行版利用硬件新技术进行优化HBase改进和创新,为Hadoop提供实时数据处理能力针对行业的功能增强,应对不同行业的大数据挑战HBase0.94.1实时、分布式、高维数据库Map/Reduce1.0.3分布式计算框架HDFS1.0.3分布式文件系统R-statistics数据分析大数据在中国英特尔Hadoop发行版生态系统6针对大规模数据的高容错性和高吞吐的分布式文件系统。它可以构建从几台到几千台由常规服务器组成的集群中,并提供高聚合输入输出的文件读写访问。主要特点使用低成本存储和服务器构建高可靠性和容错性系统,数据自动复制,可自我修复支持GB到TB级别大数据文件,提供PB级别的存储容量为流式数据访问优化,简化“一致性”,适合一次写入、多次读高聚合带宽,高并发访问移动“计算”比移动“数据”更便宜,提供同节点数据存放和计算能力2013/2/277英特尔Hadoop发行版分布式文件系统(HDFS)HBase是一个分布式的、按列存储的、多维表结构的实时分布式数据库。它可以提供大数据量结构化和非结构化数据的高速读写操作,为高速在线数据服务而设计。主要特点支持每秒数万条级别高速并发写入和高并发查询可扩展,数据自动切分和分布,可动态扩容,无需停机数据存放在HDFS分布式文件系统之上,不会丢失灵活的表结构,可动态改变和增加(包括行、列和时间戳)面向列、可压缩,有效降低磁盘I/O,提高利用率多维表,四个维度,其中三个维度可变,适合描述复杂嵌套关系2013/2/278英特尔Hadoop发行版分布式数据库(HBase)ColumnFamilyvalueTimeStamp139-1775-3956_201103owner:infot3t11t17RowKeytotalbalance………………bill:86150voicesmsgprs3gwlanspecial………type:Columns英特尔Hadoop发行版分布式数据仓库(Hive)基于Hadoop的大数据分布式数据仓库引擎。它可以将数据存放在分布式文件系统或分布式数据库中,并使用SQL语言进行海量数据统计、查询和分析操作。基本特点:提供类似于SQL的查询语言,易于使用针对海量数据的高性能查询和分析系统高扩展性,通过增加节点提高计算性能,扩容无须停机和HBase结合,同时提供实时查询和高效统计提供灵活的扩展性,如复杂数据类型,扩展函数和脚本等2013/2/279CommandLineDriver(Compiler,Optimizer,Executor)ThriftServerJDBCMetastoreHIVEHDFSMap/ReduceHBase英特尔Hadoop发行版分布式数据分析(Pig)基于Hadoop的大数据分布式数据分析语言和运行平台。它的构架确保可以将分析任务分布并行运行,以适应海量数据的分析需求。基本特点:提供PigLaten语言,便于编写分析程序系统可以自动优化运行,允许用户关注于业务实现用户可以实现自定义函数扩展用来实现特殊处理2013/2/27102013/2/2711英特尔Hadoop发行版并行计算框架(MapReduce)适用于大数据量处理的分布式框架,可以将一个大数据处理任务分布同步运行在一个服务器集群中。它是为离线数据分析而设计,利用数据并行性进行分布运算,而后汇总结果的计算框架。基本特点:将任务分拆、分布、汇总实现在框架逻辑中,开发人员只需实现业务逻辑分布任务自动失败重试,单个任务意外失败不会造成整个任务推出和HDFS整合,使计算移到数据所在节点运行DATAMAPMAPMAPMAPREDUCEPartitionedInputGroupedIntermediateResults(k’,v’[])AggregatedOutputMap(k,v)(k’,v’)Group(k’,v’)byk’Reduce(k’,v’[])v’’2013/2/2712英特尔Hadoop发行版分布式同步软件(ZooKeeper)针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。它可以维护系统配置、群组用户和命名等信息。基本特点:分布式服务的数据被复制在ZooKeeper集群中,保证数据的可靠性和可用性数据严格按时间更新、查询和发布高性能,特别在以读为主的应用中,可以提供数千台客户端的查询ServerZooKeeperServiceClientClientClientClientClientClientClientServerServerServerServerLeaderDataWriteDataReadDataSync2013/2/2713英特尔Hadoop发行版数据挖掘(Mahout)可扩展的机器学习类库,与Hadoop结合后可以提供分布式数据分析功能。它提供机器学习框架的同时,还实现了一些可扩展的机器学习领域经典算法的实现,可以帮助开发人员更加方便快捷地创建智能应用程序。基本算法:推荐引擎算法聚类算法分类算法相关物品分析算法2013/2/2714英特尔Hadoop发行版结构化数据连接器(Sqoop)提供高效在Hadoop和结构化数据源(比如关系型数据库、数据文件)之间双向传送数据的连接器组件。它将数据传输任务转换为分布式Map任务实现,在传输过程中还可以实现数据转换等功能,完成传统数据源和Hadoop之间ETL的任务。基本特点:使用MapReduce框架并行传送,效率高可以实现增量同步和完全同步提供扩充接口,实现复制转换HDFSHadoopClusterHBaseHiveMapTaskSqoopEnterpriseDataWarehouseRDBMSDocumentBaseSystem2013/2/2715英特尔Hadoop发行版日志数据连接器(Flume)分布式、高可靠的和高可用的日志采集系统,它用来从不同来源的系统中采集、汇总和搬移大容量的日志数据到一个集中式的数据存储中。基本特点:提供高可靠选项,保证数据最终会达到目的地。主要组件都是可以被水平扩充的,可动态提高容量内部机制保证配置信息的一致性通过API接口可以扩展新的数据来源0500100015002000250030003500OpenSourceHBase(0.90.3)OptimizedHDFSI/O70035000100002000030000400005000060000700008000090000OpenSourceHBase(0.90.3)AdvancedRegionBalancing2500082000测试配置性能数据在8台服务器组成的小规模集群上测试得到服务器配置:6核CPU,48GB内存,8块7200rpmSATA硬盘,千兆以太网测试用例和性能向HBase集群插入1KB大小的记录每台服务器平均每秒插入1万条记录,峰值在2万条记录每台服务器,从磁盘扫描数据,每秒完成400个扫描。一次扫描从HBase表中获得单个用户一个月内的所有记录(平均100条)query/sinsertion/s大数据在中国英特尔Hadoop性能优化16社区开源版本简单均衡算法,容易在慢速服务器或热点服务器上产生读写瓶颈,最慢服务器成为系统性能瓶颈无法自动扩充倍数功能,在集中读取时扩展性不强,存在性能瓶颈NameNode是系统的单点破损点,一旦失效系统将无法读写无此功能无此功能,无法进行跨数据中心部署没有成熟的复制方案只根据Region数量进行负载均衡,容易产生系统不均衡无成熟方案无此功能无此功能无此功能英特尔增强功能针对HDFS数据节点的读写选取提供高级均衡算法,提高系统扩展性,适合不同配置服务器组成的异构集群根据读请求并发程度动态增加热点数据的复制倍数,提高Map/Reduce任务扩展性为HDFS的NameNode提供双机热备方案,提高可靠性支持FTP客户端直接上传日志文件到HDFS实现跨区域数据中心的HBase超级大表,用户应用可实现位置透明的数据读写访问和全局汇总统计可将HBase表复制到异地集群,并提供单向、双向复制功能,实现异地容灾在HBase中,根据数据局部性、服务器Region数、表的Region数来实现负载均衡,适合多用户共享集群创建多张大表的应用支持基于HBase的分布式聚合函数,包括sum,avg,count,mean等统计函数,性能优于Map/Reduce方式.实现对HBase的不同表或不同列族的复制份数精细控制为HBase大表提供并行扫描、并行Group-By统计功能,比MapReduce提高数倍效率HBase扫描过程支持多种计算表达式(包括聚合函数)作为计算结果返回,同时也支持在Filter过滤器中使用表达式组合。大数据在中国英特尔功能增强17大数据在中国英特尔功能增强-HBase高速即时分析18功能描述实现了基于HBase的高效率复杂查询和统计汇总功能,使得传统上以高性能读写为特色的HBase也可以支持复杂的数据处理。实现了基于HBase内数据的HiveQL前端功能,可以使用HiveQL语言实时查询统计HBase中的数据,使其更加符合企业复杂数据处理的需要,比原来基于MapReduce的HBase统计有几十倍的性能提升。大数据在中国英特尔功能增强-HBase高速即时分析19功能特点分布式汇总功能:实现基于HBase的分布式汇总(Sum,Average,Count等),比Map/Reduce方式快2到10倍并行扫描功能:高效地同步扫描和过滤在不同Region和不同RegionServer上的数据快速数据扫描过滤功能:使用多重复杂条件组合来分布式扫描和过滤纪律快速Group-By聚合功能:支持使用主键和数据列的某部分及它们的组合作为聚合主键SELECT命令直接调用高性能HBase查询汇总引擎自动使用MapRed