Intel与大数据处理大数据处理时代英特尔的角色提供高效的计算芯片、存储、I/O、网络技术,加速大数据价值挖掘与提高决策反应提供最优的软件和工具,推动大数据应用的部署和创新促进大数据生态系统的建设,与广泛的合作伙伴合作,与中国共成长投资大数据解决方案的研究和服务大数据处理时代英特尔的优势应用层可视化分析层界面与工具大数据的分发数据管理组件硬件–内存存储–Xeon决策支持与IT服务分析与&发现基础架构与服务数据组织与管理新技术人员和技能最佳实践商业模式大数据英特尔架构为相关的业界生态系统提供最佳应用与深度可视化的硬件环境在英特尔架构上客户端与服务器端算法开发提供分析计算所需的性能和规模英特尔平台上优化了的Hadoop,即时实施英特尔的计算,储存和IO架构在性能与容量间求得最佳平衡以满足大数据应用的需求英特尔硬件与大数据DataDeliveryDataManagementDataUsageBusinessIntelligenceBusinessStrategyKPI’sPowerManagement&SecurityRichVisualizationPerformanceandScaleEfficienciesDecisionSupport–CRM-ERP,OLTP,BatchSOURCE–BigDataETLETLLOBReportingDataMartsReliability,Availability&Serviceability(RAS)In-Memory英特尔提供大数据端到端解决方案边缘服务器采集、存储、转换、分析、挖掘•嵌入式•云服务•专有数据中心•高性能计算中心数据中心形态数据中心方案选择大数据存储–HDFS实时数据库–HBase大数据分析–Hadoop高性能存储–Lustre终端设备丰富的数据可视化能力数据分析和缓存IntelHadoop发行版-优质高效大数据解决方案基于Hadoop的大数据处理的软件栈HDFS1.0.3HadoopDistributedFileSystemHBase0.90.6Real-timeDistributedBigTableMap/Reduce1.0.3DistributedProcessingFrameworkHive0.9.0SQL-likeQuerySqoop1.4.1RDBDataCollectorFlume1.1.0LogDataCollectorHadoopManager2.0Deployment,Configuration,Monitoring,AlertingandSecurityZookeeper3.3.5CoordinationPig0.9.2DatamanipulationMahout0.6DataminingHDFS-分布式文件系统设计目标•错误检测和快速自动恢复–硬件故障是常态而非异常•为流式数据访问优化•支持大数据集–单个文件大小有数GB或者TB–可提供高聚合带宽访问–可能够扩展至数千个节点•简化“一致性”模型–一次写入、多次读•移动“计算”比移动“数据”更便宜主要特点•使用低成本存储和服务器构建•存放PB级别的海量数据•高可扩展性,实际生产环境扩展至4000个节点•高可靠性和容错性,数据自动复制,可自我修复•高带宽,高并发访问•高级均衡算法,提高系统扩展性,适合不同配置服务器组成的集群(只在intel版本中)数据分布与复制HDFS架构和读写操作Map/Reduce计算框架为离线数据分析而设计,基本上是个利用数据并行性进行分布运算而后汇总结果的计算框架•分析问题能够被并行化,且输入数据集可以被切分•一个Map函数,在第一阶段计算Key,Value对•一个Reduce函数,在第二阶段用于汇总Map函数的结果DATAMAPMAPMAPMAPREDUCEPartitionedInputGroupedIntermediateResults(k’,v’[])AggregatedOutputMap(k,v)(k’,v’)Group(k’,v’)byk’Reduce(k’,v’[])v’’HBase是一个按列存储的、多维表结构的实时分布数据库,为高速在线数据服务而设计•表:(行,列族,列名,版本名)值主要特点•NoSQL•面向列、可压缩,有效降低磁盘I/O,提高利用率。•多维表,四个维度,其中三个维度可变,适合描述复杂嵌套关系。•灵活的表结构,可动态改变和增加(包括行、列和时间戳),为多列族设置不同复制因子。•支持单行的ACID事务处理•分布式系统•高性能,支持高速并发写入和高并发查询;•根据Locality和table数量智能负载均衡,更高的读写性能(只在intel版本中)•可扩展,数据自动切分和分布,可动态扩容,无需停机;•高可用性,建立在HDFS分布式文件系统之上。HBase分布式数据库ColumnFamilyValueTimeStamp139-1775-3956_201103owner:infot3t11t17RowKeytotalbalance………………bill:86150voicesmsgprs3gwlanspecial………type:Columns沪L58779_2011050109100595info:velocityimage:driverJPG10100101flag:overspeedYsplit沪L58779_2011050109100595JPG10100101Y沪L58778_2011050109100560JPG10101010N跨数据中心大表(Cross-siteBigTable,只在intel版本中)全局虚拟大表大表数据分区存放在物理分中心多个分中心位于不同地理位置分中心之间由网络互连接入任何分中心可访问全局数据高可用性适合本地高速写入分布式聚合计算,避免大数据传输虚拟大表分中心A分中心B分中心CHive数据仓库Hive是一个建立在hadoop/hbase之上的数据仓库,用于分析结构化海量数据•采用HDFS或HBase进行数据存储•采用Map/Reduce进行数据操作基本特点:•提供类似于SQL的查询语言•高扩展性(scale-out),动态扩容无须停机•针对海量数据的高性能查询和分析系统•提供灵活的扩展性–复杂数据类型,扩展函数和脚本等•优化的Hive和HBase整合,性能更好(只在intel版本中)CommandLineDriver(Compiler,Optimizer,Executor)ThriftServerJDBC/ODBCMetastoreHIVEHDFSMap/ReduceHBaseIntel对hadoop的性能优化0500100015002000250030003500OpenSourceHBase(0.90.3)OptimizedHDFSI/O70035000100002000030000400005000060000700008000090000OpenSourceHBase(0.90.3)AdvancedRegionBalancing2500082000•为企业级应用而优化:优化后的HBase与开源版本的性能差异•性能数据在8台服务器组成的小规模集群上测试得到•服务器配置:E5-26808核CPU,64GB内存,8块7200rpmSATA硬盘,千兆以太网•HBaseasthedatastore−Inserting10000records/second/server(2-way,32GB)inaverage(recordsize:1KBinaverage)−Readfromdisk:400query/second/server,latencywithinonesecond(0.05s~0.8sunderdifferentload)•AqueryisascantogetallCDRwithinonemonthforoneuser.query/sinsertion/sHadoop帮助创建革命性的新应用医疗•电子病历的实时查询、搜索和实时共享•医疗影像数据的存储和检索•疾病的趋势分析,流行病告警•计算机辅助诊断(疾病分类等)•药物效果分析•药物相互作用(副作用)分析电信•详单和账单的采集、存储、实时查询和统计•用户上网记录的采集、查询、统计•用户行为分析,套餐推荐•用户流失性分析•3G网络优化,流量优化,网间优化•基站参数采集和分析公共部门•智能交通系统:交通信息的实时采集、实时统计和实时查询交通信息的实时分析,例如区间测速交通状况的模式分析和优化•智慧城市安保系统:图像视频的存储、检索和比对。•物联网:传感器数据的实时采集、实时分析和实时告警金融•非结构化数据(例如签名、影像等)的存储和检索•准实时的交易统计和分析•交易相关性分析•客户风险分析•交易监控、合规分析、法规遵从制造•设备参数采集和监控•感器数据实时采集、分析和实时告警•失效分析和损失预估•预测性分析零售•统计和分析:准实时的售卖点销售统计•决策支持:从库存管理、价格制定到新店选址•新的商业/服务模式:定向广告、优惠券、日常生活助理等电信行业应用概览面临的挑战•数据源多样化,CDR(语音、SMS、GPRS、3G、WLAN、增值业务),Web日志,计费信息,客户信息、网络信令、基站参数•数据量大:~360TB六个月CDR数据(某省公司),~1PB3G上网记录•数据增长快速:2TB/天(某省公司)海量数据分析•流量分析、热点应用分析、访问趋势分析•网络优化•网间结算优化•定价策略设计•用户行为分析(聚类和分类)、用户流失性预测•终端类型分析、市场营销计划、套餐计划设计新应用、潜在的新商业模式和服务•在线详单查询•精准广告Hadoop在电信中的应用1.热门网站分析2.热门终端分析3.客户投诉统计分析4.上网记录详单查询智慧城市和物联网实时交通信息数据库实时路况信息轨迹查询实时拥塞状况图地点分类统计和推荐系统