英特尔智慧交通解决方案-英特尔大数据平台最佳实践东软内部公开,未经许可不得扩散提纲•大数据带来交通管理上的挑战•Intel企业级Hadoop平台•基于IntelHadoop构建智慧交通应用解决方案2东软内部公开,未经许可不得扩散大数据时代-数据爆发性增长3IDC预测全球的数据使用量到2020年会增长44倍,达到35.2ZB(1ZB=10亿TB)*Source:McKinseyGlobalInstituteAnalysisSGCrossAssetResearch,PwC统计、分析、预测、实时处理东软内部公开,未经许可不得扩散大数据处理速度要求越来越高Source:IDCDigitalUniverseStudy,sponsoredbyEMC,May2010•大数据与海量数据的一个重要区别,在于不但数据尺寸大,而且对数据处理的响应速度有有着更高的要求•传统的以周,天,小时为单位的运算处理周期,下降到以分钟,秒为单位•大数据高价值的重要体现-处理速度ValueHighutilityDiminishingutilityArchivalvalueTimeHighLowNegative东软内部公开,未经许可不得扩散数据的多样性Source:IDCDigitalUniverseStudy,sponsoredbyEMC,May2010•数据形式的多样:–结构化数据,数据间有很强的因果关系–半结构化数据,数据间因果关系较弱–非结构化数据,数据间无因果关系•数据来源的多样性:–不同的应用系统–各种设备–互联网–其它Flatfile东软内部公开,未经许可不得扩散创造显著业务价值(VALUE)©Copyright2011EMCCorporation.Allrightsreserved.大数据分析显著的业务价值3V特性驱动下创建挖掘数据资产价值,通过数据驱动业务,变成本中心为利润中心东软内部公开,未经许可不得扩散智慧城市-最典型的大数据应用2012/8/77东软内部公开,未经许可不得扩散智能交通系统面临大数据的挑战•海量数据−城市A:500000个探头,三个月会产生200PB的视频数据−城市B:12,000个ITS探头,每天20亿条记录,三个月产生1PB的数据•实时计算−实时数据的采集、扫描、查询和共享−实时事件监测−准实时的预测分析•大型跨区域分布式计算−数据过于庞大,建设中心机房困难−带宽所限无法将海量数据汇总至总中心−数据多为分中心本地用户访问−数据过于集中,系统风险加大−总中心投资过大,无法分摊到位2012/8/78东软内部公开,未经许可不得扩散数据处理需求与传统平台扩展能力之间的差距不断增大数据处理需求与传统平台硬件扩展的差距不断扩大IndustryProgress大数据处理需要的扩展能力东软内部公开,未经许可不得扩散BigBigData云计算技术是有效处理大数据的有效手段大数据和云是两个不同的概念,但两者之间有很多交集。支撑大数据以及云计算的底层原则是一样的,即规模化、自动化、资源配置、自愈性,因此实际上大数据和云之间存在很多合力的地方。大数据应用是在云上跑的、非常典型的应用。例如尽管电子邮件也是云上的应用之一,但也可以脱离云架构,但是大数据应用必须架构在云设施上。这就是两者的关系——大数据处理离不开云东软内部公开,未经许可不得扩散海量数据分析处理向云系统架构演进•结构化数据•数据规模一般为TB规模•集中式,为了分析进行大量数据移动,数据向计算靠近•批处理为主•结构化/非结构化混合分析的能力•数据规模从数十TB到PB级别•分布式,计算向数据靠近•支持流式分析事务关系型数据库批处理数据仓库分析集群化非结构化流式多种数据源分析(MapReduce)组织传统BI分析大数据分析Examples:TelcoGovtFinanceWeb东软内部公开,未经许可不得扩散提纲•大数据带来交通管理上的挑战•Intel企业级Hadoop平台•基于IntelHadoop构建智慧交通应用解决方案12东软内部公开,未经许可不得扩散什么是Hadoop?•开源Apache项目,灵感来源于Google的MapReduce白皮书和Google文件系(GFS),Yahoo完成了绝大部分初始设计和开发•Hadoop核心组件包括:-分布式文件系统-Map/Reduce–分布式计算•用Java编写•运行平台:•Linux,MacOS/X,Solaris•普通的X86硬件平台ShuffleMapReduce东软内部公开,未经许可不得扩散Hadoop之上的常见应用组件Hadoop.apache.org•MapReduce的过程化语言接口Pig•高可用分布式协调器Zookeeper•Hadoop上的类SQL引擎Hive•用于随机实时读写访问的数据库引擎(NOSQL)HBase•工作流式的作业管理器和协调器Oozie•可扩展的机器学习库Mahout东软内部公开,未经许可不得扩散为什么Hadoop很重要?•非结构化数据暴增:–估计未来5年,企业的数据将增长650%,其中80%都是非结构化数据–比如FACEBOOK每天收集100TB的数据,Twitter会有每天产生3500亿的tweets•非结构化的数据同样蕴藏巨大价值•需要新方法利用不同类型数据进行业务分析–ApacheHadoop作为一个分析存储大量数据的关键数据平台出现东软内部公开,未经许可不得扩散Hadoop与“大数据”•Hadoop是致力于“大数据”处理的最重要平台之一–能够轻松扩展到PB级别的数据存储,处理规模–带有容错功能的并行处理架构–基于普通的X86平台硬件架构,硬件成本低廉–用内置格式存储/处理数据–基于开源项目,拥有当量的代码来源,并且传统厂商也日益重视对其的支持,它已经成为重要的并行处理架构标准之一东软内部公开,未经许可不得扩散Hadoop数据平台创建革命性的新应用医疗•电子病历的实时查询、搜索和实时共享•医疗影像数据的存储和检索•疾病的趋势分析,流行病告警•计算机辅助诊断(疾病分类等)•药物效果分析•药物相互作用(副作用)分析电信•详单和账单的采集、存储、实时查询和统计•用户上网记录的采集、查询、统计•用户行为分析,套餐推荐•用户流失性分析•3G网络优化,流量优化,网间优化•基站参数采集和分析政府部门•智能交通系统:交通信息的实时采集、实时统计和实时查询交通信息的实时分析,例如区间测速交通状况的模式分析和优化•智慧城市安保系统:图像视频的存储、检索和比对。•物联网:传感器数据的实时采集、实时分析和实时告警金融•非结构化数据(例如签名、影像等)的存储和检索•准实时的交易统计和分析•交易相关性分析•客户风险分析•交易监控、合规分析、法规遵从制造•设备参数采集和监控•感器数据实时采集、分析和实时告警•失效分析和损失预估•预测性分析零售•统计和分析:准实时的售卖点销售统计•决策支持:从库存管理、价格制定到新店选址•新的商业/服务模式:定向广告、优惠券、日常生活助理等东软内部公开,未经许可不得扩散Intel提供企业级的Hadoop产品•IntelHadoop–经过测试和验证的稳定版本,在生产环境成功部署运营–包括了Intel针对现有客户在实际使用中出现问题的解决方法以及改进和优化–基于Intel在云计算研发上的经验积累,提供专业的咨询服务,帮助构建高可扩展高性能的分布式系统–结合Intel的硬件部门,提供全面的软硬件解决方案–为Intel硬件平台进行优化,提供更高性能。ComplexMPPSystems(50TB,real-timeanalytics)ApacheHadoop(Petabytes,batchanalytics)东软内部公开,未经许可不得扩散HDFS1.0.3HadoopDistributedFileSystemHBase0.90.7Real-timeDistributedBigTableMap/Reduce1.0.3DistributedProcessingFrameworkHive0.9.0SQL-likeQueryPig0.9.2DatamanipulationSqoop1.4.1StructuredDataCollectorFlume1.1.0LogDataCollectorHadoopManagerDeployment,Configuration,Monitoring,AlertingandKerberosZookeeper3.3.5Coordination英特尔企业级Hadoop堆栈东软内部公开,未经许可不得扩散为什么选择英特尔企业级Hadoop大数据平台更高性能•基于Hadoop底层的大量优化算法,使应用效率更高、计算存储分布更均衡•系统安装程序计算得出的参数配置,适合大多数应用情况•与硬件技术相结合,提高平台性能企业级服务•全面测试的企业级发行版,保证长期稳定运行•集成最新开源的和自行开发的补丁,用户可以及时修正漏洞•保证各个部件之间的一致性,使应用顺滑运行易于管理•提供独有的基于浏览器的集群安装和管理界面,解决开源版本管理困难的问题•提供网页、邮件和短信方式的系统异常报警功能增强•提供跨数据中心的HBase数据库虚拟大表功能•实现HBase数据库复制和备份功能•其他针对企业用户需要的增强功能东软内部公开,未经许可不得扩散Intel对hadoop的性能优化2012/8/7210500100015002000250030003500OpenSourceHBase(0.90.3)OptimizedHDFSI/O7003500020000400006000080000100000OpenSourceHBase(0.90.3)AdvancedRegionBalancing2500082000•为企业级应用而优化:优化后的HBase与开源版本的性能差异•性能数据在8台服务器组成的小规模集群上测试得到•服务器配置:E5-26808核CPU,64GB内存,8块7200rpmSATA硬盘,千兆以太网query/sinsertion/s•基于HBase数据库−平均每秒每服务器插入10000条记录(双路,32GB)(每条记录大约1KB)−数据查询:平均每秒每服务器大于400次查询,查询时延小于1秒(在不同压力下0.05秒~0.8秒)•每次查询返回一个用户一个月的移动详细记录东软内部公开,未经许可不得扩散跨数据中心大表2012/8/722•全局虚拟大表•大表数据分区存放在物理分中心•多个分中心位于不同地理位置•分中心之间由网络互连•接入任何分中心可访问全局数据•高可用性•适合本地高速写入•分布式聚合计算,避免大数据传输虚拟大表分中心A分中心B分中心C东软内部公开,未经许可不得扩散2012/8/723直观集群管理工具简化管理•基于浏览器的图形化分布式集群管理软件。它提供配置、安装、管理和优化的工具。•基本特点:集群安装配置向导,自动计算常用最优配置集群参数全面配置,包括所有Hadoop参数和用户自定义参数集群配置版本控制,可备份恢复历史配置支持有命名服务器和无命名服务器环境支持Kerberos认证和配置通信通道加密,系统更安全东软内部公开,未经许可不得扩散专为Hadoop优化的硬件I/O:非标准主板设计支持最大I/O电源:高效(80+白金)热插拔冷冗余电源能效:双CPU分散型设计降低散热功耗内存:最大容量适应BigData需求网络:新一代Intel四网络口千兆以太网存储:支持多种硬盘数量模式,支持最大存储容量,适应BigData需求新一代英特尔®服务器主板产品S2600GZ―GrizzlyPass‖新一代英特尔®服务器系统产品R2000―BigHornPeak‖电源:高效冗余电源高密度:4-Node-in-2U,适用于计算密集型节点,高效空间利用,降低TCO灵活:3种主板SKU提供不同计算能力新一代英特尔®服务器主板产品S2600JF―JeffersonPass‖S2600WP―WashingtonPass‖新一代英特尔®服务器系统产品H2000―BobcatPeak‖RAS:单节点独立散热内存