浪潮(北京)电子信息产业有限公司1浪潮云海大数据一体机解决方案高端服务器研发部高端容错计算机产品部2013.1浪潮(北京)电子信息产业有限公司2目录一.产品简介................................................................41.1浪潮云海大数据一体机总体架构...................................................................................41.2系列化产品.......................................................................................................................4二.关键模块介绍.......................................................52.1Hadoop分布式文件系统:...........................................................................................52.2HadoopMapReduce计算框架:...............................................................................62.3HBase分布式数据库.....................................................................................................62.4Hive数据仓库..................................................................................................................7三.浪潮云海大数据一体机解决方案优势..............73.1高性能...............................................................................................................................73.2高可靠性...........................................................................................................................83.3高性价比...........................................................................................................................93.4易管理...............................................................................................................................93.5专业化服务.....................................................................................................................11四.竞争性分析..........................................................114.1跟传统关系型数据库对比分析.....................................................................................114.2跟开源Hadoop对比分析............................................................................................13五.成功案例..............................................................15浪潮(北京)电子信息产业有限公司35.1某城市智能交通系统.....................................................................................................155.2某省级运营商清帐单查询系统.....................................................................................18六.浪潮云海大数据一体机配置............................19浪潮(北京)电子信息产业有限公司4一.产品简介为应对大数据时代的到来,浪潮集团适时推出浪潮云海大数据一体机,重点面向行业大数据应用,是一体化数据处理的解决方案。采用新型技术体系架构,整合软硬件系统,涵盖数据存储、数据处理、数据呈现等全环节。浪潮云海大数据一体机是公安、金融、电信、交通、医疗、企业等各个行业用户的大数据解决方案理想之选。1.1浪潮云海大数据一体机总体架构1.2系列化产品SDA-1:满配:CPU:480Core;内存:12TB;存储容量:144TB;网络:1Gbps、10Gbps或者40Gbps支持线性扩展浪潮(北京)电子信息产业有限公司5适合数据处理应用:模式计算,商业智能,医疗数据挖掘等。计算能力、I/O能力、存储能力均衡。SDA-2:满配:CPU:288Core;内存:6912GB;存储容量:540TB;网络:1Gbps、10Gbps或者40Gbps支持线性扩展适合处理密集型的重载应用:视频处理,图片处理分析,图像渲染,在线交易等。可重构加速器件或众核处理器,硬件加速。二.关键模块介绍HDFS分布式存储解决数据如何存储的问题,Map/Reduce解决数据如何处理问题,HBase解决实时数据库问题,Hive解决基于SQL的数据分析和挖掘。2.1Hadoop分布式文件系统:–使用低成本存储和服务器构建–存放PB级别的海量数据–高可扩展性,实际生产环境扩展至4000个节点–高可靠性和容错性,数据自动复制,可自我修复–高带宽,高并发访问浪潮(北京)电子信息产业有限公司62.2HadoopMapReduce计算框架:为离线数据分析而设计,基本上是个利用数据并行性进行分布运算而后汇总结果的计算框架。通用的计算框架,松耦合,非常利于线性扩展。与HDFS一起使用,具有容错特性,数据本地化处理,通过移动计算,而非移动数据来实现高效数据处理。•分析问题能够被并行化,且输入数据集可以被切分•一个Map函数,在第一阶段计算Key,Value对•一个Reduce函数,在第二阶段用于汇总Map函数的结果2.3HBase分布式数据库HBase是一个分布式的、按列存储的、多维表结构的实时数据库,为高速在线数据服务而设计–NoSQL•面向列、可压缩,有效降低磁盘I/O,提高利用率。•多维表,四个维度,其中三个维度可变,适合描述复杂嵌套关系。•灵活的表结构,可动态改变和增加(包括行、列和时间戳)。•支持单行的ACID事务处理–分布式系统•高性能,支持高速并发写入和高并发查询;•可扩展,数据自动切分和分布,可动态扩容,无需停机;浪潮(北京)电子信息产业有限公司7•高可用性,建立在HDFS分布式文件系统之上。2.4Hive数据仓库Hive是一个建立在hadoop之上的数据仓库,用于查询和分析结构化海量数据–采用HDFS进行数据存储–采用Map/Reduce进行数据操作基本特点:–提供类似于SQL的查询语言–高扩展性(scale-out),动态扩容无须停机–针对海量数据的高性能查询和分析系统–提供灵活的扩展性•复杂数据类型,扩展函数和脚本等三.浪潮云海大数据一体机解决方案优势3.1高性能专用的大数据存储服务器:针对大数据的应用特点,浪潮凭借在服务器及存储方面的领先优势,自主开发了大数据存储服务器,具备高密度、大容量存储特性。胖节点加速方案:胖节点拥有英特尔至强平台的最强性能、最大内存、最高RAS特性保障。浪潮(北京)电子信息产业有限公司8闪存加速技术:将闪存盘放在整个计算缓存里面做高速缓存,针对不同应用类型,实现全局的算法,降低冗余率,使整个平台的计算节点、存储节点大大提高运行效率。高速通信网络:通信网络选用性能领先的万兆网络或者IB网络,实现一体机内部的高速互联,消除网络瓶颈。软件性能优化IO瓶颈易于解决可以发挥大规模并行运算优势支持大规模并行装载,装载前无需数据格式化,节点越多装载速度越快优化系统任务调度策略,对任务实现实时监控,动态调整任务执行资源,减少慢任务数量,提高整体性能3.2高可靠性服务器本身冗余特性:节点的硬盘、风扇、电源等关键部件都是冗余设计,保障了节点本身的可靠性。浪潮(北京)电子信息产业有限公司9链路冗余:网络可实现物理冗余设计,避免单点故障对系统的影响。采用Reed-Solomon算法,优化分布式散列数据布局,满足文件高并发和高带宽双重需求同时平衡数据冗余度。采用两副本加编码的方式相对三副本最大可实现30%空间节省。智能失败任务识别:自动将任务转移到备份数据节点执行,单个节点的故障不影响整个任务的执行,有效应对计算单元失效。3.3高性价比Hadoop的诞生本身就是为了在低成本的通用硬件集群上运行分布式计算框架。浪潮云海大数据一体机具备优异的线性可扩展,满足了未来业务量增长的需求,有效保护了现有投资,降低总体CTO。3.4易管理本地管理平台:每套大数据一体机中都配有本地管理平台,使系统管理人员方便集中控管一体机。浪潮(北京)电子信息产业有限公司10远程集中管理平台:HDFS配置界面HBase配置界面浪潮(北京)电子信息产业有限公司11监控管理界面3.5专业化服务实施服务:云海大数据一体机会在出厂前进行产品预装及严格的可靠性测试,保障产品的品质。产品实施实现客户现场的一体化交付,真正做到插电即用,极大地降低了客户利用大数据的门槛。售后服务:浪潮建立了以山东济南客户服务总部为中心、其他各省、直辖市设立服务分中心的覆盖全国的完备售后体系,所有客服工程师都是原厂经验丰富的服务工程师。浪潮已经连续九年获得售后服务满意度金奖。四.竞争性分析4.1跟传统关系型数据库对比分析机型浪潮云海大数据一体机OracleExadata一体机类型新型的Hadoop解决方案传统关系型数据库(RDBMS)浪潮(北京)电子信息产业有限公司12适用场景•数据规模10TB~EB规模•结构化,半结构化,非结构化混合存储和处理•海量数据的ETL和数据挖掘分析应用•海量数据的高并发随机访问•数据规模TB以下•结构化数据的存储和处理•联机交易应用•GB级别的数据分析和ETL架构•无共享MPP架构•单一实例•Share-all架构可用性•默认三份数据冗余,用户可依据需求进行调整•备用元数据节点,故障后自动切换•数据损失后,可以在剩余机器上自愈•故障节点作业可以转移到其它节点•无需第三方支持,HBase提供基于日志的容灾解决方案•大部分产品依赖RAID技术进行数据冗余•大部分产品不具备数据自愈能力,需要数据备份•节点故障后,SQL任务中断,不能自动转移•部分主流商业数据库,无需第三方支持提供基于日志的容灾解决方案性能•IO瓶颈易于解决•可以发挥大规模并行运算优势•支持大