华为FusionInsightHD2.6技术白皮书文档版本01发布日期2016-03-20华为技术有限公司文档版本01(2016-03-20)版权所有©华为技术有限公司i版权所有©华为技术有限公司2016。保留一切权利。非经华为技术有限公司书面同意,任何单位和个人不得擅自摘抄、复制本手册内容的部分或全部,并不得以任何形式传播。商标声明、HUAWEI、华为、是华为技术有限公司的商标或者注册商标。在本手册中以及本手册描述的产品中,出现的其他商标、产品名称、服务名称以及公司名称,由其各自的所有人拥有。免责声明本文档可能含有预测信息,包括但不限于有关未来的财务、运营、产品系列、新技术等信息。由于实践中存在很多不确定因素,可能导致实际结果与预测信息有很大的差别。因此,本文档信息仅供参考,不构成任何要约或承诺。华为可能不经通知修改上述信息,恕不另行通知。华为技术有限公司地址:深圳市龙岗区坂田华为总部办公楼邮编:518129网址:(2016-03-20)版权所有©华为技术有限公司ii目录1简介............................................................................................................................................31.1FusionInsightHD概述..............................................................................................................................31.2FusionInsightHD基础介绍......................................................................................................................42重点组件介绍............................................................................................................................62.1分布式文件系统HDFS...........................................................................................................................62.1分布式批处理引擎MapReduce...............................................................................................................62.2统一资源管理和调度框架YARN............................................................................................................72.3数据仓库组件Hive..................................................................................................................................82.4分布式数据库HBase...............................................................................................................................82.5分布式内存计算框架Spark.....................................................................................................................92.6全文检索组件Solr..................................................................................................................................102.7Hadoop集成开发工具Hue......................................................................................................................112.8数据集成................................................................................................................................................132.8.1Flume..............................................................................................................................................132.8.2Loader(Sqoop)............................................................................................................................142.9流处理(Streaming).............................................................................................................................172.9.1Storm..............................................................................................................................................172.9.2StreamCQL.....................................................................................................................................182.10Redis......................................................................................................................................................19华为FusionInsightHD2.6技术白皮书文档版本01(2016-03-20)版权所有©华为技术有限公司31简介1.1FusionInsightHD概述FusionInsight是华为企业级大数据存储、查询、分析的统一平台,能够帮助企业快速构建海量数据信息处理系统,通过对巨量信息数据实时与非实时的分析挖掘,发现全新价值点和企业商机。ManagerHDMPPDBFarmerMinerFusionInsightFusionInsight解决方案由5个子产品FusionInsightHD、FusionInsightMPPDB、FusionInsightMiner、FusionInsightFarmer和FusionInsightManager构成。FusionInsightHD:企业级的大数据处理环境,是一个分布式数据处理系统,对外提供大容量的数据存储、分析查询和实时流式数据处理能力。FusionInsightMPPDB:企业级的MPP关系型数据库,基于列存储和MPP架构,是为面向结构化数据分析而设计开发的,能够有效处理PB级别的数据量。FusionInsightMPPDB在核心技术上跟传统数据库有巨大差别,可以解决很多行业用户的数据处理性能问题,可以为超大规模数据管理提供高性价比的通用计算平华为FusionInsightHD2.6技术白皮书文档版本01(2016-03-20)版权所有©华为技术有限公司4台,并可用于支撑各类数据仓库系统、BI(BusinessIntelligence)系统和决策支持系统,统一为上层应用的决策分析等提供服务。FusionInsightMiner:企业级的数据分析平台,基于华为FusionInsightHD的分布式存储和并行计算技术,提供从海量数据中挖掘出价值信息的平台。FusionInsightFarmer:企业级的大数据应用容器,为企业业务提供统一开发、运行和管理的平台。FusionInsightManager:企业级大数据的操作运维提供,提供高可靠、安全、容错、易用的集群管理能力,支持大规模集群的安装部署、监控、告警、用户管理、权限管理、审计、服务管理、健康检查、问题定位、升级和补丁等功能。1.2FusionInsightHD基础介绍分布式文件系统HDFS分布式数据存储NoSQL数据库(HBase)ZooKeeper批处理MapReduce分布式计算引擎内存计算Spark流处理Storm批量采集Loader(Sqoop)实时采集Flume数据分发Kafka数据挖掘Mahout数据集成数据挖掘MLLib图处理GraphX集群管理Manager配置管理故障管理性能管理安全管理租户管理搜索引擎(Solr)SQL存储格式ORC/Parquet分布式资源管理DSLHive、SparkSQL、Redis、Phoenix、StreamCQL、SparkStreaming数据分析备份管理软件管理FusionInsightHDYarnFusionInsightHD需要对开源组件进行封装和增强,对外提供稳定的大容量的数据存储、查询和分析能力。各自组件提供功能如下:华为FusionInsightHD2.6技术白皮书文档版本01(2016-03-20)版权所有©华为技术有限公司5Manager:作为运维系统,为FusionInsightHD提供高可靠、安全、容错、易用的集群管理能力,支持大规模集群的安装/升级/补丁、配置管理、监控管理、告警管理、用户管理、租户管理等。HDFS:Hadoop分布式文件系统(HadoopDistributedFileSystem),提供高吞吐量的数据访问,适合大规模数据集方面的应用。HBase:提供海量数据存储功能,是一种构建在HDFS之上的分布式、面向列的存储系统。Oozie:提供了对开源Hadoop组件的任务编排、执行的功能。以JavaWeb应用程序的形式运行在Javaservlet容器(如:Tomcat)中,并使用数据库来存储工作流定义、当前运行的工作流实例(含实例的状态和变量)。ZooKeeper:提供分布式、高可用性的协调服务能力。帮助系统避免单点故障,从而建立可靠的应用程序。Redis:提供基于内存的高性能分布式K-V