H3C大数据产品技术白皮书

xfyixuan
0 ℃
2021-04-05

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

H3CFlexDataMPPCluster技术白皮书杭州华三通信技术有限公司IH3C大数据产品技术白皮书杭州华三通信技术有限公司2021年4月H3CFlexDataMPPCluster技术白皮书杭州华三通信技术有限公司II目录1H3C大数据产品介绍.............................................11.1产品简介...............................................11.2产品架构...............................................11.2.1数据处理...........................................21.2.2数据分层...........................................31.3产品技术特点...........................................4先进的混合计算架构.......................................4高性价比的分布式集群.....................................4云化ETL.................................................4数据分层和分级存储.......................................5数据分析挖掘.............................................5数据服务接口.............................................5可视化运维管理...........................................51.4产品功能简介...........................................6管理平面功能：...........................................7业务平面功能：...........................................82DataEngineHDP核心技术........................................93DataEngineMPPCluster核心技术................................93.1MPP+SharedNothing架构..............................93.2核心组件..............................................103.3高可用...............................................113.4高性能扩展能力........................................113.5高性能数据加载........................................123.6OLAP函数.............................................133.7行列混合存储..........................................13H3CFlexDataMPPCluster技术白皮书杭州华三通信技术有限公司-1-1H3C大数据产品介绍1.1产品简介H3C大数据平台采用开源社区ApacheHadoop2.0和MPP分布式数据库混合计算框架为用户提供一套完整的大数据平台解决方案，具备高性能、高可用、高扩展特性，可以为超大规模数据管理提供高性价比的通用计算存储能力。H3C大数据平台提供数据采集转换、计算存储、分析挖掘、共享交换以及可视化等全系列功能，并广泛地用于支撑各类数据仓库系统、BI系统和决策支持系统帮助用户构建海量数据处理系统，发现数据的内在价值。1.2产品架构H3C大数据平台包含4个部分：第一部分是运维管理，包括：安装部署、配置管理、主机管理、用户管H3CFlexDataMPPCluster技术白皮书杭州华三通信技术有限公司-2-理、服务管理、监控告警和安全管理等。第二部分是数据ETL，即获取、转换、加载，包括：关系数据库连接Sqoop、日志采集Flume、ETL工具Kettle。第三部分是数据计算。MPP采用分析型分布式数据库，存储高价值密度的结构化数据；Hadoop存储非结构化/半结构化数据和低价值密度结构化数据。计算结果都存到数据仓库，数据仓库中的数据可直接用于分析和展示。数据仓库是面向主题的、集成的、稳定的且随时间不断变化的数据集合，用以支持经营管理中的决策制定过程。第四部分数据服务，包括：机器学习、数据挖掘、数据检索、数据可视化、即席分析、SQL和API，为应用层提供服务和中间件调用。1.2.1数据处理对于大数据管理平台，应该建立一套标准化、规范化的数据处理流程，例如：如何采集内部和外部数据、结构化和非结构化数据；如何清洗采集来的脏数据和无效数据；如何对不同来源的数据进行打通；如何对非结构化的数据进行结构化加工；如何在结构化数据的基础上进行商业建模和数据挖掘等等。大数据管理层在一条数据总线上构建了一条完整的大数据处理流水线。这条流水线从数据的采集、清洗到加工处理，把原始杂乱无章的数据加工成结构化的数据组件，供上层的大数据应用来拼装调用，让企业拥有创造数据资产的能力。H3CFlexDataMPPCluster技术白皮书杭州华三通信技术有限公司-3-1.2.2数据分层ODS层：数据来源于各生产系统，通过ETL工具对接口文件数据进行编码替换和数据清洗转换，不做关联操作。未来也可用于准实时数据查询。轻度汇总层：主题域内部基于明细层数据，进行多维度的、用户级的汇总明细数据层：主题域内部进行拆分、关联。是对ODS操作型数据按照主题域划分规则进行的拆分及合并。信息子层：报表数据、多维数据、指标库等数据来源于汇总层。汇总层：主题域之间进行关联、汇总计算。汇总数据服务于信息子层，目的是为了节约信息子层数据计算成本和计算时间。H3CFlexDataMPPCluster技术白皮书杭州华三通信技术有限公司-4-应用层：应用系统的私有数据，应用的业务数据。精细化营销做为大数据平台的一个上层应用，由大数据平台提供数据支撑。1.3产品技术特点先进的混合计算架构•采用Hadoop和MPP融合技术架构，对半结构化和非结构化数据支持并行计算和低成本存储，提供低时延、高并发的查询和分析功能；对结构化数据采用MPP分布式列存储，支持分布式计算、智能索引等功能，实现高性能结构化数据分析处理。集成MapReduce、Spark、Storm、Tez等多种计算框架，利用YARN资源管理做统一管理，可在同一份数据集上运行多种计算。离线计算、内存计算和流式计算并存，能满足高吞吐、大数据量和低时延实时处理等多方面的数据计算要求。高性价比的分布式集群•基于x86服务器本地的计算与存储资源，计算集群可以动态调整，从数台到数千台之间弹性扩展，按需构建应用，减少总体成本；同时，在设计时充分考虑了硬件设备的不可靠因素，在软件层面提供计算和存储的高可靠保证，具备较强的容错性。云化ETL•将不同业务系统中分散、零乱、标准不统一的各种源数据中的数据进行汇聚。支持从DBMS、互联网、物联网、企业生产系统等各种数据源中提取数据。各类数据经过抽取、清洗和转化后，实现多对多地加载到包含但不限于大数据集群和各类关系型数据库中。该过程由一个统一的操作接口封装，经过无代码的可视化配置后，可实现自动化地、分布式地执行整个ETL作业流程。H3CFlexDataMPPCluster技术白皮书杭州华三通信技术有限公司-5-数据分层和分级存储•把数据按照不同阶段分为ODS(OperationalDataStore)数据、轻度汇总数据、信息子层数据和应用数据，分别存储在Hadoop平台、MPP分布式数据库和数据仓库，满足不同阶段的计算需求；按照在线数据、历史数据等来管理数据生命周期，满足在线数据的高性能存储的需求；将核心模型数据通过改造融入到数据仓库的核心模型中，减少数据冗余，提升数据质量；将数据仓库中的历史数据迁移到低成本分布式数据库，减轻数据仓库的计算与存储压力并支撑深度数据分析。数据分析挖掘•支持R语言，集成机器学习算法库Mahout和SparkMLlib，包含聚类分析、分类算法、频度关联分析和推荐系统在内的常用机器学习算法。满足批处理统计分析、在线数据检索、R语言数据挖掘、实时流处理、全文搜索等全方位需求。可帮助企业建立高速可扩展的数据仓库和数据集市，结合多种报表工具提供交互式数据分析、即时报表和BI可视化展示能力。数据服务接口•提供交互式SQL和可编程API，提取数据存储计算平台的数据处理结果，屏蔽底层细节，为上层应用提供数据服务。主要包括SQL接口、MapReduce/Spark/Storm计算接口等多种可编程API、全文实时搜索接口、业务定向接口、关联查询接口，满足数据查询、可视化BI展示、数据交换、数据分析、目录服务、综合查询等业务应用的需要。可视化运维管理•提供Web图形化界面实现运集群的管理和监控，集群的节点、主机和服务的运行状态都能在界面上显示，操作友好，功能丰富。提供集群快速安装部署、机架展示、用户权限管理、主机与服务管理、监控及告警通知等多方面支持，在可管理性方面优势显著。H3CFlexDataMPPCluster技术白皮书杭州华三通信技术有限公司-6-服务分类服务名称服务功能说明系统服务YARN一种全新的通用的Hadoop资源管理器，为集群在利用率和资源统一管理等方面带来了巨大便利。可使MapReduce、Spark、Storm等共存。ZooKeeper分布式应用程序协调服务，保证集群的一致性。提供的功能包括：配置维护、名字服务、分布式同步、组服务等。Slider将已存在服务部署在YARN集群上，而不用修改已存在服务。Oozie提供Hadoop作业工作流管理功能，可管理MR、Hive、Pig、Sqoop和HDFS等任务。Kafka一种低时延高吞吐量的分布式发布/订阅消息系统，同时满足在线和离线处理海量消息数据派发。Kerberos一个基于共享密钥对称加密的安全网络认证系统，可防止对集群的恶意使用和篡改，保障Hadoop集群的安全可靠。计算服务MapReduce批处理框架，将一个大任务分成多个独立的小任务，最后汇总各个小任务的结果。用户只需关注上层应用的逻辑，完全不用关注底层分布式细节，大大提升了分布式应用开发的效率和质量。主要用于离线计算和计算密集型应用。Spark迭代计算框架，基于内存计算。性能比MR快10-100倍，通用性好，支持批处理、流处理、SQL查询、机器学习、图计算等。Storm流处理框架，具有效率高、能保证每条消息都能被处理和实践应用很多等优点。TezMapReduce程序性能优化器。将MR程序转化为有向无环图，大大提升性能。存储服务HDFSHadoop分布式文件系统，具有高容错性，可以部署在廉价的机器上。提供高吞吐量来访问应用程序的数据，适合存储超大数据集。HBase分布式、面向列数据库，利用HDFS作为持久化数据存储，使用Zookeeper作为协同服务组件。具有容量巨大、面向列存储和权限控制、稀疏性、高可用和高性能等特点。数据处理SqoopHadoop和关系型数据库之间进行批量数据转移的工具。Flume一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Hive基于Hadoop的数据仓库工具，可以将结构化的数据文件映射为一张数据库表，采用HiveQL作为查询语言。将HiveQL转换为MapReduce任务，从而完成海量数据的查询和分析。Pig基于Hadoop的数据流处理引擎，将类SQL的数据分析请求转换为Map/Reduc