Transwarp-Data-Hub一站式大数据综合平台白皮书

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

TranswarpDataHub(TDH)TranswarpDataHub(TDH)企业级一站式大数据综合平台TranswarpDataHub(TDH)企业级一站式大数据综合平台2015TRANSWARP星环科技大数据时代的来临为众多企业带来了更多全新的发展机遇。星环科技基于ApacheHadoop为企业开发了一站式大数据综合平台TranswarpDataHub(简称TDH),通过提供从数据存储、分布式计算、数据分析挖掘以及数据可视化的整套支持,帮助企业建立一个统一的数据和计算平台。企业用户可以在星环科技TDH一站式大数据综合平台上采集、存储、分析、搜索、挖掘海量数据及其内在价值。TDH一站式大数据综合平台涵盖:TDH一站式大数据综合平台是国内首个内嵌ApacheSpark计算框架的大数据平台软件,也是国内外领先的高性能大数据分析平台。TDH包含四个组成部分:TranswarpHadoop基础版、TranswarpInceptor分布式内存分析引擎、TranswarpHyperbase分布式实时数据库和TranswarpStream流处理引擎。一站式数据存储平台:TDH通过内存计算技术、高效索引、执行计划优化和高度容错的技术,使得一个平台能够处理从GB到PB的数据,并且在每个数量级上都能提供比现有技术更快的性能;企业客户不再需要混合架构,不需要孤立的多个集群。TDH可以伴随企业客户的数据增长而动态不停机扩容,避免MPP或传统架构数据迁移的棘手问题。一站式资源管理平台:TDH在统一存储上建立资源管理层,提供企业用户统一的计算资源管理、动态资源分配、多部门之间的资源配置和动态共享等功能,使多部门多应用可以灵活地在统一平台上平滑运行。一站式数据分析平台:TDH支持批处理统计分析、交互式SQL分析、在线数据检索、R语言数据挖掘、机器学习、实时流处理、全文搜索和图计算,为企业客户提供广泛的计算支持能力,客户无需切换平台或架构即可完成复杂的任务。一站式管理平台:TDH作为企业级解决方案,开发了用户友好的管理界面、提供了系统安装、集群配置、安全访问控制、监控及预警等多方面支持,在可管理性方面优势显著。系统可线性扩充存储容量或提高处理性能,只需要简单地向集群中增加机器,无需停机。有效解决企业由于数据增长导致的处理性能缓慢或频繁迁移数据的问题。满足新一代数据管理需求的TDH一站式大数据综合平台改进的YARN资源管理框架,可在同一份数据集上运行多种计算框架,动态创建SQL统计、数据挖掘、机器学习、流处理等计算集群,满足企业多部门数据和计算资源统一管理的需求。Inceptor交互式内存分析引擎,同时支持SQL2003和R语言,满足数据交互式分析和挖掘需求,加快企业决策速度。内置改进后的ApacheSpark,SQL执行性能比ApacheHadoop快10倍左右。Hyperbase实时数据库支持结构化、半结构化、非结构化等多种类型数据的在线存储、OLTP事务、OLAP检索、全文搜索、图分析和批处理统计业务等全方位需求。Stream分布式实时流处理引擎提供强大的流计算表达能力,可支持复杂的实时处理逻辑,满足企业实时告警、风险控制、在线统计和挖掘等应用需求。采用普通商用服务器构建集群,最大程度降低成本;内置ErasureCode先进编码技术,提供两倍存储效率和两倍容错能力;高效支持内存/闪存/硬盘混合存储,可提供最佳性价比存储配置。无限水平扩展统一数据处理平台高速数据分析灵活数据处理实时流计算超高性价比2015TRANSWARP星环科技图一:TDH一站式大数据综合架构TranswarpManagerincludingApacheSpark星环专有Apache项目高速SQL统计数据挖掘(内置TranswarpExtension)资源管理YARN(内置TranswarpErasureCode)优化存储HDFS2ElasticSearchPig批处理Mahout机器学习Oozie工作流Sqoop数据集成Flume日志采集全文搜索Map/Reduce2批处理框架Zookeeper协作服务TranswarpHyperbaseTranswarpInceptorNoSQL数据库搜索、图计算TranswarpStream流处理引擎TranswarpDataHub体系架构TranswarpHadoopTranswarpHadoop提供基础的分布式文件系统作为存储引擎,YARN作为资源管理框架,组合了一系列Apache项目,为用户提供了数据的采集、存储、数据同步、批处理、工作流分析以及全文搜索功能,是TDH不可或缺的基石。星环科技改进了ApacheYARN资源管理框架,可以在同一个HDFS数据集上动态创建Inceptor交互式分析集群、Map/Reduce批处理集群以及实时流处理集群,提供多部门间资源配额管理、动态资源调配、资源共享的能力,为企业建立一站式数据平台提供有力支持。TranswarpInceptorTranswarpInceptor交互式分析引擎提供高速SQL分析和R语言数据挖掘能力,可帮助企业建立高速可扩展的数据仓库和/或数据集市,结合多种报表工具提供交互式数据分析、即时报表和可视化能力。Inceptor提供完整的ANSISQL支持以及PL/SQL过程语言扩展,可以支持复杂的数据仓库类分析应用,也使得从原有数据库系统迁移到Hadoop更为容易。TranswarpHyperbaseTranswarpHyperbase实时数据库是建立在ApacheHBase基础之上,融合了多种索引技术、分布式事务处理、全文实时搜索、图形数据库在内的实时NoSQL数据库。Hyperbase可以高效地支持企业的在线OLTP应用、高并发OLAP应用、批处理应用、全文搜索或高并发图形数据库检索应用,结合Inceptor高速SQL引擎,是企业创建可扩展在线运营数据库(OperationalDatabase)或者实时分析型数据库(ODS-OperationalDataStore)的最佳选择。TranswarpStreamTranswarpStream实时流处理引擎提供了强大的流计算表达能力,支持复杂的应用逻辑,生产系统的消息通过实时消息队列进入计算集群,在集群内以流水线方式被依次处理,完成数据转换、特征提取、策略检查、分析告警等复杂服务计算,最终输出到Hyperbase等存储集群,实时生成告警页面、实时展示页面等。系统具备强扩展性、强容错、低延迟、高吞吐等特点,成熟应用于实时数据(如传感器数据)的实时告警、风险控制、在线统计和挖掘等业务。TranswarpDataHub(TDH)企业级一站式大数据综合平台TDH产品功能特性表描述先进的编码容错技术,相比传统HDFS的3副本策略,TranswarpHadoop只需1.5副本,降低一倍存储量需求,可容忍4个数据块同时丢失,平均无故障时间提高了一倍。新一代资源管理框架,允许多个应用集群同时高效地运行在一个物理集群上。经改进后,成为真正的多应用程序平台,可服务于整个企业。一个分布式批处理计算框架,将输入的数据集切分成块后并行处理、排序、再归集的整个过程,可处理PB级别的数据。Pig数据处理语言将类SQL的数据分析请求转换为Map/Reduce任务。Oozie是一个工作流调度引擎,可按时间或数据变化触发运行。Flume是一个分布式、高可靠、高可用的海量日志聚合系统。Sqoop(Sqltohadoop)可实现在Hadoop和关系数据库间的数据传递。功能/组件TranswarpHadoopErasureCodeYARNMap/ReducePigOozieFlumeSqoopElasticSearch分布式实时搜索与分析引擎,可实时对数据进行深度搜索。强大的主流数据统计和绘图语言R以及Web图形化开发界面RStudio。通过调用Inceptor内置并行算法库,支持对大数据集进行数据挖掘和统计。支持主流可视化和BI/挖掘工具,包括Tableau、IBMCognos、SAPBusinessObjects、OracleBI、SAS等。支持Informatica、Pentaho/Kettle等ETL工具。R语言/RStudio丰富的工具支持TranswarpInceptor基于内存的Map/Reduce计算引擎,即将成为新一代主流计算框架。处理大数据就像“光速”一样快,比HadoopMap/Reduce快10倍。并行化的高性能统计算法库,用于对原始数据进行去噪、去缺省/异常值、归一化、统计分布等,是机器学习或数据挖掘的基础工具包。并行化的高性能机器学习算法库,包含分类、聚类、预测、推荐等机器学习算法。可用于构建高精度的推荐引擎或者预测引擎。跨内存/闪存/磁盘等介质的分布式混合列式存储,常用于缓存数据供Spark高速访问。Holodesk内建内存索引,可提供比开源Spark更高的交互式统计性能;结合使用低成本的内存/闪存混合存储方案,可接近全内存存储的分析性能。ApacheSparkHolodeskSQL引擎统计库机器学习库高度优化的高速SQL引擎,可运行在Spark或Map/Reduce上,可高速处理缓存在Holodesk上的列式数据。兼容ANSISQL2003,HiveQL和PL/SQL语法,可以运行TPC-DS标准测试集中的全部99个测试项;支持数据仓库、数据集市等分析系统中常用的复杂分析型语法,方便应用迁移。2015TRANSWARP星环科技2015TRANSWARP星环科技高吞吐的流式计算引擎;提供强大的流计算表达能力,支持在流数据上进行包括实时事件检测和批处理、机器学习在内的复杂计算逻辑。低延时高吞吐的分布式消息队列,支持发布/订阅模式,同时满足在线和离线处理海量消息数据派发的系统。星环科技为Kafka实现了一套访问控制管理策略,只有授权的用户才可以对Kafka集群进行读写操作,避免发生数据泄露或者其他用户发生误写操作。支持用户在实时计算过程进行统计学习和机器学习,如聚类算法,可以实时调整聚类中心;分类算法可以实时更新分类模型,并对流数据进行类比判断。支持将实时数据流转成列式存储存放到Holodesk上,可以利用Inceptor使用SQL对实时数据进行Ad-hoc分析以及利用R进行数据挖掘等。TranswarpStreamTranswarpManagerCRUD全文搜索SQL支持索引图数据库分布式事务处理多数据类型支持流处理引擎Ad-hocSQL分析流式机器学习安装、部署监控、告警安全和访问控制支持通过SQL高并发毫秒级数据插入/修改/查询/删除。通过Inceptor支持采用SQL进行批处理和高并发查询,批处理比Map/Reduce快10倍。可从Hyperbase的行存储转换成Holodesk的列存储,同时支持在线查询和高速OLAP分析。支持全局、局部、高维索引和高级过滤器,可用于高并发低延时的OLAP查询。基于Lucene的分布式全文索引,可结合BigTable实时创建索引并进行搜索。存储关系网络、知识图谱等图数据(点、边、属性等)的可扩展分布式数据库,不但可建立大规模图形和网络模型,更能实现高并发的图检索。支持SQL命令COMMITTRANSACTION和ROLLBACKTRANSACTION进行跨表跨行的分布式事务处理以及事务回滚,保证数据更新的一致性。支持文档型数据(如JSON/BSON)的存储、索引和搜索,支持对象数据(图片、音视频、二进制文档等)的存储、检索和自动回收。KafkaWeb图形化界面和快速向导,帮助用户在短时间内部署一个或多个集群。丰富的性能指标监控和功能故障监控,并且可定制邮件告警。支持Kerberos和LDAP进行身份认证和访问权限控制。支持对文件、目录、表、列、行等细粒度的访问控制。支持数据加密和传输加密。TranswarpHyperbaseTranswarpDataHub(TDH)核心技术优势2015TRANSWARP星环科技ApacheHadoop是针对大规模分布式数据而开发的软件框架,已经成为企业管理大

1 / 8
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功