Hadoop-Sqoop与传统ETL工具的比较

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

HadoopSqoop与传统ETL工具的比较HadoopSqoopETL工具对应的名词解释Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的开源工具,可以将一个关系型数据库(例如:MySQL,Oracle等)中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中。数据抽取的特征比较与Hadoop体系的集成负责数据仓库的数据抽取、转换和加载。ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。sqoop主要是通过JDBC和关系数据库进行交互。理论上支持JDBC的database都可以使用sqoop和HDFS进行数据交互。是为Hadoop的大数据体系提供数据的工具ETL工具经过多年的发展,已经形成了多个相对成熟的产品体系,其服务对象主要是传统的数据仓库体系,ETL工具的典型代表有:nformatica、Datastage、OWB、微软DTS等Sqoop工具属于Hadoop体系中的一个子项目,整合了Hadoop的HIVE和Hbase等,抽取的数据可以直接传输至HIVE中,且无需做复杂的开发编程等工作;数据抽取容错性比较对于数据抽取过程中产生的错误或者数据遗漏,可以通过捕获错误日志来进行错误收集和分析;人机操作界面相比没有ETL工具的可操作性和可视性高,需要技术人员编程进而实现日志分析对于传统的数据仓库来说,ETL工具经过多年的发展已经比较成熟,人机交互的可操作性和可视性较高,对于数据抽取过程中出现的错误可以比较直接的查看,不需要太多的编程开发;对于Hadoop体系来说,ETL工具属于外部工具,如果需要将数据抽取至Hadoop的HIVE中,则需要进行相应的技术开发工作,开发与HIVE的相关接口,以打通与HIVE的数据传输工作;产品的价格比较属于开源项目,不需要软件的许可费用,企业可以免费使用企业需要每年交纳ETL产品相关的许可费用

1 / 1
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功