HADOOP学习提纲

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

HADOOP学习提纲1Cloudera授权Hive和Pig培训课程目标专门为数据分析和数据挖掘人员量身定做的培训科目。学员将学习和掌握使用高级脚本语言或类SQL语言来编写MapReduce任务,而无需掌握Java编程语言和熟悉HadoopAPI。通过掌握Hive和/或Pig,将极大缩短数据分析人员设计编写和调试常见数据分析问题的周期,提高工作效率;从而为企业节省费用,缩短分析结果市场化的周期。学员基础应具备基本SQL或者高级脚本语言编程经验;对Hadoop组成和工作原理有基本了解。课时为期2天课程内容Hive如何扩展MapReduce如何使用Hive创建和操作表Hive基本和高级数据类型对数据进行分区和分组高级Hive特性如何用Pig加载和操作数据PigLatin编程语言的特性用Pig解决实际数据分析问题授课形式采取教师讲解和学员上机操作相结合的形式。上机实验有机地穿插在重要课题讲解后,学员能马上学以致用,巩固刚刚所学的概念和知识,转化为自身的技能应用到实战中。我们鼓励学员在课堂上大胆自由地提问,和授课教师进行互动,获得最大的收益。课程大纲Hive导引什么是HadoopHive的动机将数据导入到HiveHive体系结构创建Hive表导入数据创建不同的数据库上机实验Hive数据操作使用SELECT语句检索数据合并表格将查询结果存入HDFS基本Hive函数上机实验对数据进行分区和分组数据分区数据分组上机实验Hive高级特性更多高级HiveQL表Hive变量创建用户自定义函数跟踪调试Hive查询Hive最佳实践配置共享元数据处理日期使用SerDesPig读写数据加载数据Pig数据结构写数据上机实验PigLatin深入数据过滤数据分组和排序Pig表达式和函数合并多个数据集验证数据集高级性能(例如COGROUP和STREAM)上机实验调试Pig代码调试Pig程序策略处理坏数据使用ILLUSTRATEPig最佳实践一般性实战经验产品化Pig代码性能优化发挥Hive和Pig优势什么情况下使用Hive什么情况下使用Pig2Cloudera授权Hadoop管理员培训课程目标专门为系统管理员和其他技术人员量身定做的课程,以进行用于产品或开发测试环境中的Hadoop机群的安装部署,管理和优化,为企业进行海量数据存储和分析搭建经济高效和高可靠的系统平台。学员基础具备基本Linux系统管理经验。不需要事先掌握Hadoop相关知识。课时为期3天课程内容Hadoop分布式文件系统(HDFS)和MapReduce的工作原理如何优化Hadoop机群所需要的硬件配置搭建Hadoop机群所需要考虑的网络因素如何利用Hadoop配置选项进行系统性能调优如何利用FairScheduler为多用户提供服务级别保障Hadoop机群维护和监控如何使用Flume从动态生成的文件加载数据到Hadoop如何使用Sqoop从关系型数据库加载数据使用其他Hadoop相关系统工具(诸如Hive,Pig和HBase)所涉及到的系统管理问题授课形式采取教师讲解和学员上机操作相结合的形式。上机实验有机地穿插在重要课题讲解后,学员能马上学以致用,巩固刚刚所学的概念和知识,转化为自身的技能应用到实战中。我们鼓励学员在课堂上大胆自由地提问,和授课教师进行互动,获得最大的收益。认证考试ClouderaApacheHadoop资格管理员考试提供业界进行Hadoop安装部署及管理调优领域里唯一且最具权威性、并得到全球认可的认证。为企业提供了高质量可以依赖的Hadoop管理员,保障了海量数据存储和处理计算平台系统的高质量;为工程师技术人员提供了最新的技术装备,开拓了职业发展。课程大纲Hadoop和HDFS入门为什么使用Hadoop?HDFS介绍MapReduce介绍Hive,Pig,HBase和其他Hadoop生态系统项目上机实验Hadoop机群规划一般考虑因素选择合适的硬件网络考虑配置节点配置和部署Hadoop机群部署种类安装Hadoop使用ClouderaManager进行简易安装典型配置参数机柜配置(RackAwareness)使用配置管理工具上机实验管理调度任务管理运行的任务上机实验先进先出调度器(FIFOScheduler)公平调度器(FairScheduler)配置公平调度器上机实验Hadoop维护检查HDFS状态上机实验Hadoop机群之间的数据拷贝增减Hadoop机群节点Hadoop机群数据负载平衡上机实验名字节点(NameNode)元数据(Metadata)的备份机群升级Hadoop机群监控和故障排除一般性系统监控管理Hadoop日志文件使用NameNode和JobTracker的WebUI上机实验使用Ganglia来监控机群常见故障问题用基准测试工具测试机群性能为Hadoop机群加载外部数据源Flume概述上机实验Sqoop概述导入数据的最佳实践安装和管理其他Hadoop项目HivePig上机实验HBase3Cloudera授权Hadoop开发员培训课程目标适用于使用ApacheHadoop来创建开发强大的数据处理应用的各类Hadoop开发技术人员。通过本课程的学习,学员将掌握开启海量数据处理技术大门的金钥匙,为企业提供前所未有的从所有不同类型数据里挖掘商业价值的机会。学员基础具备编程经验的开发人员(最好是面向对象高级编程语言,譬如Java)。不需要事先掌握Hadoop相关知识。课时为期4天课程内容Hadoop分布式文件系统(HDFS)和MapReduce的工作原理如何利用JAVAAPI或者其他编程语言来开发MapReduce应用MapReduce任务开发中的注意事项如何在Hadoop上实现常见算法Hadoop开发和调试的最佳实用经验如何利用其他Hadoop相关技术,包括ApacheHive,ApachePig,Sqoop和Oozie等满足解决实际数据分析问题的高级HadoopAPI授课形式采取教师讲解和学员上机操作相结合的形式。上机实验有机地穿插在重要课题讲解后,学员能马上学以致用,巩固刚刚所学的概念和知识,转化为自身的技能应用到实战中。我们鼓励学员在课堂上大胆自由地提问,和授课教师进行互动,获得最大的收益。认证考试ClouderaApacheHadoop资格开发员考试提供Hadoop上软件开发在业界唯一且最具权威性、并得到全球认可的认证。为企业提供高质量保证的Hadoop开发人员;为工程师技术人员提供了最新的技术装备,开拓了职业发展。课程大纲Hadoop的来源和动机传统大规模系统存在的问题对一种新的解决方案的需求Hadoop基本概念Hadoop概述Hadoop分布式文件系统上机实验MapReduce工作原理上机实验Hadoop机群剖析Hadoop生态系统编写MapReduce程序MapReduce流程剖析一个MapReduce程序基本MapReduceAPI概念驱动代码MapperReducerHadoop流API使用Eclipse进行快速开发上机实验新MapReduceAPI集成Hadoop到现有工作流关系数据库管理系统存储系统利用Sqoop从关系型数据库系统中导入数据到Hadoop上机实验利用Flume导入实时数据到Hadoop使用FuseDFS和Hoop访问HDFSHadoopAPI深入探讨ToolRunner介绍使用MRUnit进行测试利用Combiners来减少中间数据使用Configure和Close方法来进行Map/Reduce设置和关闭编写Partitioner来优化负载平衡上机实验直接访问Hadoop分布式文件系统(HDFS)使用分布式缓存(DistributedCache)上机实验常见MapReduce算法Hadoop概述Hadoop分布式文件系统上机实验MapReduce工作原理上机实验如何利用其他Hadoop相关技术,包括ApacheHive,ApachePig,Sqoop和Oozie等满足解决实际数据分析问题的高级HadoopAPI使用Hive和PigHive基础Pig基础上机实验实用开发技巧排序和搜索索引上机实验用Mahout进行机器学习TermFrequency–InverseDocumentFrequencyWordCo-Occurrence上机实验使用Hive和PigHive基础Pig基础上机实验实用开发技巧调试MapReduce代码使用LocalJobRunner模式进行轻松调试利用计数器来检索任务信息日志可分割文件格式如何确定最优的Reducer数目只使用Mapper的MapReduce任务上机试验高级MapReduce编程定制Writables和WritableComparables使用SequenceFiles和Avro文件保存二进制数据创建InputFormats和OutputFormats上机实验用MapReduce合并数据集在Map方的合并辅助排序在Reducer方的合并图的操作图论简介用Hadoop表示图一个图算法的实现:单源最短路径使用Oozie创建工作流使用Oozie的动机Oozie工作流定义格式上机实验4Hadoopapache文档

1 / 10
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功