傅一航老师Hadoop大数据解决方案开发技术培训

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

Hadoop大数据解决方案开发技术培训【课程目标】Hadoop作为开源的云计算平台,为大数据处理提供了一整套解决方案,应用非常广泛。Hadoop作为一个平台框架,包括了如何存储海量数据,如何处理海量数据,以及相应的数据库、数据仓库、数据流处理、数据分析和挖掘算法库,等等。本课程主要介绍Hadoop的思想、原理,以及重要技术等相关知识。通过本课程的学习,达到如下目的:1、全面了解大数据处理技术的相关知识。2、学习Hadoop的核心技术以及应用。3、深入掌握Hadoop的相关工具在大数据中的使用。4、掌握Hadoop的常用模块的工作原理及开发应用技术。5、掌握传统数据中心向大数据中心转换的关键技术。6、掌握海量数据处理的性能优化及维护技巧。【授课讲师】傅一航傅一航,男,计算机软件与理论硕士研究生。在华为工作十年,数篇国家专利。并曾在英国、日本等国做项目,对欧洲、日本的电信市场有比较深的了解。傅老师近十年以来一直从事通信行业的研究与分析,熟悉大数据系统部署与应用、SP增值行业应用、终端应用与服务、4G无线解决方案。对通信行业的市场态势、客户行为、服务效果以及运营分析等方面有深入的接触和研究,特别是针对大数据、4G及LTE标准发展,无线网络演进,网络融合,市场发展及业务应用分析,在业务应用领域投入了更多的精力,积累了相当的知识和见解。近几年专注于Hadoop大数据解决方案架构分析与部署,以及将大数据的数据分析、数据建模、数据挖掘应用于行业及商业领域,解决行业实际的问题。将大数据应用于运营决策,帮助企业提升运营决策能力;应用于市场营销,通过大数据营销,解决营销中的用户群细分,产品定位,精准营销,精准促销等实际问题,提升营销效果,节省营销费用,以及市场预测、用户行为预测等。2009与英国电信BT、荷兰Zesko运营商交流,探讨3G业务的开展与市场分析,2010年与菲律宾、印尼电信运营商会议,探讨3G业务应用发展状况分析,2012年与日本软银SBM,实施4G网络解决方案及4G业务应用分析;2013年与中国移动提供网络融合、网络互操作、VoLTE等MBB解决方案。获得国家专利:1.CN1925642:对集群用户进行处理的方法和集群用户处理系统2.CN101114999A:数据发送控制方法及数据传输设备3.CN101119183A:重传控制方法及传输设备4.CN101483847A:实现策略控制的方法、装置及系统5.CN101605359B:一种切换过程中转发数据的方法、无线实体和基站【授课时间】2~5天时间(全部模块讲完需要5天时间,可以根据时间需求拆分内容模块)。【授课对象】网络部、大数据系统开发部、大数据中心、网络运维部等相关技术人员。【授课方式】原理精讲+案例演练+开发实践+系统优化【课程大纲】第一部分:Hadoop的基本框架1、大数据时代面临的问题2、当前解决大数据的技术方案3、Hadoop架构和云计算4、Hadoop简史及安装部署5、Hadoop设计理念和生态系统第二部分:HDFS分布式文件系统:海量数据存储的摇篮1、HDFS的设计目标2、HDFS的基本架构NameNode名称节点SecondaryNameNode第二名称节点DataNode数据节点3、HDFS的存储模型数据块存储元数据存储(空间镜像与编辑日志)多副本存储4、多副本放置策略5、多数据节点管理机制与交互过程6、文件系统操作与管理读文件过程写文件过程(数据流管道)7、数据完整性机制数据校验和数据完整性扫描线程元数据备份与合并8、数据可靠性设计安全模式(数据块与节点映射关系管理)心跳检测机制(节点失效管理)租约机制(多线程并发控制)9、其它HDFS的安全机制负载均衡文件压缩10、操作接口与编程接口HDFSShellHDFSCommandsWebHDFSRESTAPIHDFSJavaAPI演练:HDFS文件操作命令演练:HDFS编程示例第三部分:MapReduce分布式计算系统:海量数据处理的利器1、MapReduce的三层设计理念分布治之的设计思想(Map与Reduce)数据处理引擎(编程模型)运行时环境(任务调度与执行)2、MapReduce的基本架构JobTracker作业跟踪器TaskTracker任务跟踪器MapReduce与HDFS的部署关系3、MapReduce编程模型概述编程接口介绍Hadoop工作流实现原理4、MapReduce作业调度机制MapReduce作业生命周期作业调度策略静态资源管理方案5、数据并行处理机制(五步骤)Input阶段实现Map阶段实现Shuffle阶段实现Reduce阶段实现Output阶段6、MapReduce容错机制任务失败与重新尝试节点失效与重调度单点故障7、MapReduce性能优化优化方向与思路磁盘IO性能优化分片优化线程数量优化内存优化压缩优化8、MapReduce操作接口JobShellWebUI案例演练:MapReduce编程示例9、YARN:下一代通用资源管理系统MRv1的局限性YARN基本框架NNHA:解决单点故障HDFSFederation:解决扩展性问题第四部分:HBase非关系型数据库:海量数据的黎明1、HBase的使用场景2、HBase的基本架构Zookeeper分布式协调服务器Master主控服务器RegionServer区域服务器3、HBase的数据模型HBase的表结构行键、列键、时间戳4、HBase的存储模型基本单位Region存储格式HFile5、数据分裂机制Split6、数据合并机制Compactionminorcompactionmajorcompaction7、HLog写前日志8、数据库读写操作数据库写入数据库读取三次寻址9、HBase操作接口NativeJavaAPIHBaseShell批量加载工具HiveQL操作10、HBase性能优化写速度优化读速度优化11、HBase集群监控与管理案例演练:HBase命令操作实例第五部分:Hive分布式数据仓库:高级的编程语言1、Hive是什么2、Hive与关系数据库的区别3、Hive系统架构用户接口层元数据存储层驱动层4、Hive常用服务5、Hive元数据的三种部署模式6、Hive的命名空间7、Hive数据类型与存储格式数据类型TextFile/SequenceFile/RCFile8、Hive的数据模型管理表外部表分区表桶表9、HQL语言命令实例DDL数据定义语言DML数据操作语言QUERY数据查询语言10、Hive自定义函数基本函数(UDF)聚合函数(UDAF)表生成函数(UDTF)11、Hive性能优化动态分区压缩索引JVM重用案例演练:Hive命令操作实例第六部分:Sqoop数据交互工具:Hadoop与传统数据库的桥梁1、Sqoop是什么2、Sqoop的架构和功能Sqoop1架构Sqoop2架构3、数据双向交换数据导入过程数据导出过程4、数据导入工具与命令介绍案例演练:Sqoop数据导入/导出实际操作第七部分:Pig数据流处理引擎:数据脚本语言1、Pig介绍2、命令行交互工具Grunt3、Pig数据类型4、PigLatin脚本语言介绍基础知识输入和输出关系操作调用静态Java函数5、PigLatin高级应用6、开发与测试PigLatin脚本开发工具任务状态监控调试技巧7、脚本性能优化8、用户自定义函数UDF案例演练:PigLatin脚本编写、测试与运行操作结束:课程总结与问题答疑。

1 / 9
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功