傅一航老师Hadoop大数据解决方案开发技术培训

szr200
1 ℃
2020-01-06

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

Hadoop大数据解决方案开发技术培训【课程目标】Hadoop作为开源的云计算平台，为大数据处理提供了一整套解决方案，应用非常广泛。Hadoop作为一个平台框架，包括了如何存储海量数据，如何处理海量数据，以及相应的数据库、数据仓库、数据流处理、数据分析和挖掘算法库，等等。本课程主要介绍Hadoop的思想、原理，以及重要技术等相关知识。通过本课程的学习，达到如下目的：1、全面了解大数据处理技术的相关知识。2、学习Hadoop的核心技术以及应用。3、深入掌握Hadoop的相关工具在大数据中的使用。4、掌握Hadoop的常用模块的工作原理及开发应用技术。5、掌握传统数据中心向大数据中心转换的关键技术。6、掌握海量数据处理的性能优化及维护技巧。【授课讲师】傅一航傅一航，男，计算机软件与理论硕士研究生。在华为工作十年，数篇国家专利。并曾在英国、日本等国做项目，对欧洲、日本的电信市场有比较深的了解。傅老师近十年以来一直从事通信行业的研究与分析，熟悉大数据系统部署与应用、SP增值行业应用、终端应用与服务、4G无线解决方案。对通信行业的市场态势、客户行为、服务效果以及运营分析等方面有深入的接触和研究，特别是针对大数据、4G及LTE标准发展，无线网络演进，网络融合，市场发展及业务应用分析，在业务应用领域投入了更多的精力，积累了相当的知识和见解。近几年专注于Hadoop大数据解决方案架构分析与部署，以及将大数据的数据分析、数据建模、数据挖掘应用于行业及商业领域，解决行业实际的问题。将大数据应用于运营决策，帮助企业提升运营决策能力；应用于市场营销，通过大数据营销，解决营销中的用户群细分，产品定位，精准营销，精准促销等实际问题，提升营销效果，节省营销费用，以及市场预测、用户行为预测等。2009与英国电信BT、荷兰Zesko运营商交流，探讨3G业务的开展与市场分析，2010年与菲律宾、印尼电信运营商会议，探讨3G业务应用发展状况分析，2012年与日本软银SBM，实施4G网络解决方案及4G业务应用分析；2013年与中国移动提供网络融合、网络互操作、VoLTE等MBB解决方案。获得国家专利：1.CN1925642:对集群用户进行处理的方法和集群用户处理系统2.CN101114999A:数据发送控制方法及数据传输设备3.CN101119183A:重传控制方法及传输设备4.CN101483847A:实现策略控制的方法、装置及系统5.CN101605359B:一种切换过程中转发数据的方法、无线实体和基站【授课时间】2~5天时间（全部模块讲完需要5天时间，可以根据时间需求拆分内容模块）。【授课对象】网络部、大数据系统开发部、大数据中心、网络运维部等相关技术人员。【授课方式】原理精讲+案例演练+开发实践+系统优化【课程大纲】第一部分：Hadoop的基本框架1、大数据时代面临的问题2、当前解决大数据的技术方案3、Hadoop架构和云计算4、Hadoop简史及安装部署5、Hadoop设计理念和生态系统第二部分：HDFS分布式文件系统：海量数据存储的摇篮1、HDFS的设计目标2、HDFS的基本架构NameNode名称节点SecondaryNameNode第二名称节点DataNode数据节点3、HDFS的存储模型数据块存储元数据存储（空间镜像与编辑日志）多副本存储4、多副本放置策略5、多数据节点管理机制与交互过程6、文件系统操作与管理读文件过程写文件过程（数据流管道）7、数据完整性机制数据校验和数据完整性扫描线程元数据备份与合并8、数据可靠性设计安全模式（数据块与节点映射关系管理）心跳检测机制（节点失效管理）租约机制（多线程并发控制）9、其它HDFS的安全机制负载均衡文件压缩10、操作接口与编程接口HDFSShellHDFSCommandsWebHDFSRESTAPIHDFSJavaAPI演练：HDFS文件操作命令演练：HDFS编程示例第三部分：MapReduce分布式计算系统：海量数据处理的利器1、MapReduce的三层设计理念分布治之的设计思想（Map与Reduce）数据处理引擎（编程模型）运行时环境（任务调度与执行）2、MapReduce的基本架构JobTracker作业跟踪器TaskTracker任务跟踪器MapReduce与HDFS的部署关系3、MapReduce编程模型概述编程接口介绍Hadoop工作流实现原理4、MapReduce作业调度机制MapReduce作业生命周期作业调度策略静态资源管理方案5、数据并行处理机制（五步骤）Input阶段实现Map阶段实现Shuffle阶段实现Reduce阶段实现Output阶段6、MapReduce容错机制任务失败与重新尝试节点失效与重调度单点故障7、MapReduce性能优化优化方向与思路磁盘IO性能优化分片优化线程数量优化内存优化压缩优化8、MapReduce操作接口JobShellWebUI案例演练：MapReduce编程示例9、YARN：下一代通用资源管理系统MRv1的局限性YARN基本框架NNHA：解决单点故障HDFSFederation：解决扩展性问题第四部分：HBase非关系型数据库：海量数据的黎明1、HBase的使用场景2、HBase的基本架构Zookeeper分布式协调服务器Master主控服务器RegionServer区域服务器3、HBase的数据模型HBase的表结构行键、列键、时间戳4、HBase的存储模型基本单位Region存储格式HFile5、数据分裂机制Split6、数据合并机制Compactionminorcompactionmajorcompaction7、HLog写前日志8、数据库读写操作数据库写入数据库读取三次寻址9、HBase操作接口NativeJavaAPIHBaseShell批量加载工具HiveQL操作10、HBase性能优化写速度优化读速度优化11、HBase集群监控与管理案例演练：HBase命令操作实例第五部分：Hive分布式数据仓库：高级的编程语言1、Hive是什么2、Hive与关系数据库的区别3、Hive系统架构用户接口层元数据存储层驱动层4、Hive常用服务5、Hive元数据的三种部署模式6、Hive的命名空间7、Hive数据类型与存储格式数据类型TextFile/SequenceFile/RCFile8、Hive的数据模型管理表外部表分区表桶表9、HQL语言命令实例DDL数据定义语言DML数据操作语言QUERY数据查询语言10、Hive自定义函数基本函数（UDF）聚合函数（UDAF）表生成函数（UDTF）11、Hive性能优化动态分区压缩索引JVM重用案例演练：Hive命令操作实例第六部分：Sqoop数据交互工具：Hadoop与传统数据库的桥梁1、Sqoop是什么2、Sqoop的架构和功能Sqoop1架构Sqoop2架构3、数据双向交换数据导入过程数据导出过程4、数据导入工具与命令介绍案例演练：Sqoop数据导入/导出实际操作第七部分：Pig数据流处理引擎：数据脚本语言1、Pig介绍2、命令行交互工具Grunt3、Pig数据类型4、PigLatin脚本语言介绍基础知识输入和输出关系操作调用静态Java函数5、PigLatin高级应用6、开发与测试PigLatin脚本开发工具任务状态监控调试技巧7、脚本性能优化8、用户自定义函数UDF案例演练：PigLatin脚本编写、测试与运行操作结束：课程总结与问题答疑。