大数据培训方案简介大数据人才的培养是一项系统工程,企业可以通过在内部遴选相对符合基础条件的员工,打造自己专业的大数据团队,使学员能系统化获取知识结构和专业技能。通过课程学习可以使学员获得如下能力:通过本专业的学习,学员可以了解云计算、机器学习,文本和语义分析,图计算,可视化分析,以及MapReduce,NoSQL数据库,在并行计算等领域的基本概念,熟悉并行文件系统和分布式存储系统的组织方式和基本技术,掌握Map-Reduce的编程模型、相关基础和高级编程语言。了解Hadoop生态系统的组成和主流模块的架构原理,以及其在典型工业界的大数据处理和分析领域的应用场景。使学员掌握海量数据计算的基本概念与原理,特别是面向分布式计算和存储的关键技术原理,培养员工解决大规模数据处理的基础能力,学会编写简单数据处理程序。大数据系统架构师培养方案课程介绍:该课程将带领学员理解大数据处理的分析思路和方法,提高大数据技术架构设计能力和管理能力,采用理论与实践相结合的授课方式,来掌握解决实际问题的能力。该课程中设计的技术难点和关键点均举例说明,让学员更加容易掌握。并在培训过程中与学员交流培训经验与技巧,以帮助学员将大数据技术复制下去。另外,在实战演练过程中介绍大数据项目开展步骤及项目控制。课程天数:3~12天培训目标:通过课程培训,让学员掌握:1、掌握大数据方法体系;2、掌握Hadoop原理技术;3、掌握大数据质量管理体系;4、掌握大数据架构设计思路与方法;5、掌握大数据架构课程培训技巧;6、掌握大数据项目的开展步骤及项目控制技巧;7、授课期间搭建一个基于hadoop的大数据模拟架构平台。培训对象:大数据运营、管理和分析人员参训条件:管理人员及数据分析人员课前调研:在开课之前,与学员和领导进行访谈,进一步明确领导对课程的期望,并了解学员的基础,倾听学员的建议,有针对性的优化培训思路。课程大纲:时间内容第一讲:大数据管理介绍与案例分享大数据整体方案介绍及质量管理方法:大数据整体解决方案介绍大数据管理在企业架构中的定位大数据管理的目标介绍数据质量管理项目的特点和目标优化数据质量的方法第二讲:Hadoop生态圈及设计原理精讲hadoop生态系统介绍hadoop生态圈及系统架构应用场景及其局限性本次培训的组件Hadoop设计原理介绍第三讲:Hadoop分布式应用介绍Hadoop及其生态圈介绍:基本概念HelloWorld(WordCount)运行原理(任务从提交到任务结束的运行流程,有助于编写mr任务)MapReduce2.x与Yarn(现在的mapreduce,强调hadoop生态系统概念)第四讲:Hadoop安装与实践HDFS与MapReduceHDFS安装:HDFS基本概念(NameNodeDataNode,数据块等概念)HDFS的读写原理(分布式读写机制)Hadoop安装(安装hadoop2.x)HDFS操作上传文件运行wordcount任务(通过此操作知道mapreduce怎么运行任务)第五讲:MapReduce精讲及任务开发实践MapReduce应用开发API的配置合并资源各种扩展形式配置开发环境MapReduce的工作原理运行MapReduce作业提交作业作业的初始化任务的分配任务的执行MapReduce的类型与格式MapReduce类型输入格式输入分片与记录文本输入第六讲:Hive精讲及操作实初识HiveHive安装与配置践Hive内建操作符与函数开发HiveJDBCHive高级编程HiveQLHiveShell基本操作hive优化Hive体系结构Hive的原理第七讲:Impala精讲及操作实践初识ImpalaImpala安装与配置Impala内建操作符与函数开发ImpalaJDBCImpala高级编程Impala优化Impala的原理第八讲:Hbase精讲及操作实践HBase基础概念数据模型速览实现第九讲:Spark精讲及操作实践Spark生态圈介绍Spark包与目录介绍如何运行Spark作业Spark原理详细介绍第十~十一讲:通信大数据平台搭建实践模拟通信业务建立大数据平台将所学与实际需求相结合在实践中讲解常见注意事项第十二讲:大数据平台性能优化及维护可靠性措施:一个名字节点和多个数据节点,数据复制(冗余机制)存放的位置(机架感知策略)故障检测数据节点心跳包(检测是否宕机)块报告(安全模式下检测)数据完整性检测(校验和比较)名字节点(日志文件,镜像文件)空间回收机制节点失效应对措施DataNode的磁盘挂了怎么办?DataNode所在机器挂了怎么办?NameNode挂了怎么办?持久化元数据SecondaryNameNode课后考核与跟进:在上机考试结束后完成毕业考核的评估。并在本次培训结束后听取学员建议,改善下期课程,并跟进学员在工作中的应用情况,并为学员提供远程的技术答疑,确保学员能够学以致用。大数据挖掘培养方案课程介绍:该课程将带领学员理解大数据分析的分析思路和方法,了解云计算、机器学习、统计分析,文本和语义分析,可视化分析等技术。提高大数据模型分析能力,采用理论与实践相结合的授课方式,来掌握解决实际问题的能力。该课程中设计的技术难点和关键点均举例说明,让学员更加容易掌握。课程天数:3~5天培训目标:通过课程培训,让学员掌握:1、掌握大数据方法体系;2、掌握大数据挖掘的原理和思路;3、熟悉各种大数据分析的模型;4、掌握通信大数据分析的思路与能力。培训对象:大数据分析人员参训条件:管理人员及数据分析人员课前调研:在开课之前,与学员和领导进行访谈,进一步明确领导对课程的期望,并了解学员的基础,倾听学员的建议,有针对性的优化培训思路。课程大纲:时间内容第一讲:数据管理介绍与案例分享上午:企业数据质量管理方法数据管理在企业架构中的定位数据管理的目标介绍数据质量管理项目的特点和目标优化数据质量的方法下午:hadoop生态系统介绍hadoop生态圈及系统架构应用场景及其局限性本次培训的组件第二讲:Hadoop分布式应用介绍Hadoop及其生态圈介绍:基本概念HelloWorld(WordCount)运行原理(任务从提交到任务结束的运行流程,有助于编写mr任务)MapReduce2.0与Yarn(现在的mapreduce,强调hadoop生态系统概念)第三讲:Hadoop安装与实践HDFS与MapReduceHDFS安装:HDFS基本概念(NameNodeDataNode,数据块等概念)HDFS的读写原理(分布式读写机制)Hadoop安装(安装hadoop2.x)HDFS操作上传文件运行wordcount任务(通过此操作知道mapreduce怎么运行任务)第四讲:大数据分析的重点应用及未来发展方向探讨企业数据应用的重点方向介绍:KPI分析数据挖掘(结构化、非结构化、半结构化)舆情分析社会网络分析第五讲:大数据分析的常用方法学习企业数据分析常用方法探讨:分类预测(如决策树、神经网络、逻辑回归等)关联(如简单关联、序列关联分析等)细分(快速聚类、两步聚类等)时间序列分析(指数平滑模型、ARIMA模型等)课后考核与跟进:在上机考试结束后完成毕业考核的评估。并在本次培训结束后听取学员建议,改善下期课程,并跟进学员在工作中的应用情况,并为学员提供远程的技术答疑,确保学员能够学以致用。