大数据课程体系

我爱安安
0 ℃
2021-03-16

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

Java基础JAVA开发基础知识Eclipse开发环境多线程技术Socket网络技术RegularExpressionJava反射技术各种实战设计模式面向对象设计原则详解JavacollectionReflectionJVM原理与配置、调优Java设计模式Linux大纲Linux的介绍与安装VMwareWorkstation虚拟软件安装ubuntu安装Linux的常用命令Linux系统进程管理常用命令ps、pkill、top、htop等的使用；Linux启动流程，运行级别详解，chkconfig详解nano编辑器Linux权限管理：用户、组Linux权限管理：文件权限rwxLinux网络管理：hosts,hostname,ifconfig安装JDKHadoopHadoop介绍，发展史，国内外现状，未来Hadoop核心组成介绍及hdfs、mapreduce体系结构Hadoop的集群结构Hadoop独立模式安装与测试Hadoop启动与停止SSH安装与配置Hadoop伪分布式和完全分布式安装配置HDFS底层工作原理HDFSdatanode,namenode详解HdfsshellHdfsjavaapiInputSplit和OutputSplitBlockSize配置最少副本数配置MR作业流程分析编写Mapper程序编写Reducer程序执行Mapreduce过程Hadoop核心类讲解,RM,NM,NN,DNYARN调度框架事件分发机制Hadoop底层IPC原理和RPCHadoop的底层googleProtoBuf的协议分析分布式数据库HbaseHBase简介与RDBMS的对比系统架构HBase上的MapReduceHbase核心术语介绍Hbase基本操作HBaseShell以及演示Hbase树形表设计Hbase一对多和多对多表设计Hbase调优(读、写、设计)数据仓库HiveHive简介Hive集群客户端简介HiveQL介绍与SQL的比较数据类型外部表和分区表ddl与CLI客户端演示dml与CLI客户端演示select与CLI客户端演示Operators和functions与CLI客户端演示Hiveserver2与jdbc用户自定义函数（UDF和UDAF）的开发与演示Hive优化数据迁移工具SqoopSqoop简介和配置Sqoopshell常见命令Sqoop导入与导出Flume分布式日志框架flume简介-基础知识flume安装与测试flume部署方式flumesource相关配置及测试flumesink相关配置及测试flumeselector相关配置与案例分析flumeSinkProcessors相关配置和案例分析flumeInterceptors相关配置和案例分析flumeAVROClient开发flume和kafka的整合Zookeeper开发Zookeeperjavaapi开发Zookeeperrmi高可用分布式集群开发Zookeeperredis高可用监控实现Netty异步io通信框架Zookeeper实现netty分布式架构的高可用kafkakafka是什么kafka体系结构kafka配置详解kafka的安装kafka的存储策略kafka分区特点kafka的发布与订阅zookeeper协调管理java编程操作kafkascala编程操作kafkaflume和kafka的整合Kafka和storm的整合StormStorm的基本概念Storm的应用场景Storm和Hadoop的对比Storm集群的安装的linux环境准备zookeeper集群搭建Storm集群搭建Storm配置文件配置项讲解集群搭建常见问题解决Storm常用组件和编程API：Topology、Spout、BoltStorm分组策略(streamgroupings)使用Strom开发一个WordCount例子Storm程序本地模式debug、Storm程序远程debugStorm事物处理Storm消息可靠性及容错原理Storm结合消息队列Kafka：消息队列基本概念(Producer、Consumer、Topic、Broker等)、消息队列Kafka使用场景、Storm结合Kafka编程APIStormTrident概念Tridentstate原理Trident开发实例StormDRPC(分布式远程调用)介绍StormDRPC实战讲解Storm和Hadoop2.x的整合：StormonYarnStorm开发实战：Kafka+Storm+Hbase+redis项目实战，以及多个案例Scalascala解释器、变量、常用数据类型等scala的条件表达式、输入输出、循环等控制结构scala的函数、默认参数、变长参数等scala的数组、变长数组、多维数组等scala的映射、元组等操作scala的类，包括bean属性、辅助构造器、主构造器等scala的对象、单例对象、伴生对象、扩展类、apply方法等scala的包、引入、继承等概念scala的特质scala的操作符scala的高阶函数scala的集合scala数据库连接Spark大数据处理Spark简介与应用场景RDDTransformationActionSpark计算PageRankLineageSpark模型简介Spark缓存策略和容错处理宽依赖与窄依赖Spark配置讲解Spark集群搭建集群搭建常见问题解决Spark原理核心组件和常用RDD数据本地性任务调度DAGSchedulerTaskSchedulerSpark源码解读性能调优Spark和Hadoop2.x整合：SparkonYarn原理SparkStreaming实时计算SparkStreaming：数据源和DStream无状态transformation与有状态transformationStreamingWindow的操作sparksql编程实战spark的多语言操作SparkMLlib机器学习介绍回归算法分类算法第四章推荐系统第五章聚类KmeansDocker基本介绍vmdocker对比docker基本架构介绍unfscgroupnamespace进程虚拟化轻量级虚拟化docker安装docker镜像制作docker常用命令docker镜像迁移dockerpipework1dockerweave虚拟化KVM虚拟化介绍，虚拟化适用场景等等QemuLibvirt&KVM安装KVM,Qemu,LibvirtQEMU-KVM:安装第一个能上网的虚拟机Kvm虚拟机nat,网桥基本原理kvm虚拟机克隆kvm虚拟机vnc配置kvm虚拟机扩展磁盘空间Kvm快照Kvm迁移Java,python,c语言编程控制kvm云平台OpenStackopenstack介绍和模块基本原理分析openstack多节点安装部署【a.采用centos6.x系统】Keystone基本原理glanceCinderSwiftNeutronOpenstackapi二次开发综合项目演练1结合基于SSH技术的jee项目—互联网大数据调查系统，可针对当下流行的事件进行网络调查，然后从海量的调查调查问卷中通过大数据手段对其进行分析和汇总，最终对大众的消费习惯、文化倾向、未知领域的认知以及新事物趋势做数据上的可靠性分析，掌握大众的心理导向，有效指定企业的战略规划和部署。综合项目演练2结合国内某知名网站账户的泄露信息，运用大数据技术对所有账户的密码部分进行分析，从而判断国人在密码设置上的缺陷和漏洞，进而计算我们自己所设密码被成功破解的概率，最终通过改变个人的密码设置习惯有效保护个人的账户和财产安全。