大数据技术与应用基础-教学大纲

difeiya
0 ℃
2020-10-09

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

《大数据技术与应用基础》教学大纲学时：60代码：适用专业：制定：审核：批准：一、课程的地位、性质和任务大数据技术的发展，已被列为国家重大发展战略。而在过去的几年里，无论是聚焦大数据发展的《促进大数据发展行动纲要》，还是《“十三五”规划》中都深刻体现了政府对大数据产业和应用发展的重视。目前国内大数据发展还处于加速期、转型期，数据与传统产业的融合还处于起步阶段，各行业对大数据分析和挖掘的应用还不理想。但随着市场竞争的加剧，各行业对大数据技术研究的热情越来越高，在未来几年，各领域的数据分析都将大规模应用。本课程在注重大数据时代应用环境前提下，考虑大数据处理分析需求多样复杂的基本情况，从初学者角度出发，以轻量级理论、丰富的实例对比性地介绍大数据常用计算模式的各种系统和工具。考虑到当前大数据发展处于起步并逐步赶超先进的阶段，其应用领域丰富广泛，在教学过程中应注重掌握大数据分析的实践操作。本课程通过丰富简单易上手的实例，让学生能够切实体会和掌握各种类型工具的特点和应用。二、课程教学基本要求1.了解大数据的发展和基本概念，理解并掌握大数据的特征及主要技术层面。2.掌握Scrapy环境的搭建，了解网络爬虫获取数据的过程，熟悉爬虫项目的创建。3.深刻了解hadoop的基础理论，理解并掌握Hadoop单机及集群环境的部署方法。4.掌握HDFS的基本概念和HDFS在hadoop中的作用，理解并识记HDFS的使用，了解HDFS的JAVAAPI接口及数据流原理；让学生明白Map过程与Reduce过程这两个独立部分各自的原理及合作途径，知道如何独立编写满足自己需求的MapReduce程序。5.理解HBase中涉及的基本概念，掌握HBase的简单应用；让学生了解数据仓库的基础概念，熟悉Hive与HDFSMapReduce直接的关心。6.熟悉Spark和RDD的基本概念，熟悉spark接口的使用，解决实战时的步骤及思路。7.明白Hadoop和Storm之间的差别，掌握对Storm的使用。理解Apex的工作过程并能简单应用。8.了解Druid的基本概念、应用场景以及集群架构，掌握批量数据加载、流数据加载的操作。了解Flink的重要概念和基本架构，掌握Flink简单的使用实例。9.理解Elasticsearch的基本架构，掌握Elasticsearch的一些入门操作。了解并基本掌握怎样利用所学的工具对目标实例进行数据分析。三、课程的内容1．大数据概述了解大数据的产生和发展，识记大数据的特征、数据类型和系统，大数据的计算模式和技术层面间的关联。2．数据获取识记基本概念，识记各功能应怎样用Scrapy爬虫实现，了解采集目标数据项定义，领会并掌握爬虫运行和数据存储技术。3．Hadoop基础领会Hadoop的主要特点，识记HadoopHDFSHadoopMapReduceHadoopYARN的原理，了解其生态系统中重要组成的原理，熟悉Hadoop的配置。4.HDFS基本应用熟悉HDFS所需的API接口，了解数据流的工作过程，能简单操作HDFS勺接口。5.MapReduce应用开发了解所需的开发环境eclipse，领会Map过程与Reduce过程的工作原理，了解使用mapreduce解决实际问题时的步骤和思路，识记MapReduce代码的不同功能。6.分布式数据库HBase识记HBase的基本概念，熟悉安装HBase集群的步骤，了解HBaseAPI的基本步骤。7.数据仓库工具Hive领会Hive的作用，掌握Hive接口的使用，会利用Hive解决实战问题。8.开源集群计算环境Spark了解Spark的基本思想，熟悉Spark所需的环境及API等，熟悉Spark实战的完整工作过程，领会其所需的代码。9.流实时处理系统Storm识记Storm相关概念，掌握Storm环境的安装配置，了解Storm的基本使用10.企业级、大数据流处理Apex识记Apex的基本概念，掌握Apex的环境配置过程，理解常见组件的原理和特点，会简单的应用Apex解决问题。11.事件流OLAP之Druid了解Druid的概念及其应用场所，掌握Druid单机环境的安装方法和步骤，并能利用Druid进行加载流数据处理数据查询等。12.事件数据流引擎Flink识记Flink的基本概念，明白Flink的基本架构，能够安装Flink的单机和集群环境。13．分布式文件搜索Elasticsearch了解Elasticsearch包含重要部分的基本概念，掌握Elasticsearch重要的安装过程，掌握简单的操作。14．实例电商数据分析能够通过已经学习了解过的环境和工具等，有条理有步骤的对实例进行数据挖掘、数据处理和数据分析等，进而得出相关的结论。四、课程的重点、难点1．大数据概述重点：大数据的概念和特征。难点：大数据的计算模式和技术层面间的关联。2．数据获取重点：Scrapy环境的搭建。难点：网络爬虫获取数据的过程。3．Hadoop基础重点：Hadoop的基础理论及安装。难点：Hadoop单机及集群环境的部署方法。4.HDFS基本应用重点：掌握HDFS勺两种使用方法。5.MapReduce应用开发重点：明白Map过程与Reduce过程的原理。难点：独立编写满足自己需求的MapReduce程序。6．分布式数据库HBase重点：HBase所包含的3个重要组件的工作方式。难点：如何通过HBaseshell和HBaseAPI访问HBasa7．数据仓库工具Hive重点：熟悉简单的Hive命令。8．开源集群计算环境Spark重点：理解Spark的工作机制。难点：解决实战时的步骤及思路。9．流实时处理系统Storm资料收集于网络，如有侵权请联系网站删除重点：Storm的实时处理。难点：利用Storm的特点对数据进行合适的处理。10.企业级、大数据流处理Apex重点：Apex的流处理功能。11.事件流OLAP之Druid重点：使用Druid进行加载和查询数据。12.事件数据流引擎Flink重点：明白Flink的基本架构。难点：Flink系统中进程间处理信息的原理。13.分布式文件搜索Elasticsearch重点：Elasticsearch的基本架构。14.实例电商数据分析难点：怎样利用所学的工具对目标实例进行数据分析。五、课时分配表序号课程内容总学时讲课实验习题课机动1大数据概述2222数据获取4223Hadoop基础424MapReduce应用开发426分布式数据库HBase4227数据仓库工具Hive4228开源集群计算环境Spark8449流实时处理系统Storm42210企业级、大数据流处理Apex42211事件流OLAF之Druid42212事件数据流引擎Flink42213分布式文件搜索Elasticsearch42214实例电商数据分析422合计603228六、实验项目及基本要求实验一通过爬虫获取数据要求：能安装爬虫所需环境，创建简单的爬虫项目。成功完成爬虫核心实现。实验二Hadoop安装与配置要求：Hadoop单机和集群模式的配置。实验三实战HDFS的接口要求：能自主操作Java和命令行接口。实验四编写简单的Mapreduce程序要求：完成MapReduce所需环境的配置，完成Mapreduce应用实例实验五分布式数据库HBase要求：安装HBase集群模式，能简单使用HBaseshell和HbaseAPI。实验六Hive的使用要求：会进行简单的Hive命令使用，熟悉Hive的复杂语句。实验七Spark简单编程与聚类实战要求：了解Spark简单的RDD创建，了解各个实战的编程实现及解决过程。实验八Storm安装与配置要求：了解Storm的概念及原理，了解Storm的安装和基本使用。实验九Spark的使用和配置要求：掌握Apex的使用，了解Apex的基本配置。实验十Druid环境配置要求：了解Druid的概念和使用，理解Druid的作用。实验十事件数据流引擎Flink的使用要求：了解Flink的概念和部署过程，理解Flink的使用。七、考核办法1．考试采用统一命题，闭卷考试，考试时间为120分钟。2．本大纲各部分所规定基本要求、知识点及知识点下的知识细目，都属于考核的内容。考试命题覆盖到各部分，并适当突出重点部分，加大重点内容的覆盖密度。3．不同能力层次要求的分数比例大致为：识记占20%，领会占30%，简单应用占30%，综合应用占20%4．题的难度可分为易、较易、较难和难四个等级。试卷中不同难度试题的分数比例一般为2:3:3:25．试题主要题型有：填空、单项选择、多选、简答、及综合应用等。八、使用说明在本课程学习中，应从“了解”、“识记”、“领会”、“简单应用”、“综合应用”五个能力层次去把握：1.了解：要求概念的基本掌握，是最基本要求。2.识记：要求能够识别和记忆本课程有关知识点的主要内容，并能够做出正确的表达、选择和判断。3.领会：在识记的基础上，要求能够领悟和理解本课程中有关知识点的内涵与外延，熟悉其内容要点和它们之间的区别与联系。并能够根据考核的不同要求，做出正确的解释、说明和论述。4.简单应用：在领会的基础上，要求能够运用本课程中少量知识点，分析和解决一般的应用问题。5.综合应用：在简单应用的基础上，要求能够运用本课程中多个知识点，综合分析和解决复杂的应用问题。九、教材及参考书大数据技术与应用基础人民邮电出版社陈志德主编2017.1