《大数据技术导论》课程教学大纲InstructionofBigDataTechnology一、课程基本情况课程编号:课程类别:专业任选课课程学分:2学分课程总学时:32学时,其中讲课:20学时,实验(含上机):12学时课程性质:考试开课学期:第3学期先修课程:大学生计算机基础适用专业:计算机应用技术开课单位:计算机科学与技术学院二、课程性质、教学目标和任务《大数据技术导论》课程是计算机应用技术专业想了解大数据分析技术的学生必修的一门基础课程,具有很强的实践性和应用性。它以《大学计算机基础》为基础,主要培养学生大数据平台运维、大数据分析和数据可视化基本思想和基本技能,为后续的数据挖掘应用性课程和数据产品开发课程的学习打好编程基础。本课程设置的目的是通过对Hadoop,HDFS,MapReduce,HBase,R语言的学习,较好地训练学生大数据平台运维、数据分析和数据展现,使学生具有数据分析和数据展现的能力,为培养学生有较强数据开发能力打下良好基础。三、教学内容和要求1.概论(4学时)(1)了解大数据技术产生的历史必然;(2)理解大数据的特征;(3)理解大数据生命周期;(4)理解大数据、云计算、物联网之间的相互关系;(5)了解大数据的变革;(6)熟练掌握Linux常用命令(7)了解Linux目录结构;(8)熟练使用vi编辑器目的:通过上述知识的学习,使学生了解大数据基本概念、特征、处理流程,熟练掌握Linux常用操作命令。重点:linux操作;难点:大数据生命周期。2.大数据生态系统(4学时)(1)掌握HDFS分布式文件系统的结构;(2)掌握HDFS存储原理;(3)掌握HDFS读写操作;(4)掌握MapReduce编程框架(5)理解Map原理;(6)理解MapReduce原理;(7)了解zookeeper架构和工作原理目的:通过上述知识的学习,使学生了解大数据生态系统疾病组件,掌握HDFS和MapReduce工作原理,并进行相应的操作。重点:HDFS工作原理和读写过程;难点:MapReduce编程。3.大数据采集与预处理(4学时)(1)理解数据及其分类;(2)了解数据采集方法和工具;(3)掌握数据清洗的任务和作用;(4)掌握数据变换的种类和过程;(5)熟练Python爬虫目的:通过上述知识的学习,使学生理解数据分类,理解数据清洗和数据变换的意义,熟练Python爬虫。重点:Python爬虫;难点:Python爬虫。4.大数据库(6学时)(1)理解NoSQL与NewSQL;(2)理解批量处理技术;(3)了解流计算原理;(4)了解图计算原理;(5)了解查询分析计算原理;(6)掌握HBASE模型(7)熟练HBASEshell操作目的:通过上述知识的学习,使学生理解NoSQL与NewSQL,掌握HBASE模型和基本操作。重点:HBASEshell操作;难点:理解NoSQL与NewSQL。5.大数据分析(6学时)(1)了解数据分析的原则、特点;(2)掌握大数据分析流程;(3)理解大数据分析技术、难点;(4)理解数据认知的基本方法;(5)掌握特征工程的作用和基本方法;(6)掌握数据建模的常用方法(7)了解通用计算引擎Spark(8)掌握hive的数据分析方法;目的:通过上述知识的学习,使学生掌握大数据分析流程和相关技术;重点:hive的数据分析方法;难点:数据建模。6.大数据可视化技术(4学时)(1)了解数据可视化概念和作用(2)理解可视化建议;(3)了解图表的作用;(4)熟练掌握基本统计的绘制方法;(5)理解ggplot2图层绘图的基本思想;目的:通过上述知识的学习,使学生能够将利用R语言对数据进行可视化展示,分析数据的内在特性。重点:绘制散点图、直方图、气泡图、面积图、密度图等。难点:ggplot2图层绘图的基本思想的理解。7.大数据应用(2学时)(1)理解医疗大数据分析过程;(2)理解交通大数据分析过程;(3)理解电商大数据分析过程;目的:通过上述知识的学习,使学生在遇到实际问题时该如何分析和建模。重点:场景认知。难点:能根据具体应用场景给出数据分析基本思路。8.大数据安全(2学时)(1)了解大数据安全的意义和面临的挑战;(2)理解安全威胁的种类和特征;(3)了解大数据与网络攻击监测;(4)掌握大数据安全分析的基本方法;(5)了解大数据安全标准。四、课程考核(1)作业和报告:作业:至少5次(2)考核方式:笔试(3)总评成绩计算方式:平时成绩30%(考勤、实验报告、期中考试各占10%),期末考试70%。