数据仓库与数据挖掘课程教学大纲课程名称:数据仓库与数据挖掘课程编码:0403230学分:3总学时:48=36(授课)+12(上机)适用专业:计算机科学与技术本科及研究生先修课程:离散数学、数据库系统原理、算法分析与设计一、课程的性质、目的与任务:本课程属于计算机科学与技术学科的专业必修课。课程要达到的目的是:使学生初步具有利用数据仓库技术对业务活动中产生的海量数据的采集、清理、存储、分析、使用与维护;利用数据挖掘技术在数据仓库中发现隐藏在海量数据中人们未知的、有价值的信息的能力。二、教学基本要求:本课程理论知识与实践能力并重,具有良好的应用背景。学生通过本课程的理论学习与实践,教学的基本要求分三个层次:了解:数据仓库与数据挖掘的产生、发展,数据挖掘的应用,操作型处理(事务型处理)和分析型处理,数据仓库的应用,熟悉应用领域与管理,数据挖掘动机、数据挖掘功能,数据挖掘系统的分类和数据挖掘实施控制,多层关联规则、多维关联规则的基本思想,利用神经网络算法进行数据挖掘的应用。理解:OLAP概念,以多维数据库为基础的OLAP服务,数据仓库的设计步骤,数据仓库的数据组织目的,学习组织方法和方式,认识决策数分类的基本思想,神经网络原理等掌握:数据库中的知识发现过程,数据仓库的基本原理,展现方式、OLAP的体系结构和分类,螺旋式开发过程,熟悉应用领域与管理,掌握数据仓库开发设计过程,数据仓库的开发方法等。三、教学内容:(一)数据仓库与数据挖掘概述1、数据仓库的兴起(1学时)2、数据挖掘的兴起(1学时)3、数据仓库和数据挖掘的结合(1学时)(二)数据仓库原理1、数据仓库结构体系(1学时)2、数据仓库的数据模型(2学时)3、数据抽取、转换和装载(2学时)4、元数据(1学时)(三)联机分析处理1、OLAP概念(1学时)2、OLAP的数据模型(1学时)3、多维数据的显示(1学时)4、OLAP的多维数据分析(2学时)5、OLAP结构与分析工具(1学时)(四)数据仓库设计与开发1、数据仓库分析与设计(4学时)2、数据仓库开发(4学时)3、数据仓库技术与开发的困难(4学时)(五)数据仓库管理和应用1、数据仓库管理(1学时)2、数据仓库的决策支持与决策支持系统(1学时)3、数据仓库应用实例(1学时)(六)数据挖掘原理1、知识发现过程(1学时)2、数据挖掘方法和技术(1学时)3、数据挖掘的知识表示(1学时)(七)决策树1、决策树方法(1学时)2、决策树概念(1学时)3、ID3方法基本思想,ID3算法(2学时)4、7.2.5C4.5方法(2学时)(八)关联规则1、关联规则的挖掘原理(1学时)2、Apriori算法的基本思想,Apriori算法程序(1学时)3、基于FP一树的关联规则挖掘算法(1学时)(九)神经网络1、神经网络概念及几何意义(1学时)2、感知机(1学时)3、反向传播模型(1学时)(十)数据仓库与数据挖掘的发展(3学时)四、实验/上机目的、内容与要求1、数据仓库的构建(4学时)目的:1.理解数据库与数据仓库之间的区别与联系;2.掌握典型的关系型数据库及其数据仓库系统的工作原理以及应用方法;3.掌握数据仓库建立的基本方法及其相关工具的使用。内容:以SQLServer为系统平台,设计、建立数据库,并以此为基础创建数据仓库。要求:利用实验室和指导教师提供的实验软件,认真完成规定的实验项目,真实地记录实验中遇到的各种问题和解决的方法与过程,并绘出模拟实验案例的数据仓库模型。实验完成后,应根据实验情况写出实验报告。2、多维数据组织与分析(4学时)目的:1.理解维(表)、成员、层次(粒度)等基本概念及其之间的关系;2.理解多维数据集创建的基本原理与流程;3.理解并掌握OLAP分析的基本过程与方法;内容:1.运用AnalysisServer工具进行维度、度量值以及多维数据集的创建(模拟案例)。2.使用维度浏览器进行多维数据的查询、编辑操作。3.对多维数据集进行切片、切块、旋转、钻取操作。要求:利用实验室和指导教师提供的实验软件,认真完成规定的实验内容,真实地记录实验中遇到的各种问题和解决的方法与过程,并根据实验案例绘出多维数据组织模型及其OLAP操作过程。实验完成后,应根据实验情况写出实验报告。3、数据挖掘(4学时)目的:1.理解数据挖掘的基本概念及其过程;2.理解数据挖掘与数据仓库、OLAP之间的关系3.理解基本的数据挖掘技术与方法的工作原理与过程,掌握数据挖掘相关工具的使用。内容:将创建一个数据挖掘模型以训练销售数据,并使用“Microsoft决策树”算法在客户群中找出会员卡选择模式。请将要挖掘的维度(事例维度)设置为客户,再将Member_Card成员的属性设置为数据挖掘算法识别模式时要使用的信息。然后选择人口统计特征列表,算法将从中确定模式:婚姻状况、年收入、在家子女数和教育程度。下一步需要训练模型,以便能够浏览树视图并从中读取模式。市场部将根据这些模式设计新的会员卡,使其适应申请各类会员卡的客户类型。要求:利用实验室和指导教师提供的实验软件,认真完成规定的实验内容,真实地记录实验中遇到的各种问题和解决的方法与过程,并根据实验案例绘出多维数据组织模型及其OLAP操作过程。实验完成后,应根据实验情况写出实验报告。五、教学参考书:[1]陈立伟著,数据仓库与数据挖掘教程,清华大学出版社,2006[2]林宇编著.数据仓库原理与实践,人民邮电出版社,2003。[3]彭木根著数据仓库技术与实现,电子工业出版社,2002.6。[4][加]韩家炜、[加]坎伯,范明等译,数据挖掘概念与技术,机械工业出版社,2005。[5]张云涛、龚玲著,数据挖掘原理与技术,电子工业出版社,2003。执笔人:周海河审定人:教学基层组织主任:课程简介课程名称:数据仓库与数据挖掘课程编码:0403230总学分:3总学时:48(其中:讲课学时36;实验学时0;上机学时12;)开课单位:计算机系教材:数据仓库与数据挖掘教程。陈立伟。清华大学出版社2006年参考书:1林宇编著.数据仓库原理与实践,人民邮电出版社,2003。2彭木根著数据仓库技术与实现,电子工业出版社,2002.6。3[加]韩家炜、[加]坎伯,范明等译,数据挖掘概念与技术,机械工业出版社,2005。4张云涛、龚玲著,数据挖掘原理与技术,电子工业出版社,2003。课程负责人:课程说明:本课程的综合实用性较强,先修课程有数据结构、数据库、算法分析等课程,后续课程包括云计算、商业智能、网格计算、云计算等。课程内容简介:数据仓库与数据挖掘是信息学科的专业选修课。通过课程学习,使学生能够了解数据仓库及数据挖掘的产生和发展历史,掌握如何设计并实现比较规范的数据仓库系统,掌握数据挖掘的基本概念、技术和应用方法。培养学生应用数据仓库和数据挖掘理论和技术解决实际问题的能力。执笔人:周海河审定人:教学基层组织主任:填报日期: