上课时间第一周上课节次3节课型理论课题绪论教学目的使学生初步认识数据挖掘与数据仓库教学方法讲授重点、难点数据挖掘与数据仓库的定义及其应用价值时间分配教学内容板书或课件版面设计1.1初识数据挖掘1.1.1数据挖掘的产生数据挖掘产生的前提是需要从多年积累的大量数据中找出隐藏在其中的、有用的信息和规律。计算机技术和信息技术的发展使其有能力处理这样大量的数据。1.1.2数据挖掘的应用价值应用数据挖掘从大量数据中发现规律是面向某一应用的规律,具有具体的指导意义。早期数据挖掘主要应用于商业领域,随着人们对数据挖掘了解的逐步深入,其应用领域逐步扩大到科学研究、市场营销、金融分析和体育比赛等领域。1.1.3数据挖掘的发展过程数据挖掘是20世纪80年代人工智能研究项目失败后,人工智能转入实际应用时提出的,是一个新兴的、面向商业应用的人工智能研究。1.1.4数据挖掘的定义数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。1.2初识数据仓库1.2.1数据仓库的产生20世纪80年代出现了数据仓库的思想,数据仓库是面向主题的、集成的、包含历史的、不可更新的、面向决策支持的、面向全企业的、最明细的数据存储、数据快照式的数据获取。1.2.2数据仓库的应用价值传统数据库的处理方式和决策分析中的数据需求在决策处理的系统吸纳供应问题、决策数据需求的问题以及决策数据操作的问题方面不相称,导致企业无法使用现有的业务处理来满足决策分析的需要,因此决策分析需要一个能够不受传统事务处理的约束、高效率处理决策分析数据的支持环境,这就是数据仓库存在的价值。1.2.3数据仓库的发展过程数据仓库是一种新的数据处理体系结构,是企业内部各部门业务数据和各种外部数据进行统一和综合的中央数据仓库,为企业决策支持系统提供所需的信息,是一种信息管理技术。目前世界上最大数据仓库是NRC公司建立的基于其Teradata数据库拥有24TB数据量的Wal-Mart数据仓库系统。1.2.4数据仓库的定义数据仓库是面向主题的、集成的、不可更新的、随时间不断变化的数据集合,用以支持经营管理中的决策制定过程。1.2.5数据仓库与数据挖掘的关系(1)数据仓库系统的数据可以作为数据挖掘的数据源(2)数据挖掘的数据源不一定必须是数据仓库系统1.3进一步理解的数据挖掘1.3.1数据挖掘的功能数据挖掘的目标是从数据中发现隐含的、有意义的知识,包括概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析7个方面的功能。(1)概念描述对某类对象的内涵进行描述,并概括这类对象的有关特征。其中,特征性描述用于描述某类对象的共同特征,区别性描述用于描述不同类对象之间的区别。(2)关联分析关联分析的目的在于找出数据中隐藏的关联网。(3)分类与预测所谓分类就是依照分析对象的属性分门别类、加以定义、建立类组,其关键是确定对数据按照什么标准或什么规则进行分类。所谓预测就是利用历史数据就爱能力模型,再运用最新数据作为输入值,获得未来变化的趋势或者评估给定样本可能具有的属性值或值的范围。(4)聚类分析又称为无指导的学习,其目的在于客观地按照被处理对象的特征分类,将有相同特征的对象归为一类。(5)趋势分析又称为时间序列分析,是从相当长的时间的发展中发现规律和趋势,是时序数据挖掘最基本的内容。(6)孤立点分析又称为孤立点挖掘,是指数据库中包含的一些与数据的一般行为或模型不一致的数据。(7)偏差分析又称为比较分析,是对差异和极端特例的描述,用于揭示事物偏离常规的异常现象。1.3.2数据挖掘常用技术数据挖掘算法是数据挖掘技术的一部分,数据挖掘技术用于执行数据挖掘功能,一个特定的数据挖掘功能只适用于给定的领域。(1)聚类检测方法是最早的数据挖掘技术之一,在聚类检测技术中,不是搜寻预先分类的数据,也没有自变量和因变量之分,因此也称为无指导的知识发现或无监督学习。聚类生成的组叫簇,是数据对象的集合。聚类检测的过程就是使同一个簇内的任意两个对象之间具有较高的相似性,不同簇的两个对象之间具有较高的向异性。用于数据挖掘的聚类检测方法有:划分的方法、层次的方法、基于密度的方法、基于网络的方法和基于模型的方法等。(2)决策树方法主要应用于分类和预测,提供了一种展示类似在什么条件下会得到什么值这类规则的方法。一个决策树表示一系列的问题,每个问题决定了继续下去的问题会是什么。决策树方法适合于处理费数值型数据。(3)人工神经网络方法人工神经网络方法主要用于分类、聚类、特征挖掘、预测等方面。它通过向一个训练数据集学习和应用所学知识,生成分类和预测的模式。对于数据是不定性的和没有任何明显模式的情况,应用人工神经网络比较有效。人工神经网络方法主要有:前馈式网络、反馈式网络和自组织网络。(4)遗传算法该算法模仿人工选择培育良种的思路,从一个初始规则集合开始,迭代地通过交换对象成员产生群体,评估并择优复制,优胜劣汰逐代积累计算,最终得到最有价值的知识集。繁殖:从一个旧种群选择出生命力强的个体产生新种群的过程。交叉:选择两个不同个体的部分进行交换,形成新个体的过程。变异:对某些个体的某些基因进行变异。(5)关联分析方法包含关联发现(能够系统地、有效地得到关联规则,找出关联组合,在关联组合中,如果出现某一项,另一项也会出现)、序列模式发现(找到时间上连续的事件)和类似的时序发现模式(先找到一个事件顺序,再推测出其它类似的事件顺序)。(6)基于记忆的推理算法即使用一个模型的已知实例来预测未知的实例。1.3.3数据挖掘的过程1.4数据挖掘应用实例某些具有特定的应用问题和应用背景的领域是最能体现数据挖掘作用的应用领域。1.5数据挖掘的发展趋势1.5.1数据挖掘研究方向(1)专门用于知识发现的形式化和标准化的数据挖掘语言。(2)数据挖掘过程中的便于用户理解的及人机交互的可视化方法。(3)网络环境下的数据挖掘技术。(4)加强对各种非结构化数据的挖掘。1.5.2数据挖掘应用的热点(1)网站的数据挖掘(2)生物信息或基因的数据挖掘(3)文本的数据挖掘教学后记本章节的重点是数据挖掘与数据仓库的定义,难点是它们的应用价值,学生对它们的应用领域及案例相对较为感兴趣。上课时间第二周上课节次3节课型理论课题数据仓库的定义、结构、说明及其清理教学目的使学生初步了解数据仓库教学方法讲授重点、难点数据仓库的定义及其结构时间分配教学内容板书或课件版面设计2.1数据仓库的定义数据仓库是一个环境,而不是一件产品,提供用户用于决策支持的当前和历史的数据,这些数据时在传统的操作型数据库中很难或不能得到的。数据仓库的4个基本特征:(1)数据仓库的数据是面向主题的。(2)数据仓库的数据是集成的。(3)数据仓库的数据是不可更新的。(4)数据仓库的数据时随时间不断变化的。2.1.1数据仓库的数据是面向主题的面向主题性表示数据仓库中数据组织的基本原则,数据仓库中的所有数据都是围绕着某一主题组织和展开的。(1)主题的概念主题是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象,在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。面向主题的数据组织方式,就是在较高上分析对象的数据的一个完整、一致的描述,能完整、统一地刻画各个分析对象所涉及的企业的各项数据,以及数据之间的联系。(2)主题的划分原则在划分主题是,必须保证每个主题的独立性和完备性。主题确定后需要确定主题应该包含的数据。在主题的数据组织中应该注意,不同的主题之间可能出现相互重叠的信息,这种主题间的重叠是逻辑的,而不是同一数据内容的物理存储重复。2.1.2数据仓库的数据是集成的在数据进入数据仓库之前,必然要经过转换、统一与综合,这是数据仓库建设中最关键也是最复杂的一步。2.1.3数据仓库的数据是不可更新的数据仓库的数据主要供企业决策分析之用,不是用来进行日常操作的,一般只保存过去的数据,而不随源数据的变化而实时更新,数据仓库中的数据一般不再修改。由于数据仓库的数据是不可更新的,因此也称其具有非易失性。这种不可更新性可以支持不同的用户在不同的时间查询相同的问题时获得相同的结果。2.1.4数据仓库的数据是随时间不断变化的数据仓库的数据随时间的不断变化主要体现在数据仓库随时间变化不断增加新的数据内容。数据仓库的数据初装完成后,再向数据仓库输入数据的过程称为数据追加。数据追加的内容仅限于上次向数据仓库输入后元数据库中变化了的数据。2.2数据仓库的结构数据仓库中的数据可分为多个级别,不同综合级别称之为“粒度”。2.2.1元数据元数据是“关于数据的数据”,可对数据仓库中的各种数据进行详细的描述与说明,说明每个数据的上下文关系,使每个数据具有符合现实的真实含义,使最终用户了解这些数据之间的关系。(1)元数据在数据仓库中的作用①为决策支持系统分析员和高层决策人员服务提供便利。②解决面向应用的操作型环境和数据仓库的复杂关系。(2)元数据的使用①元数据在数据仓库开发期间的使用。②元数据在数据源抽取中的作用。③元数据在数据清理与综合中的使用。(3)元数据的分类按元数据的类型可分为关于基本数据的元数据、用于数据处理的元数据和关于企业组织结构的元数据。按抽象级别可分为概念级、逻辑级和物理级的元数据。按元数据承担的任务可分为静态元数据和动态元数据。从用户的角度对元数据分类没有一个统一的标准,往往与元数据的使用目的有关,一般可分为技术元数据和业务元数据两类。(4)元数据的内容①数据源的元数据②数据模型的元数据③数据准备区元数据④数据库管理系统元数据⑤前台元数据2.2.2粒度的概念粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别,它影响存放在数据仓库中的数据量得大小,同时影响数据仓库所能回答查询问题的细节程度。粒度可分为按时间段综合数据的粒度和按采样率高低划分的样本数据库两种形式。(1)按时间段综合数据的粒度按时间段综合数据的粒度是对数据仓库中的数据的综合程度高低的一个度量,一般是按照不同的时间段来综合数据。它及影响数据仓库中的数据量的多少,也影响数据仓库所能回答询问的种类。为了适应不同查询的需要,数据仓库中经常建立多重粒度。(2)样本数据库样本数据库的粒度级别不是根据综合程度的不同来划分的,而是根据采样率的高低来划分的。采样粒度不同的样本数据库可以具有相同的综合级别。样本数据库的抽取可以按照数据的重要程度不同来进行,样本数据库是建立在不同时点上的粒度。2.2.3分割问题分割也是数据仓库中的一个重要概念,它是指将数据分散到各自的物理单元中去,以便能分别独立处理,以提高数据处理效率。数据分割后俄数据单元称为分片。(1)分割的优越性①容易重构②容易重组③自由索引④顺序扫描⑤容易恢复⑥容易监控(2)数据分割的标准数据分割的标准石油开发人员选择的(有时间、商业领域、地理位置、组织单位等),在数据仓库中,按时间总是必需的。(3)分割的层次一般分为系统层(由数据库管理系统和操作系统完成分割)和应用层(由应用程序完成分割)两层。2.2.4数据仓库中的数据组织形式(1)简单堆积结构这是数据仓库中最常用、最简单的数据组织形式,它从面向应用的数据库中每天的数据中提取出来,然后按照相应的主题集成为数据仓库中的记录。(2)轮转综合结构该结构将数据存储单位分为日、周、月、年几个级别,结构简捷,数据量比简单堆积结构大大减少,但损失了数据细节。(3)简单直接结构类似于简单堆积文件,但不是每天集成后放入数据仓库,而是间隔一定时间间隔。简单直接结构也可以认为是按一定的时间间隔对数据库的采样。(4)连续结构通过两个或更多的连续的简单直接结构数据组织形式的文件,可以生成连续结构数据组织形式的文件。对于各种文件结构的最终实现,关系数据库中仍然要依靠“表”的结构。2.3数据仓库的说明数据仓库通过标准手册进行说明,标准手册中包含:描述什么是数据仓库描述对数据仓库输送数据的源系统如何使用数据仓库有了问题如何获得帮助谁负责什么数据仓库的迁入计划数据仓库数据如何与面向应用的数据