数据仓库与数据挖掘(DATAWAREHOUSINGANDDATAMINING)石家庄铁道大学DW&DM2020/2/12-2-课程介绍21世纪是一个以计算机技术和知识经济为核心的信息化时代。随着计算机技术、网络技术的飞速发展和数据库应用的不断深化,数据仓库(DataWarehousing)和数据挖掘(DataMining)技术及其应用已成为计算机科学技术领域的热点之一。DW&DM2020/2/12-3-课程介绍数据库技术及其应用的发展:从关系模型发展到面向对象模型从单机应用发展到分布式应用从局域网数据库应用发展到Web数据库应用从联机事务处理(OLTP:On-LineTransactionProcess)发展到联机分析处理(OLAP:On-LineAnalysisProcess)从数据库发展到数据仓库从数据的统计分析发展到数据挖掘DW&DM2020/2/12-4-课程介绍(Cont.)目前,计算机科学技术界的许多专家、学者都在大力研究数据仓库的构筑技术和基于各种模型的数据挖掘算法,并取得了可喜的成果。国内外一些著名计算机企业也纷纷提出了数据仓库实施战略,推出了一些OLAP和数据挖掘工具。高等院校的研究生需要掌握这方面的新知识、新技术,掌握数据仓库与数据挖掘领域的基本理论、基本原理和实现技术,适应计算机科学技术新的发展趋势。DW&DM2020/2/12-5-课程介绍(Cont.)本课程在数据仓库部分全面深入地介绍数据仓库的基本概念和体系结构,详细阐述数据仓库的实现技术;在数据挖掘部分介绍数据挖掘的各类算法(包括关联规则挖掘算法、分类规则挖掘算法、聚类分析算法、WEB数据挖掘等)。DW&DM2020/2/12-6-学时及成绩评定学时:32=20+12教学形式:讲解、报告、实验等考核方式:C方式C:平时(30%)+课程论文(70%)平时:出勤、课堂表现、作业、报告等课程论文:专题论文、实验报告等DW&DM2020/2/12-7-参考资料1.王丽珍,周丽华等.数据仓库与数据挖掘原理及应用.北京:科学出版社,20052.安淑芝等.数据仓库与数据挖掘.北京:清华大学出版社,20053.陈京民.数据仓库与数据挖掘技术.北京:电子工业出版社,20024.DataMiningConceptsandTechniques.(影印版).北京:高等教育出版社,20015.有关参考资料和文献、学术刊物上有关论文DW&DM2020/2/12-8-主要内容数据仓库与数据挖掘概述数据仓库的数据模型与数据组织数据仓库的开发方法及开发过程数据集市及开发OLAP概述、MOLAP与ROLAP数据挖掘技术与算法数据挖掘工具及其应用DW&DM2020/2/12-9-第1章数据仓库与数据挖掘概述本章要点数据仓库的发展数据仓库的基本概念数据挖掘的发展数据挖掘的基本概念数据仓库与数据挖掘的集成DW&DM2020/2/12-10-1.引言在最近的几十年当中,有关数据库新技术的研究有三件事情值得我们加以关注:面向对象数据库:80年代末—数据仓库:90年代初—对象--关系数据库:90年代中—DW&DM2020/2/12-11-数据库方式数据仓库方式80年代以后90年代以后以支持日常业务处理过程为目的(OLTP)以支持经营管理过程中的决策制定为目的(DSS)进入90年代以后,数据库系统的应用从传统的事务处理应用扩展到辅助决策等新的集成应用领域。DW&DM2020/2/12-12-面向对象数据库数据仓库对象--关系数据库为传统的RDB开拓了新的应用途径:•联机分析处理(OLAP)•数据挖掘(DM)DW&DM2020/2/12-13-2.从数据库到数据仓库基于数据库技术的数据处理操作可以分为两大类:操作型处理分析型处理DW&DM2020/2/12-14-操作型处理分析型处理•也叫事务处理,是指对数据库的日常联机访问操作,所以也叫联机事务处理(OLTP:On-LineTransactionProcess)。•其访问特点是:通常仅仅是对一个或一组记录的查询或修改执行频率高人们关心的是处理的响应时间、数据的安全性和完整性等指标。DW&DM2020/2/12-15-操作型处理分析型处理•也叫联机分析处理(OLAP:On-LineAnalysesProcess).用于企业管理人员的决策分析,为制订企业的未来经营管理计划提供辅助决策信息,如决策支持系统(DSS--DecisionSupportSystem)。•其访问特点是:需要执行大量的统计操作需要访问大量的历史数据执行频率和对响应时间的要求都不高。DW&DM2020/2/12-16-展示模型库数据库方法库图1传统的DSS决策模型决策支持系统是70年代兴起的一种计算机应用技术,用于帮助企业领导作辅助性决策。传统的DSS系统由三个组成部分:数据、算法与模型、展示。其结构模型如图1所示:DW&DM2020/2/12-17-在传统的以数据库为核心的事务处理环境中不适宜建立DSS等分析型应用的原因主要有以下五条:事务处理:用户每次操作处理的时间短,存取数据量小,但操作频率高,并发程度大。分析处理:每次分析可能需要连续运行很长的时间,存取数据量大,但很少做这样的分析处理,也没有并发执行的要求。(1)事务处理和分析处理的性能特性不同DW&DM2020/2/12-18-分析处理:DSS需要集成的数据,包括整个企业内部各部门的相关数据,还需要企业外部、竞争对手等处的相关数据。全面而正确的数据是有效的分析和决策的首要前提。因此用于分析处理的数据可能来自多种不同的数据源,包括:同构/异构数据库文件系统Internet外部的用户数据。(2)数据集成问题事务处理:一般只需要与本部门业务有关的当前细节数据,而对整个企业范围内的集成应用考虑很少,这就造成大部分企业内部的数据是分散而非集成的。事务处理应用的分散性“蜘蛛网”问题数据不一致问题外部数据(非结构化数据)DW&DM2020/2/12-19-对于需要集成数据的DSS应用来说,在应用程序中对事务处理环境中的这些纷繁复杂的数据进行集成将大大加重程序员的负担,而且每做一次分析,就需要进行一次这样的集成,也会导致分析处理的效率极低。DW&DM2020/2/12-20-静态集成:对所需数据进行一次集成,以后就不再发生变化。在采用静态集成策略时,如果数据源中的数据发生了变化,那么这些变化就不能反映给决策者,导致决策使用的是过时的数据。动态集成:对集成后的数据进行周期性刷新。(3)数据动态集成问题DW&DM2020/2/12-21-事务处理:一般只需要当前数据,数据库中的过时数据虽然也能通过数据转储等方式保存下来,但往往被束之高阁,未能得到充分利用。分析处理:更看重历史数据,可以通过对大量历史数据的详细分析来把握企业的发展趋势。(4)历史数据问题DW&DM2020/2/12-22-分析处理:需要的往往是大量的总结性分析型数据,而非数据库中的细节性操作型数据。事务处理:需要的是当前的细节性操作数据。(5)数据的综合问题DW&DM2020/2/12-23-•事务处理系统中积累的是大量的细节数据,而DSS并不对这些细节数据进行分析。这就是常说的数据库中“数据丰富、信息匮乏”。•数据库中太多的细节数据一方面会影响分析的效率,另一方面也不利于分析人员将注意力集中于有用的信息上。因此,在分析前往往需要对细节数据进行不同程度的综合,在数据库系统中,这种综合还往往因为是一种数据冗余而被限制。DW&DM2020/2/12-24-分析处理:数据的访问操作以‘读’操作为主,不需要实时的‘更新’操作,但需要定时‘刷新’。事务处理:提供多种不同类型的数据访问操作,对于需要修改的数据必须实时‘更新’数据库。(6)数据的访问问题DW&DM2020/2/12-25-综上所述,在事务处理环境中直接构建分析处理应用是不合适的,要提高分析处理和决策支持的效率和有效性,必须将分析型处理及其所需的综合性数据从传统的事务型处理和细节性数据中分离出来,按照DSS的需要重新进行组织,建立单独的分析处理环境,数据仓库正是为了建立这种新的分析处理环境而出现的一种数据存储和组织技术。目前,数据仓库技术正成为企业信息集成和辅助决策应用的关键技术之一。DW&DM2020/2/12-26-在现代计算机信息系统中,数据的作用有两个方面:事务处理和分析处理(数据分析),不同的用户需要不同的数据信息。操作型数据:事务处理所需要的细节性的数据分析型数据:分析处理所需的综合性数据3.数据分析与数据仓库DW&DM2020/2/12-27-表1操作型数据与分析型数据的区别操作型数据分析型数据细节的综合的(提炼的)当前数据历史及周边相关数据可更新不更新(可周期性刷新)面向应用,事务驱动面向分析,分析驱动操作需求事先可知道不知道一次操作数据量小一次操作数据量大支持日常操作支持管理需求性能要求高对性能要求较宽松DW&DM2020/2/12-28-20世纪80年代中期,数据仓库之父W.H.Inmon对数据仓库所下的定义:数据仓库就是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合。DW&DM2020/2/12-29-主题(Subject):特定的数据分析领域与目标。面向主题:为特定的数据分析领域提供数据支持。为特定数据分析领域提供的数据与传统数据库中的数据是有不同的。传统数据库中的数据是原始的、基础的数据,而特定分析领域数据则是需要对它们作必要的抽取、加工与总结而形成。4.数据仓库的四大特色(1)面向主题DW&DM2020/2/12-30-数据仓库是面向分析、决策人员的主观要求的,不同的用户有不同的要求,同一个用户的要求也会随时间而经常变化,因此,数据仓库中的主题有时会因用户主观要求的变化而变化的。例1:一个面向事务处理的“商场”数据库系统,其数据模式如下:DW&DM2020/2/12-31-采购子系统:订单(订单号,供应商号,总金额,日期)订单细则(订单号,商品号,类别,单价,数量)供应商(供应商号,供应商名,地址,电话)销售子系统:顾客(顾客号,姓名,性别,年龄,文化程度,地址,电话)销售(员工号,顾客号,商品号,数量,单价,日期)DW&DM2020/2/12-32-库存管理子系统:领料单(领料单号,领料人,商品号,数量,日期)进料单(进料单号,订单号,进料人,收料人,日期)库存(商品号,库房号,库存量,日期)库房(库房号,仓库管理员,地点,库存商品描述)人事管理子系统:员工(员工号,姓名,性别,年龄,文化程度,部门号)部门(部门号,部门名称,部门主管,电话)DW&DM2020/2/12-33-上述数据模式基本上是按照企业内部的业务活动及其需要的相关数据来组织数据的存储的,没有实现真正的数据与应用分离,其抽象程度也不够高。如果按照面向主题的方式进行数据组织,首先应该抽取主题,即按照管理人员的分析要求来确定主题,而与每个主题相关的数据又与有关的事务处理所需的数据不尽相同。DW&DM2020/2/12-34-商品固有信息:商品号,商品名,类别,颜色等商品采购信息:商品号,供应商号,供应价,供应日期,供应量等商品销售信息:商品号,顾客号,售价,销售日期,销售量等商品库存信息:商品号,库房号,库存量,日期等主题一:商品DW&DM2020/2/12-35-供应商固有信息:供应商号,供应商名,地址,电话等供应商品信息:供应商号,商品号,供应价,供应日期,供应量等主题二:供应商DW&DM2020/2/12-36-顾客固有信息:顾客号,顾客名,性别,年龄,文化程度,住址,电话等顾客购物信息:顾客号,商品号,售价,购买日期,购买量等主题三:顾客DW&DM2020/2/12-37-在每个主题中,都包含了有关该主题的所有信息,同时又抛弃了与分析处理无关或不需要的数据,从而将原本分散在各个子系统中的有关信息集中在一个主题中,形成有关该主题的一个完整一致的描述。面