第4章数据仓库基本原理

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

数据仓库和决策支持系统主讲:鲁明羽大连海事大学计算机科学与技术学院研究方向:智能数据分析与数据挖掘电话:13889576531Email:lumingyu@tsinghua.org.cn第4章数据仓库的基本原理本章目标•随着信息技术的不断推广和应用,许多企业都已在使用MIS系统处理管理事务和日常业务,积累了大量信息•企业管理者开始考虑如何利用这些海量信息为企业管理提供决策支持。因此,产生了与传统数据库有很大差异的数据环境要求和从这些海量数据中获取特殊知识的深层需求。•这种需求加上计算机软硬件能力的飞速发展,导致了数据仓库和数据挖掘技术的出现。本章目标•本章目标是:1)了解数据仓库的定义和特点2)了解数据仓库的数据组织方式3)理解数据仓库的体系结构和参照结构4)了解数据仓库管理员的作用和常用工具集目录1数据仓库的起源2数据仓库的定义和特点3与数据仓库相关的几个概念4数据仓库的数据组织5数据仓库的体系结构6数据仓库的层次结构7数据仓库管理员8数据仓库常用工具集•练习1.数据仓库的起源1.1数据库技术的发展60年代早期:利用文件系统,生成各种报告60年代中期:大量的文件使得维护和开发的复杂性提高,数据的同步亦成问题70年代早期:E.F.Codd提出关系数据模型和E-R数据建模方法,数据库技术日趋成熟70年代中期:高性能的OLTP应用越来越广泛1.数据仓库的起源1.1数据库技术的发展80年代早期:OLTP,MIS/DSS,以IBM的“InformationWarehouse”为代表,提出了数据仓库的思想80年代中期:由于技术和实现费用的原因,数据仓库思想没有引起太多注意90年代:以W.H.Inmon为代表,数据仓库(DataWarehouse)迅速兴起=OLAP,DM,OLAM1.数据仓库的起源1.2从传统数据库到数据仓库随着市场竞争的加剧,信息系统的用户已经不满足于仅仅用计算机处理每天所发生的事务数据,而是需要利用信息辅助管理决策过程。这就需要一种能够将日常业务处理中所收集到的各种数据转变为具有商业价值信息的技术,而传统的数据库系统无法承担这一责任,主要表现在决策处理中的系统响应问题、决策数据需求问题和决策数据操作问题,等等。对比内容数据库数据仓库数据内容当前值历史的、存档的、归纳的、计算的数据数据目标面向业务操作程序,重复处理面向主题域、管理决策分析应用数据特性动态变化,按字段更新静态,不能直接修改、只定时添加数据结构高度结构化,复杂,适合操作计算简单,适合分析使用频率高中到低数据访问量每个事务只访问少量记录有的事务可能要访问大量记录对响应时间的要求以秒为单位计量以秒、分钟、甚至小时为计量单位数据仓库与传统数据库的对比PrismSolutions公司创始人之一的W.H.Inmon在《BuildingtheDataWarehouse》一书中对“数据仓库(DW)”定义如下:数据仓库是一个面向主题的、集成的、随时间变化的、非易失性的数据集合,用于支持管理决策过程。2.数据仓库的定义和特点这个定义本身就说明了数据仓库中数据的组织方式以及建立数据仓库的目的是什么。数据仓库特点:面向主题性数据集成性数据的时变性数据的非易失性数据的集合性支持决策作用2.数据仓库的定义和特点其中前4项是其主要特点。数据仓库中的数据是面向主题的.主题是数据归类的标准,每个主题对应一个客观分析领域,如客户和商店等,因此,数据仓库中的数据是按主题要求而组织的。业务应用主题领域2.数据仓库的定义和特点例如,对一个保险公司来说,它的业务应用系统可能有汽车保险、人寿保险、健康医疗保险及家庭财产保险等,而保险公司的主题领域可以是客户、保单、保费及索赔等。一个数据仓库可以包含若干个主题,而每个主题可以分解为若干个子主题,每个子主题又可进一步分解为更细的子主题,形成逐层分解的主题层次结构。2.数据仓库的定义和特点2.数据仓库的定义和特点数据仓库中的数据是集成的.为了实现辅助决策的目标和要求,数据仓库需要集成多个部门、不同系统的大量数据。需要集成的数据源既有关系数据库,也有文本数据库、面向对象数据库以及文件系统等,而且同一种数据模型集合体中又有不同的DBMS。因此,数据集成是一个复杂问题。不同数据源中的数据并不是全部转移到数据仓库中,而是运用多种转换规则,通过选择、合并、变换等方法转换为数据仓库中的集成数据---需要ETL模块支持。此外,数据源中可能存在数据重复、不一致和各种错误,因此,需要进行数据清洗。2.数据仓库的定义和特点数据仓库中的数据是集成的.不同的应用在编码、命名、属性的度量等方面都有很大的差别,数据集成就是要解决这些问题。举例1:编码APPA:M,FM,FAPPB:1,0APPC:X,YAPPD:MALE,FEMALE2.数据仓库的定义和特点举例2:命名APPA:IDUser_IDAPPB:IdentityAPPC:User_IDAPPD:Custom_ID举例3:属性度量APPA:CMCMAPPB:INCHESAPPC:MAPPD:DM2.数据仓库的定义和特点举例4:关键字冲突APPAKEYCHAR(10)APPBKEYDECFIXED(9,2)APPCKEYPIC‘999999’APPDKEYCHAR(12)KEYCHAR(12)举例5:多源APPA:DESCRIPTION1APPB:DESCRIPTION2?DESCRIPTIONAPPC:DESCRIPTION32.数据仓库的定义和特点数据仓库中的数据是稳定的.数据仓库包含大量的历史数据,经集成进入数据仓库后主要用于决策分析(查询类操作),而极少更新。可以将其理解为只读的。业务应用数据仓库插入更新删除插入访问查询加载以记录为单位的数据操作大量的数据加载和数据访问2.数据仓库的定义和特点数据仓库中的数据是随时间变化的.主要体现在数据的时限、数据的内容、数据的码健。业务应用数据仓库数据时限:1个月至1年数据时限:5到10年数据内容:记录更新数据内容:复杂的数据快照关键字结构:可能包含时间元素关键字结构:包含时间标记2.数据仓库的定义和特点数据仓库是为管理决策提供服务的.数据仓库主要应用在两个方面:使用浏览分析工具在数据仓库中寻找有用的信息;基于数据仓库,在数据仓库系统上建立应用,形成决策支持系统。事务处理分析处理从数据数据从数据信息(知识)OLTPOLAP(DM、OLAM)DBDW3.与数据仓库相关的几个概念OLTP:联机事务处理,完成对数据的增、删、改等操作OLAP:联机分析处理,完成对数据的向上综合、向下细化、旋转、切片和分割(又称局部分析)等操作。OLAP以多维分析为基础,刻画了管理和决策过程中对数据进行多层面、多角度的分析处理。又分为MOLAP、ROLAP3.与数据仓库相关的几个概念DM:数据挖掘,从大量数据中发现数据模式,预测趋势和行为,致力于知识的自动发现OLAM:联机分析挖掘,将OLAP与DM技术结合起来的一种技术DSS:决策支持系统,利用OLAP、DM、OLAM等技术为企业或政府的管理决策提供服务的系统4.数据仓库的数据组织数据仓库中的数据依据下面4个原则进行组织:1)面向主题2)采用关系表结构形式的数据模式3)在数据源和数据仓库之间建立转换规则4)数据按粒度分为若干个层次4.数据仓库的数据组织1)面向主题组织数据构建数据仓库的前提首先是确定数据仓库的主题,然后才能以主题为单位,组织满足主题目标与需求的数据。一个数据仓库一般有若干个主题,而每个主题又有一个数据集合体作为支撑,称为主题域(subjectfield),因此,一个数据仓库可以按主题划分为若干个主题域。主题域应具有:独立性:主题域有明确的边界和独立内涵,可以有交叉,但不影响其独立性。完备性:每个主题的分析要求所需要的数据均能在其主题域中获得。4.数据仓库的数据组织2)按关系模式组织主题域数据仓库中的主题域按照传统的关系表形式进行组织。一个主题域往往由若干个关系表构成,而这些关系表中的数据来自于数据源,其中的属性按统计、汇总需求,可分为三种形式:静态的(即不可统计的)、动态的(即可统计的)以及半动态的(即有时可统计的)。在同一个主题域内的各个关系表之间,一般存在一定的联系,为此,需要建议一个主题域的公共码键,称为主题码(subjectkey),以关联主题域内各个关系表。4.数据仓库的数据组织3)在数据源和数据仓库之间建立转换规则由于不同数据源中的数据并不是全部转移到数据仓库中,而是通过选择、合并、变换等方法,转换为数据仓库中的集成数据,因此,需要在数据源和数据仓库之间建立数据转换规则。这些数据转换规则形成了数据仓库管理系统中元数据,而ETL模块负责运用所建立的转换规则进行数据加载。4.数据仓库的数据组织数据转换规则规定:数据源中的哪些数据进入数据仓库哪个数据域的哪些关系表中?在进入数据仓库之前,数据源中哪些数据需要合并为主题域中的哪项数据?在进入数据仓库之前,数据源中哪些数据需要进行何种变换?其它转换规定4.数据仓库的数据组织4)数据按粒度分为若干个层次综合与细化是数据仓库中的两种主要操作,为此,数据仓库中的数据需要划分为不同层次,而每个数据层次反映了数据综合的程度(称为粒度)。一般地,数据仓库包含4个级别的数据:a)当前数据b)轻度综合数据c)高度综合数据d)历史数据数据仓库从传统数据库或其它数据源获得原始数据,先按辅助决策的主题要求形成当前基本数据层,再按综合决策的要求形成综合数据层(又分为轻度综合层和高度综合层)。随着时间的推移,由时间控制机制将当前基本数据层转为历史数据层。高度综合01-02年所有产品月销售数据轻度综合01-02年某产品周销售数据当前数据01-02年销售数据历史数据1980-2000销售数据数据仓库的逻辑结构元数据4.数据仓库的数据组织4)数据按粒度分为若干个层次数据粒度越大,其综合度越高,细化程度越低;反之,数据粒度越小,其细节程度越大,综合度越低。上页的数据仓库数据层次划分是一种常见方式,在实际应用中,还可以进一步提升或降低。元数据早期细节级销售细节1994-1997操作型转换当前细节级销售细节1998-2003子生产线每周销售1990-2003高度综合级轻度综合级(数据集市)生产线每月销售1994-2003数据仓库的数据组织实例1.业务背景:某个采用会员制的连锁超市的数据仓库2.现有系统现状:采购管理系统,销售管理系统,库存管理系统,人事管理系统3.现有系统的数据库结构:1)采购管理系统订单(订单号,供应商号,日期,总金额)订单明细(订单号,商品名,商品号,类别,单价,数量)供应商(供应商号,供应商名,地址,电话)数据仓库的数据组织实例2)销售管理系统顾客(顾客号,姓名,性别,年龄,文化程度,地址,电话)销售(员工号,顾客号,商品号,数量,单价,金额)3)库存管理系统领料单(领料单号,领料人,商品号,数量,日期)进料单(进料单号,订单号,进料人,收料人,日期)库存(商品号,库房号,库存量,日期)库房(库房号,保管员,地点,库存商品描述)数据仓库的数据组织实例4)人事管理系统员工(员工号,姓名,性别,年龄,文化程度,部门号)部门(部门号,部门名称,部门主管,电话)4.主题选择:商品,供应商,顾客5.主题域:分别对应三个主题(1)商品主题域P数据源:采购,销售和库存管理系统数据仓库的数据组织实例数据关系表:P1---商品固有信息:商品号,商品名,类别P2---商品采购信息:商品号,供应商号,供应价供货日期,供应量P3---商品销售信息:商品号,顾客号,售价销售日期,销售量P4---商品库存信息:商品号,库存号,库存量,日期主题码:商品号数据属性:P1:静态或半动态P2、P3、P4:动态数据仓库的数据组织实例(2)供应商主题域S数据源:采购管理系统数据关系表:S1---供应商固有信息:供应商号,供应商名地址,电话S2---供应商品信息:供应商号,商品号,供应价供货日期,供应量主题码:供应商号数据属性:S1---静态或半动态S2---动态数据仓库

1 / 66
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功