1第1讲数据仓库概述2数据仓库概述1.1数据仓库产生的原因1.2数据仓库的基本概念1.3数据仓库的体系结构3数据仓库概述1.1数据仓库产生的原因1.1.1操作型数据处理1.1.2分析型数据处理1.1.3两种数据处理模式的差异1.1.4数据库系统的局限性41.1数据仓库产生的原因两者有何不同?数据库:存放数据的地方。数据仓库:存放数据的地方。51.1数据仓库产生的原因两者有何不同?数据库:存放数据的地方。数据仓库:存放数据的地方。61.1数据仓库产生的原因两者有何不同?数据库:存放数据的地方。数据仓库:存放数据的地方。71.1数据仓库产生的原因81.1数据仓库产生的原因91.1数据仓库产生的原因两者有何不同?数据库:存放数据的地方。数据仓库:存放数据的地方。101.1数据仓库产生的原因数据处理的类型操作型处理(OLTP):数据的收集、整理、存储、查询和增、删、改操作。分析型处理(OLAP):数据的再加工,往往要访问大量的历史数据,进行复杂的统计分析。111.1.1操作型数据处理是数据库系统的主要应用特点:数据存取频率高、响应时间要快、存取数据量小、数据存储正确可靠。系统基本架构:数据库用户用户用户数据库管理系统应用系统121.1.1操作型数据处理为了有效地对事务进行处理,数据库管理系统在技术和管理上采取了很多措施:提出了事务的概念采用日志、备份等恢复技术和并发控制技术采用索引技术快速定位数据131.1.1操作型数据处理在数据库设计中广泛采用了规范化理论,消除表中属性间的部分函数依赖和传递函数依赖。消除了数据的冗余,缩短了数据处理时间。141.1.2分析型数据处理典型的分析型应用就是决策支持系统。需要具备的基本功能是:建立各种数学模型,对数据统计分析,得出有用的信息作为决策的依据。151.1.2分析型数据处理常规应用实例:某产品的销售经理希望通过调整该产品在各零售店的分配数量来扩大其销售量。需要查询历史数据库中各类零售店最近若干年(例如5年)内每天的销售记录。统计运算计算出近5年来各店的年度销售量。比较确定销售量增长较快的零售店。161.1.2分析型数据处理决策支持系统:需要花数小时甚至更长时间的处理、需要遍历数据库中的大部分数据,进行复杂的计算,需要消耗大量的系统资源。171.1.3两者数据处理模式的差别操作型数据分析型数据细节的综合的,或提炼的当前数据历史数据更新的不可更新,只读的生命周期符合SDLC(软件开发生命周期)完全不同的生命周期对性能要求高对性能要求宽松一个时刻操作一个单元一个时刻操作一个集合事务驱动分析驱动面向应用面向分析一次操作数据量小,计算简单一次操作数据量大,计算复杂支持日常操作支持管理需求181.1.4数据库系统的局限传统的数据库系统在操作型数据处理应用中取得了巨大的成功。将其应用到分析型数据处理方面却无能为力。191.1.4数据库系统的局限信息系统建设的阶段性和分布性的特点,导致“信息孤岛”的存在。201.1.4数据库系统的局限211.1.4数据库系统的局限(续)1)数据的分散联机事务处理系统一般只需要与本部门业务相关的当前数据。企业内部各应用之间实际上几乎都是独立的。222)“蜘蛛网”问题解决数据分散的一种方法就是对数据进行集成抽取程序带来了“蜘蛛网”问题,即需要在抽取的数据中再次抽取,将导致企业数据之间形成错综复杂的网状结构。1.1.4数据库系统的局限233)数据不一致问题由于数据分散,导致多个应用间的数据不一致:同一字段在不同应用中具有不同的数据类型同一字段在不同应用中具有不同的名字字段名字相同,但含义不同1.1.4数据库系统的局限244)数据动态集成问题数据集成开销很大。一些应用仅在开始时对进行集成,以后一直以这部分集成数据作为分析基础,称为静态集成。导致决策者使用过时数据。如果希望能够用上最新数据,每次分析之前都进行数据集成,称为动态集成。联机事务处理系统不具备动态集成能力。1.1.4数据库系统的局限255)历史数据问题联机事务处理一般只需要当前数据,数据库适于存储高度结构化的日常事务细节数据。决策型数据多为历史性、汇总性或计算性数据。1.1.4数据库系统的局限266)数据的综合问题联机事务处理系统中积累了大量的细节数据,决策支持系统并不对细节数据进行分析。决策分析环境中,细节数据量太大一方面会严重影响分析效率,另一方面这些细节数据会分散决策者的注意力。因此分析前,需要对细节数据进行不同程度的综合。1.1.4数据库系统的局限27结论要提高分析和决策的效率和有效性,必须把分析数据从事务处理环境中提取出来,按照决策支持系统处理的需要进行重新组织,建立单独的分析型处理环境。数据仓库正是为了构建这种新的分析型处理环境而出现的一种数据存储和组织技术。1.1.4数据库系统的局限28数据仓库概述1.1数据仓库产生的原因1.2数据仓库的基本概念1.3数据仓库的体系结构29“数据仓库”一词最早是在1990年,由BillInmon提出的。数据仓库的四个基本特征:数据仓库的数据是面向主题的(SubjectOriented);数据仓库的数据时集成的(Integrate);数据仓库的数据不可更新(Non-Volatile);数据仓库的数据时随时间不断变化(TimeVariant)的。1.2数据仓库的基本概念30数据仓库就是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,通常用于企业的决策支持。1.2数据仓库的基本概念31主题:是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑上,它对应于企业中某一宏观分析领域所涉及的分析对象。面向主题的数据组织方式可在较高层次上对分析对象的数据给出完整、一致的描述。1.2.1面向主题32传统的面向应用的数据组织方式围绕相关的组织、部门进行详细调查,收集数据库的基础数据及其处理过程。掌握企业内数据的动态特征(数据流图)。面向主题的数据组织方式抽取主题确定每个主题所应包含的数据内容1.2.1面向主题33采购子系统:订单(订单号,供应商号,总金额,日期)订单细则(订单号,商品号,类别,单价,数量)供应商(供应商号,供应商名,地址,电话)销售子系统:顾客(顾客号,姓名,性别,年龄,文化程度,地址,电话)销售(员工号,顾客号,商品号,数量,单价,日期)1.2.1面向主题34人事管理子系统:员工(员工号,姓名,性别,年龄,文化程度,部门号)部门(部门号,部门名称,部门主管,电话)库存管理子系统:领料单(领料单号,领料人,商品号,数量,日期)进料单(进料单号,订单号,进料人,收料人,日期)库存(商品号,库房号,库存量,日期)库房(库房号,仓库管理员,地点,库存商品描述)1.2.1面向主题35传统的面向应用进行数据组织方式的特征为:重点在“数据”和“处理”;所生成的各项数据库模式与企业实际的业务处理流程中所涉及的单据及文档,有很好的对应关系;并没有真正体现数据与数据处理的分离。1.2.1面向主题36面向应用到面向主题的转变:面向主题的数据组织方式应分为两个步骤:抽取主题确定每个主题所包含的数据内容仍以商场为例,它所应有的主题包括:商品、供应商、顾客。每个主题有各自独立的逻辑内涵,对应一个分析对象。1.2.1面向主题37商品:商品固有信息:商品号,商品名,类别,颜色等商品采购信息:商品号,供应商号,供应价,供应日期,供应量等商品销售信息:商品号,顾客号,售价,销售日期,销售量等商品库存信息:商品号,库房号,库存量,日期等1.2.1面向主题38供应商:供应商固有信息:供应商号,供应商名,地址,电话等。供应商品信息:供应商号,供应价,供应日期,供应量等。顾客:顾客固有信息:顾客号,顾客名,性别,年龄,文化程度,住址顾客购物信息:顾客号,商品号,售价,购买日期,购买量等。1.2.1面向主题39从面向应用面向主题丢弃了原来不必要,不适合分析的信息。将分散在各子系统中的有关主题的信息集成,形成关于商品的一致信息。不同主题之间也有重叠的内容,但只是逻辑上的重叠,细节级上的重叠,另外主题间并不是两两重叠。供应商顾客商品1.2.1面向主题40主题的实现:一个主题可划分成多个表,基于一个主题的所有表都有一个公共码,作为主码的一部分,将各表统一起来,体现它们是属于一个主题。例如实现商品主题:1.2.1面向主题41主题:商品公共码键:商品号商品表(商品号,商品名,类型,颜色,…)采购表1(商品号,供应商号,供应日期,供应价,…)采购表2(商品号,时间段,采购总量,…):采购表n(商品号,时间段,采购总量,…)描述的是商品的固有信息描述的是商品的采购细节信息时间段不等的采购综合表1.2.1面向主题42销售表1(商品号,顾客号,销售日期,售价,销售量,…)销售表2(商品号,时间段,销售总量,…):销售表n(商品号,时间段,销售总量,…)库存表1(商品号,库房号,库存量,日期,…)库存表2(商品号,库房号,库存量,月份,…):库存表n(…,…)1.2.1面向主题43面向主题的数据组织方式:根据分析要求将数据组织成主题域,即要具有:独立性:可交叉,但必须具有独立内涵完备性:能在主题内找到该分析处理所要求的一切内容1.2.1面向主题442.数据仓库的数据是集成的通常,构造数据仓库是将多个异种数据源(如关系DB、一般文件和联机事务处理记录)集成在一起,使用数据清理和数据集成技术,确保命名约定、编码结构、属性度量等的一致性。主要做两个工作统一源数据中所有矛盾之处进行数据综合和计算1.2.2数据仓库的其它三个特征453.数据仓库的数据是稳定的数据仓库主要供企业决策分析使用,包括大量历史数据,数据经集成进入DW后极少或根本不更新。所以通常它只需要两种数据访问:数据的初始装入数据访问因此数据仓库不需要事务处理、恢复和并发控制机制。1.2.2数据仓库的其它三个特征464.数据仓库的数据是不同时间的数据集合数据仓库的数据不可更新是针对应用而言,它随时间而发生变化的特征体现在:数据仓库随时间变化不断增加新内容;数据仓库随时间变化不断删除旧内容;数据仓库随时间变化不断重新综合数据。数据仓库的关键结构都隐式或显式地包含时间元素。1.2.2数据仓库的其它三个特征47根据数据仓库的四个特征表明,数据仓库实际上是一种数据存储,它将各种异构数据源中的数据集成在一起,并保持其语义一致,从而为企业决策提供支持。1.2.3数据仓库的功能48数据仓库概述1.1数据仓库产生的原因1.2数据仓库的基本概念1.3数据仓库的体系结构491.3.1体系结构从数据仓库的概念结构看,数据仓库系统由:数据源、集成工具、数据仓库与数据仓库服务器、OLAP服务器、元数据与元数据管理工具、数据集市和前台分析工具等组成。1.3数据仓库的体系结构50数据仓库可视化用户接口OLAP工具查询/报表工具数据挖掘工具前端开发工具集成器集成器转换器转换器源数据源数据元数据及其管理工具数据仓库体系结构1.3.1体系结构51源数据:是数据仓库系统的基础,是整个系统的数据源泉。集成工具:用于数据抽取(Extracting)、清洗(Cleaning)、转换(Transformation)、加载(Load)的工具,简称ETL工具。数据仓库服务器:负责管理数据仓库中的数据。一般由关系数据库管理系统扩展而成。OLAP服务器:对分析所需要的数据按照多维数据模型进行再次组织,以支持用户多角度、多层次的数据分析。1.3.1体系结构52数据集市:是一种小型的数据仓库。是面向部门级的应用,因此也称之为部门级数据仓库。前台分析工具:主要包括各种数据分析工具,如报表工具、OLAP工具、数据挖掘工具等。元数据:是整个数据仓库的所有描述性信息。1.3.1体系结构53数据集市(DataMarts):为了特定目的,从数据仓库中独立出来的一部分数据。也称为部门级数据仓库。