第二章数据仓库原理

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第2章数据仓库原理本章学习目标:掌握数据仓库的定义,四个基本特征掌握数据集市的概念,与数据仓库区分掌握数据仓库中数据组织方式掌握数据处理过程第2章数据仓库原理2.1数据仓库定义2.2数据集市2.3数据组织结构和形式2.4数据抽取E、转换T和装载L(ETL)2.1数据仓库定义WilliamH.Inmon:数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用于支持管理人员的决策。数据仓库之父--BillInmon四个基本特征数据仓库的数据是面向主题的数据仓库的数据是集成的数据仓库的数据是非易失的数据仓库的数据是随时间不断变化的面向主题主题(Subject):特定的数据分析领域与目标。面向主题:为特定的数据分析领域提供数据支持。面向主题为特定数据分析领域提供的数据与传统数据库中的数据是有不同的。传统数据库中的数据是原始的、基础的数据,而特定分析领域数据则是需要对它们作必要的抽取、加工与总结而形成。数据仓库是面向分析、决策人员的主观要求的,不同的用户有不同的要求,同一个用户的要求也会随时间而经常变化,因此,数据仓库中的主题有时会因用户主观要求的变化而变化的。面向主题示例例:一个面向事务处理的“商场”数据库系统,其数据模式如下采购子系统:订单(订单号,供应商号,总金额,日期)订单细则(订单号,商品号,类别,单价,数量)供应商(供应商号,供应商名,地址,电话)销售子系统:顾客(顾客号,姓名,性别,年龄,文化程度,地址,电话)销售(员工号,顾客号,商品号,数量,单价,日期)面向主题示例库存管理子系统:领料单(领料单号,领料人,商品号,数量,日期)进料单(进料单号,订单号,进料人,收料人,日期)库存(商品号,库房号,库存量,日期)库房(库房号,仓库管理员,地点,库存商品描述)人事管理子系统:员工(员工号,姓名,性别,年龄,文化程度,部门号)部门(部门号,部门名称,部门主管,电话)面向主题示例上述数据模式基本上是按照企业内部的业务活动及其需要的相关数据来组织数据的存储的,没有实现真正的数据与应用分离,其抽象程度也不够高。如果按照面向主题的方式进行数据组织,首先应该抽取主题,即按照管理人员的分析要求来确定主题,而与每个主题相关的数据又与有关的事务处理所需的数据不尽相同。主题一:商品商品固有信息:商品号,商品名,类别,颜色等商品采购信息:商品号,供应商号,供应价,供应日期,供应量等商品销售信息:商品号,顾客号,售价,销售日期,销售量等商品库存信息:商品号,库房号,库存量,日期等主题二:供应商供应商固有信息:供应商号,供应商名,地址,电话等供应商品信息:供应商号,商品号,供应价,供应日期,供应量等主题三:顾客顾客固有信息:顾客号,顾客名,性别,年龄,文化程度,住址,电话等顾客购物信息:顾客号,商品号,售价,购买日期,购买量等面向主题在每个主题中,都包含了有关该主题的所有信息,同时又抛弃了与分析处理无关或不需要的数据,从而将原本分散在各个子系统中的有关信息集中在一个主题中,形成有关该主题的一个完整一致的描述。面向主题的数据组织方式所强调的就是要形成一个这样一致的信息集合。不同的主题之间也有重叠的内容,但这种重叠是逻辑上的,而不是物理存储上的重叠;是部分细节的重叠,而不是完全的重叠。面向主题每个主题所需数据的物理存储:多维数据库(MDDB—Multi-DimensionalDataBase)用多维数组形式存储数据。关系数据库。用一组关系来组织数据的存储,同一主题的一组关系都有一个公共的关键字,存放的也不是细节性的业务数据,而是经过一定程度的综合形成的综合性数据。集成的数据是分散的;由于事务处理应用分散、蜘蛛网问题、数据不一致问题、外部数据和非结构化数据。数据仓库中的数据是为分析服务的,而分析需要多种广泛的不同数据源以便进行比较、鉴别,因此数据仓库中的数据必须从多个数据源中获取,这些数据源包括多种类型数据库、文件系统以及Internet网上数据等,它们通过数据集成而形成数据仓库中的数据。集成的集成的方法:统一:消除不一致的现象综合:对原有数据进行综合和计算需要考虑的问题:数据格式计量单位数据代码含义混乱数据名称混乱非易失的数据仓库中的数据是经过抽取而形成的分析型数据,不具有原始性,主要供企业决策分析之用,执行的主要是‘查询’操作,一般情况下不执行‘更新’操作。同时,一个稳定的数据环境也有利于数据分析操作和决策的制订。但这也不等于数据仓库中的数据不需要‘更新’操作。在需要进行新的分析决策时,可能需要进行新的数据抽取和‘更新’操作数据仓库中的一些过时的数据,也可以通过‘删除’操作丢弃掉。因此数据仓库的存储管理相对于DBMS来说要简单得多。随时间不断变化数据仓库中的数据必须以一定时间段为单位进行统一更新。不断增加新的数据内容不断删去旧的数据内容更新与时间有关的综合数据2.2数据集市(DataMart)建立数据集市的原因数据仓库是一种反映主题的全局性数据组织。但是,全局性数据仓库往往太大,在实际应用中将它们按部门或个人分别建立反映各个子主题的局部性数据组织,它们即是数据集市。因此,有时我们也称它为部门数据仓库。例:在有关商品销售的数据仓库中可以建立多个不同主题的数据集市:商品采购数据集市库房使用数据集市商品销售数据集市数据集市类型按照数据获取来源:独立型:直接从操作型环境获取数据。从属型:从企业级数据仓库获取数据。建设途径从全局数据仓库到数据集市从数据集市到全局数据仓库数据仓库VS数据集市数据仓库与数据集市的关系类似于传统关系数据库系统中的基表与视图的关系。数据集市的数据来自数据仓库,它是数据仓库中数据的一个部分与局部,是一个数据的再抽取与组织的过程。2.3数据组织结构和形式典型的数据仓库的数据组织结构高度综合级轻度综合级当前细节级早期细节级数据粒度粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。粒度问题是设计数据仓库的一个最重要方面。粒度的一个例子能回答,但需要一定量的检索不能回答,缺少细节信息粒度权衡数据分割数据分割是指把数据分散到各自的物理单元中去,它们能独立地处理。分割是数据仓库中数据的第二个主要的设计问题分割问题的焦点不是该不该分割而是如何去分割的问题。数据分割例子处理集A处理集B数据分割的本质数据分割的本质之一就是灵活地访问数据。数据分割标准数据分割的标准是严格地由开发人员来选择的。时间。商业线。地理位置。组织单位。所有上述标准。然而,按日期几乎总是分割标准中的一个必然组成部分。数据组织形式数据仓库中有多种数据组织形式:简单堆积数据结构轮转综合数据结构简单直接文件连续文件简单堆积数据结构每日从数据库中提取并加工数据逐天积累。最简单最常用的数据组织形式轮转综合数据结构简单逐日堆积数据的一种变种。数据用与前面相同的处理方法从操作型环境输入到数据仓库环境中,只是在轮转综合文件中的数据才被输入到不同的结构形式中。每日事物处理每日综合天周月年123456712345。。。。。。简单堆积VS轮转综合轮转综合数据结构与数据的简单堆积结构相比,仅处理非常少的数据单元。简单直接文件数据仅仅是从操作型环境拖入数据仓库环境中,并没有任何累积。是间隔一定时间的操作型数据的一个快照。不是在每天的基础上组织的,而是以较长时间为单位的,比如一个星期或一个月。连续文件通过两个连续的简单直接文件,可以生成另一个连续文件连续文件也可以通过把一个快照追加到一个以前生成的连续文件上来创建连续文件连续文件也可以通过把一个快照追加到一个以前生成的连续文件上来创建数据存储虚拟存储方式基于关系表的存储方式多维数据库组织虚拟存储方式没有专门的数据仓库数据存储,数据仓库中的数据仍然在源数据库中。只是根据用户的多维需求及形成的多维视图临时在源数据库中找出所需要的数据,完成多维分析。优点:组织方式简单、花费少、使用灵活;缺点:只有当源数据库的数据组织比较规范、没有数据不完备及冗余,同时又比较接近多维数据模型时,虚拟数据仓库的多维语义才容易定义。而在一般的数据库应用中,这很难做到。基于关系表的存储方式将数据仓库的数据存储在关系数据库的表结构中,在元数据的管理下完成数据仓库的功能。实体关系(ER)模型一般用于关系型数据库设计,而数据仓库采用星型雪片型事实星座星型模式数据仓库中包含(1)一个大的包含大批数据和不冗余的事实表(中心表);(2)一组小的附属表,称为维表。每维一个。事实表中每条元组都含有指向各个维表的外键和一些相应的测量数据,事实表的记录数量很多,维表中记录的是有关这一维的属性。星型模式示例时间键产品键地区键sales(事实表)销售量销售价time时间键年季度月星期天产品键产品类产品名型号itemlocation地区键国家省市维表雪花模式雪花模型对星型模型的维表进一步层次化原来的各维表可能被扩展为小的事实表,形成一些局部的“层次”区域。雪花模式示例time时间键年季度月星期天产品键产品类产品名型号item时间键产品键地区键sales(事实表)销售量销售价location地区键国家省键省键省名市键市键市名provincecity星型模式VS雪花模式雪花模式的维表可能是规范化的,以便减少冗余。这种表易于维护,并节省存储空间。实际上,与巨大的事实表相比,这种空间的节省可以忽略。由于执行查询需要更多的连接操作,雪花结构可能降低浏览的性能。在数据仓库设计中,雪花模式不如星型模式流行。事实星座模式多个事实共享相同的维表事实星座模式示例time时间键年季度月星期天产品键产品类产品名型号item时间键产品键地区键sales(事实表)销售量销售价location地区键国家省市ship(事实表)产品键时间键起运点终止点运价数据仓库的数据追加时标法前后映像文件方法DELTA文件日志文件时标法基本思想:为记录数据增加一个时间标记。如果数据含有时标,对新插入或更新的数据记录,在其上添加更新时的时标,那么只需根据时标判断即可。但并非所有数据库中的数据都含有时标。前后映像文件方法在抽取数据前后对数据库各做一次快照,然后比较两幅快照从而确定新数据。它占用大量资源,对性能影响极大,因此无实际意义。DELTA文件DELTA文件视图从能够感知数据变化的应用程序来生成追加文件利用DELTA文件效率很高,它避免扫描整个数据库。但因应用系统常由不同的软件开发商开发,生成DELTA文件的应用并不普遍。日志文件日志是DMBS的固有机制系统日志能把数据库服务器所执行的所有操作详细记录下来,通过分析日志获取数据变化情况。它还具有DELTA文件的优越性质,提取数据只要局限日志文件即可,不用扫描整个数据库。固有机制,不影响OLTP性能。2.4数据抽取、转换和加载数据仓库需要将这些源数据经过抽取、转换和装载的过程,存储到数据仓库的数据模型中。ETL过程抽取(Extraction)转换(Transform)装载(Load)2.4.1数据抽取确认数据源数据抽取技术确认数据源列出对事实表的每一个数据项和事实列出每一个维度属性对于每个目标数据项,找出源数据项一个数据元素有多个来源,选择最好的来源确认一个目标字段的多个源字段,建立合并规则确认一个目标字段的多个源字段,建立分离规则确定默认值检查缺失值的源数据数据抽取技术当前值:源系统中存储的数据都代表了当前时刻的值。当商业交易时,这些数据是会发生变化的。周期性的状态:这类数据存储的是每次发生变化时的状态。例如,对于每一保险索赔,都经过索赔开始、确认、评估和解决等步骤,都要考虑有时间说明。2.4.2数据转换T数据转换的基本功能数据转换类型数据整合和合并如何实施转换数据转换的基本功能选择:从源系统中选择整个记录或者部分记录。分离/合并:对源系统中的数据进行分离操作或者合并

1 / 69
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功