数据仓库中的数据及组织.

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

2019/12/291五邑大学计算机学院何国辉数据仓库与数据挖掘DataWarehouseandDataMining2019/12/292数据仓库与数据挖掘DataWarehouseandDataMining第三章数据仓库中的数据及组织2019/12/293数据仓库中存储两类数据:业务数据和元数据。业务数据,分为:细节数据综合数据有关元数据在本章稍后再述3.1数据仓库中的数据组织2019/12/294数据仓库中存储的数据3.1数据仓库中的数据组织(续)后备数据后备数据后备数据高度综合级轻度综合级当前细节级早期细节级元数据2019/12/295源数据经过抽取、转换后,首先进入当前细节级,再根据具体需要进行进一步的综合,从而进入轻度综合级乃至高度综合级。老化的数据进入早期细节级。3.1数据仓库中的数据组织(续)2019/12/296数据组织的实例3.1数据仓库中的数据组织(续)数据仓库层后备数据后备数据后备数据高度综合级轻度综合级当前细节级早期细节级2011~2013每“月”电话呼叫情况信息2011~2013每“天”电话呼叫情况信息2011~2013每个电话呼叫情况信息2000~2010电话呼叫明细情况信息2019/12/2971.数据粒度数据粒度是数据仓库的重要概念。存在两种形式,之一:粒度是对数据仓库中数据的综合程度高低的一个度量。粒度越小,细节程度越高,综合程度越低。在数据仓库中多重粒度是必不可少的。之二:样本数据库,其粒度是根据采样率的高低来划分的。2019/12/298不同的情况组织数据的粒度会不同。如:电信通话细节数据:记录每一次通话情况。轻度综合数据:记录顾客每天的通话情况。高度综合数据:记录顾客每月的通话情况。1.数据粒度(续)2019/12/299超市购物细节数据:记录顾客每一次购物细节。轻度综合数据:记录每个顾客每次的购物金额,或每种商品每一天的销售数据。高度综合数据:记录每个顾客每月或每年的购物金额,或每种商品每月或每年的销售数据。1.数据粒度(续)2019/12/2910数据粒度与数据量的关系数据粒度与查询种类的关系1.数据粒度(续)2019/12/29112.数据分割数据分割是数据仓库中的另一个重要概念。它是指将数据分布到各自的物理单元中,以便能分别独立处理,提高数据分析效率。数据分割后的数据单元称为分片。数据分割的标准可以根据实际情况来确定,通常选择:按日期、地域、业务领域等来进行。一般而言,分割标准总应包括日期项,它十分自然而且分割均匀。2019/12/29122.数据分割(续)数据分割的方法垂直分割:垂直分割就是把一个表垂直分成两部分。这种类型的分割有助于把一大堆列分成两个独立的表,这两个表之间通过一个关键字段相关联。水平分割:水平分割就是把表按行分成两部分。这种类型的分割被用来存储与用户联系紧密的本地重要数据,从而减少网络查询。2019/12/29132.数据分割(续)一个简单的分割例子。年份健康保险生命保险事故保险2008分片1分片2分片32009分片4分片5分片62010分片7分片8分片92019/12/29143.2数据仓库中数据的追加如何定期向数据仓库中追加数据也是一项十分重要的技术。当数据仓库的数据初装完成以后,再向数据仓库输入(导入)数据的过程称为数据追加。如何能够确切地感知究竟哪些数据是在上一次追加过程以后新生成的,这项工作称为变化数据的捕捉。常用途径:2019/12/2915如果数据含有时标,对新插入或更新的数据记录,在记录中加更新时的时标。如果数据部含有时标,需要对源数据库的数据模式加以修改,加上时标字段。1.时标法2019/12/2916由应用生成的文件,用来记录应用所改变的数据内容。优点:效率较高,避免了扫描整个数据库。缺点:需要修改程序代码。2.DELTA文件2019/12/2917在上次抽取数据库数据到数据仓库之后及本次将抽取数据库数据之前,对数据库分别做一次快照,然后比较两幅快照的不同。缺点:需要占用大量资源,影响系统性能。3.前后快照文件的方法2019/12/2918优点:提取的变化数据只局限于日志文件,不需扫描整个数据库。4.日志文件2019/12/29193.3数据仓库中的元数据传统数据库中为了说明数据引入了数据字典的概念。数据字典是描述数据的数据。什么是元数据?2019/12/29203.3.1元数据的定义元数据:是用来描述数据的数据。它描述和定位数据组件、它们的来源及它们在数据仓库进程中的活动;关于数据和操作的相关描述(输入、计算和输出)。元数据可用文件存在元数据库中。其主要目标是提供数据资源的全面指南,使得数据仓库管理员和开发人员可以方便地了解数据仓库中有什么数据?数据在什么地方?它们来源于哪里,以及数据仓库系统中是如何利用这些数据?如何管理这些数据?2019/12/29213.3.1元数据的定义(续)要有效的管理数据仓库,必须设计一个描述能力强、内容完善的元数据。2019/12/29223.3.1元数据的定义(续)与元数据产生、存储有关的工具:数据抽取工具:完成ETL操作。前端展现工具:实现把关系表映射成与业务相关的事实表和维表来支持多维业务视图,进行多维分析。建模工具:提供更高层次的、与特定业务相关的语义。元数据存储工具:用于将元数据存储在专门的数据库中。2019/12/29233.3.2元数据的分类元数据可以按多种方式分类:按用户分类按来源的正式程度分类按功能分类2019/12/29241.按使用元数据的用户分类按使用元数据的用户分类:技术元数据:是关于数据仓库系统技术细节的描述数据,是数据仓库开发人员和管理人员需要使用的重要信息。主要包括数据仓库结构的描述等,主要用户是技术人员。业务元数据:从业务角度描述数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层定义,使得不懂计算机技术的业务人员也能够理解数据仓库中的数据。主要用户是商务人员。2019/12/29252.按来源的正式程度分类按来源的正式程度分类:正式元数据:是指经过认真讨论并由企业决策者同意了的元数据。非正式元数据:通常是指由公司的政策、指导方针和常识组成的,人所皆知的信息。2019/12/29263.按功能分类按功能分类:数据源元数据ETL规则元数据ODS元数据和DW元数据报表元数据接口数据文件格式元数据商业元数据2019/12/29273.3.3元数据管理的标准化元数据在数据仓库系统中占有十分重要的地位,但是目前工业界的各种数据仓库管理和分析工具却常常使用不同的元数据标准,使得元数据管理、不同系统之间的迁移、数据交换变得困难。迫切需要建立一种统一的标准,使得不同数据仓库和商务智能系统之间可以相互交换元数据。从而产生了基于元数据联盟(MetaDataCoalition,MDC)和OMG组织的相关元数据标准。2019/12/29281.MDC的OIM标准背景MDC成立于1995年。致力于建立于厂商无关、不依赖于具体技术的企业元数据管理标准的非营利技术联盟。有150多个会员。提出了开放信息模型(OpenInformationModel,OIM)。1999年7月接受微软的建议,将OIM作为元数据标准。2019/12/29291.MDC的OIM标准(续)OIM标准的目的通过公共的元数据信息来支持不同工具和系统之间数据的共享和重用。它涉及信息系统的各个阶段。采用UML描述。2019/12/29302.OMG组织的CWM标准背景对象管理组织(英文ObjectManagementGroup,缩写为OMG),是一个国际协会,开始的目的是为分布式面向对象系统建立标准,现在致力于建立对程序、系统和业务流程的建模标准,以及基于模型的标准。有500多个会员。提出了公共仓库元模型(CommonWarehouseMetamodel,CWM)。2019/12/29312.OMG组织的CWM标准(续)CWM标准的目的异构环境下,帮助不同的数据仓库工具、平台和元数据知识库进行元数据交换。2019/12/29323.CWM标准与OIM标准之间的关系CWM专门为数据仓库元数据而制定的一套标准,只限于数据仓库领域。OIM包括:分析与设计模型、对象与组件、数据库与数据仓库、商业工程、知识管理等5个领域。目前MDC与OMG组织已经合并,今后所有的工具都将遵循统一的CWM标准。2019/12/2933下课了。。。休息一会儿。。。

1 / 33
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功