操作数据存储(ODS)和数据集市(详解)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

徐俊刚(xujg@gucas.ac.cn)2009年9月——2008年11月1.ODS的定义和特点2.DB-ODS-DW体系结构3.建立ODS4.ODS案例5.数据集市的定义6.数据集市的特点7.数据集市与数据仓库的区别8.数据集市的类型9.数据集市的开发方法10.数据集市的实施操作数据存储(ODS)和数据集市第3章ODS的定义和特点1ODS的由来1.1ODS由来DB数据环境:面向应用和联机事务处理,当前的、细节的、分散的数据,不能提供集成的统一的数据环境,共享程度低,不能提供决策支持。DW数据环境:面向高层、面向分析,可以提供集成、统一的数据环境,但是一定量的数据是建立DW的前提,需要使用历史数据,数据要体现集成性和历史性实际中往往会有实时决策的需求,上述两者都不能满足要求,因此产生了ODSODS数据环境:一方面提供全局一致的、细节的、当前的数据,可进行联机事务操作型处理。另一方面是一种面向主题的集成的数据环境。数据量小,可辅助完成日常决策的数据分析处理,同时可以保护投资,保留现有的应用系统。ODS的定义和特点1ODS的定义1.2ODS定义ODS是OperationalDataStore的简称,翻译成操作数据存储。ODS是数据仓库体系结构的一部分,可以根据需要选择是否采用ODS。它具备数据仓库的部分特征和OLTP的部分特征。ODS是一个面向主题的、集成的、可变的、当前的细节数据集合,用于支持企业对于即时性的、操作性的、集成的全局信息的需求。常常被作为数据仓库的过渡。作为一个中间层次,它既不是联机事务处理,也算不上高层决策分析,是不同于DB的一种新的数据环境,是数据仓库扩展后得到的一个混合形式。ODS支持对数据的联机修改——增、删与更新等操作ODS的定义和特点1ODS的特点1.3ODS特点面向主题的(与数据仓库类似)集成的(与数据仓库类似)可变的数据可以联机改变,包括增、删及更新等操作。数据是当前细节级或接近当前的数据在存取时刻是最新的数据是最近一段时间之前得到的。ODS的定义和特点1ODS和数据仓库的异同1.4相同点面向主题的集成的不同点DW是静态数据,而ODS中的数据是动态的、可更新的设计目标不同,ODS的设计目标是快速执行针对全局信息的少量数据的简单查询工作,这同数据仓库中的大数据量复杂查询截然不同。数据内容不同,ODS存储当前或者近期的数据,DW存储历史性数据。ODS就像你的短期记忆,仅仅记录你的近期信息,而数据仓库就像长期记忆一样,存储相对长久一些的信息数据容量不同,ODS数据容量级别较小,DW的数据容量很大ODS的定义和特点1ODS的分类1.5ODS类别I类ODS,与应用系统的数据延迟为1~2秒,实时或近似实时II类ODS,与应用系统的数据延迟为2~4小时III类ODS,与应用系统的数据延迟为12~24小时IV类ODS,数据仓库中部分决策分析数据回流至ODS中不同ODS类别的特点数据延迟时间越短,ODS建设难度越高。其中I类ODS的建设难度最高,建设成本也是最高的。而且由于I类ODS的实时性,对于技术的要求与其它类型ODS也有所不同,一般来讲需要用到EAI技术,但随着当前企业对数据仓库的实时性要求越来越高,相信I类ODS会变得越来越重要。通常在企业应用架构中,ODS是一个可选件,但一旦需要用到ODS的功能,那么ODS本身就将变得极为重要。目前应用的比较多的是IV类ODS,因为一旦将决策分析结果加载到ODS中,重要决策信息的高性能联机支持将成为可能。DB-ODS-DW体系结构2简单结构2.1应用DBDBDBODSDW操作型环境分析型环境特点:1)ODS的记录在DB中;2)DW的记录在ODS中。DB-ODS-DW体系结构2复杂结构2.2SourceDatabasesHub-DataExtraction,Transformation,loadWarehouseAdmin.ToolsExtract,TransformandLoadDataModelingToolCentralMetadataArchitectedDataMartsDataAccessandAnalysisCentralDataWare-houseandODSCentralDataWarehouseMid-TierRDBMSDataMartMid-TierRDBMSDataMartLocalMetadataLocalMetadataLocalMetadataMetadataExchangeODSOLTPToolsDataCleansingToolRelationalAppl.PackageLegacyExternalMDBEnd-UserDWToolsSourceDatabasesHub-DataExtraction,Transformation,loadWarehouseAdmin.ToolsExtract,TransformandLoadDataModelingToolCentralMetadataHub-DataExtraction,Transformation,loadWarehouseAdmin.ToolsWarehouseAdmin.ToolsExtract,TransformandLoadDataModelingToolDataModelingToolCentralMetadataArchitectedDataMartsDataAccessandAnalysisCentralDataWare-houseandODSCentralDataWarehouseMid-TierRDBMSDataMartMid-TierRDBMSDataMartLocalMetadataLocalMetadataLocalMetadataLocalMetadataLocalMetadataMetadataExchangeODSOLTPToolsDataCleansingToolRelationalAppl.PackageLegacyExternalDataCleansingToolRelationalAppl.PackageLegacyExternalMDBMDBEnd-UserDWToolsDB-ODS-DW体系结构2ODS在体系结构中的几种作用2.3在业务系统和数据仓库之间形成一个隔离层一般的数据仓库应用系统都具有非常复杂的数据来源,这些数据存放在不同的地理位置、不同的数据库、不同的应用之中,从这些业务系统对数据进行抽取并不是一件容易的事。ODS用于存放从业务系统直接抽取出来的数据,这些数据从数据结构、数据之间的逻辑关系上都与业务系统基本保持一致,因此在抽取过程中极大降低了数据转化的复杂性,而主要关注数据抽取的接口、数据量大小、抽取方式等方面的问题。转移一部分业务系统细节查询的功能在数据仓库建立之前,大量的报表、分析是由业务系统直接支持的,在一些比较复杂的报表生成过程中,对业务系统的运行产生相当大的压力。ODS的数据从粒度、组织方式等各个方面都保持了与业务系统的一致,那么原来由业务系统产生的报表、细节数据的查询自然能够从ODS中进行,从而降低业务系统的查询压力。DB-ODS-DW体系结构2ODS在体系结构中的几种作用2.3完成数据仓库中不能完成的一些功能一般来说,带有ODS的数据仓库体系结构中,DW层所存储的数据都是进行汇总过的数据,并不存储每笔交易产生的细节数据,但是在某些特殊的应用中,可能需要对交易细节数据进行查询,这时就需要把细节数据查询的功能转移到ODS来完成,而且ODS的数据模型按照面向主题的方式进行存储,可以方便地支持多维分析等查询功能。在一个没有ODS层的数据仓库应用系统体系结构中,数据仓库中存储的数据粒度是根据需要而确定的,但一般来说,最为细节的业务数据也是需要保留的,实际上也就相当于ODS,但与ODS所不同的是,这时的细节数据不是“当前、不断变化的”数据,而是“历史的,不再变化的”数据。建立ODS3ODS数据模型设计3.1数据调研对与业务系统关联的数据进行调研,弄清楚现有业务系统对应的数据逻辑模型和物理模型确定数据范围确定数据范围实际上是对ODS进行主题划分的过程,这种划分是基于对业务系统的调研的基础上而进行的,并不十分关心整个数据仓库系统上端应用需求,但是需要把上端应用需求与ODS数据范围进行验证,以确保应用所需的数据都已经从业务系统中抽取出来,并且得到了很好的组织。一般来讲,主题的划分是以业务系统的信息模型为依据的,设计者需要综合各种业务系统的信息模型,并进行宏观的归并,得到企业范围内的高层数据视图,并加以抽象,划定几个逻辑的数据主题范围。在这个阶段,以ER模型表示数据主题关系最为恰当。建立ODS3ODS数据模型设计3.1根据数据范围进行进一步的数据分析和主题定义在第一步中定义出来了企业范围内的高层数据视图,以及所收集到的各种业务系统的资料,在这一步中,需要对大的数据主题进行分解,并进行主题定义,直到每个主题能够直接对应一个主题数据模型为止。在这个阶段,将把第一步生成的每个ER图中的实体进行分解,分解的结果仍以ER表示为佳。建立ODS3ODS数据模型设计3.1定义主题元素定义维维名称,名称应该能够清晰表示出这个维的业务含义。维成员,也就是这个维所代表的具体的数据维层次,维成员之间的隶属与包含的层次关系,每个层次需要定义名称定义度量度量名称,名称应该能够清晰标书这个度量的业务含义建立ODS3ODS数据模型设计3.1定义主题元素定义主题主题名称和含义,说明该主题主要包含哪些数据,用于什么分析;主题所包含的维和度量;主题的事实表,以及事实表的数据。定义粒度主题中事实表的数据粒度说明,这种粒度可以通过对维的层次限制加以说明,也可以通过对事实表数据的业务细节程度进行说明。定义存储期限主题中事实表中的数据存储周期。建立ODS3ODS数据模型设计3.1迭代,归并维、度量的定义在ODS中,因数据来自于多个系统,数据主题划分时虽然对数据概念进行了一定程度上的归并,但具体的业务代码所形成的各个维、以及维成员等还需要进一步进行归并,把概念统一的维定义成一个维,不允许同一个维存在不同的实体表示(象不同的业务系统中一样)。建立ODS3ODS系统设计3.2ODS数据抽取转换层数据转换层由各种转换工具及抽取程序组成,主要完成从源数据系统到ODS系统的数据转换、净化和载入ODS数据访问中间件ODS系统中间件的一个关键组成部分就是网络中间件。中间件的主要作用是提供用户和ODS系统数据之间的无缝连接,同时还提供了系统应用程序接口,允许应用程序同本地或异地ODS系统进行通信。另一方面,在DB-ODS-DW三层结构中,中间件也是将ODS中的信息与DW系统中的信息相关联的一条途径。建立ODS3ODS系统设计3.2物理实现定义每个主题的数据抽取周期、抽取时间、抽取方式、数据接口,抽取流程和规则。物理设计不仅仅是ODS部分的数据库物理实现,设计数据库参数、操作系统参数、数据存储设计之外,有关数据抽取接口等问题必须清晰定义。ODS案例4带有ODS的集团公司DW结构4.1信息门户应用模块技术基础设施运营系统BI工具,DataMining,OLAP,Q+RDataWarehouse操作数据存储(ODS)数据采集(ETL)信息交换批量数据实时数据ERPO-CRMHROA业绩考评、预算管理、资产管理、财务分析、投资管理、A-CRM等集团公司内部信息门户(EIP)数据集市的定义5数据集市的产生5.1数据集市产生原因灵活性:要求数据仓库能够满足所有最终用户的需求,但是各个部门业务不同,需求侧重点不同,且需求也是不断变化的。这就要求数据仓库存储的数据具有充分的灵活性,以适应各类用户的查询和分析性能:最终用户对信息检索要求是高性能的,即越快越好。对数据仓库而言,灵活性和性能是一对矛盾体。提高灵活性就要存储各种历史数据,但

1 / 37
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功