DataWarehousingandOnlineAnalyticalProcessing第四章操作型数据存储Chapter4OperationalDataStoreMarch2013YunhaiTongSchoolofElectronicsEngineeringandComputerScience,PekingUniversityDataWarehousingandOnlineAnalyticalProcessing主要内容ODS概述什么是ODSDB-ODS-DW体系结构创建ODSDataWarehousingandOnlineAnalyticalProcessing需求驱动:存在着各种层次的需求建立合适的数据环境来支持相应层次需求的实现数据环境主要指数据的组织与管理:包括数据的结构和数据的操作等ODS是一种数据环境,适应某种层次的应用需求问题的提出DataWarehousingandOnlineAnalyticalProcessing各层次需求的典型例子事务处理(DB环境)供应了某商品的北京供应商的姓名?高层决策分析处理(DW环境)与往年比较,分析今年销售额下降的原因(按时间段、地区、商品类、销售渠道等进行分析)另一类处理需求:日常管理和控制(ODS环境)某某商品是否要进货,进多少合适?DataWarehousingandOnlineAnalyticalProcessing各类应用需求所要求的数据环境事务处理(DB环境)实时更新细节数据一般在一个子系统内(与业务流程紧密相关)不需要历史数据DataWarehousingandOnlineAnalyticalProcessing各类应用需求所要求的数据环境决策分析处理(DW环境)集成的数据(包括多个子系统)包括历史的数据(“与往年比较”)综合的数据数据按照主题进行组织DataWarehousingandOnlineAnalyticalProcessing各类应用需求所要求的数据环境日常管理和控制的处理集成的数据面向主题进行组织细节数据及时变化ODS是根据这一类应用需求建立起来的数据环境DataWarehousingandOnlineAnalyticalProcessingODS的定义面向主题的(SubjectOriented)、集成的(Integrated)、细节的(Detailed)、可变的(Volatile)、当前的(Currentvalued)数据集合,用于支持全局业务处理和日常管理控制操作是一种数据环境仍属于操作型环境(OperationalEnvironment)DataWarehousingandOnlineAnalyticalProcessingODS的特点:面向主题数据围绕主题进行组织。主题例如:客户、商品组织方式与特定应用和功能无关按照主题域组织数据时,从整个企业来考虑所涉及的数据DataWarehousingandOnlineAnalyticalProcessingODS的特点:集成从现存系统中抽取数据转换成一致的、统一的整体全企业范围内所理解的数据也可有数据直接进入ODSDataWarehousingandOnlineAnalyticalProcessingODS的特点:可变的常规性的更新现存系统(源系统)的数据更新变化时,ODS也需要更新变化更新频率:可以按需求分别对待按秒、按事务;按小时、按天DataWarehousingandOnlineAnalyticalProcessingODS的特点:当前的(反映当前值的)ODS中的数据是即时的,包括当前值数据很少的档案数据例如24小时内;一般不超过几天;至多一个记帐周期DataWarehousingandOnlineAnalyticalProcessingODS的特点:细节ODS服务于操作群体,不是信息群体,仍属操作型数据环境存放细节层数据。更直接、更容易ODS表示一个统一的数据集合视图DataWarehousingandOnlineAnalyticalProcessingODS与DW比较ODS在某些方面很像DW;而在另一些重要方面,却与DW差别很大。类同与不同之处类同之处:面向主题的、集成的不同之处:可变化的、当前的、细节的DataWarehousingandOnlineAnalyticalProcessingODS与DW比较ODS的数据是可变化的ODS的数据要跟着源系统中数据的更新而变化DW是用“快照”方式来建立数据的历史记录,而“快照”是不变化的DataWarehousingandOnlineAnalyticalProcessingODS与DW比较ODS中包含当前数据ODS包含当前的和最近的数据DW包含丰富的历史数据。例如:10年的数据DataWarehousingandOnlineAnalyticalProcessingODS与DW比较综合数据ODS包含细节数据ODS可以包含某些动态的综合数据因为ODS中的综合数据有效期短,数据内容不断改变DW中包含静态的综合数据综合数据是静态的,可以长期储存DataWarehousingandOnlineAnalyticalProcessingODS的功能和实现机制支持全局(企业级)的联机事务处理支持日常管理和控制的操作,称为“即时OLAP”处理DataWarehousingandOnlineAnalyticalProcessing全局(企业级)的OLTP数据必须进行集成和转换一个事务涉及各个子系统(部门)的数据各个子系统的数据缺乏一致性必须建立ODS与DB之间的双向映射ODS的数据来源于DBDB——ODSDB中数据更新,ODS数据也必须更新在ODS上执行全局的OLTP执行结果必须反映到DB中ODS——DBDataWarehousingandOnlineAnalyticalProcessingODS与DB之间的双向映射关系应用B应用A应用C记录系统的定义分散DB环境参考表ODS环境定义在各DB中的记录系统全局更新时应反映到的各DB中的记录DataWarehousingandOnlineAnalyticalProcessing维护ODS与DB之间数据的一致性可以通过应用程序实现可以采用数据库复制产品实现时利用双向的映射关系DataWarehousingandOnlineAnalyticalProcessing即时OLAP(Up_to_the_secondOLAP)支持日常的管理和控制,只关心当前或接近当前的数据要求较快的响应速度,因为涉及的数据量少即时OLAP是“信息型”处理模式(只做查询)而全局OLTP是“操作型”处理模式DataWarehousingandOnlineAnalyticalProcessing两类处理的协调做全局OLTP时,ODS当操作型环境关心事务、封锁、日志、数据恢复等技术做即时OLAP时,ODS起分析型操作环境的作用所需的支持技术较少两种环境“动态切换”DataWarehousingandOnlineAnalyticalProcessing全局OLTP举例:一位教员调离学校ODSDB财务处校医院DB人事处房管处DB科研处部门应用部门应用部门应用部门应用部门应用DataWarehousingandOnlineAnalyticalProcessing建立ODS,执行全局OLTP的优点效率高因为集成、转换工作预先已经做了,而且数据按主题进行组织,对有关教员的一组表进行更新操作可以通过各个部门实行全局操作某个部门的操作会被ODS感知,ODS将这一变化转发给其他有关部门DataWarehousingandOnlineAnalyticalProcessing建立ODS,执行全局OLTP应注意的问题建立ODS是需要代价的在运行过程中需要维护ODS与DB之间数据的一致性。是否可以用全局视图来实现ODS的功能(ODS虚拟化)取决于应用需求及现存系统的状况DataWarehousingandOnlineAnalyticalProcessing分层ODS对于规模很大、地理上分布的企业,ODS可以分层次分ODS,类似于数据仓库中的数据集市DataWarehousingandOnlineAnalyticalProcessing分层ODS示意图日本.东京总部ODS分ODS中国.北京中国.上海美国.纽约为各分散DB注:分ODS分ODSDataWarehousingandOnlineAnalyticalProcessingODS与DW的区别:存放的数据内容不同操作数据存储ODS数据仓库DW当前或接近当前的数据细节数据可联机更新历史数据细节数据和综合数据不可变快照说明:DW中的细节数据是不可更新的,不是当前的ODS中的综合数据(有时有一些综合数据)是动态的DataWarehousingandOnlineAnalyticalProcessingODS与DW的区别:数据量不同ODS中只存放当前和接近当前的细节数据DW存放的数据:从细节到各种程度的综合从当前到历史档案DataWarehousingandOnlineAnalyticalProcessingODS与DW的区别:技术支持不同ODS支持技术复杂支持联机更新、并保证与源系统数据的一致性DW支持技术相对简单支持装入和存取DataWarehousingandOnlineAnalyticalProcessingODS与DW的区别:需求不同ODS的需求全局OLTP即时OLAP作为DW提供数据的环境DW的需求趋势分析高层决策DataWarehousingandOnlineAnalyticalProcessingODS与DW的区别:使用者不同ODS的使用者:中层管理人员,进行日常管理和控制DW的使用者:DSS分析员和高层决策人员DataWarehousingandOnlineAnalyticalProcessingDB-ODS-DW三层体系结构ABC应用分析型环境DBDBDBODSDataWarehouse操作型环境DataWarehousingandOnlineAnalyticalProcessingODS在三层体系中的地位将DW与DB隔离开来,从而把数据从DBDW转换的难度分解了从DBODS的数据转换仍存在一定的复杂度,要实现“集成”,并按主题组织,但只考虑当前的细节数据,不必考虑历史数据和综合数据。从ODSDW的数据转换相当简单。主要是加“时间”属性,作数据综合。DataWarehousingandOnlineAnalyticalProcessingODS自身的作用全局OLTPDW上无法实施DB上执行,必须依靠应用进行协调即时OLAP要在DW上进行,必须提高数据刷新频率(即缩小数据的时间粒度),DW中历史数据刷新周期一般在24小时以上要在DB上进行,由应用来实现不需要企业级操作型集成信息的情况,DBDW结构较优需要企业级操作型集成信息的情况,DBODSDW结构较优DataWarehousingandOnlineAnalyticalProcessing创建ODS形成ODS数据模式生成ODS数据DataWarehousingandOnlineAnalyticalProcessing形成ODS数据模式建立面向主题的数据组织方式从源系统中抽取主题从“主题”的角度看待各个子系统(DB)中有关信息确定主题所应包含的基本内容进行数据集成建立ODS模式不照搬DW数据模式,但要考虑DW的需求ODS有自身的需求,例如:全局OLTP参照已经建立的DW环境ODS是面向DW服务的一致接口,冲突时以DW模式为准DataWarehousingandOnlineAnalyticalProcessingODS的数据获取与提供从DB获取数据,向DW提供数据通过记录系统,支持获取与提供的实现ODS记录