XXX企业数据仓库设计说明书-ETL概要设计分册短彩技术部数据组XXXX企业数据仓库概要设计说明书ETL概要设计分册(文档编码:OM-BIDW-C008)(版本01.00.000)未经许可,不得以任何形式抄袭XXXX版权所有,翻板必究OM数据仓库XXXX企业数据组2009年3月XXX企业数据仓库设计说明书-ETL概要设计分册短彩技术部数据组文档变更历史日期版本作者修改内容评审号变更控制号发布日期2009-04-0201.00.000黄浩建立初始版本2009-04-02XXX企业数据仓库设计说明书-ETL概要设计分册短彩技术部数据组目录1概述............................................................42设计原则和前提..................................................52.1整体部署.......................................................................................................................52.2前提条件.......................................................................................................................62.3设计原则.......................................................................................................................63整体框架........................................................73.1ETL系统架构图..........................................................................................................73.2ETL系统功能模块描述..............................................................................................74数据抽取模块....................................................94.1假设与约定...................................................................................................................94.2模块功能图...................................................................................................................94.3各子模块功能及处理流程.........................................................................................115数据加载模块...................................................115.1假设与约定.................................................................................................................115.2数据加载模块图.........................................................................................................115.3数据加载功能模块描述.............................................................................................126作业调度模块...................................................136.1模块概述.....................................................................................................................136.2假设与约定.................................................................................................................136.3作业调度流程.............................................................................................................136.4ETL作业种类及调度实现方法................................................................................147监控管理模块...................................................157.1监控管理模块图.........................................................................................................15ETL监控内容........................................................................................................................16附录1控制表及控制文件设计.........................................16附录2:文件目录及编码说明.........................................19XXX企业数据仓库设计说明书-ETL概要设计分册短彩技术部数据组1概述ETL是数据仓库系统开发中至关重要的一个过程,它涉及到对源数据的抽取、整合及各种转换,并最终形成面向用户的分析数据。由于数据仓库系统的数据源来自于多个分散的业务系统,对不同业务系统的数据整合及清洗转换将是一个复杂的过程,ETL过程决定了数据仓库系统获取数据的准确性。另外由于ETL包括数据抽取、数据清洗、数据转换及数据加载等数据处理过程,这些处理过程分散在不同的系统平台及开发工具上,对这些作业过程的统一调度将是一个重要的问题,作业调度涉及到系统的稳定性。XXX企业数据仓库设计说明书-ETL概要设计分册短彩技术部数据组2设计原则和前提2.1整体部署通道服务器1通道服务器...通道服务器N数据仓库(DW)服务器数据抽取网关(通道、产品)服务器数据抽取数据抽取数据组服务器数据加载接口机FTP服务器该服务器完成两项功能:1、接口文件服务器,所有被接入DW的数据文件必须通过该服务器中转2、数据备份,来自网关的数据文件将长期保留在该服务器上,作为文件备份数据仓库ETL整体部署图网关通道数据库服务器是数据仓库的外围数据库系统,数据仓库中的绝大部分数据都将来自网关通道数据库服务器基于目前短彩部自身情况的考虑,在数据源服务器和数据仓库服务器之间增加一台FTP文件服务器,其功能有二:接口文件服务器,所有被接入DW的数据文件必须通过该服务器中转数据备份,来自网关的数据文件将长期保留在该服务器上,作为文件备份XXX企业数据仓库设计说明书-ETL概要设计分册短彩技术部数据组2.2前提条件ETL概要设计将基于下面的前提条件ETL逻辑:XXXX企业的数据虽然分布在不同的通道,但是各通道数据的共性度非常高,因此ETL中不存在逻辑复杂的转换(Transformation)及数据质量管理等流程,整个ETL只需要实现抽取(Extraction)和加载(Loading)两个功能即可ETL工具:自主开发,具体开发语言待定?;作业调度工具:自主开发,具体开发语言待定?。2.3设计原则ETL应该是基于元数据库中定义好的处理规则;并且应由可复用的过程或相关组件来实现;用户或客户端应用程序不应该直接执行数据获取程序,数据仓库层所有的数据更新应该由数据获取过程自动控制;通过良好的设计和相关处理过程的协调使得系统的CPU处理时间最少;要充分利用系统和软件的并行处理性能;ETL过程尽可能分解为独立的几个子处理过程以便于作业管理和调度;在ETL设计时,需要详细计算并考虑ETL的处理性能,时间窗口及错误处理控制。并详细考虑各个ETL任务在各台物理主机上的分布。需要提供一个监控统计模块对ETL的整个过程进行有效的监控和统计,提供GUI界面对ETL各个任务的处理情况进行统计和监控,例如每个ETL任务的状态、处理记录的条数、处理某个任务所用的时间、出错的情况等。XXX企业数据仓库设计说明书-ETL概要设计分册短彩技术部数据组3整体框架本章从宏观体系结构的高度,概要叙述ETL系统的基本架构和设计思想,着重于描述架构的特点、系统主要组成、ETL各个部分的基本功能和它们之间的关系以及方案选择的出发点。3.1ETL系统架构图ETL负责对业务系统数据及其他外部源数据进行数据抽取,并存放在数据仓库系统中的STAGE数据库中。ETL过程包括数据抽取和数据加载等几个逻辑上相对独立的数据处理过程。同时由于在ETL的处理过程中需要对ETL的错误处理以及作业调度等,ETL系统逻辑架构图如下图所示:ETL逻辑构架图监控管理界面作业调度错误处理数据抽取数据加载文本文件外部程序+BCP外部程序+SQLLDRSTAGE短彩系统数据库文本文件3.2ETL系统功能模块描述从上图可以看到ETL系统包括数据抽取、数据加载、错误处理、作业调度、监控管理等几个功能模块,各功能模块的具体情况如下:XXX企业数据仓库设计说明书-ETL概要设计分册短彩技术部数据组功能模块功能描述物理分布实现工具或方法数据抽取该模块获取外部系统数据以形成文本文件ETL.SERVER1自主程序开发数据加载将数据抽取获得的文本文件通过数据加载阶段入库到STAGE中。DWSERVERORACLE的数据加载程序SQLLDR错误处理错误处理模块针对作业在运行过程中出现错误时ETL系统应采取的作业控制措施DWSERVERETLERVER自主开发程序作业调度作业调度主要实施整个系统中的作业运作,实时的监控作业运行的条件是否具备,一旦作业运行的条件具备,就将作业调入作业运行队列。DWSERVER自主开发程序监控管理在ETL的处理过程中需要实时对ETL的作业过程进行监控,以便了解ETL的执行状况并根据ETL执行过程中遇到的问题采取相应的措施。ETLSERVER/DWSERVER自主开发程序外部数据手工输入模块由于市公司数据集市存在一些需要手工输入或EXCEL等格式的外部数据,需把这些外部数据录入到市公司数据集市中PCEXCEL等辅助工具XXX企业数据仓库设计说明书-ETL概要设计分册短彩技术部数据组4数据抽取模块4.1假设与约定重复文件处理:文件重复上传,则采取覆盖式的处理办法,我们认为最后上传的文件是接近正确的