山东大学硕士学位论文面向数据仓库和数据整合的ETL系统的设计和实现姓名:杨凌霄申请学位级别:硕士专业:计算机技术指导教师:万建成;姜岩20080405面向数据仓库和数据整合的ETL系统的设计和实现作者:杨凌霄学位授予单位:山东大学相似文献(2条)1.学位论文何晨钢ETL系统在保险行业ODS中的设计和实现2008建立操作性数据存储是解决在保险业中大量业务数据处理、汇总和分析的一个重要技术,而ETL过程对操作性数据存储的建设有着极其重要的意义。本文通过对ETL相关研究和技术的分析,结合某保险公司的一个实际ETL系统项目,对ETL的设计和实现进行了研究。主要内容如下:⑴设计建模方面。基于公共数据仓库元模型标准并结合项目实际情况提出了ETL系统的设计模型框架,然后通过分析处理调度单元之间的逻辑关系建立了作业调度管理元模型,在具体实现设计过程中利用ETL工具和脚本技术实现了对整个ETL系统中各险种数据处理的复杂调度。⑵数据抽取方面。针对分布式异构多数据源的环境,给出了抽取-传输-缓冲-合并的抽取方法来有效地解决数据的抽取问题。⑶ETL系统的效能方面。利用流水和分区化的思想来对单个处理调度单元提高并行度,同时利用业务规则对多个处理调度单元并行地处理来提高整体处理效能。⑷重复记录一致化方面。给出了排序-等值匹配算法,证明了存在匹配键的情况下该方法可以有效地检测重复记录,以往的研究对检测出重复记录后的冲突处理上未见有相关的讨论,论文提出了基于业务规则的冲突处理算法。错误数据检测方面。基于领域知识提出了建立错误检测规则的方法,从理论和实验论证了该方法的有效性。⑸数据质量方面。通过一套量化体系来统一在数据质量维度和重要性权重,利用权重对数据质量指标值加权平均的方法来对整个系统的数据质量进行综合评估。以往的研究都是将数据质量独立于ETL系统来讨论的,论文将数据质量模型框架其融入ETL系统设计模型中,从而扩充了ETL设计模型的功能和复用性。⑹该ETL系统已成功上线。本文的意义在于,不仅提出的多项研究已成功地应用到了ETL系统建设中,而且对其他环境下的ETL系统设计和实现也有着积极的参考意义。2.学位论文罗兵基于元数据控制的ETL系统应用研究2006随着信息技术的飞速发展,企业内部产生了越来越多的数据,但这些数据并没有产生应有的信息,这就出现了“数据爆炸,知识贫乏”的局面,数据仓库技术应运而生。数据仓库是一个面向主题的、集成的、不断更新的且随时间不断变化的数据集合,数据仓库是支持企业决策分析的核心技术。数据仓库的目的是为了建立一种体系化的数据存储环境,将分析决策所需的大量数据从传统的操作环境中分离出来,使分散、不一致的操作数据转换为集成、统一的信息。然而,这个过程并非易事,这里所谓的传统的操作环境,是指企业在不同时期、在不同的背景下开发出来的事务处理系统,这些业务系统的建立,也往往是面向不同的应用、由不同的开发商来完成的,其数据的存储结构、存储平台和系统平台具有很大的异构性。如何将这些异构的数据有效地集成到数据仓库中,是企业所面临的一个难题。企业需要一个全面的解决方案来解决数据的一致性和集成化问题,使我们能够从所有传统平台和环境中采集数据,并利用一个单一的解决方案对其进行高效的转换,这个解决方案就是ETL。ETL(Extract、Transform、Load),数据抽取转换装载系统,一般把它简称为数据抽取系统。ETL包括三个方面:首先是抽取,将数据从各种原始的业务系统中提取出来,这是所有工作的前提;其次是转换,按照预先设计好的规则对抽取的数据进行转换,使得本来异构的数据格式能够统一起来;最后就是加载,将转换好的数据按计划增量或者全部导入到数据仓库中。可以说,ETL在传统的业务系统和数据仓库之间架立起了一座桥梁,确保新的数据能够源源不断地进入数据仓库。从整体的角度来看,ETL的主要作用在于其屏蔽了复杂的业务逻辑,从而为各种基于数据仓库的分析和应用提供了统一的数据接口。虽然ETL的技术含量相对来讲不算高,但其涉及到大量的业务逻辑和异构环境,因此在一般的数据仓库项目中,ETL部分往往是牵扯精力最多的。随着银行业务的不断增多,系统的数据量也迅速膨胀,年业务数据量往往是以G为单位,一些比较大的银行,年业务数据量甚至达到了几十G,乃至上百G。如此海量的数据,对ETL的运行效率提出了新的要求。在传统的数据仓库建设中,往往强调数据仓库本身的建模和前端数据展示,而对ETL的设计和建模关心不足,使ETL过程反复进行,甚至导致项目实施的失败。从国内外众多的实践得到普遍的共识是ETL设计与实施的工作量要占到整个数据仓库项目时间的60﹪-50﹪(o)ETL在数据仓库建设的重要地位越来越得到人们的关注。本文以某商业银行稽核系统为平台,在以下两个方面进行了深入研究:ETL架构设计和ETL任务模型设计。ETL架构设计属于ETL过程的物理结构,类似于工厂中的设备;而ETL任务模型设计属于ETL过程的逻辑结构,类似于工厂生产的调度、指挥等等。可以说,这两个方面构成了整个ETL过程的核心,两者之间相互影响,相互渗透。下面对对本文在这两方面的研究做一个简单的介绍:(1)ETL架构设计在ETL架构设计方面,针对以往银行业务系统的弊端,本文提出了提出了统一ETL平台的思想:将银行的各个业务数据全部由统一的ETL平台放入数据中心数据仓库,由一个数据库管理系统进行有效管理。同时在系统架构中加入了ODS(operationaldatastore)中间层,ETL模块首先将需要的数据由数据仓库传输到ODS,在ODS中对数据进行整理,然后将整理后的数据传输到稽核系统。(2)ETL任务模型设计ETL任务模型设计方面,我们借鉴前人研究成果,本文提出了基于元数据控制的ETL系统,对ETL涉及操作进行分类建模,并为ETL过程提供统一的元数据模型。为了加强该工具的可用性我们提供一个ETL任务模型编辑器和一个任务模型执行器,同时我们采用XTDL(XML-likeTaskDescriptionLanguage)对ETL任务进行详细描述,它具有很好的可读性。系统完成了数据导入脚本的自动生产、任务的自动调度等工作。本文链接::上海海事大学(wflshyxy),授权号:5f1e7074-3ac9-40f3-adde-9e1400da99cb下载时间:2010年10月19日