数据仓库主动更新机制研究

djywzh
9 ℃
2018-02-16

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

山东大学硕士学位论文数据仓库主动更新机制研究姓名：张抗抗申请学位级别：硕士专业：计算机软件与理论指导教师：李庆忠20030401数据仓库主动更新机制研究作者：张抗抗学位授予单位：山东大学相似文献(10条)1.学位论文潘卫明基于SOA和工作流的数据仓库更新系统2009随着互联网和数据库技术的不断发展，激烈的竞争迫使越来越多的企业在大量分散和异构的数据基础上构建数据仓库系统。在企业数据仓库的初始数据装载完成后，如何对其进行更新维护是一个复杂的问题。在面对大量遗留系统的情况下，企业数据仓库的更新维护会面临着分布式异构数据的集成问题。同时，也面临着如何控制数据仓库更新过程，使更新过程自动化、灵活化，减少开发人员的干预来提高效率的问题。本文针对异构数据源的集成问题和数据仓库更新流程的控制问题，提出了一个基于SOA和工作流的数据仓库更新系统。这个系统由工作流引擎负责变化数据ETL的管理、ETL任务的指派、ETL任务的依赖和约束关系检查，以及实体化视图的更新，这样解决了数据仓库更新任务之间的复杂调度关系。同时，以SOA架构来解决分布式异构系统的集成。本文首先在分析数据仓库的概念、特点及体系架构的基础上，指出了构建数据仓库更新系统的必要性；对SOA和工作流技术进行介绍和分析，尤其针对异构环境下的数据仓库更新进行了深入的分析，提出了构建基于SOA和工作流的数据仓库更新系统的解决方案；基于该方案，设计了异构环境下的数据仓库更新系统架构，并在该设计架构下，采用Java实现了金华职业技术学院教学数据仓库更新系统，经过测试验证了该系统的有效性。最后对该系统进行了总结，并对构建数据仓库更新系统的下一步工作进行了说明和展望。2.期刊论文潘卫明.郝平.PanWeiming.HaoPing基于SOA和工作流的数据仓库更新系统-计算机应用与软件2010,27(2)针对数据仓库系统中的异构数据源集成问题和数据仓库更新流程的控制问题,提出一个基于SOA和工作流的数据仓库更新系统,把异构环境下的各个系统作为服务提供者或服务消费者,抽象出标准的功能服务接口,实现了异构平台的系统集成.同时把数据仓库更新过程定义为活动的集合,从逻辑上看作为一个工作流过程,可以根据不同的业务需求进行动态组织,高效地满足用户的需求,提高了更新流程的自动化程度和效率.3.学位论文刘伟支持群体决策的多仓库系统的更新机制研究2004本文首先对SGDMDWS进行分析,探讨其存在多个数据仓库和数据仓库之间互为数据源的情况,然后分析传统的数据仓库更新方式不能有效地支持对SGDMDWS中数据仓库的更新.基于上述目的本文结合劳动部门关于医疗保险的实际情况和SGDMDWS中多数据仓库的特点提出了一种新的更新模型MDWUM和更新算法MDWUA.这种应用于多数据仓库更新的模型和算法针对SGDMDWS群决策支持的特点有效地解决了在多数据仓库的情况下按传统更新方式出现的信息传递量大和数据源负担过重的问题,并能在较好地解决网络不稳定造成的信息传递无序和丢失的问题.对数据仓库中数据的更新是构建数据仓库的一个重要步骤,直接决定了数据仓库中数据的质量,从而影响了决策的准确性与及时性.众所周知,数据仓库中数据量大,数据源复杂,数据更新的复杂程度高.因此本文在提出更新模型MDWUM和更新算法MDWUA的同时,对数据仓库更新中的重要环节—并发更新的检测进行了深入分析,并通过定理指出MDWUA如何检测并发更新并消除可能的异常.文中还通过MDWUM模型和传统模型的实验数据对比,证明了MDWUM模型比传统模型更适合应用于对多数据仓库系统的更新.4.会议论文张抗抗.李庆忠.杨少军.郑永清辅助概念设计的数据仓库的主动更新2002概念设计是决定产品性能的重要阶段.但目前对概念设计的支持能力还很薄弱.我们采用数据仓库技术来建立一个辅助概念设计决策的数据仓库系统(SCDDWS),以提高概念设计的水平.在此仓库系统中,我们引入了数据的主动更新机制,使数据仓库能够根据应用需求和源数据库的数据变化主动地更新数据.本文介绍我们所提出的新的数据仓库更新策略,它能较好地解决数据的及时性要求和系统更新开销之间的矛盾.5.期刊论文李庆忠.张抗抗.杨少军.郑永清一种数据仓库的主动更新方法-系统仿真学报2003,15(2)我们研制的数据仓库系统是以支持客户关系管理的决策为背景的.本文提出了一种主动数据更新方法--突发事件驱动的方法,该方法可以按照用户的预先定义,根据业务数据库的数据变化主动地启动数据仓库的更新操作.本文基于ECA(Event-Condition-Action)规则给出了该方法的实现方案,并且通过与传统方法的对比分析表明,这种方法能以较小的数据流量为突发性事件的处理决策提供及时的数据,较好地解决了数据更新及时性和系统开销之间的矛盾.6.学位论文陈金玉数据仓库实体化视图联机一致性维护研究2002数据仓库是市场激烈竞争的产物，它将大量用于事务处理的数据库数据进行清理、抽取和转换，并按决策主题的需要重新进行组织，以达到有效决策支持的目标。自从它上世纪90年代初被提出以来，迄今已经形成潮流。在美国，数据仓库已成为紧跟Internet之后处于第二位的技术热点。作为数据仓库技术研究的热点之一，实体化视图的联机维护是数据仓库联机维护技术中的一个关键技术。它是指，在数据仓库为用户提供服务的同时，当数据库中的原始数据发生改变时，系统能实时地将这种变化反映到数据仓库中，使相应的实体化视图得到及时的刷新。现有的数据仓库产品采用的都是定时脱机维护策略：系统先搜集记录，但不立刻加入数据仓库，而是采用定时技术对数据仓库进行增量更新，期间数据仓库被禁止使用。所以，许多采用现有数据仓库产品的公司都是利用夜晚对数据仓库进行刷新维护，以保证其在正常工作时间内能够读取数据仓库内的数据。但是，这种维护方式面临3个重要的问题：第一，随着全球经济一体化的推进，跨地区、甚至于跨国企业不断涌现。对于这些企业来说，由于时区的原因，专门对系统进行更新维护的“夜晚”将越来越难以确定，从而可能影响到企业数据的及时传送。第二，随着应用的不断深入，当数据量非常大的时候，这种维护方式所用的时间也会越来越长。同时，由于定时技术在刷新系统期间，对数据仓库是禁止使用的，而系统的维护工作必须在次日清晨用户开始使用数据仓库之前完成，因此时间是一个必须认真考虑的限制因素。第三，定时技术容易使信息过时。在一些对实时性要求比较高的关键任务中，如战场决策等，这种脱机维护方式是不能够被接受的。因此，开展24(小时)×7(天)的数据仓库实体化视图联机维护工作模式研究，是一个有着实际意义的课题。对于单数据源单视图环境下的数据仓库实体化视图的联机维护问题，论文通过引入数据扩展模式的概念，对数据源的修改信息进行分类记录；论文采用版本控制、补偿思想和应答机制来协调数据源与数据仓库间的数据更新，提出了相应维护算法Glide；该算法分为Glide-DW和Glide-DB两部分，分别在数据仓库端和源数据库端执行，以保证数据仓库实体化视图数据与源的一致性；对于一些必须通过访问源数据库才能给出的OLAP查询等，算法Glide也保证了它们的一致性；算法修正了前人算法中的一些不足，并提高了算法的健壮程度和源数据库端CPU的利用率；论文指出，算法Glide是完全一致收敛的，并给出了严格的数学证明；且通过一个示例说明了该算法在实际中的具体运用；对于包含源关系关键属性的数据仓库实体化视图定义，论文介绍了针对性维护算法ECA-Key.多数据源联接的数据仓库实体化视图的一致性维护，是该论文研究的第二个问题。其问题的难点在于，由于业务分布、介质及网络通信等方面的原因，数据仓库收到的查询计算结果，和它向各数据源发出的计算查询顺序并不一致，从而引起更新维护后数据的不一致。对于包含源关系关键属性的数据仓库实体化视图定义，论文介绍了针对性维护算法Strobe及其改进算法Strobe*，并给出算法Strobe*强一致收敛的理论证明。对于一般情景下的多源维护，论文提出了一个强一致普适性算法M-Glide，它是算法Glide的一个本质推广；算法引入动作列表(actionlist)概念，用于记录数据仓库端发出的操作序列集，并通过它保证维护提交的动作顺序和集成器收到的消息的顺序一致，从而确保当提交维护事务后数据仓库视图值与源的一致性；文章同时给出了一个说明示例。粒度是数据仓库的重要概念，在数据仓库中，多重粒度是必不可少的。如何进行粒度视图，即基本方体与聚合格间的维护，同时保证它们之间，以及它们与数据源之间的数据一致性，是论文研究的另外两个问题。论文引入了视图更新表(ViewUpdateTable)的概念，以用于记录各数据源记录变化对数据仓库视图的影响，于是当视图更新表判定当返回的查询结果，已能引起各数据仓库视图间的数据达到一致状态时，将由合并进程生成一个统一的维护事务向数据仓库提交；论文介绍了多视图维护算法SPA及PA，分别用于处理单一更新与集中处理的不同情况；算法保证当数据源发生变化时，多视图的维护能够确保视图数据与源之间，同时各视图之间的数据一致性。论文指出，简单画笔算法SPA是完全一致收敛的，而画笔算法PA是强一致收敛。对于带有聚集函数的视图维护问题，其实际背景是多维数据库的立方体概念。数据仓库的物理结构一般采用星型结构的关系数据库。星型结构由事实表和维表组成，多个维表之间形成多维数据结构。星型结构的数据体现了空间的多维立方体，聚合格即是事实表与相应维表之间的聚集联接。如何维护这些聚合格，可以看作是多视图维护的一个特例。与多视图维护不同的是，这些聚合格带有聚集函数定义，同时引发它们更新维护的原因在于基本方体的变化。论文在前人研究的基础上，提出了改进算法Refresh*，研究当基本方体发生增删变化时，聚合格如何反映这种的变化。算法给出了聚合格维护的一个具体方法，与原有的算法相比，算法Refresh*在时间复杂度上有很大的改进。论文还提出了三层数据仓库结构，和与之相应的集成部件结构。同时，基于论文对数据仓库更新维护上所作研究得到的各个算法，设计并分析了集成部件各模块的相应功能及其之间的关系，提出了实现集成部件的解决方案，并给出了一个仿真测试系统。实验表明，论文所提出的算法是正确的，系统设计是可行的，效果较为良好。论文最后对研究工作进行了总结。7.期刊论文刘中蔚.陈红.LIUZhong-wei.CHENHong用基于元数据库的工作流调度数据仓库的更新-计算机应用研究2006,23(3)提出了一种新的解决方案,即通过基于元数据库的工作方法来调度、管理这个更新过程,从而减少了人工干预,提高了处理的自动化程度和效率.8.学位论文赵清数据仓库增量维护的体系结构研究2007数据库满足了人们对数据，特别是日常业务数据存储的需求；数据仓库满足了人们合理地组织加工业务数据并由其上升到决策信息的需求；而在快速变化要求迅速反映的时代，高质量的决策信息要求数据仓库的高度有效性，这就进一步反映到对数据仓库维护过程的要求。数据仓库中包含着从各种独立自治的数据源中抽取出来的信息，他其中的数据也必须被更新以反映数据源中数据的变化，面对如此大量的数据，采用完全重载的方法显然是不可行的，因而有必要提出一种高效的增量式维护的方法，也就是只将数据源中发生变化的数据捕获并刷新到数据仓库中。建立在数据仓库上的一些应用，如OLAP分析和数据挖掘等，通常会涉及到大批量数据的检索，为了能够提高查询的效率，在数据仓库中会建立一定数量的实视图，用以预先存储某些使用率较高或计算较复杂的查询的结果，或者其他查询可利用的中间结果。但实视图毕竟是建立在数据源表基础上的，为了正确反映数据源表的变化，需要对实视图进行维护。作为数据仓库维护的重要组成部分，实视图的维护也有必要建立在增量维护的基础上。实视图虽然在数据仓库中有不可替代的重要性，但它与数据仓库中的其他对象和其他交互模块共同构成一个有机的整体，因而对数据仓库维护的讨论就不能够局限于实视图。本文提出了一个实现数据仓库增量维护的体系框架，它将不局限于实视图的维护，而涉及到了一个数