基于库数据逆向工程方法

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

基于库数据逆向工程方法CarloBatiniDepartmentofInformatics,SystemsandCommunication(DISCo)Universit`adegliStudidiMilano-Bicocca-Italybatini@disco.unimib.itGianluigiViscusiDepartmentofInformatics,SystemsandCommunication(DISCo)Universit`adegliStudidiMilano-Bicocca-Italyviscusi@disco.unimib.itDanieleBaroneDepartmentofInformatics,SystemsandCommunication(DISCo)Universit`adegliStudidiMilano-Bicocca-Italydaniele.barone@disco.unimib.it文摘在本文中,我们描述了一个反向的经验数据工程支持的存储库的概念模式。我们首先引入一组集成/抽象为了使用原语组织一个大的存储库的概念模式。我们描述构思的方法生产的存储库在意大利的中央公共管理模式。然后,我们描述一个启发式方法,应用于生产的设置模式的公共行政意大利地区。我们也比较前的确切方法和启发式的根据他们的正确性,完整性、和效率。1介绍数据逆向工程(DRE)解决的问题信息存储和如何将这些信息用在不同的上下文(19日12)。越来越感兴趣在反向工程社区与DRE增加相关性对于企业和组织,面临的关键问题的管理大量的数据,如相关的扩散数据仓库和数据挖掘技术战略决策支持系统(11、12)。衣服是一个关键的任务也解决(我)业务连续性与灾难恢复问题(如合并和采购策略,允许保护战略数据),(2)从各种遗留系统数据仓库、数据集成(3)遗留数据结构的映射在一个共同的业务对象模型[19],如在合作信息系统和面向服务的体系结构。在这种情况下连续变化需要的信息系统符合新的技术标准,新的商业模式需要获得竞争优势,和新形成的机构水平。的使用存储库的信息系统模式是战略资源,允许监视可用的知识在组织内,支持DRE活动在前面的引用出现。本文描述了角色概念模式存储库的数据反向工程实际经验的基础上进行的当地的意大利公共管理。本文是有组织的如下。的环境中描述的经验第二节,第三节讨论的基本原语用于模式组织概念模式存储库。第四节概述了年使用的方法建筑的中央存储库。在第5部分中,我们描述了用于生产当地的启发式方法PA库。讨论相关工作(7节)(8节)和未来的研究总结了纸。2研究内容图1所示。新技术架构政府对公民和业务交互公共管理(PA)的结构组成许多国家,中央和地方机构公民和企业提供服务。例如,在意大利,中央不是有两种类型,内部等部门事务、收入和其他中央机构。如社会保险、意外保险、室商务部。主要类型的地方不是对应区域(21)、省(约100)、直辖市(约8.000)。每一个政府管理自己的数据库和注册表。在改变一个至关重要的方面不是和公民之间的关系在于设计一个新的技术架构(见图1,三个机构被认为是),与过去相反,报价公民的服务通过一个共同的前面办公室层,一站式购物模式的基础上,此外,一层合作后台开发,允许政府和共享信息应用程序服务,为了重新设计管理程序,降低了用户的负担。有关数据架构,裁员应该被发现和控制、数据交换的可互操作的格式,所有的政府都将是一样的意义相同的数据,实现集成的术语。能够发现冗余和异构性问题数据库中不同的政府,(2)协调数据的不同的含义,重用实体新数据库的设计实现语义互操作性,一个统一的概念的描述是必要的不同的数据库。这个目标已经实现存储库的概念模式(存储库在下面)现有的数据库。主要的存储库意大利中部PA(中央PA存储库的数据库后)在1995-1997年生产使用方法[6]和概念模式集成方法库构建[2]。2004年,一个地区,即皮埃蒙特地区,决定建立自己的存储库(本地PA库),涉及的主要数据库管理在其领土。逻辑关系模式过程的输入,有限的人力资源是可用的。因此,一个启发式方法已经产生,允许当地的生产吗库[3],[4]。在本文中,我们描述了这些活动。3存储库的结构在下面,我们5库作为一组概念模式,每个描述的所有信息由一个组织管理领域内的信息系统考虑。特别是,库引用本文使用实体关系模型来表示概念模式。图2。元模式存储库然而,一组平面的模式不显示概念之间的关系管理在不同的领域;库必须是有组织的在一个更复杂的结构,通过结构的使用原语。在我们的方法使用的原语先是在[2],介绍:抽象、视图和集成。抽象允许的描述相同的现实在不同的层次,从具体到抽象的。我们将调用优化逆原始,允许继续吗更详细的抽象表示。这种机制是基本的存储库,因为它帮助用户感知复杂现实一步一步,从一个更抽象的水平到本地。的观点是片段的模式,允许用户将他们的注意力只是感兴趣的一个复杂的现实他们。集成是一套当地的机制之后,模式是合并成一个独特的全球模式解决异构性问题出现在所有输入模式。通过联合使用这些构建原语我们获取存储库的模式。在接下来我们名字的基本模式底部的概念模式定义的水平库、抽象模式的模式上的水平。在实践中,当存储库的填充底部标高由数以百计的模式,如的情况我们将检查在下面,这是不可行的这三个结构基元,查看原始是牺牲了。此外,集成和抽象应用在一起,导致应用程序的一个新的由原始,集成/抽象原始。集成/抽象是迭代,产生模式在若干个不同的抽象层次上。图2中显示的资源库,元属性显示在框代表的实体。中部代表的组织模式,连同他们的分类及其关系领域与组织单位(管理、所有者和外部PA)。右手代表对象中定义的一部分模式,连同他们的类型。左边的部分表示对象之间的冲突定义模式参与集成/抽象原语。图3。生产的方法中央存储库图4。顶级的模式存储库4设计库在前面描述的存储库的组织部分被用来提供一个结构宽的概念模式有关意大利中部PA最相关的数据库。在底部的中央PA库,大约500概念模式定义,对应数据库的逻辑模式。为了构建整个存储库中描述的过程图3已经被采用,更详细地定义在[2]。的方法是由三个步骤。在步骤1中,开始从逻辑关系模式或需求收集活动,传统的模式设计的方法已使用(见例如[13]),导致生产的大约500个基本模式,大约5.000实体和同样数量的关系。在步骤2中概念模式代表了不同组织区域分组的同质类,对应的有意义的行政区域的中央的兴趣PA,如社会保障、金融、文化遗产,和教育。在步骤3中每组的基本模式第一个集成和抽象,导致一种独特的模式对于每个区域,填充的二级库,导致32个二级抽象模式。例如,内部安全二级模式集成/抽象过程,结果执行6模式对应于130年的概念。集成/抽象过程是迭代,产生更高等水平模式,对应于更抽象的领域财务资源、人力资源、社会服务,经济服务,最终产生一个独特的综合模式,这是进一步的抽象,在最顶层库的模式如图4所示。管理模式是最重要的概念在任何公共管理的信息系统,即主题、个人、法人、财产,地方,和文档,他们的高水平的关系。由此产生的金字塔模式提供自然的代表在不同的抽象概念水平,与合适的近似,找到了共同之处异构数据库之间的部分属于不同机构。为了生产库,大约200person-months在步骤1中需要生产500基本概念模式,而需要24person-months生产在步骤3中59抽象模式上存储库(大约14个工日的一部分模式,对基本的和抽象的模式)。图5。生产PiedimontPA库通过重用的中央存储库5数据逆向工程与存储库在本节中,我们描述采用的方法在当地的生产PA库中。在这种情况下更少的资源可用。第一个相关的输入,可用的中央PA(CPA)存储库模式(见图5),做的基本模式和抽象的。注册会计师最频繁的查找表属性,提取从CPA存储库的基本模式是另一个来源的过程。第二个区域的输入问题可用文档数据库。逻辑模式:500数据库记录的关系数据库模式、表、描述表的引用完整性约束定义在表、属性定义属性的标识符。的基本来源知识用于当地生产PA(LPA)存储库,从上述讨论结果,非常富有,但特点是一个重要的异构性:概念性文档担忧中央PA,逻辑文档属于当地的私人助理。我们的活动的相关条件已经预算限制。因此,在产生的方法生产当地的巴勒斯坦权力机构库,我们做了一个意义重大假设,我们使用启发式和近似推理,以减少人工干预越好。我们做出的假设是,宾夕法尼亚州中部的基本模式库和地方PA库可能可能不同,由于不同中央和地方政府之间的函数,之间的相似性应该更高抽象中央PA模式库和基础+抽象当地PA模式库。在的结果以上假设和资源的限制,我们决定使用一个更密集比的概念结构中央PA的模式库。它由泛化层次结构的顶部水平的六个模式中定义的概念图4中,和下级更精炼的概念抽象的模式和基本模式,获得应用的改进沿着集成/抽象的层次结构。我们将展示在图6个人的层次结构。图6。个人泛化层次结构我们现在提供的原理方法,细节参见[3],[4]。遵循不同的方法方法构建的基本模式和抽象模式库,和,因此,可以看到分为两个阶段。对于每一个当地的逻辑模式,可用的概念/中央和逻辑/本地知识在阶段1产生一个基本使用当地的概念模式。然后,在第二阶段,抽象的模式构建。图7。第一阶段的启发式的步骤方法就是关注阶段1的5个步骤,不久描述在图7中。在下面,我们共同讨论每一个步骤文档框架,描述步骤和输入这个过程。步骤1。提取实体和属性•输入:CPA泛化层次结构的概念,一个LPA的逻辑模式•过程:实体名称层次结构和查找表的属性的名称注册会计师库最频繁的属性与名称和描述的每个表的名称和描述属性的逻辑模式。比较函数使用的距离在不同的文本字符串函数,考虑表名(tn)的数量,数量表描述(td)的数量属性名称(一个),ofattribute描述广告数量,各有一个距离低于固定阈值函数。一个点在一个四维空间与每个概念相关联提取,定义为:P(concept)=tn,td,an,ad一个概念(囚禁)或被选中作为潜在的实体属性(型)如果四项之和大于第二阈值。为了判断是一个概念实体或属性,我们在四个计算距离维平面之间P(概念)和两个点:Pent=tn,td,0,0Patt=0,0,an,ad根据越接近和分配的实体或属性点。我们必须决定最后的每个属性AiEj是相应的实体。执行此步骤将人工智能分配给实体越近,假设距离对应的表名、表描述,提取的属性名称、属性描述。的实体和相应的频率匹配排序和阈值是固定的:所有的实体频率阈值选择,导致第一次模式仅仅是实体的草案。输出是一个草案模式由断开连接的实体和相关属性。步骤2。添加概括•输入:在前面获得的模式草案和四步CPA泛化层次结构。•过程:访问泛化层次结构并添加模式草案子集在层次结构的关系,定义草案中的实体模式之一。步骤3。提取的关系注册会计师的基本模式库•输入:草案模式和所有的基本CPA库模式。•过程:实体模式草案一对明智与所有的基本模式在注册会计师存储库中。每一对的E1和E2几种类型的实体关系是提取的基本模式:(a)关系定义完全E1和E2;(b)的关系对应关系链的定义在对E1-Ei;Ei-Ei+1;…Ei+je2;(c)的关系定义在实体对应于E1和E2*四个E1和E2的泛化层次结构。在得了步骤排序根据收集的关系名字的频率。这里有两种可能性:最常见的名字是选择的名称关系;(2)由领域专家指定的名称。步骤4。提取的关系引用完整性约束定义在逻辑表•输入:草稿模式+约束定义表的逻辑模式•过程:为每一个引用完整性约束两个表T1和T2中定义逻辑模式,它是检查是否T1和/或T2已经选为实体在模式草案,以防补充道随着新实体。此外,它是检查是否定义之间的关系实体,并在必要时添加。第5步。领域专家检查•输入:模式草案•过程:模式产生的半检查的自动化过程域专家可能添加新概念,取消现有的概念,否则修改一些概念。图8。第一阶段的启发式的步骤方法自执行第5步后的关系和实体完整性约束的结果,它可能发生添加了太多的概念,和手册领域专家的检查会导致删除概念。有时添加新概念,导致一个丰富模式的内

1 / 13
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功