领域本体的构建方法研究(马文虎,南京理工大学信息管理系)目录引言1本体的相关理论1.1本体的概述1.1.1本体的定义1.1.2本体的构成1.1.3本体的分类1.1.4本体的应用领域1.2本体的描述语言1.3本体的编辑工具1.4建立本体的难点1.5本体研究的现状2领域本体的构建研究2.1领域本体构建遵循的原则2.2本体的构建工程思想2.2.1IDEF-5方法2.2.2SkeletalMethodolody骨架法(Uschold方法)2.2.3TOVE企业建模法2.2.4Methontology方法2.2.5循环获取法2.2.6七步法2.3构建领域本体的步骤2.3.1确定领域本体的专业领域和范畴2.3.2考虑复用现有的本体2.3.3列出本体涉及领域中的重要术语2.3.4定义分类概念和概念分类层次2.3.5定义概念之间的关系3现有的领域本体构建方法及存在的问题3.1构建领域本体的知识工程方法3.2基于叙词表的领域本体构建3.3基于顶层本体构建领域本体的构建方法3.4领域本体构建过程中存在的问题3.4.1手工构建3.4.2复用已有的本体3.4.3自动构建本体结论参考文献摘要:领域本体的构建方法是当前本体研究的热点问题之一。但是,目前领域本体的创建还缺乏系统的、针对所有领域的、工程化的方法。本文介绍了本体的相关理论,并结合领域本体一般构建原则,分析了手工建立本体的六种常见本体构建工程思想,归纳总结出了构建领域本体的一般步骤。此外本文还重点分析了现有的领域本体构建方法以它们及存在的问题。关键词:本体领域本体构建方法引言本体(Ontology)是近年来计算机及相关领域普遍关注的一个研究热点,作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,已被广泛应用于知识工程、系统建模、信息处理、数字图书馆、自然语言理解、语义Web等领域之中[1]。虽然20世纪90年代以来,研究人员从各自的专业角度出发对本体的理论和应用进行了深入研究,取得了丰富的研究成果,本体理论与技术也随之日趋成熟,但是领域本体的建设问题仍然制约这些应用的发展。本文将详细研究和分析目前领域本体构建的各种方法以及存在的问题,为寻找新的构建方法提供参考。1本体的相关理论本体又称为实体,源自于形而上学的哲学分支,它对客观世界的事物进行分解,发现其基本的组成部分,进而研究客观事物的抽象本质[10]。1.1本体的概述本体最早是一个源于哲学的概念,是一种对“存在”的系统化解释,用于描述事务的本质。后来知识工程学者借用了这个概念,在开发知识系统时用于领域知识的获取[8]。1.1.1本体的定义近年来,本体的概念被越来越多的应用于计算机知识工程领域,用于对客观世界的存在进行系统化描述,方便知识的重用和交互。人们已经从不同的角度和方面为本体论概念进行了定义。虽然不同研究者对本体有不同的描述,但是从内涵上来看,他们都是把本体当作某个领域内不同主体(人、代理、机器等)之间进行交流的一种语义基础,即由本体提供明确定义的词汇表,描述概念和概念之间的关系,作为使用者之间达成的共识[10]。因此,本体的用途包括交流、共享、互操作、重用等。本体是用于描述一个领域的术语集合,其组织结构是层次结构化的,可以作为一个知识库的骨架和基础。一般认为本体就是Gruber提出的“本体是概念模型的明确的规范说明”。Fensel时这个定义进行分析后认为本体的概念包括概念化、明确、形式化和共享四个主要方面。总而言之,本体的目标是获取、描述和表示相关领域的知识,提供对该领域知识的共同理解,确定领域内共同认可的词汇,并从不同层次的形式化模式上给出了这些词汇(术语)和词汇间相互关系的明确定义[6]。从而能够描述领域内部甚至更广范围内的一些概念和概念之间的联系,使得这些概念和联系在共享的范围内有着明确唯一的解释,这样人、系统之间就可以进行交流[11]。一般来说,本体具有两个特征:静态性和动态性—静态性指的是它反映的概念模型,没有涉及动态的行为;动态性指的是它的内容和服务对象是不断变化的,针对不同的领域,可以定义和构造不同的本体[6]。1.1.2本体的构成本体的体系结构应该包括3个要素:核心元素集、元素间的交互作用以及这些元素到规范语义间的映射关系。ISO704标准和OKBC模型是现有的有关本体体系结构的规定。ISO704认为本体的体系结构应含概念、定义和术语3部分。ISO704建议,一个概念应该用一个自然语言的术语得到理想的表达。对于本体的具体构造过程,可以用以下公式(1-1)形象地表示:本体=概念(Concept)+属性(Property)+公理(Axiom)+取值(Value)+名义(Nominal)(1-1)[6]Perez等人用分类法组织了Ontology,并归纳出本体的五个基本构成元素(建模元语),即:①类(Classes)或概念(Concepts);②关系(Relations);③函数(Functions);④公理(Axioms);⑤实例(Instances)。从语义上讲,基本的关系共有4种,如表1所示:表1基本的关系种类[9]关系名关系描述part-of表达概念之间部分与整体的关系。kind-of表达概念之间的继承关系,类似于面向对象中的父类与子类之间的关系。给出两个概念C和D,记C′={x∣x是C的实例},D′={x∣x是D的实例},如果对任意的x属干D′,X都属干C′,则称C为D的父概念,D为C的子概念instance-of表达概念的实例与概念之间的关系,类似于面向对象中的对象和类之间的关系。attribute-of表达某个概念是另一个概念的属性。如概念“颜色”是概念“玫瑰花”的一个属性。在实际建模过程中,不一定要严格地按照上述5类基本建模元语来创建Ontology,概念之间的关系不限于上面列出的4种基本关系,可以根据领域的具体情况定义相应的关系,以满足应用的需要,案例如图1所示。图1本体的构成案例[8]1.1.3本体的分类目前关于本体的研究非常广泛,尤其是在国外,许多研究组织和机构都研究建立了各种各具特色的本体。针对目前出现的各种各样的本体,也出现了不同的分类方法,最为广泛的分类方法是根据本体应用主题,将这些为数众多的本体划分为五种类型:领域本体、通用或常识本体、知识本体、语言学本体和任务本体。其中,领域本体在一个特定的领域中可重用,它们提供该领域特定的概念定义和概念之间的关系,提供该领域中发生的活动以及该领域的主要理论和基本原理等。对特定领域的本体研究和开发目前已涉及许多领域,包括企业本体、医学概念本体、酶催化生物学本体、陶瓷材料机械属性本体等。领域本体主要有以下作用:可以明确专业术语、关系及其领域公理,使其形式化;在人与人之间、人与机器之间达到共享;实现一定程度的领域知识复用[10]。此外,Guarin也提出以详细程度和领域依赖度两个方面对本体进行划分。其中,根据本体对领域的依赖程度由高到低可分为四个类别:顶级本体(top-levelOntologies)、领域本体(domainOntologies)、任务本体(taskOntologies)和应用本体(applicationOntologies)[12],如图2。图2依照领域依赖程度的本体分类[5]1.1.4本体的应用领域目前,本体已经被广泛应用于知识工程、自然语言处理、数字图书馆、信息检索和Web异构信息的处理、软件复用、面向对象技术和语义Web等领域。典型的应用有:(l)基于语义的信息检索,特别是网络搜索引擎和数字化图书馆。(2)基于本体的数据集成、机器学习等。(3)领域本体的应用。比如,在生物信息学中已建成的GeneOntology,尽管只包括了part-of等简单的关系,但是对生物信息学界已经有巨大的影响。(4)语义Web服务。(5)在线元数据管理和自动信息发布。[10]1.2本体的描述语言关于本体的标记语言,可称之为置标语言,又称本体的构建语言或者是表示语言。作为表示本体的语言工具,应该具有如下的基本功能:1)为本体的构建提供建模元语(ModelingPrimitives)。2)为本体从自然语言的表示格式转化成为机器可读的逻辑表达格式提供标引工具。3)为本体在不同系统之间的导入和导出提供标准的机读格式。4)形式化语言表示,利用机器可读的形式化表示语言表示本体,可以直接被计算机存储、加工、利用,或在不同的系统之间进行互操作。[9]本体语言使得用户为领域模型编写清晰的、形式化的概念描述成为可能,因此它应该具备良好定义的语法、语义,有效的推理支持,充分、方便的表达能力。自上个世纪90年代以来,大量的研究工作者活跃在该领域,因此诞生了许多本体描述语言,有RDF和RDF-S,OWL(注:DAML+OIL认为它是OWL的一个过渡)、KIF,SHOE,XOL,OCML,Ontolingua,Cycl,Loom。这里简单把它们归类如下:(l)基于Web的本体语言(也叫做本体标记语言)有:RDF和RDF-S,OWL,SHOE,XOL。其中RDF和RDF-S,OWL,XOL之间有着密切的联系,是W3C的本体语言栈中的不同层次,也都是基于XML的。而SHOE是基于HTML的,是HTML的一个扩展。(2)基于AI(ArtificialIntelligence)的本体实现语言有:KIF,Ontolingua,Cycl,Loom,OCML,Flogic。KIF己经是美国国家标准,但是它并没有被广泛应用于互联网,作为一种交换格式更多的应用于企业级。[10]1.3本体的编辑工具到目前为止,已经出现了许多本体编写工具。根据这些工具所支持的本体描述语言,大致可以分为两类。第一类包括Ontolingua、OntoSaurus、WebOnto等。这三个工具的共同点是,都基于某种特定的语言,并在一定程度上支持多种基于AI的本体描述语言。第二类包括Protégé系列、WebODE,OntoEdit,OliEd等。这些工具最大的特点是独立于特定的语言,可以导入/导出多种基于Web的本体描述语言格式(如XML,RDF(S),OWL等)。其中,除了OliEd是一个单独的本体编辑工具外,其他都是一个整合的本体开发环境或一组工具。它们支持本体开发生命周期中的大多数活动,并且因为都是基于组件的结构,很容易通过添加新的模块来提供更多的功能,具有良好的可扩展性[10]。1.4建立本体的难点本体的构造过程是个费时费力的过程,需要完整的工程化、系统化的方法来支持,目前特定的领域本体还需要专家进行参与。通用的大规模本体很少,大多本体只是针对某个具体应用领域或应用而构造的,在实际应用中,不同本体之间常常需要进行映射、扩充与合并处理,以及根据特定的需要从一个大的本体中提取满足要求的小的本体等操作,此外,当现实的知识体系发生变化时,先前构造的本体必须作出相应的演化以保持本体与现实的一致性,这都是本体工程所需研究的问题。本体工程已成为现阶段研究中的一个热点问题。如何才能大规模的构造本体?如何集成现有的不同本体?如何维护本体及其进化过程?这一系列的问题都需要方法论作为指导,目前该领域研究还处于探索阶段,没有形成成熟的方法论,是一个有价值的研究方向。此外,本体构造不仅需要理论上的探讨和研究,还必须实实在在的构造出本体。如何能利用软件系统辅助人们构造本体?这些软件能在哪些方面自动化或者半自动化的发挥作用?本体开发过程中如何支持协同工作?不同软件开发的本体如何集成?构造好的本体如何管理和维护?这些也成为该领域函待解决的问题。[4]1.5本体研究的现状对本体的研究和应用近年来发展很快。在1998年6月,第一届“信息系统中的形式化本体论国际会议”的召开标志着这一领域在逐渐走向成熟。从国外的研究情况来看,20世纪80年代末至90年代初,哲学领域的概念“Ontology”被AI领域所借鉴,本体的建模方法也初步确立,本体论把知识工程中的知识向更深入的方向推进。近年来,国外对本体建模作了大量研究并将其运用于知识工程领域。主要代表为:①万维网联盟W3C(WorldWideWebConsortium)的研究;②德国卡尔斯鲁厄大学