本体建模研究综述目录引言本体的概念本体的建模元语本体的描述语言本体的分类本体的构建本体的作用本体的应用小结引言本文所要研究的信息科学领域的本体最早是一个哲学上的概念。本体近年来受到众多研究人员的关注,已成为计算机领域重要研究方向之一。目前,本体已经被广泛应用于知识工程、数字图书馆、软件复用、信息检索、多智能体系统、系统建模、异构信息集成、语义Web等领域。本体的概念本体是共享概念模型的明确的形式化规范说明。这其中包含了4层含义:(1)概念模型(conceptualization)(2)明确(explicit)(3)形式化(formal)(4)共享(share)本体的建模元语本体包含5个基本的建模元语(ModelingPrimitive)或说是5个要素:类/概念(classes/concepts)关系(relations)函数(functions)公理(axioms)实例(instances)本体的描述语言(一)具体描述本体的方法很多,按照表示和描述的形式化的程度不同,可以将本体分为:完全非形式化本体、半非形式化本体、半形式化本体和严格形式化的本体。自然语言、框架、语义网络或逻辑语言等都可以用来描述本体。本体建模语言大致可分为两类:传统的本体建模语言和面向Web的本体建模语言。他们之间的区别在于面向Web的建模语言语法一般采用XML作为语法基础,常用于表达Web信息的语义。本体的描述语言(二)传统的本体建模语言有KIF、Ontolingua、Cycl、OKBC、OCML、FrameLogic和LOOM等。面向Web的建模语言有XOL、SHOE、OML和OWL等。本体的分类(一)目前被广泛使用的本体有如下5个:(1)Wordnet(2)Framenet(3)GUM(4)SENSUS(5)Mikromos本体的分类(二)比较著名的分类方法是Guarino于1997年提出的以详细程度和领域依赖度两个维度作为对本体进行划分。详细程度高的称为参考(reference)本体;详细程度低的称为共享(share)本体。按照领域依赖程度,又可将本体分为顶级(top-level)本体、领域(domain)本体、任务(task)本体和应用(application)本体等4类。本体的分类(三)1999年,Perez和Benjamins在分析和研究了各种本体分类法的基础上,归纳出10种本体:知识表示本体、普通本体、顶级本体、元(核心)本体、领域本体、语言本体、任务本体、领域-任务本体、方法本体和应用本体。这种分类法是对Guarino提出的分类方法的扩充和细化,但划分的界限较为模糊,10种本体之间有交叉,层次不够清晰。本体的分类(四)2005年,又有学者提出按照是否具备逻辑推理功能,把本体分为:轻量级本体,中级本体和重量级本体。本体构建及其规则本体构建,是从某个领域中抽取知识,形成描述该领域数据的语义概念、实例和其间的关系。1995年Gruber提出的5条规则较有影响:(1)明确性和客观性(2)完全性(3)一致性(4)可扩展性(5)最小承诺基于本体的企业建模不同研究小组提出了不同的本体构建方法,这些方法主要有:IDEF5提供了两种语言形式,即图表语言和细化说明语言来获取某个领域的本体论;骨架法;TOVE企业本体建模方法;循环获取法;Methontology方法;Berneras方法和基于领域知识重用的虚拟领域本体构造方法等。骨架法TOVE该方法主要步骤如下:(1)激发场景的获取。(2)非形式化能力问题的明确表述。(3)术语的规范化。(4)形式化能力问题的明确描述。(5)形式化公理。(6)完备性定理。Methontology它根据进化原型法的思想,提出本体生命周期的概念来管理整个本体的开发过程。与骨架法和TOVE企业本体建模方法不同的是,Methontology方法则首先采用中间表示形式来表达所获取的知识,然后用翻译器将中间表示转换成本体。包括三个阶段:(1)管理阶段。(2)开发阶段。(3)维护阶段。这些方法虽然没有一种方法是完全成熟的,但不管何种方法都本着两个原则:提供共享和翻译工具。本体建模工具包括编辑工具、标注工具和集成工具等。本体编辑工具本体编辑是一项比较庞大的复杂反复的系统工程,包括:问题说明、领域知识的获取和分析、概念的设计与领域本体的约束、迭代建设及测试等一系列环节。常用的编辑工具有OntoEdit、OILed和Protégé-200等。OntoEditOntoEdit使用图形工具来支持本体开发和维护。它将骨架法与合作开发和推理功能相结合,分层构建本体,系统的基本公理有不相交的概念、对称性关系和传递关系。OntoEdit关注本体开发的三个阶段:需求说明阶段、修正阶段以及评价阶段。OntoEdit支持RDF(S)、XML、DAML+OIL或框架逻辑Flogic,并且OntoEdit支持推理的多重继承,提供对于本体的并发操作,并能输入和输出数据库结构与数据。需要注意的是,OntoEdit不开放源代码。OILedOILed是一个基于OIL的本体编辑工具,使用DAML+OIL来构建本体,结合了框架表示和描述逻辑表示两者的长处。OILed提供源代码,为用户构建本体提供足够的功能,并示范应如何利用事实推理来核查本体的一致性。OILed采用的是Windows风格的图形化界面,比较容易使用。它的本体编辑功能较多,既可以对类、属性、个体、公理等进行定义和描述,还可以进行框架描述,而且允许匿名框架描述。Protégé-2000Protégé-2000既是本体编辑工具,也是基于知识的编辑器。它是用Java编写的,可以免费下载。Protégé-2000工具本身没有嵌入推理工具,不能实现推理,但它具有很强的可扩展性,可以插入插件来扩展一些特殊的功能,如推理、提问、XML转换等。Protégé-2000开放源码,支持多重继承,提供本体构建的基本功能。同OILed一样,Protégé-2000也采用Windows风格的图形化界面,模块划分清晰,用户比较容易学习使用。Protégé-2000中文支持良好,用户可以使用中文来编辑本体。本体标注工具本体标注工具可以在Web页面及其他文档中自动或半自动插入本体标记,将非结构化、半结构化信息与本体联系起来。现国内外已经开发出许多本文标注工具,本文介绍几种常用的标注工具:AeroDAML、COHSE和SMORE。本体集成工具本体集成的目的是使异质的本体互操作,目前是本体研究的一个热点。本体集成工具用于解决同一领域内本体的融合和集成问题,常见的有PROMPT、OntoMerge和MAFRA等,除此以外还有本体存储查询工具和学习工具等。其它工具除了上述本体编辑工具、本体标注工具和本体集成工具外,还有本体存储查询工具和学习工具等。本体的作用本体通过概念之间的关系来描述概念的语义。作为一种知识表示方法,本体有如下作用。(1)支持人与组织之间的信息交流。(2)支持不同系统之间的互操作。(3)需求分析和系统设计的基础。(4)支持知识重用。(5)显式地定义对领域的认识。(6)将领域知识同使用领域知识的操作性知识分离开来。本体的应用语义Web是现在研究十分活跃的一个领域,它被看作是当前本体论从学术研究走向实际应用的最重要的构想和研究计划。本体在Web上的应用导致了语义Web的诞生,其目的是解决Web上信息共享时的语义问题。1998年“语义Web”(semanticWeb)由Web的创始人TimBerners-Lee首次提出。语义Web是在RDF基础上,对Web上的数据所进行的一种抽象表示。语义Web所指的“语义”是“机器可处理的”语义,而不是自然语言语义和人的推理等目前计算机所不能处理的信息。小结本体自提出以来受到了国内外许多研究人员的关注,特别是在信息科学领域得到了广泛的应用。需要指出的是,本体建模工具仍需不断完善,下一步是朝着简单易用的自动化方向发展。