语义网与实用分类系统SemanticWebandOntologies秦健美国雪城大学信息研究学院jqin@syr.eduADL2004深圳2提纲语义网的概念与语义网有关的标准和技术实用分类系统的定义和作用语义网发展的过程实用分类系统的探索性项目语义网与数字化图书馆语义网方面的研究课题ADL2004深圳3早期的网络网址标准化+网络通讯标准+格式兼容终端机PCMACUNIX工作站HTTPserverFTPserverGopherserverNNTPserverADL2004深圳4目前的网络资源通过极有限的语义相互链接(如:具有表达意义的文件名)一个资源所在系统无法自动判定其它系统中的资源含义(如:图中资源D通过HREF与资源A和C的链接,但是无法知道A和C的含义)CABDADL2004深圳5语义网每个资源有清晰的定义,如软件,文件,人,地点概念之间的关系有清晰的定义,如软件产生文件,软件依赖于软件,文件的版本,文件具有主题,人所在地点来源:Berners-Lee,2002产生依赖于依赖于是…的版本主题作者地点在ADL2004深圳6什么是语义网?(1)语义网就是机器可理解的信息,是数据网或全球性的数据库原理:–一切可以确定的内容(人,时间,事件,物体,事物,等)都在网中–每个实体(entity)都有一个统一资源标识(URI)–信息的不完全性(Web是没有尽头的,语义网也是如此,任何找到的信息都只是部分信息)–网络是不断进化完善的–最少设计把简单的东西简化,让复杂的东西变得可能开发简单的应用,着眼于未来的复杂性不要将不必要的东西标准化结果要大于部分相加的总和ADL2004深圳7什么是语义网?(2)语义网的作用是联接相关事件和实体–用VoiceXML标示的一段语音–网络服务(WebService)描述–部件目录–定购状况–制造过程–化学公式–蛋白质–基因–人–个案历史–日期–日历–事件–地点天气–风险–保险–财务–税–预算–人力资源–假期–飞机航班–餐饮–饮食偏好–个人数据–计算设备–部件目录–……ADL2004深圳8与语义网有关的标准和技术可扩展置标语言名域国际码统一资源标识可扩展置标语言结构资源描述框架资源描述框架结构实用分类系统词表逻辑验证诚信数字化签名能自描述的文献数据数据规则ADL2004深圳9Ontology:实用分类系统实用分类系统的主要成分是一整套对某一领域里的知识进行表述的词和术语,编制者根据该知识领域的结构将这些词和术语组成等级类目,同时规定类目的特性及其之间的关系。为什么需要实用分类系统?–提供机器能够理解的信息结构–使领域知识能够被再利用ADL2004深圳10课目内容的概念在传统叙词表中的表述课目内容CoursecontentBT课目组织CourseorganizationNT内容分析ContentAnalysis争议问题(课目内容)ControversialIssues(CourseContent)课目简介CourseDescriptions课目目标CourseObjectives课程Curriculum课程开发CurriculumDevelopment课程指南CurriculumGuides选修课ElectiveCourses学位科目内容ProgramContent学位科目的有效性ProgramValidation教科书内容TextbookContent验证有效的学位科目ValidatedPrograms(来源:TheERICThesaurus)ADL2004深圳11课目内容的概念在传统叙词表中的表述课目内容CoursecontentBT课目组织CourseorganizationNT内容分析ContentAnalysis争议问题(课目内容)ControversialIssues(CourseContent)课目简介CourseDescriptions课目目标CourseObjectives课程Curriculum课程开发CurriculumDevelopment课程指南CurriculumGuides选修课ElectiveCourses学位科目内容ProgramContent学位科目的有效性ProgramValidation教科书内容TextbookContent验证有效的学位科目ValidatedPrograms(来源:TheERICThesaurus)叙词表中的同位词之间并不能显示叙词在概念上的联系注:同一颜色的词有概念上的联系ADL2004深圳12课程内容的概念在实用分类系统中的表述课程Curriculum课目Course课目目标Courseobjective课目简介Coursedescription课目类型Coursetype课程指南Curriculumguide学位科目Program(必修,必选,选修)有课程开发Curriculumdevelopment学科Discipline学位科目内容Programcontent有有目标能力实践实际环境类目Class特性property类目Class下位类Subclass目标类型有有有特性类型PropertytypeADL2004深圳13实用分类系统的例子类目等级结构类名类目定义特性名特性类型限制赋值ADL2004深圳14实用分类系统的组成部分类目(Class,Concept)–类名classname–定义definition,documentation–类目类型classtype特性(Property,Slot,Role)–特性名Name–特性类型Type–特性限制Constraint,Cardinality–赋值范围Domain/facetsADL2004深圳15例子:人及其特性PersonManagerTechnicianSubclass:Class:a-kind-ofNameIDRoleAddressIDPhonenumberEmailhas-property-ofName:PeterCreticosID:123456789Role:DirectorAddressID:Address101Phonenumber:217-234-5678Email:peter@workforce.orgInstance:Property:is-ais-ais-ais-aName:JoeNeedlemanID:22345678Role:TechnicianAddressID:Address101Phonenumber:217-234-5677Email:joe@workforce.orghashasADL2004深圳16叙词表与实用分类系统的比较比较方面叙词表实用分类系统目的用于主题标引某一知识或应用领域的概念模型概念定义类目:定义:关系:等级结构注释参见、互见等级结构注释特性及其类型数据模型数据结构:数据类型:无无关系型,Object-Oriented与数据库结构提问语言相容,也包括非数据库结构提问语言不相容的类型表述语言定义语言:标记语言:数学语言:自然语言无无自然语言或规范语言RDF(S),DAML+OIL第一逻辑ADL2004深圳17实用分类系统的应用医学电子商务房地产金融财务制造业、工商业的供应链(Supplychain)电子教学(e-learning)图书馆目录。。。。。。构造知识模型确定概念及其相关关系用XML/RDF表述知识模型以知识模型为基础设计系统实施系统设计实用分类系统的设计、开发、实施过程ADL2004深圳18语义网第一发展阶段制定有关标准,为语义网的发展提供基础–资源描述框架/可扩展置标语言说明书(RDF/XMLSyntaxSpecification(Revised))–资源描述框架词汇描述语言1.0:资源描述框架结构(RDFVocabularyDescriptionLanguage1.0:RDFSchema)–资源描述框架概要(RDFPrimer)–资源描述框架:概念与定义方式(ResourceDescriptionFramework(RDF):ConceptsandAbstractSyntax)–资源描述框架语义(RDFSemantics)–资源描述框架检验个案(RDFTestCases)–网络实用分类系统语言使用个案与要求(WebOntologyLanguage(OWL)UseCasesandRequirements)–网络实用分类系统语言参照(OWLWebOntologyLanguageReference)–网络实用分类系统语言语义及定义方式(OWLWebOntologyLanguageSemanticsandAbstractSyntax)–网络实用分类系统语言综述(OWLWebOntologyLanguageOverview)–网络实用分类系统语言检验个案(OWLWebOntologyLanguageTestCases)–网络实用分类系统语言指南(OWLWebOntologyLanguageGuide)以上标准均在今年2月10日通过成为W3C的推荐级标准ADL2004深圳19语义网第一发展阶段制定的标准可扩展置标语言名域国际码统一资源标识可扩展置标语言结构资源描述框架资源描述框架结构实用分类系统词表逻辑验证诚信数字化签名能自描述的文献数据数据规则ADL2004深圳20语义网第二发展阶段与第一阶段非常不同–在第一阶段的基础上进一步发展–百家争鸣,比第一阶段的限制少一些–许多建立在RDF之上的新工具和语言–许多新的应用–RDF和OWL将这些语言和应用联系在一起–对新语言进行扩展ADL2004深圳21软件工具的开发(1)Protégé-2000––美国斯坦福大学医学院开发–使用Java和OpenSource作为操作平台–可用于编制实用分类系统和知识库(KnowledgeBase),有可自行设置的数据输入格式,能够输入数据,也可插入插件来扩展一些特殊的功能如提问、XML转换等。–输出格式有文本、HTML、JDBC、RDFSchema、及XMLSchema。ADL2004深圳22软件工具的开发(2)OntoEdit––德国的Ontoprise公司开发–提供实用分类系统工程环境,支持构造概念、关系、定理,不依赖于某一表述语言–利用模块和插件结构,灵活性强,并能够方便地引进专门功能和词库。–支持RDF和DAML(DARPAAgentMarkupLanguage,国防高级研究项目部智能代理置标语言),并能输入和输出数据库结构与数据(如Oracle,MSSQL,DB2)。ADL2004深圳23语义网基本组成URI作为全球标识,如:利用标识在网上进行查找大量的词表—实用分类系统—在领域边缘相互连接真正的系统一般只在语义网的一小部分范围内工作ADL2004深圳24收集和编制实用分类系统利用有结构的来源:数据库结构、某些叙词表、术语分类表利用半结构的来源:网页(特别是XML标记的网页)、词汇、字典利用无结构的来源:任何其它的文件集合ADL2004深圳25探索性的实验项目利用已有的叙词表或分类表来改造成实用分类系统–将《艺术和建筑叙词表》中的西方家具部分改造成实用分类系统(Wielinga等,2001)–英国曼彻斯特大学的OpenGalen项目(Rectoretal2001)利用现有文献和领域专家从头做起–美国加州大学圣巴巴拉分校的地理科学数字化图书馆项目(Smith&Zeng,2003)ADL2004深圳26OpenGalen实用分类系统的概念表述实例手术:Insertionofpinsinneckoffemur语句表述:Fixationoffemurbyinsertionofpinsinneckoffemur中介表述:MAINfixationACTS-ONfemurBY-MEANS-OFinsertionINTOneckACTS-ONpinsINTOneckIS-PART-OFF