信息抽取及其应用.

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

信息抽取及其应用研究一、信息抽取概述信息抽取(InformationExtraction:IE)是指从一段文本中抽取指定的一类信息(例如事件、事实),井将其形成结构化的表示形式(比如数据库等),以供用户查询使用的过程。它是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。和ACE消息理解系列会议(MessageUnderstandingconference,MUC)和自动内容抽取评测会议(AutomaticContentExtraction,ACE)对推动信息抽取技术的发展起到重要作用。MUC由美国海军情报部门提出举行,主要目的也是处理大量海军军事情报,从1987年开始到1998年,MUC会议共举行了七届。ACE是由美国国家标准技术研究所(NIST)组织召开,该会议2001年5月首次举办,到2007年已经举办7次会议。://gate.ac.uk/邓尚民,孙玉伟.国内外信息抽取研究的义献计量分析.图书情报工作,2006(12):92-94,108二、Web信息抽取Web信息抽取就是从Web页面所包含的无结构或半结构的信息中识别用户感兴趣的数据,并将其转化为结构和语义更为清晰的格式(XML、关系数据、面向对象的数据等)。整个抽取过程的工作过程主要包括了如下几个步骤:①将Web网页进行预处理。②用一组信息模式描述所需要抽取的信息。③对文本进行合理的词法、句法及语义分析。④使用模式匹配方法识别指定的信息模式的各个部分。⑤进行上下文分析和推理,确定信息的最终形式。⑥将结果输出成结构化的描述形式以便由网络集成系统进行查询分析。Web信息抽取的中心—包装器Web信息抽取工作主要由包装器(Wrapper)来完成。包装器是一种软件过程,这个过程使用已经定义好的信息抽取规则,将网络爬虫搜集到的Web页面的信息数据抽取出来,转换为用特定的格式描述的信息。一个包装器被认为是一个程序或是理解某一具体信息源的一种规则,并把信息转化为较为规则的格式,如XML或关系表格。包装器是特定的对某一个给定的网站,紧密地与抽取的网页结构和标记语言相联系的。包装器最具挑战性的方面就是能从许多不相关的文本中识别所要抽取的信息。研究内容Web信息抽取原理与方法基于本体的信息抽取基于位置的信息抽取Web信息抽取模型基于归纳学习的信息抽取基于ontology的信息抽取基于HMM(隐马尔可夫模型)的信息抽取研究内容(续)Web信息抽取技术模糊字符匹配技术信息树技术二相取样技术Web信息抽取的评价信息抽取结果的评价信息抽取系统的性能评价(信息抽取任务的难易程度、系统所使用的技术、系统的自动程度)应用实例Amorphic系统Amorphic系统是一个集成了基于位置信息抽取、基于本体的信息抽取和包装器能修复的特性的信息抽取系统。它能在学习领域知识和网页结构的基础__卜定位感兴趣的数据,能自动地生成一个包装器,能探测到网页结构的变化,然后能在了解变化的基础上获取想要的信息。Lixto系统Lixto系统能生成包装器将html转换为xml格式,通过提供完全可视和交互的界面,利用侧向外延生长法,半自动地帮助用户产生包装器。它提供两种基本的数据抽取规则,字符抽取和信息树抽取。郑彦宁,邓擘.信息抽取技术在情报学中的应用分析.情报理论与实践,2008(5):769-772目前信息抽取的关键技术主要有实体识别、实体关系识别和事件模板构造3个方面。实体识别技术:实体是指在现实世界中具体或抽象的对象,而识别出这些对象在文本中的表达形式则为实体识别技术。在该技术中不仅要识别并标注出一般的命名实体,如人名、地名、机构名、产品名称等,还包括一些对实体解释性的描述以及指代实体的代词等,有时在具体应用中有关时间和数量表达式也被作为实体来识别。实体识别的方法主要分为基于统计与基于规则的方法。信息抽取技术实体关系识别技术实体关系识别技术是识别句子中出现的成对实体间的关系。例如当句子中出现一个人名和一个组织实体名称时,那么这个人与组织之间是何种关系需要辨别;当出现机构名称和地名时,这两者之间又具有何种关系;如果出现两个人名时,这两人之间具有何种社会关系等。在ACE评测中,对这些关系进行了归纳,把所有关系划分为角色关系、部分与整体的关系、位置关系、方位关系和社会关系这5个基本类型。在实体关系识别方面也有两种技术路线,一种是使用规则的方法,主要是基于模式匹配技术;另一种是统计的方法,主要基于机器学习的技术。信息抽取技术事件模板构造技术在对具体领域内事件或事实进行抽取时,主要根据事件的组成要素来定义事件描述模板(EventDescriptionTemplate)。事件描述模板是一个对事件的要素进行综合概括的有组织的表达结构,它描述了需要抽取的概念及其相互关系,这些概念与关系能够完整地描述事件。例如在公司发布新产品事件中,它一般需要包括公司名、产品名、发布时问、产品性能等一些事件要素。三、信息抽取的应用信息抽取的信息搜集使用信息抽取技术,按照预设的领域,对网页等信息进行抽取,并自动组织成具有相关性的整体数据,这些数据在保存到数据库后就可以形成所预设领域的比较全面的信息。例如跨语言的信息抽取系统TREE。如两种应用于分子生物学的信息抽取系统:EMPathIE和PASTA,分别从生物学期刊中抽取有关酶、新陈代谢方式和蛋白质结构的信息。信息抽取的应用(续)IE的信息组织信息抽取技术从文本内容中抽取预先指定的实体和关系即信息片段,所抽取的信息片段从一个角度反映了文本内容的内在特征,由于这些抽取的信息片段是同类的,因此,本质上是通过这些同类信息片段对文本进行了组织,这种组织方法的价值在于这些信息片段是结构化信息,因此它可以作为知识服务技术的前端和基础,可以进一步使用机器方法从中发现知识、挖掘知识,这就对人们寻找知识和利用知识提供了有力的支持。信息抽取的应用(续)信息检索与信息抽取IE在应用中的主要目标是如何将用户需要的信息从各种文本中提取出来并进行有效的组织,然后生成简洁明了的事件列表,从而提高信息相关性,用户可以直接阅读抽取出的事件内容,而不需要先阅读整篇文献以进一步判断是否相关,当需要阅读整篇文献时再去详细阅读,用户可节省阅读时间。刘鲁红,刘力强,胡亚军.信息抽取技术在数字图书馆中的应用研究.情报理论与实践,2005(3):321-324信息抽取概念与技术简介:信息抽取概念、信息抽取与信息检索、信息抽取的类型、信息抽取的过程与方法。信息抽取在数字图书馆中的应用构建模板挖掘平台:自动建立数字文献的引文数据库、自动抽取电子期刊新闻条目信息、自动识别用于研究的资金/赞助机构、利用元数据和模板挖掘进行信息抽取。信息抽取在数字图书馆中的应用构建情报自动搜集平台信息抽取在数字图书馆中的应用构建问题解答系统信息抽取在数字图书馆中的应用构建图书馆大型知识库、数值库余丰,朱东华.信息抽取技术在竞争情报研究中的应用.情报杂志,2006(3):25-26.29黄永文.信息抽取在竟争情报中的应用研究.图书情报工作,2006.50(11):17-20.90信息抽取的特点与类型信息抽取在CI中的应用基于信息抽取技术的CI系统体系架构国外基于信息抽取技术的CI系统的分析研究标准化和组件化不断扩大信息抽取的范围更加注重深层次的信息组织和加工利用智能技术提高自动化的程度与特定领域相结合运用各种相关技术,提高抽取的效果

1 / 34
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功