湖北工业大学硕士学位论文WEB信息抽取的研究姓名:庄重申请学位级别:硕士专业:计算机应用技术指导教师:王大震20090501WEB信息抽取的研究作者:庄重学位授予单位:湖北工业大学相似文献(7条)1.学位论文陈景顺一个Web信息抽取工具的设计与实现2006目前Web已经发展成为一个巨大的、分布和共享的信息资源,但目前Web数据大多以HTML形式出现,其特点使得应用程序无法直接利用Web上的海量信息。针对这一问题,出现了Web信息抽取技术。本文设计了一个具有实用价值的Web信息抽取工具,它能够从用户关心的网站中采集有价值页面,并通过信息抽取把页面转换为数据库的记录。信息采集与信息抽取是Web信息抽取工具的两个关键问题。采集网站中的所有网页,不但会增加系统的时间复杂度及空间复杂度,而且得到的信息没有针对性,因而链接过滤是必要的。本文参照了网络蜘蛛的搜索策略,设计了基于链接标签过滤和基于URL过滤的两种链接过滤方法。基于链接标签过滤的方法需要用户设定一个主题词词典,通过链接标签与主题词的相关性来进行链接过滤,这种方法适用于多个网站,但准确率与召回率都不够理想。基于URL过滤的方法需要用户指定有效URL的特征,这种方法准确率与召回率很高,但需要针对每个网站进行配置。本文设计两种信息抽取方法。第一种方法是基于HTML结构树的半自动化信息抽取的方法。这种方法适用于那些网页特征(如作者、时间等)包含在固定的HTML标签节点中的网页。对于无法用第一种方法抽取的自由文本网页(如新闻、报道等),本文设计了一种基于统计的自动信息抽取方法,这种方法可以抽取出网页的标题、正文、时间,减少了系统对用户干预的依赖。2.期刊论文潘惠勇.高丽平.薛惠忠.PANHui-yong.GAOLi-ping.XUEHui-zhong基于逻辑定义的Web信息抽取与集成-中原工学院学报2005,16(2)针对Web上的数据不能被计算机或应用程序所理解的问题,设计并实现了一种Web信息抽取工具,通过采用抽取过程逻辑定义与抽取过程执行模块相分离的设计方法,提高应用系统的灵活性、维护性,使得从Web上抽取的信息更加符合用户需求,达到了自动灵活地从Web上的海量数据中抽取有价值信息的效果.3.学位论文陈志刚基于知识的Web信息自动抽取工具的设计与实现1999随着成为丰富而庞大的信息来源,对大量信息进行自动自理是亟待解决的问题,因为通过人工浏览,单个地处理WEB页面的方法是远远不够的.作者发现许多信息源是以相对稳定和结构化的格式提供信息,这样就可以利用信息抽取程序(InformateonExtractor)或信息打包程序(Wrapper)来自坳地获得格式化的信息(FormattedInformation).信息抽取程序是依赖于信息源的.由专家人工手写,或通过自动分析用户标记的一组Web页面归纳推导生成.该文将描述基于知识的Web信息抽取工具的原理、结构和实现,讨论基于知识的智能系统(Knowledge-basedAgent)的模型,描述关于信息源的格式的知识,根据用户标注的学习页面,自动获得信息源的格式或信息模板(InformationTemplate)和用户需要信息在页面上的位置,并加入知识库中,然后在知识库的指导下自动地从Web页面抽取相关信息.系统原型用专家系统工具CLIPS编写.4.学位论文薛惠忠WEB信息的抽取与集成2004随着计算机技术、通讯技术的飞速发展和个人计算机的普及,Internet作为新一代的信息载体和交流平台,在人们的生活、工作中扮演越来越重要的角色,尤其是它所蕴涵的信息价值,越来越受到人们的重视.但是,Web上的数据是非结构化或者是半结构化的数据,它只能被各种浏览器识别、解释、显示,却不能被计算机或应用程序所理解,不像传统的数据库数据那样,有确定的模式结构、有明确的语义信息、提供准确高效的查询.如何从这些海量的数据中找出对自己有用的信息,为我所用,这便是Web信息抽取的要求.目前的一些Web应用程序,它们是针对具体的应用的,往往采用人工的方法完成包装器的生成,也就是将Web数据抽取的信息硬编码到程度中,来实现数据的抽取工作.这样一旦上述Web数据抽取信息发生了改变,都会导致源程序的修改与重新编译,维护起来非常困难.该文总结了过去一些Web信息抽取技术,针对现有一些Web应用程序的不足与局限性,开发了我们自己的信息抽取工具.该信息抽取工具在整体上采用抽取过程逻辑定义与抽取过程执行模块相分离的结构,这样,可以提高系统的灵活性,充分利用现有资源.Web信息抽取出来之后,如果不加以利用,那将是毫无价值的.同时,抽取出来的结果也不一定能直接集成到目的库中去,必须要先进行清理、转换.所以,我们设计实现了一套ETL工具,来实现对Web数据的集成.此ETL工具不仅对Web数据适用,还可以应用于异构数据源,实现异构数据源数据的集成.5.学位论文白鹏洲基于框架语义标注的Web信息抽取技术研究2008随着Internet的快速发展,web已经成为全球化的信息源,它为信息共享和资源共享提供了一个良好的平台。然而,用传统的搜索引擎人们很难迅速准确地找到所需要的信息。信息抽取技术正是在这样的前提背景下产生的,信息抽取是从网页(文本)中自动地抽取出有用的信息的一种技术,它是目前智能信息处理的一个重要研究课题。信息抽取系统在web上抽取的信息不仅可以直接提供给用户,还可以作为构建智能查询系统和数据挖掘系统的基础,有着广阔的应用前景。本文首先介绍了信息抽取系统的产生背景、发展历史,研究了信息抽取技术的研究现状,分析了当前几种重要的信息抽取工具和当前信息抽取工具的一些缺陷——缺乏语义或语义模型过于简单。然后针对这一不足之处,利用框架语义在语义信息标示方面的优势来解决信息抽取结果中语义信息缺失或语义信息过于简单这一问题,提出了一种信息抽取的方法——基于框架语义标注的信息抽取。本文通过构造一个基于框架语义标注的web图书信息抽取系统来说明基于框架语义标注的信息抽取技术的思想——将框架语义网络技术、领域本体知识和信息抽取技术相结合。对自由文本进行信息抽取时,首先进行框架语义标注,再根据标注结果结合领域本体知识生成抽取规则。该方法的特点在于在抽取过程中以框架语义标注作为构建信息抽取规则的基础,用统一的方法来指导信息抽取过程一一以语义角色为核心构建信息模式,将信息模式的建立上升到语义角色一级,从而达到所抽取出信息的带有明确的语义信息。本系统对于实现基于语义的信息抽取研究具有重要的现实意义。不仅如此,它的体系结构和主要模块的设计思想,对于其他文档的信息抽取系统的设计和实现也具有较高的借鉴价值。6.期刊论文张树瑜.杜国宁.朱仲英基于Web的半结构化信息抽取技术研究-系统工程与电子技术2004,26(5)对信息抽取技术的发展和趋势作了一定分析,并讨论了当前半结构化信息检索领域的先进抽取技术.从应用的角度提出一种新的半结构化信息获取方法.该方法包括网页分析过程、映射的自动生成和信息抽取过程.通过建立标记树来进行网页结构分析,利用实例路径归纳学习出用户需求信息的公共路径,将效用的抽取结果提交用户,减少了用户负担,提高了查全率和查准率,为进一步满足Web信息抽取提供了一种新的高效信息抽取工具.7.期刊论文蒋邵衡WEB信息的抽取与集成研究-电脑知识与技术2009,5(30)随着信息技术的快速发展.人们从网络上发布、获取信息也越来越多,但网络上浩大的信息量也使得人们从网络上抽取信息的难度也越来越大如何从网络上海量的信息中找出对自己有用的信息,是人们关注的问题.在此背景下,该文设计了WEB信息抽取系统,改信息抽取工具提高了系统的灵活性,可以充分利用现有资源.本文链接:授权使用:武汉大学(whdx),授权号:3babe9f0-48eb-4f41-9d0e-9e3300ec7f7e下载时间:2010年11月19日