基于XML的Web信息抽取研究与实现

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

武汉理工大学硕士学位论文基于XML的Web信息抽取研究与实现姓名:轩艳艳申请学位级别:硕士专业:计算机应用技术指导教师:胡燕20080501基于XML的Web信息抽取研究与实现作者:轩艳艳学位授予单位:武汉理工大学相似文献(10条)1.学位论文秦磊基于XML的信息抽取和集成模型的研究与设计2007随着近几年Internet的飞速发展,虽然Web已经发展成为了一个巨大的分布和共享信息资源的平台,但是如何从Web中快速和有效地获取信息仍然是困扰着Web用户的一个问题。在这样的背景下,出现了Web信息抽取技术,Web信息抽取技术是从信息抽取技术中衍生出来的,它继承和发展了信息抽取领域的一些关键技术,同时,XML技术出现后,迅速成为了互联网信息表示的标准。本文就是把传统的信息抽取技术同XML,技术结合起来,在Web信息抽取过程中起到了事半功倍的效果。本文首先对现有的信息抽取技术和XML技术加以研究,在此基础上提出了适合XML,的通用的树型结构抽取规则,它能够把Web上的数据抽取出来整合到指定模式的XML,文档中去。Web信息抽取出来,用户如果不能够随心所欲地加以利用,那么将是毫无价值的。所以,抽取信息的数据集也是Web信息抽取过程当中不可忽视的一个子过程。那么,如何把抽取出来的数据准确地映射到目标数据库中也是本文需要研究的范畴。同时,为了方便用户对抽取出的数据进行二次利用,本文还提出了基于XML,的Web查询模式。总之,Web信息抽取技术结合XML的存储和访问技术,最大限度地实现了Web信息的再利用。本文的创新之处在于作者提出了一个信息抽取原型系统的设计以及实现方案,该系统采用了多策略的基于XML的抽取方法来满足各个不同领域的抽取需求。在文章的最后,作者基于江西省新华书店的实例对系统的各项抽取系数进行了评估,基本达到了预期的效果。2.学位论文史西兵基于XML的Web信息抽取技术研究2008互联网的飞速发展使其成为全球信息传播与共享的重要资源,Web上的数据一直呈几何级数增长,要想从Web上获取一条有用信息的难度却越来越大,“信息过载”已经成为一个亟待解决的问题。一种理想的情况是:人们可以像查询数据库一样查询Web上的信息。然而,如何从浩繁的Web数据中抽取出有用的信息成为众多研究工作希望解决的问题。Intemet具有的海量、异构、动态变化等特性使Web信息抽取(IE,InformationExtration)不同于传统信息抽取,同时带来了新的挑战。抽取技术随着需求的增加而不断丰富,近年来国内外涌现了多种信息抽取方法。这些方法各有侧重地解决了上述Web信息抽取中面临的问题,总体上取得了良好的效果,但在某些方面存在不同程度的局限或缺陷。为了更好地解决Web信息抽取面I临的诸多问题和不足,有必要对Web信息抽取问题作进一步研究。本文使用标准的XML技术来解决网页信息抽取问题,开发出了一个专业化的诈骗事件信息抽取系统(CEIES,CheatingEventInformationExtractionSystem)。基于标准的XSLT,可以利用它强大而且灵活的特性编写简单、健壮和通用的抽取规则。首先获得目标HTML,页,并将HTML文档转换成符合XML语法的XHTML,文档,然后通过XML强大的数据查询能力对构建的XML文档库进行查询,并利用DOM树将产生的抽取规则存入规则库中。根据格语法表示的关键动词用法,抽取句子的局部信息,用知识图表示。通过知识图的合并,对局部抽取信息进行综合,最后,把得到的抽取结果存储在数据库中,从而完成用户所需的数据的抽取。由于CEIES事是一个基于自然语言理解的方式的专业化Web信息抽取系统,可以从任何类型网站上的抽取诈骗事件信息。因而具有良好的可扩展性和适应性。经测试,本信息抽取系统的准确率和召回率都达到了较满意的水平。3.学位论文周盛强半结构化Web信息抽取研究2009随着互联网的快速发展和普及,人们越来越依赖于网络获取信息。如何从中快速高效的获得想要的信息成为迫切需要解决的问题,Web信息抽取技术应运而生。目前,已经产生了各种各样的方法来生成包装器,但这些方法有不同的局限性,在精确度、健壮性和通用性方面难以达到很高的要求。因此,信息抽取的研究重点就是如何构建良好的包装器。本文首先对现有的信息抽取技术和XML技术进行分析与研究,提出一个基于XML技术的Web信息抽取系统。通过该系统用户能够将HTML页面中感兴趣的信息点抽取出来,并用结构化和扩展性强的XML来表示抽取结果。该系统具有较好的通用性和灵活性,用户能够快速定制应用于不同领域的Web信息抽取包装器。本文应用XPath技术在数据定位方面的特点,提出一种基于DOM的XPath生成算法。本文利用XSLT作为抽取规则的描述语言,并使用XPath来定位待抽取信息点。对于Web信息抽取的问题利用本文提出的Web信息抽取方法能够较好地解决,同时,系统的召回率和准确率能够达到较高的百分比。4.学位论文石宇基于XML的Web信息抽取与集成技术的研究2006随着近几年Internet的飞速发展,虽然Web已经发展成为一个巨大的分布和共享信息资源的平台,但如何从Web中快速、有效的获取信息仍然是困扰着Web用户的一个问题,在这种背景之下,出现了Web信息抽取技术,Web信息抽取技术是从已经存在多年的信息抽取技术中繁衍出来的,它继承和发展了信息抽取领域的一些关键技术。同时,XML技术出现之后,迅速成为互联网信息表示的事实标准,本文把传统的信息抽取技术同XML技术结合起来,在Web信息抽取过程中起到了事半功倍的作用。本文首先对现有的信息抽取技术和XML技术加以研究,在此基础上提出了适合XML的结构又较为通用的树型结构抽取规则,它能够把Web上的数据抽取出来整合到指定模式的XML文档中去。Web信息抽取出来,用户如果不能随心所欲的加以利用,那将是毫无价值的。所以,抽取信息的数据集成也是Web信息抽取过程中不可忽略的一个子过程。那么,如何把抽取出来的数据准确的映射到目标数据库中也是本文需要研究的范畴。同时,为了方便用户对抽取出的数据进行二次利用,本文还提出基于XML的Web查询模式。总之,Web信息抽取技术结合XML的存储和访问技术,最大限度的实现了Web信息的再利用。本文的创新所在是作者提出了一个信息抽取原型系统的设计及实现方案,该系统采用多策略的基于XML的抽取方法,来满足各个领域不同的抽取需求。在文章的最后,作者基于实例对系统的各项抽取系数进行了评价,基本达到了预期的效果。5.期刊论文李姗.黄水源.LIShan.HUANGShui-yuan基于XML的WEB信息抽取模型设计-微计算机信息2009,25(9)对现有的信息抽取技术和XML技术加以研究,在此基础上提出了适合XML的通用的web信息抽取模型,它能够把Web上的数据抽取出来整合到指定模式的XML文档中去,最大限度地实现了Web信息的查询与共享.6.学位论文卢睿基于XML的Web信息抽取研究2005本文利用了标准的XML技术来解决信息抽取问题,提出一个基于XML技术的Web信息抽取系统。信息抽取中的关键问题是如何编写健壮、准确和通用的抽取规则。本文应用XSLT和XPath技术在数据定位和转换方面的优势,解决这一关键问题。并通过样本学习算法,实现对感兴趣区域的识别,进而实现对信息的准确定位,并且生成以XSLT表达的抽取规则。由于使用XSLT,抽取规则较容易理解和修改。由于抽取规则的失效主要源于XPath路径表达式的失效,所以本文还对抽取规则的优化方法进行了研究,提出了几种改进的信息定位方法。并且从实际应用的角度,提出几种方法的组合策略。在此基础上可以编写出更为简单、健壮和通用的抽取规则,在实际应用中达到了较高的查准率。7.学位论文刘辉信息集成系统中面向领域的Web信息抽取研究2008互联网上信息爆炸,如何准确、快速地检索出所需的信息以及更有效的利用这些信息,成为亟待解决的问题。在信息集成系统IIS(InformationIntegrationSystem)中,如何整合各种异质的Web数据源并对上层应用提供统一的接口,为系统提供了最广泛、最庞大和实时的数据,是Web信息抽取系统必须解决的问题。本文研究的重点包括Web信息抽取规则和抽取系统框架两部分,提出并实现了面向领域的信息抽取框架,对Web页面自适应地采用DOM和NLP的方法进行抽取。Wrapper的核心是抽取规则,即源映射目标模式的描述。本文提出的基于DOM映射的信息抽取方法,采用标准的XML技术操纵Web页面,通过归纳学习获取抽取规则,执行规则解释引擎获取抽取结果。对于非数据导向型的Web页面,引入NLP领域相关理论,结合Web页面标签的特点,将数据源转化为分词/分类处理,采用匹配触发的模式,在触发事件中计算语义距离来确定所需抽取的信息项。基于NLP的抽取方法弥补DOM映射方法的不足。在系统中对数据源进行预处理,利用信息熵检测并提取粗糙信息块。底层采用领域本体文件描述领域信息,映射于上层的抽取基本决策信息,以便于领域的切换。抽取结果存放于数据库中,并提供抽取的本体库,以供信息集成系统中其它模块使用。通过领域内的Web页面抽取试验,抽取结果验证了抽取算法和系统框架的有效性和可用性,具有可扩展研究和商业应用前景。8.学位论文陈昌敏基于XML技术的WEB数据挖掘应用和研究2007随着互联网的迅猛发展,“信息过载”已经成为一个亟待解决的问题。为了使用户准确获取他想要的信息,信息抽取成为必要。从网页中抽取信息的程序称为Wrapper。关键的任务是:Wrapper的构造要尽可能快速,不需要过多人为地参与,并且,构造出的Wrapper要尽可能健壮,能适应网页的变化,同时,还要尽可能通用,与具体网站无关。针对Wrapper生成问题,人们提出了各种各样的方法。这些方法的抽取模式语言基本上都是自己定制的,往往很简单、难以描述精确或者复杂的信息抽取模式。尽管通过人为标记的样本可以自动归纳出抽取规则,但这些抽取规则很难达到很高的精度、健壮性和通用性。本文使用标准的XML技术来解决网页信息抽取问题。基于标准的XSLT,可以利用它强大而且灵活的特性编写简单、健壮和通用的抽取规则。为了快速的构造抽取规则,我们开发了一个信息抽取平台。除了手工编写抽取规则外,本文提出了新颖的方法自动归纳网页模板和记录模板,以及相应的抽取规则。网页模板可以用来抽取网页的主要内容。这对很多基于网页内容的工作很重要,比如网页信息检索,网页聚类与分类等等。记录模板可以用来抽取网页中的列表数据。另外,由于使用的是XSLT,抽取模式可以很容易理解和修改。最后,我们开发了多网页信息抽取框架。实际的应用经常需要对多个网页进行抽取。基于本文所设计开发的Web信息抽取平台,可以快捷地构建出健壮和通用的网页信息抽取Wrapper。本文主要进行了以下几项工作:1.开发了网页信息抽取平台,包括一个帮助构造抽取模式的用户图形界面。使用本文的平台和图形用户界面,开发一个网页信息抽取程序只需很短时间。2.研究了几种健壮的抽取模式构造方法。3.开发了一个通用的链接组抽取模式。4.网页模板的自动归纳。相同网站一般存在外表相似的网页。这些相似的网页都是由同一个网页模板所生成。相似网页除了主要内容不同外,其它的部分完全一样。这些相同的部分都属于网页模板中的内容。归纳模板,获取网页主要内容对各种基于网页内容的分析处理(比如信息检索、网页分类与聚类)有着极大的意义。本文通过比较相似网页结构完全自动的归纳出网页模版并生成网页主要内容的抽取模式。5.记录模板的自动归纳。根据数据库查询结果所生成的页面往往包含多条相似的信息块,比如google的检索结果页面。每条记录都具有相似的外观和结构,因为它们都是由相同的记录模板所生成的。本文根据记录的相似性完全自动的归纳出一个网页的记录模板并生成相应的抽取模式。9.学位论文李虹基于XML技术的Web挖掘2005随着网络信息的容量逐日膨胀,信息过载已经成为一个严峻的问题。如何使访问互联网上的信息像本地数据库信息查询一

1 / 69
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功