Deep+Web数据抽取和语义标注技术研究

alphatrian
2 ℃
2020-03-20

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

江苏大学硕士学位论文DeepWeb数据抽取和语义标注技术研究姓名：杨晓琴申请学位级别：硕士专业：计算机应用技术指导教师：鞠时光20091216DeepWeb数据抽取和语义标注技术研究作者：杨晓琴学位授予单位：江苏大学相似文献(5条)1.学位论文魏勇刚DeepWeb数据抽取及语义标注研究2009随着计算机和网络技术的快速发展，互联网在人们的日常生活中发挥着越来越重要的作用。信息检索作为互联网应用的重要组成部分，是用户获取信息的主要方法。目前，信息检索一般通过搜索引擎完成。由于技术原因，传统的搜索引擎只能发现静态网页内容，而无法获取Web数据库中的信息。如何能够充分利用Web数据库中丰富的资源，成为一个值得研究的问题。br　　存储在Web数据库中、不能通过超链接访问的资源集合被称为DeepWeb。为自动获取DeepWeb背后众多Web数据库中的资源，需要建立DeepWeb数据集成系统，该系统的查询结果处理模块分为数据抽取和语义标注两部分。数据抽取是指通过技术手段将Web页面上的数据抽取出来，保存为XML文档或关系模式，作为下一步处理的基础。语义标注是指对抽取出的数据增加语义注释，便于计算机识别与处理，从而具有更高的利用价值。br　　本文使用Xpath技术完成DeepWeb数据抽取并提出一种基于中文词性和领域知识的语义标注方法。基于Xpath的数据抽取方法首先将DeepWeb查询结果页面规范化为XML格式，然后在遍历XML文档的过程中确定待抽取数据路径表达式，最后根据该表达式完成数据抽取并保存为XML格式。语义标注给抽取出的数据增加语义信息。本文所述语义标注方法借助中文分词工具得到抽取结果的词性，并根据词性或词性组合与语义建立映射规则，同时结合领域知识进行语义标注。实验表明，本文所述方法能够对DeepWeb查询结果准确抽取并对抽取结果进行语义标注，从而验证了方法的有效性。2.学位论文黄健斌基于条件概率图模型的DeepWeb数据抽取与集成研究2007目前，大量的结构化数据蕴藏在Deepweb中，但是由于Web网页的半结构性、Web超链接的自由无序性以及DeepWeb数据的海量性、异构性、多样性、动态性等特点，使得DeepWeb数据抽取与集成成为当前亟待解决的研究课题。概率图学习模型是机器学习领域当前异常活跃的研究热点之一。它在数据挖掘、信息抽取、信息检索等领域得到了广泛而成功的应用。本文将条件随机场，一种序列条件概率无向图模型，引入到DeepWeb数据抽取和集成的研究中，对其中的查询接口发现、分类、集成以及查询结果数据的抽取和重复记录检测等多个具有挑战性的实际问题进行了系统和深入地研究。针对不同问题提出了改进的条件随机场模型、新的算法或新的实现策略，主要工作概括如下：(1)针对DeepWeb查询接口自动搜索和发现问题，提出了基于条件随机场的网页链接路径学习模型，给出了使用增强学习技术对超链接进行评分的算法。实验结果表明，搜索查询表单的性能明显优于其它袁单爬虫。(2)使用条件最大熵模型处理DeepWeb查询接口识别和领域分类问题。提出了一种仅利用表单结构特征来识别在线数据库查询接口的通用方法。此外，利用最大熵分类器的优点，融合查询表单的结构、内容等多种特征来实现查询表单的领域分类。实验结果表明。该方法分类准确率高。(3)利用有序树模型来表示抽取的查询接口中查询项、字段和属性问的层次关系。提出了一种层次序列条件随机场模型，通过对查询表单中的查询元素进行联合标注分类，实现异构查询接口模式匹配。实验结果表明，该方法具有较高的匹配准确率和跨领域通用特性。(4)提出了一种基于标记树的网页区域分割方法，并且结合网页聚类和跨网页数据区域匹配技术来识别网页中的动态数据区域。针对多源Web记录语义标注和集成问题，提出一种混合跳链条件随机场模型。该模型通过将最大熵和线性链条件随机场混合，能够利用相关数据库中的记录作为训练样本识别抽取数据的语义标注，从而减少了对手工标注样本的依赖：此外增加对跳边的支持，使得模型能够处理状态变量问的长距离依赖。(5)最后，针对重复Web记录检测问题。提出一种条件训练字符串编辑距离模型，可以从训练样本数据中自动学习字符串对的相似函数。此外，使用支持向量机联合多字段相似度实现重复记录检测。实验结果表明。避免了采用固定距离度量函数可能引起的字段相似度估计偏差，并且提高了重复记录检测的鲁棒性。3.学位论文李文骏DeepWeb数据源发现和语义标注技术研究2008随着Internet技术的快速发展，Web数据库得到了广泛应用。这些Web数据库能够根据用户提交的请求，将其内容以HTML页面的形式动态呈现出来。对于传统搜索引擎来说，这部分页面信息并不能被索引到，我们称之为DeepWeb。最近几年的研究成果表明，DeepWeb蕴含着大量有价值的信息，这些信息与市场需求高度相关。因此，DeepWeb已成为一个研究重点，受到研究人员更多的关注。本文首先介绍了DeepWeb的研究框架，然后对DeepWeb数据源发现技术和DeepWeb语义标注技术进行了深入研究，并提出相应的算法和模型。最后，设计和实现了一个面向图书领域的垂直搜索引擎原型系统。本文研究的主要内容包括：(1)介绍了DeepWeb研究的基本框架，并对DeepWeb数据库分类和Web数据抽取问题作了概述。(2)分析了传统搜索引擎的工作原理，在此基础上提出一种基于搜索引擎的DeepWeb数据源发现方法。(3)根据从国外相关研究中得到的一些启发，提出一种DeepWeb数据源间的交叉标注方法。(4)设计和实现了一个图书领域的垂直搜索引擎原型系统，并对上文提出的技术在该垂直搜索引擎上的应用做了分析。本文还对文中提出的方法和技术进行了实验设计，通过对实验结果的分析进一步验证本文提出的技术方法是有效的。4.期刊论文马安香.张斌.高克宁.齐鹏.张引.MaAnxiang.ZhangBin.GaoKening.QiPeng.ZhangYin基于结果模式的DeepWeb数据抽取-计算机研究与发展2009,46(2)高效、准确地获取DeepWeb数据是实现DeepWeb数据集成系统的关键问题,然而重复语义标注、嵌套属性的存在是Deepweb数据抽取效率和准确率难以提升的瓶颈问题.因此提出基于结果模式的DeepWeb数据抽取机制,将数据抽取工作分为结果模式生成和数据抽取两个阶段,属性语义标注放在结果模式生成阶段来完成,有效解决了重复语义标注问题;同时针对嵌套属性问题,提出一种有效的解决方法.与同类成果相比,基于结果模式的数据抽取方法提高了数据抽取的准确率及效率,并且为DeepWeb数据集成奠定了良好的基础.5.学位论文张铭数字图书馆元数据组织和互操作研究2005数字图书馆作为第二代Internet的关键基础设施，近年来取得了快速的发展。面对海量的、异构的数字资源仓储，帮助用户准确有效地找到所需信息成为重大挑战之一。元数据是“关于数据的结构化数据”，为数字图书馆提供了一种精确描述数据内容、语义和服务的机制。在资源建设方面，元数据作为定义和组织数字图书馆信息资源的基础，起着重要作用。因此，元数据管理(包括元数据自动抽取、元数据语义标注和语义检索等)是重要的研究课题。数字图书馆间的互操作是服务集成的基础。简单地说，互操作代表了数字图书馆各个组成部分独立地演变和方便有效地互相调用的能力。数字图书馆之间的互操作包含两个层面，一是数据级别的互操作，二是服务级别的互操作。数字图书馆服务集成依赖于元数据组织和服务互操作，这是数字图书馆研究和发展的关键问题。本文的主要贡献可以概括为以下三个方面：1.定义了基于语义网理论的元数据语义信息模型DLOnto，该模型建立在中图分类主题词表资源本体和WordNet基础之上。提出了基于DLOnto的查询扩展和语义相关度算法，该算法应用于元搜索的结果排级和数字图书馆的语义排级都取得了很好的效果。2.提出了结合SVM和二元HMM自动抽取科技文献元数据的方法，利用双弯曲线函数把SVM分类结果拟合为二元HMM模型的单词发射概率，再采用二元HMM模型对SVM分类结果进行校正。实验表明，本文的元数据自动抽取理论和方法非常有效。3.提出了支持OAI-PMH和Web服务的互操作框架。支持OAI-PMH选择性收割协议和基于元数据本体MetaOnto元数据互操作，支持基于OAI-PMH和WSRF的元数据同步，支持基于OWL-S语义描述的Web服务进行服务集成和元搜索。在PKUSpace中的相关实验表明，本文提出的元数据组织和基于互操作进行服务集成的理论和方法是行之有效的。为数字图书馆资源语义组织，元数据自动标注，异构数字图书馆数据和服务集成提供了切实可行的解决方案，最终帮助用户准确有效地找到所需信息。本文链接：授权使用：燕山大学(ysdx)，授权号：a9453cbb-10dd-4dc8-a895-9e0e011797ac下载时间：2010年10月13日