浙江大学计算机科学与技术硕士学位论文Web信息自动抽取技术研究姓名:赖春波申请学位级别:硕士专业:软件工程指导教师:陈纯;王灿20080601Web信息自动抽取技术研究作者:赖春波学位授予单位:浙江大学计算机科学与技术学院相似文献(10条)1.期刊论文周津.朱明.郑全基于XML的网页信息自动抽取-计算机应用2004,24(z1)文章提出了一种基于XML的网页信息自动抽取的方法和框架,通过利用网页中信息的结构相似性和词法相似性,自动学习出网页信息的记录模式并归纳出相应的词法模式,从而避免了繁重的人为样本收集与标记工作,也免去了人工给定模式的工作,具备很强的自动性.同时自动归纳出的词法模式还可以应用到其他网站和非结构化文本中.2.期刊论文于琨.蔡智.糜仲春.蔡庆生基于路径学习的信息自动抽取方法-小型微型计算机系统2003,24(12)针对用户需求的网页信息自动抽取是解决互联网信息爆炸问题的一个有效途径,然而现有的信息自动抽取方法均难以同时满足网页信息自动抽取中查全率与查准率高、抽取速度快、抽取信息量大和用户负担轻的要求.本文提出了一种基于路径学习的信息自动抽取方法,并采用该方法编制了一个商品价格信息自动抽取系统.实验结果表明,该方法具有用户负担较轻(只需用户提供2~4个学习实例)、查全率(97.04~100%)与查准率(99~100%)高、可实现大样本量信息抽取和时间资源耗费少(抽取时间<1秒)等特点,能基本满足网页信息自动抽取的要求.3.学位论文王庆伟网页信息的自动抽取方法研究2005本文首先介绍了网页信息抽取的背景和发展。根据所使用方法的不同,对多项相关的研究做了概要性的叙述,介绍了这些研究的思想及其优、缺点。对于目标记录所在区域的确定,本文使用基于启发式的方法来解决,介绍了三种针对这一问题的启发式,分别从节点扇出、子树大小增量和子树标记数三个方面对网页进行考察,并且将它们结合起来使用以取得更好的效果。对于记录的抽取,针对现有方法对噪声敏感的问题,本文提出了基于记录子树的最大相似度发现记录模式的思想,称为最大相似子树方法,将相似度超过一定阈值的子树识别为同类记录。这种方法在同类记录的表现模式有一定差异的情况下依然能够正确识别记录。对于记录属性的抽取,本文将隐马尔可夫模型用于网页信息抽取问题,介绍了隐马尔可夫模型的基本结构以及如何将其应用到信息抽取领域。针对本文的特定问题,确定了隐马尔可夫模型的结构,并使用训练样本学习了模型的参数。4.期刊论文程显林.王敬山.韩冬.姜建国.CHENGXian-lin.WANGJing-shan.HANDong.JIANGJian-guo互联网络科技信息自动抽取系统的开发-大庆石油学院学报2008,32(6)为自动从网页中抽取所需科技信息,根据两类知识:一类描绘网页本身的特点及识别各网页信息对象的确定模式知识;另一类描述网页信息记录块及各网页信息对象的非确定模式知识,提出一种基于知识库的信息抽取方法,给出初步实现的可以运行的原型系统.该系统依据前一类知识,经过动态分析,获得后一类知识,然后利用这2类知识自动完成从信息内容类似,但其表现形式各异的网页中抽取所需的科技信息.应用结果表明:实验网页论文信息被成功提取.5.会议论文王文生.谢能付基于Web的农业信息自动抽取方法研究2007面向Web的信息抽取是当前信息抽取研究领域的热点之一.本文从领域的角度出发,研究基于Web的农业信息自动抽取方法。该方法的主要思想是利用预先领域语料生成领域词汇集,自动计算网页内容的相似度,确定信息采集的页面区域,再根据网页内容半自动归纳学习抽取规则,自动抽取网页信息,形成结构化的信息。试验证明,这种方法能够较好回避网页信息的不规范性和动态性,特别是在领域约束下,具有较高的抽取效率。6.会议论文王文生.谢能付基于Web的农业信息自动抽取方法研究2009面向Web的信息抽取是当前信息抽取研究领域的热点之一。本文从领域的角度出发,研究基于Web的农业信息自动抽取方法。该方法的主要思想是利用预先领域语料生成领域词汇集,自动计算网页内容的相似度,确定信息采集的页面区域,再根据网页内容半自动归纳学习抽取规则,自动抽取网页信患,形成结构化的信息。实验证明,这种方法能够较好回避网页信息的不规范性和动态性,特别是在领域约束下,具有较高的抽取效率。7.会议论文李芳.盛焕烨特定领域专家主页信息的自动抽取本文介绍了领域专家主页信息自动抽取研究的背景和具体实现的方法.由于网上信息的动态性,中文计算语言学虚拟信息中心需要不断的更新,自动维护可以节省大量的人力和物力.基于这样的研究背景和目的,我们实现了一个计算语言学专家网页信息的自动抽取实验系统.它主要由三个部分组成:自动搜索个人网页、基于关键字自动判断专家网页,基于规则自动抽取网页上的个人信息,如,姓名、单位、电话、研究方向等.实验系统的目的是实现数据库专家信息的自动维护和自动扩展.初期实验显示了可喜的结果,但还需要进一步的完善和研究.8.学位论文邵辉动态网页信息抽取技术的研究2006Internet的飞速发展使其成为日益重要和最具潜力的资源。WWW作为一种新的信息资源,为计算机领域新技术的产生开辟了新的领域,同时也为传统技术的研究提出了新的方向。研究表明,目前Web上的页面主要是以动态页面的形式存在(占总数的80%以上),即用户在调用页面时临时通过程序动态生成的页面。动态页面使用固定的显示模板,然后将后台数据库中的数据嵌入而得。这些数据经过专业人员组织整理,因而具有更高的价值。本文重点研究动态页面的抽取技术,它的主要挑战在于以下几点:(1)动态页面表示形式千变万化,如何从多样的动态页面中有效的定位网页信息。(2)用户需要从动态网页中抽取的信息内容可能多种多样,如何精确的表示不同用户所定义的不同的抽取请求。本文重点研究了动态网页抽取技术。通过深入分析动态网页抽取技术中的关键和难点以及己实现系统的特点与不足,本人在研究获得的算法基础上设计了一个基于树模型和Wrapper技术的动态网页抽取系统。主要的研究和成果如下:1.针对动态网页按信息结构的不同进行了分类定义。将动态网页分为多记录项动态网页和单记录项动态网页。2.针对多记录动态网页,提出一种新的基于树模型的信息抽取算法——DETM。它充分利用了HTML的树型结构,运用树编辑距离模型和树归并算法来定位和抽取网页信息。3.针对单记录动态网页,提出一种基于用户自定义模板的信息抽取算法。它利用模板自动生成技术较好的解决了单记录动态网页信息项定位比较困难这个难题,将网页结构信息使用XML文档的形式表示。4.基于上述的对动态网页的两种分类定义和各自的抽取算法,使用java在开源项目QUIOTIX的基础上,实现了一个动态网页的抽取系统。它能对各类动态网页实现自动抽取,生成以XML结构化文档为表现方式的抽取结果。实验表明,该动态网页抽取系统对于单记录项网页抽取精度达到85%,对于多记录项网页的抽取精度达到97%。9.期刊论文朱明.黄云.蔡庆生基于多知识的Web网页信息抽取方法-小型微型计算机系统2001,22(9)从Web网页中自动抽取所需要的信息内容,是互联网信息智能搜取的一个重要研究课题.为有效解决网页信息抽取所需的信息描述知识获取问题,这里提出了一种基于多知识的Web网页信息抽取方法(简称MKIE方法).该方法将网页信息抽取所需的知识分为二类.一类是描绘网页内容本身表示特点,以及识别各网页信息对象的确定模式知识;另一类则描述网页信息记录块,以及各网页信息对象的非确定模式知识.MKIE方法根据前一类知识,动态分析获得后一类知识;并利用这两类知识,最终完成从信息内容类似但其表现形式各异的网页中,抽取出所需要的信息.美大学教员论文网页信息抽取实验结果表明,MKIE方法具有较强的网页信息自动识别与抽取能力.10.学位论文侯锟Web页面信息自主抽取技术的研究2004随着Internet应用的逐渐普及,WWW已经发展成为一个巨大的分布式信息空间,为用户提供了一个极具价值的信息源.但因Internet所固有的开放性、动态性与异构性,又使得用户很难准确快捷地从WWW上获取所需信息.如何快速、准确的从浩瀚的信息资源中寻找到所需信息己经成为困扰网络用户的一大难题.该文基于表格结构及列表结构Web信息源提出了Web页面信息自主抽取的方法.可根据用户对信息的需求自主地从相关页面中抽取信息并将抽取信息按关系模型进行重组存放在数据库中,该文主要工作包括以下两个方面:第一,对表格结构信息源的信息抽取.仅需标注一页网页,即可获取抽取知识,通过自学习能够较好的适应网页信息的动态变化,实现信息的自动抽取.第二,对列表结构信息源信息的抽取.通过对DOM树结构的分析,动态获得信息块在DOM层次结构中的路径,根据信息对象基本的抽取知识,获得信息对象值.该文与其它抽取方法比较有三个特点:1.用户可以定制信息,即可根据用户的需求自主地抽取信息.2.用DOM树结构中的路径表达式来定位HTML中要抽取的信息;3.采用自学习的方法以适应网页信息的动态变化.在理论上,抽取规则很有特点,在实际应用中不但可直接应用于Web查询和搜索,也可用于其它应用(例如数据仓库和数据挖掘等)的数据准备.本文链接::上海海事大学(wflshyxy),授权号:6c204d69-cc5e-4526-a23f-9e0a0083484e下载时间:2010年10月9日