基于机器学习的Web信息提取技术的研究

eva1987131
6 ℃
2016-07-31

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

华中科技大学硕士学位论文基于机器学习的Web信息提取技术的研究姓名：金莉申请学位级别：硕士专业：计算机应用技术指导教师：卢正鼎2003.5.9基于机器学习的Web信息提取技术的研究作者：金莉学位授予单位：华中科技大学相似文献(2条)1.期刊论文金莉.卢正鼎Web信息提取中多策略学习算法的研究-华中科技大学学报(自然科学版)2003,31(1)将一种新的机器学习方法--多策略学习算法应用于Web信息提取领域,在原有的机械学习、统计学习和相关学习等三种机器学习方法基础之上充分考虑各学习方法的利弊,将三者有机结合,使得结合后的新算法在提取Web信息时比结合前任一单一机器学习方法都更有效、更准确.2.学位论文袁宇丽基于HTML网页的Web信息提取研究2005Web信息提取是指从Web文档中自动提取感兴趣信息的过程。它主要用在元搜索、信息代理等场合。本文首先介绍了信息提取技术及其产生背景和发展历史，分析了信息提取系统体系结构和关键技术。对Web信息提取的途径、主要学习算法、评价标准等进行了相关阐述。对Web信息提取采用一种基于知识领域的过滤作为其预处理。该体系主要分为两部分：一部分是基于专家给出的规则通过规则匹配对大量网页进行估测并选出特定领域的网页。第二部分是对于已经在第一步过滤出的网页进行URL聚类，从而得到用于信息提取的网页。以新闻网站的过滤作为具体实例。提出了一种针对互联网中大量存在的模板网页主题信息进行快速提取的方法。该方法的主要特点为：1)直接对主题信息进行提取，而不需要通过去除网页噪音的方式来提取主题信息；2)对同模板产生的大量网页，通过机器学习生成模板后，便可直接提取网页主题信息，而不需要对每一个网页都进行分析处理；3)以新闻网页的提取为例分析该方法的具体使用。提出基于主题的Web信息提取系统模型，主要是指选择性地搜寻那些与预先定义好的主题集相关的页面进行提取的行为。论文中给出了该提取系统的框架模型，分析了系统中各功能模块的实现原理，并对主题信息的提取进行了详细阐述。本文链接：：上海海事大学(wflshyxy)，授权号：9dc6a6c3-04b9-4dad-a247-9e0a0081f2de下载时间：2010年10月9日