-web爬虫专题研究

balderito
1 ℃
2020-01-16

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

目录(Content)一、绪论......................................................................................................................................-1-1.1引言..............................................................................................................................-1-1.2背景..............................................................................................................................-1-1.3定义..............................................................................................................................-2-二、聚焦爬虫工作原理及关键技术..........................................................................................-2-2.1聚焦爬虫相关概念................................................................................................-2-2.2聚焦爬虫的研究内容.................................................................................................-2-2.3网络爬虫工作原理.....................................................................................................-3-2.3.1抓取目标..........................................................................................................-3-2.3.2抓取目标描述............................................................................................-3-三、网页搜索策略..................................................................................................................-4-3.1广度优先搜索策略................................................................................................-4-3.2最佳优先搜索策略................................................................................................-4-四、网页分析算法......................................................................................................................-4-4.1基于网络拓扑的分析算法...................................................................................-4-4.1.1网页(Webpage)粒度的分析算法...........................................................-4-4.1.2网站粒度的分析算法................................................................................-5-4.1.3网页块粒度的分析算法............................................................................-5-4.2基于网页内容的网页分析算法...........................................................................-5-4.2.1基于文本的网页分析算法.......................................................................-5-4.2.2HiddenWeb的网页分析方法.....................................................................-5-4.2.3数据密集型网页的分析方法.......................................................................-6-4.3用户协作网页分析算法............................................................................................-6-4.4基于领域概念定制的网页评价算法.......................................................................-6-五、聚焦爬虫系统体系结构....................................................................................................-7-5.1基于分类器的聚焦爬虫............................................................................................-7-5.2基于数据抽取器的聚焦爬虫...................................................................................-7-5.3基于用户学习的聚焦爬虫。...................................................................................-7-六、总结....................................................................................................................................-7-结论.............................................................................................................................................-8-参考文献......................................................................................................................................-8-一、绪论1.1引言随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(SearchEngine)，例如传统的通用搜索引擎AltaVista，Yahoo和Google等，作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是，这些通用性搜索引擎也存在着一定的局限性，如：(1)不同领域、不同背景的用户往往具有不同的检索目的和需求，通用搜索引擎所返回的结果包含大量用户不关心的网页。(2)通用搜索引擎的目标是尽可能大的网络覆盖率，有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。(3)万维网数据形式的丰富和网络技术的不断发展，图片、数据库、音频/视频多媒体等不同数据大量出现，通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力，不能很好地发现和获取。(4)通用搜索引擎大多提供基于关键字的检索，难以支持根据语义信息提出的查询。以上4个局限性已经将目前通用的搜索引擎的“信息涉及领域太广”，“返回冗余信息多”，“结果不够准确”等一系列的问题都反映出来；结果将是导致在某些特定领域的查询上则不够深入和专业化。为了解决上述问题，定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序，它根据既定的抓取目标，有选择的访问万维网上的网页与相关的链接，获取所需要的信息。与通用爬虫(generalpurposewebcrawler)不同，聚焦爬虫并不追求大的覆盖，而将目标定为抓取与某一特定主题内容相关的网页，为面向主题的用户查询准备数据资源。1.2背景近年来，随着互联网的快速发展，网络信息呈指数级的增长，这种信息量的飞速增长对通用网络爬虫和搜索引擎呈现了空前的挑战，越来越多的人希望能够快速且有效地找到自己所需要的信息。聚焦爬虫是一种面向主题的信息搜集系统，可以根据用户需要从互联网上自动搜集到主题相关信息，在主题搜索引擎、站点结构分析等方面取得越来越广泛的应用。传统的聚焦爬虫抓取的目标是与某一特定主题内容相关的网页，而在有些应用中，如网络目录，更多的是给用户提供主题相关网站。随着互联网信息的日益增多，目前靠人工来维护的网络目录越来越显得低效和不可行。为了实现具有自动维护功能的网络目录，将抓取目标锁定为主题网站的网站聚焦爬虫应运而生。网站聚焦爬虫是在现有聚焦爬虫的基础上加入网站选取和分类机制，从用户提供的种子网站开始，以Best-first原则获取最佳候选网站并开始新一轮的爬行分类。1.3定义网络爬虫源自Spider(或Crawler、robots、wanderer)等的意译。网络爬虫的定义有广义和狭义之分[1]，狭义的定义为：利用标准的http协议，根据超级链接和Web文档检索的方法遍历万维网信息空间的软件程序。广义的定义为：所有能利用http协议检索Web文档的软件都称之为网络爬虫。网络爬虫是一个功能很强大的自动提取网页的程序，它为搜索引擎从万维网下载网页，是搜索引擎的重要组成部分。它通过请求站点上的HTML文档访问某一站点。它遍历Web空间，不断从一个站点移动到另一个站点，自动建立索引，并加入到网页数据库中。网络爬虫进入某个超级文本时。利用HTML语言的标记结构来搜索信息及获取指向其他超级文本的URL地址．可以完全不依赖用户干预实现网络上的自动“爬行”和搜索。二、聚焦爬虫工作原理及关键技术2.1聚焦爬虫相关概念聚焦爬虫，又称主题爬虫（或专业爬虫），是“面向特定主题”的一种网络爬虫程序。它与我们通常所说的爬虫（通用爬虫）的区别之处就在于，聚焦爬虫在实施网页抓取时要进行主题筛选。它尽量