北邮毕设答辩-网络爬虫设计及算法研究

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

网络爬虫设计及相应算法研究姓名:指导教师:项目介绍1完成内容4选题背景2主要工作3总结及展望5•项目名称:网络爬虫设计及相应算法研究TheResearchandDesignofWebCrawler•项目类别:软件研究设计类•项目来源:科研项目项目简介1项目介绍1完成内容4选题背景2主要工作3总结及展望5搜索引擎介绍:互联网的迅速发展,使得网上信息越来越多,搜索引擎正是为了解决在浩瀚的信息海洋中快速高效的寻找信息的问题。搜索引擎是通过互联网搜索信息的重要途径,涉及到多个领域的理论和技术,具有很高的综合性和很强的挑战性。本课题研究的内容是搜索引擎的关键部分——网络爬虫。选题背景2网络爬虫介绍:网络爬虫是搜索引擎系统中十分重要的组成部分,它负责从互联网中搜集网页、采集信息,这些网页信息用于建立索引从而为搜索引擎提供支持,它决定着整个引擎系统的内容是否丰富,信息是否即时,因此其性能的优劣直接影响着搜索引擎的效果。选题背景2网络爬虫的基本原理:1)从一个初始URL集合中挑选一个URL,下载该URL对应的页面;2)解析该页面,从该页面中抽取出其包含的URL集合,接下来将抽取的URL集合再添加到初始URL集合中;3)重复前两个过程,直到爬虫达到某种停止标准为止。选题背景2项目介绍1完成结果4选题背景2主要工作3总结及展望5学习爬虫的基本技术•网页抓取技术•网页去重技术•多线程技术主要工作3网页抓取技术•宽度优先遍历算法和广度优先算法•PageRank算法——基于链接的搜索算法主要工作3网页去重技术•BloomFilter算法•错误率估计•最优哈希函数个数•位数组大小主要工作3多线程技术•多线程•半同步/半异步并发模式•多线程的问题主要工作3项目介绍1完成结果4选题背景2主要工作3总结及展望5设计实现爬虫系统,并对系统性能就以下两方面进行比较分析:•在测试时间、最大连接数等基本参数相同的情况下,通过给爬虫系统设置不同的多线程数进行页面抓取,并对结果进行比较分析。•在测试时间、请求线程数、页面抓取线程数等基本参数相同的情况下,通过改变爬虫系统的最大页面连接数进行页面抓取,并对结果进行比较分析。完成结果41.测试爬虫在测试时间、最大连接数等基本参数相同的情况下,采用单线程或多线程方式抓取页面的速度,结果如下表:2.测试爬虫系统在测试时间、请求线程数、页面抓取线程数等基本参数相同的情况下,采用不同的并行连接数抓取页面的速度,结果如下表:完成结果4TIME/sDSCONNHSPNUMMBP/sMB/s600116128529.14.80.49600216131633.45.30.56600416128531.04.80.52600816134235.35.70.59600116232333.55.40.56600216232433.05.40.55600416233135.15.50.58600816231532.25.30.54TIME/sDSCONNHSPNUMMBP/sMB/s60088833922.45.70.37600816834321.45.30.36600832882340.113.70.67600864878336.013.10.606008128881341.213.60.696008256880840.213.50.676008512881239.913.50.661.测试爬虫在测试时间、最大连接数等基本参数相同的情况下,采用单线程或多线程方式抓取页面得到的表格绘制曲线图如下:从图中可以看出,在多线程的情况下,爬虫系统的效率的确有所提高,但是提高的效果并不十分明显。而理论上,多线程的抓取效率应该是要明显高于单线程的,但是由于测试是在单CPU机器上进行的,所以效率的提高并不能很好的体现出来。完成结果41.测试爬虫系统在测试时间、请求线程数、页面抓取线程数等基本参数相同的情况下,采用不同的并行连接数抓取页面得到的表格绘制曲线图如下:从图中可以看出,在其他条件相同的情况下,最大并行连接数对爬虫的爬取效率的影响比较大。当最大连接数从16变化到32时,抓取效率提高了将近1倍,之后又逐渐趋于平缓。这是因为系统的线程数限制了抓取效率。在相同的HTTP请求和页面抓取的线程数的条件下,在一定的范围内,最大连接数越高,爬虫效率也越高,当超过某一范围,爬虫的效率会趋于平稳。完成结果4项目介绍1完成结果4选题背景2主要工作3总结及展望5总结:1、完成了爬虫系统的学习与设计;2、研究比较了相关算法;3、对系统结果进行了比较分析。展望:1、爬虫系统效率仍然比较低;2、爬取的信息不够准确;3、还有很多爬虫算法有待学习和研究。总结及展望5

1 / 20
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功