山东建筑大学计算机网络课程设计基于Python的网络爬虫设计范文

zhengjx015515
1 ℃
2020-07-04

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

12020年4月19日山东建筑大学计算机网络课程设计基于Python的网络爬虫设计山东建筑大学课程设计成果报告题目：基于Python的网络爬虫设计课程：计算机网络A院（部）：管理工程学院专业：信息管理与信息系统班级：学生姓名：学号：指导教师：完成日期：目录1设计目的.............................................................................................02设计任务内容.....................................................................................03网络爬虫程序总体设计.....................................................................04网络爬虫程序详细设计....................................................................14.1设计环境和目标分析................................................................14.1.1设计环境..........................................................................14.1.2目标分析..........................................................................14.2爬虫运行流程分析....................................................................24.3控制模块详细设计....................................................................34.3爬虫模块详细设计....................................................................34.3.1URL管理器设计.............................................................34.3.2网页下载器设计..............................................................44.3.3网页解析器设计..............................................................54.4数据输出器详细设计................................................................65调试与测试.........................................................................................65.1调试过程中遇到的问题............................................................65.2测试数据及结果显示................................................................76课程设计心得与体会.........................................................................77参考文献.............................................................................................88附录1网络爬虫程序设计代码.........................................................8文档仅供参考12020年4月19日9附录2网络爬虫爬取的数据文档...................................................15文档仅供参考02020年4月19日1设计目的本课程设计是信息管理与信息系统专业重要的实践性环节之一，是在学生学习完《计算机网络》课程后进行的一次全面的综合练习。本课程设计的目的和任务：1．巩固和加深学生对计算机网络基本知识的理解和掌握；2．培养学生进行对网络规划、管理及配置的能力或加深对网络协议体系结构的理解或提高网络编程能力；3．提高学生进行技术总结和撰写说明书的能力。2设计任务内容网络爬虫是从web中发现,下载以及存储内容，是搜索引擎的核心部分。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。参照开放源码分析网络爬虫实现方法，给出设计方案，画出设计流程图。选择自己熟悉的开发环境，实现网络爬虫抓取页面、从而形成结构化数据的基本功能，界面适当美化。给出软件测试结果。3网络爬虫程序总体设计爬虫控制器URL管理器网页下载器网页解析器数据输出器文档仅供参考12020年4月19日在本爬虫程序中共有三个模块：1、爬虫调度端：启动爬虫，停止爬虫，监视爬虫的运行情况2、爬虫模块：包含三个小模块，URL管理器、网页下载器、网页解析器。（1）URL管理器：对需要爬取的URL和已经爬取过的URL进行管理，能够从URL管理器中取出一个待爬取的URL，传递给网页下载器。（2）网页下载器：网页下载器将URL指定的网页下载下来，存储成一个字符串，传递给网页解析器。（3）网页解析器：网页解析器解析传递的字符串，解析器不但能够解析出需要爬取的数据，而且还能够解析出每一个网页指向其它网页的URL，这些URL被解析出来会补充进URL管理器3、数据输出模块：存储爬取的数据4网络爬虫程序详细设计4.1设计环境和目标分析4.1.1设计环境IDE：pycharmPython版本：python2.7.134.1.2目标分析目标：从百度词条Python开始，以广度优先的方式，爬取相关联文档仅供参考22020年4月19日的若干词条网页的标题和简介（1）初始URL：（2）词条页面URL格式：（3）数据格式：标题——ddclass=lemmaWgt-lemmaTitle-titleh1Python/h1简介——divclass=lemma-summarylabel-module=lemmaSummary（4）页面编码：utf-84.2爬虫运行流程分析爬虫程序的运行流程如图所示。（1）爬虫控制器从给定的URL开始，将给定的初始URL添加到URL管理器中，然后调用URL管理器的相关方法，判断是否有待爬取的URL（2）URL判断是否有待爬取的URL，如果有待爬取的URL，则返回给控制器，控制器将这个URL传递给网页下载器，下载该网页（3）网页下载器将下载好的数据返回给控制器，控制器再将返回的数据传递给网页解析器解析（4）网页解析器解析网页之后获取网页数据和网页的URL链接，再将这两个数据传递给控制器（5）控制器得到解析出来的数据之后，将新的URL链接传递文档仅供参考32020年4月19日给URL管理器，将价值数据传递给数据输出器输出（6）数据输出器以文本的形式输出传递进来的数据。（7）回到第一步，循环4.3控制模块详细设计爬虫控制器主要负责调度各个模块，因此在设计的时候只需要一次调用其它模块的方法，给对应的模块传递数据即可。比较简单，可参见附录1查看源码。4.3爬虫模块详细设计4.3.1URL管理器设计URL管理器主要管理待抓取的URL集合和已抓取的URL集合。URL管理器设计的难点在于：防止重复抓取，防止循环抓取。添加新URL到待爬取集合中判断是否还有待爬取URL文档仅供参考42020年4月19日常见的URL管理器存储方式有三种，一是使用python内存即set集合来存储URL，二是使用数据库，例如MySQL，三是使用缓存数据库，例如redis。因为这只是个简单的python爬虫，因此我们选择利用内存存储URL。建立两个集合，一个为待爬取集合，一个为已爬取集合，功能上图所示。4.3.2网页下载器设计网页下载器是将互联网上URL对应的网页下载到本地的工具。Python常见的网页下载器有两种，一个是python自带的urllib2，一个是第三方包requests。这里我们选用的是urllib2，比较简单的网页下载工具，其中最简洁的下载网页的代码如下：importurllib2response=urllib2.urlopen(url)#如果请求码不是200，则表示请求不成功。#典型的错误包括404（页面无法找到），403（请求禁止），401（待验证的请求）#5XX回应代码以“5”开头的状态码表示服务器端发现自己出现错误，不能继续执行请求ifresponse.getcode()!=200:判断待添加URL是否在容器中URL管理器将URL从待爬取集合移动端已爬取集合获取待爬取URL文档仅供参考52020年4月19日printdownloadhtmlfailedcont=response.read()4.3.3网页解析器设计网页解析器是从网页中提取有价值数据的工具。Python常见的解析器有四种，一是正则表示式，二是html.parser，三是beautifulSoup，四是lxml。这里我选用的是beautifulSoup作为我的网页解析器，相对于正则表示式来说，使用beautifulSoup来解析网页更为简单。beautifulSoup将网页转化为DOM树来解析，每一个节点是网页的每个标签，经过它提供的方法，你能够很容易的经过每个节点获取你想要的信息。使用方法如下：#创立BeautifulSoup对象soup=BeautifulSoup(html_cont,'html.parser',from_encoding='utf-8')#查找所有标签为a的节点，且href匹配正则表示式links=soup.find_all('a',href=re.compile(r/item/\%))#查找所欲标签为div的节点summary_node=soup.find('div',class_=lemma-summary)HTML网页字符串网页解析器价值数据新URL列表文档仅供参考62020年4月19日4.4数据输出器详细设计数据输出器是负责数据输出的工具。如果要输出的文件不存在，程序会自动创立，而且每次重写之前都会清空网页的内容。这里我选择的输出方式是TXT文档，直接将数据分析器得到的数据存储在output.txt文件中。5调试与测试5.1调试过程中遇到的问题（1）爬取第一个页面之后没有新的页面解决方案：根据子网页，选择合适的正则表示式（1）测试过程中某些网页中缺少标题或简介。解决方案：往集合中添加数据的时候，判断一下是否为空，不为空再添加。文档仅供参考72020年4月19日5.2测试数据及结果显示测试的结果以txt文档形式显示，生成的文档路径和代码路径一致、6课程设计心得与体会Python是一门面向对象的解释性语言（脚本语言），这一类语言的特点就是不用编译，程序在运行的过程中，由对应的解释器文档仅供参考82020年4月19日向CPU进行翻译，个人理解就是一边编译一边执行。而Java这一类语言是需要预先编译的。没有编译最大的痛苦就是无法进行断点调试，唯一的办法就是在有疑问的地方打印各个变量的值来进行调试。这一类语言也没用类型，也就是说一个变量即可能是int型，可是也可能是String型，而且能够随时变化。python对于代码格式要求也