基于Python的网络信息自动抓取系统毕业论文

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

基于Python的网络信息自动抓取系统摘要随着移动互联网的快速发展和5G技术的投入建设,信息在社会发展中起着至关重要的作用,具备着前所未有的价值。人们想要掌握最新的信息和了解社会的发展趋势,就要不断递增花在阅读网络信息的时间。怎么从浩瀚的信息海洋中迅速有效地提取所需信息已经越来越重要。搜索引擎也随着我们的需求而诞生和发展,它以爬虫技术为核心。为提高用户访问网页信息的效率,本设计基于Python的Scrapy爬虫框架和MySQL后台数据库,以“百度新闻”为爬取对象,实现定时自动抓取指定范围的网页信息并存储到后台数据库中,并使用hashlib模块过滤重复数据。关键词:爬虫技术Scrapy爬虫框架MySQL数据库定时自动AutomaticnetworkinformationgrabbingsystembasedonPythonName:DiaoYangjianMajor:ElectronicInformationScienceandtechnologyInstructor:WanChanglin,AssistantResearcher(ElectronicInformationandElectricalEngineeringDepartmentofHuizhouUniversity,No.46,YandaAvenue,HuizhouCity,GuangdongProvince,516007)AbstractWiththerapiddevelopmentofmobileInternetandtheinvestmentof5gtechnology,informationplaysanimportantroleinthesocialdevelopmentandhasunprecedentedvalue.Ifpeoplewanttomasterthelatestinformationandunderstandthedevelopmenttrendofsociety,theyneedtospendmoreandmoretimereadingnetworkinformation.Howtoextracttheneededinformationfromthevastoceanofinformationquicklyandeffectivelyhasbecomemoreandmoreimportant.Searchengineisalsobornanddevelopedwithourneeds.Ittakescrawlertechnologyasthecore.Inordertoimprovetheefficiencyofusers'accesstowebinformation,thisdesignisbasedonPython'sscrapycrawlerframeworkandMySQLbackgrounddatabase,takingBaidunewsasthecrawlingobject,torealizetheautomaticcrawlingofthespecifiedrangeofWebinformationandstorageinthebackgrounddatabase,andusehashlibmoduletofiltertheduplicatedata.Keywords:crawlertechnologyscrapycrawlerframeworkMySQLdatabasetimedautocrawl目录1前言....................................................................51.1研究背景..........................................................51.2研究意义..........................................................51.3研究内容..........................................................52设计原理以及相关技术介绍................................................72.1Scrapy爬虫框架....................................................72.1.1Scrapy分析..................................................72.2Robots协议........................................................82.2.1Robots协议简介..............................................82.2.2协议的写法...................................................82.2.3Robots协议的缺点及影响......................................92.3正则表达式........................................................92.3.1简介.........................................................92.3.2应用场景.....................................................92.3.3贪婪模式与懒惰模式...........................................92.4XPath表达式.......................................................92.4.1简介.........................................................92.5MySQL数据库......................................................102.5.1简介........................................................102.5.2MySQL数据库的特点..........................................102.6Fiddler..........................................................102.6.1为什么使用Fiddler..........................................102.6.2为什么选择Fiddler..........................................112.6.3简介........................................................112.7hashlib模块......................................................112.7.1简介........................................................112.7.2MD5算法....................................................123基于Scrapy框架的百度新闻爬虫具体实现..................................133.1爬取对象简介.....................................................133.2网络爬虫实现细节.................................................133.2.1创建Scrapy爬虫项目和爬虫应用程序...........................133.2.2配置items.py文件,设置数据存储容器.........................143.2.3使用Fiddler抓包工具分析URL规律............................143.2.4配置news.py文件,设置爬虫程序..............................143.2.5配置settings.py文件........................................153.2.6创建MySQL数据库............................................163.2.7配置pipelines.py文件,进行数据处理.........................163.2.8设置定时爬取模块............................................164爬虫测试与效果展示.....................................................174.1运行状态及测试...................................................174.2数据抓取结果展示.................................................175总结与展望.............................................................175.1总结.............................................................175.2期望.............................................................18参考文献.................................................................19致谢......................................................错误!未定义书签。51前言1.1研究背景如今已经是2020年,随着移动互联网的快速发展和5G技术的投入建设,移动互联网越来越普及,社会生活的基本方式正在悄无声息的发生变化。当今时代,互联网越来越贴近人们的生活,已经成为生活的必需品。人们的衣食住行都与互联网息息相关,不可分离。许多行业都深受互联网的影响,即使是历史悠久的传统行业。在这个时代,信息就是金钱,具备着前所未有的价值,已经成为社会发展不可或缺的一部分。为了让自己做出正确的判断,我们要掌握最新的信息和了解社会的发展趋势,造成人们花在阅读网络信息的时间不断递增。互联网是一个浩瀚的信息海洋,是大量信息的载体,怎么从海洋中迅速有效地提取所需信息是非常困难的,无异于大海捞针,更何况想要利用这些信息了。与此同时,搜索引擎也随着我们的需求而诞生和发展。1.2研究意义搜索引擎可以当成是一个入口或者指南。它可以帮助人们从互联网中搜索信息,是人们获取互联网资源的重要途径,给人们带来了便利。但是,局限性是通用性搜索引擎的最大缺点。例如,通用搜索引擎是通过关键字来搜索的,然后返回大量的数据信息给用户,但是在这些信息中,并不都是用户所关心和需要的数据信息,里面还有许多是用户并不关心的数据信息。聚焦爬虫具有高度的可自定义性,可以帮助我们迅速有效的提取需要的信息。它按照程序设计者所设定的规则,有选择的访问互联网上的网页,或者是与之相关的链接。Scrapy爬虫框架可以让聚焦爬虫的设计和工作变得更加

1 / 19
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功