基于Python的网络信息自动抓取系统毕业论文

jrb82089526
0 ℃
2021-04-07

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

基于Python的网络信息自动抓取系统摘要随着移动互联网的快速发展和5G技术的投入建设，信息在社会发展中起着至关重要的作用，具备着前所未有的价值。人们想要掌握最新的信息和了解社会的发展趋势，就要不断递增花在阅读网络信息的时间。怎么从浩瀚的信息海洋中迅速有效地提取所需信息已经越来越重要。搜索引擎也随着我们的需求而诞生和发展，它以爬虫技术为核心。为提高用户访问网页信息的效率，本设计基于Python的Scrapy爬虫框架和MySQL后台数据库，以“百度新闻”为爬取对象，实现定时自动抓取指定范围的网页信息并存储到后台数据库中，并使用hashlib模块过滤重复数据。关键词：爬虫技术Scrapy爬虫框架MySQL数据库定时自动AutomaticnetworkinformationgrabbingsystembasedonPythonName:DiaoYangjianMajor:ElectronicInformationScienceandtechnologyInstructor:WanChanglin,AssistantResearcher(ElectronicInformationandElectricalEngineeringDepartmentofHuizhouUniversity,No.46,YandaAvenue,HuizhouCity,GuangdongProvince,516007)AbstractWiththerapiddevelopmentofmobileInternetandtheinvestmentof5gtechnology,informationplaysanimportantroleinthesocialdevelopmentandhasunprecedentedvalue.Ifpeoplewanttomasterthelatestinformationandunderstandthedevelopmenttrendofsociety,theyneedtospendmoreandmoretimereadingnetworkinformation.Howtoextracttheneededinformationfromthevastoceanofinformationquicklyandeffectivelyhasbecomemoreandmoreimportant.Searchengineisalsobornanddevelopedwithourneeds.Ittakescrawlertechnologyasthecore.Inordertoimprovetheefficiencyofusers'accesstowebinformation,thisdesignisbasedonPython'sscrapycrawlerframeworkandMySQLbackgrounddatabase,takingBaidunewsasthecrawlingobject,torealizetheautomaticcrawlingofthespecifiedrangeofWebinformationandstorageinthebackgrounddatabase,andusehashlibmoduletofiltertheduplicatedata.Keywords:crawlertechnologyscrapycrawlerframeworkMySQLdatabasetimedautocrawl目录1前言....................................................................51.1研究背景..........................................................51.2研究意义..........................................................51.3研究内容..........................................................52设计原理以及相关技术介绍................................................72.1Scrapy爬虫框架....................................................72.1.1Scrapy分析..................................................72.2Robots协议........................................................82.2.1Robots协议简介..............................................82.2.2协议的写法...................................................82.2.3Robots协议的缺点及影响......................................92.3正则表达式........................................................92.3.1简介.........................................................92.3.2应用场景.....................................................92.3.3贪婪模式与懒惰模式...........................................92.4XPath表达式.......................................................92.4.1简介.........................................................92.5MySQL数据库......................................................102.5.1简介........................................................102.5.2MySQL数据库的特点..........................................102.6Fiddler..........................................................102.6.1为什么使用Fiddler..........................................102.6.2为什么选择Fiddler..........................................112.6.3简介........................................................112.7hashlib模块......................................................112.7.1简介........................................................112.7.2MD5算法....................................................123基于Scrapy框架的百度新闻爬虫具体实现..................................133.1爬取对象简介.....................................................133.2网络爬虫实现细节.................................................133.2.1创建Scrapy爬虫项目和爬虫应用程序...........................133.2.2配置items.py文件，设置数据存储容器.........................143.2.3使用Fiddler抓包工具分析URL规律............................143.2.4配置news.py文件，设置爬虫程序..............................143.2.5配置settings.py文件........................................153.2.6创建MySQL数据库............................................163.2.7配置pipelines.py文件，进行数据处理.........................163.2.8设置定时爬取模块............................................164爬虫测试与效果展示.....................................................174.1运行状态及测试...................................................174.2数据抓取结果展示.................................................175总结与展望.............................................................175.1总结.............................................................175.2期望.............................................................18参考文献.................................................................19致谢......................................................错误!未定义书签。51前言1.1研究背景如今已经是2020年，随着移动互联网的快速发展和5G技术的投入建设，移动互联网越来越普及，社会生活的基本方式正在悄无声息的发生变化。当今时代，互联网越来越贴近人们的生活，已经成为生活的必需品。人们的衣食住行都与互联网息息相关，不可分离。许多行业都深受互联网的影响，即使是历史悠久的传统行业。在这个时代，信息就是金钱，具备着前所未有的价值，已经成为社会发展不可或缺的一部分。为了让自己做出正确的判断，我们要掌握最新的信息和了解社会的发展趋势，造成人们花在阅读网络信息的时间不断递增。互联网是一个浩瀚的信息海洋，是大量信息的载体，怎么从海洋中迅速有效地提取所需信息是非常困难的，无异于大海捞针，更何况想要利用这些信息了。与此同时，搜索引擎也随着我们的需求而诞生和发展。1.2研究意义搜索引擎可以当成是一个入口或者指南。它可以帮助人们从互联网中搜索信息，是人们获取互联网资源的重要途径，给人们带来了便利。但是，局限性是通用性搜索引擎的最大缺点。例如，通用搜索引擎是通过关键字来搜索的，然后返回大量的数据信息给用户，但是在这些信息中，并不都是用户所关心和需要的数据信息，里面还有许多是用户并不关心的数据信息。聚焦爬虫具有高度的可自定义性，可以帮助我们迅速有效的提取需要的信息。它按照程序设计者所设定的规则，有选择的访问互联网上的网页，或者是与之相关的链接。Scrapy爬虫框架可以让聚焦爬虫的设计和工作变得更加