网络爬虫(python实现)

chyzp
5 ℃
2020-03-22

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

Presentation网络爬虫入门|以华师图书馆/豆瓣为例(Python实现)@汪政EastChinaNormalUniversity2020年3月22日CONTENTS目录1什么是爬虫2背景意义3三步走4模拟登陆5豆瓣抓取6小结2020年3月22日EastChinaNormalUniversity网络爬虫网络爬虫：是一个功能很强的自动提取网页的程序/脚本，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成部分。防爬虫：爬虫行为分为搜索引擎爬虫及扫描程序爬虫，可屏蔽特定的搜索引擎爬虫节省带宽和性能，也可屏蔽扫描程序爬虫，避免网站被恶意抓取页面。（网站洁癖）2020年3月22日EastChinaNormalUniversity选题背景三步走Review模拟登陆豆瓣抓取小结在我们日常上网浏览网页的时候，经常会看到一些好看的图片，我们就希望把这些图片保存下载，或者用户用来做桌面壁纸，或者用来做设计的素材。我们最常规的做法就是通过鼠标右键，选择另存为。但有些图片鼠标右键的时候并没有另存为选项，还有办法就通过就是通过截图工具截取下来，但这样就降低图片的清晰度。好吧～！其实你很厉害的，右键查看页面源代码。我们再来看下知乎神贴~可以干哪些有趣的事情？12020年3月22日图片文本视频EastChinaNormalUniversity选题背景三步走Review模拟登陆豆瓣抓取小结[第一步]•爬哪里（URL）：获取整个页面数据[第二步][第三步]•怎么爬（Method）:非常强大的正则表达式，以及许多开源库（urllib,BeautifulSoup）我们可以通过python来实现这样一个简单的爬虫功能，把我们想要的代码爬取到本地。下面就看看如何使用python来实现这样一个功能。一般我们三步走！三步走22020年3月22日EastChinaNormalUniversity•爬什么（interesting）：你对什么感兴趣选题背景三步走Review模拟登陆豆瓣抓取小结Review2020年3月22日EastChinaNormalUniversity浏览器访问服务器的过程在用户访问网页时，不论是通过、IP，还是点击链接，浏览器向WEB服务器发出了一个HttpRequest），WEB服务器接收到浏览器的请求之后，响应客户端的请求，发回相应的响应信息（HttpResponse），浏览器解析引擎，排版引擎分析返回的内容，呈现给用户。交互的过程中，HTTP请求和响应时发送的都是一个消息结构。实例：（华东师范大学图书馆）选题背景三步走Review模拟登陆豆瓣抓取小结代码分析：模拟登陆华东师范大学图书馆爬虫结果：借阅历史.txt模拟登陆华东师范大学图书馆\并爬取借阅历史42020年3月22日EastChinaNormalUniversity当你要模拟登录一个网站时，首先要搞清楚网站的登录处理细节（发了什么样的数据，给谁发等...）。通过抓取http数据包来分析该网站的登录流程。同时，我们还要分析抓到的post包的数据结构和header，要根据提交的数据结构和heander来构造自己的post数据和header。并发送给指定url。我们通过urllib2等几个模块提供的API来实现request请求的发送和相应的接收。大部分网站登录时需要携带cookie，所以我们还必须设置cookie处理器来保证cookie选题背景三步走Review模拟登陆豆瓣抓取小结抓取豆瓣上计算机类图书评分最高的top150本书籍，并保存在本地Excel中。2020年3月22日step1•分析网页源代码结构step2•确定爬虫方法step2•本地保存EastChinaNormalUniversity课题背景三步走Review模拟登陆豆瓣抓取小结小结72020年3月22日多线程……代理验证码伪装……使用代理服务器伪装成浏览器访问反”反盗链”多线程并发抓取验证码的处理代码简单，使用方便，性能也不俗，可谓居家旅行，杀人放火（黑网站），咳咳，之必备神器。EastChinaNormalUniversity压缩，超时设置多代理自动选择谢谢聆听@汪政中国·上海2020年3月22日EastChinaNormalUniversity