【黑马程序员】爬虫教程、爬虫Python、解析Python网络爬虫:核心技术、Scrapy框架、分布

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

视频库网址:资料领取:3285264708【黑马程序员】爬虫教程、爬虫Python、解析Python网络爬虫:核心技术、Scrapy框架、分布式爬虫内容简介:本书适合网络爬虫方向的初学者,系统全面地讲解了如何使用Python快速编写网络爬虫程序。本书在讲解时,结合理论加实践,循序渐进地引领读者疏通原理、动手实践、运用框架。通过本书可以让读者快速进入爬虫领域,具备运用爬虫的能力,满足获取定制数据的需求。全书共分为13个章节,内容主要包括初识网络爬虫、爬虫的实现原理和技术、网页请求的原理、抓取和解析网页数据的相关技术、并发下载,抓取动态网页、图像识别与文字处理、存储爬虫数据,以及爬虫框架Scrapy的使用,最后介绍了通过Scrapy-Redis如何实现分布式爬虫。视频库网址:资料领取:3285264708适合群体:本书既可作为高等院校专科计算机相关专业的程序设计课程教材,也可作为Python网络爬虫的培训教材,是一本适合广大编程开发者的爬虫入门级教材。图书特色:特色一:零基础、入门级讲解为了帮助读者快速入门,本书以初学者的角度出发,铺垫讲解了很多关于网络爬虫的基础知识,让读者站在原理的角度上理解爬虫的机制。特色二:循序渐进,通俗易懂在课程知识和内容讲解上,本书所涉及到的知识点都是对应实际应用需求,课程的编排顺序符合大众的认知规律,在知识讲解时采用易于理解的图示和举例的方式,将抽象的概念具体化,并利用示例进一步验证和测试,以总结出实用的经验。特色三:案例丰富、实战性强全书共13章,除了第1章介绍爬虫基础知识外,其余每章配有一个真实的爬虫案例,具有极高的参考价值。读者只要亲自实践本书中的案例,轻松掌握爬虫,那都不是事儿~特色四:知识点全面,技巧性强在学习爬虫的过程中,本书都会在解决爬虫问题的基础上,提供多种技术参考和解决方案,并且对这些方案进行对比,以供读者在实际运用中更好地选择,增强读者在工作中的编程能力。特色五:教材、资源、服务三合一,高效学习视频库网址:资料领取:3285264708为了便于老师备课,本教材配备了精美的PPT、教学视频和源代码等资源。本书还有配套题库可以根据需求自由组卷,方便老师考察学生的学习情况。图书目录:第1章初识爬虫1.1爬虫产生背景1.2什么是爬虫1.3爬虫的用途1.4爬虫的分类1.4.1通用爬虫和聚焦爬虫1.4.2累积式和增量式爬虫1.4.3表层爬虫和深层爬虫1.5本章小结1.6本章习题第2章爬虫的实现原理和技术2.1爬虫实现原理简介2.1.1通用爬虫工作原理2.1.2聚焦爬虫工作原理2.2爬虫抓取网页的详细流程2.3通用爬虫中网页的分类2.4通用爬虫相关网站文件2.4.1robots.txt文件视频库网址:资料领取:32852647082.4.2Sitemap.xml文件2.5反爬虫应对策略2.6为什么选择Python做爬虫2.7案例—使用八爪鱼工具爬取第一个网页2.8本章小结2.9本章习题第3章网页请求原理3.1浏览网页过程3.1.1统一资源定位符URL3.1.2计算机域名系统DNS3.2HTTP网络请求原理3.2.1分析浏览器显示完整网页的过程3.2.2客户端HTTP请求格式3.2.3服务端HTTP响应格式3.3HTTP抓包工具Fiddler3.3.1Fiddler工作原理3.3.2下载安装3.3.3Fiddler界面详解3.3.4Fiddler抓取HTTPS设置3.3.5使用Fiddler捕获Chrome的会话3.4本章小结3.5本章习题视频库网址:资料领取:3285264708第4章抓取网页数据4.1什么是urllib库4.2快速使用urllib爬取网页4.2.1快速爬取一个网页4.2.2分析urlopen方法4.2.3使用HTTPResponse对象4.2.4构造Request对象4.3使用urllib实现数据传输4.3.1URL编码转换4.3.2处理GET请求4.3.3处理POST请求4.4添加特定Headers—请求伪装4.5代理服务器4.5.1简单的自定义opener4.5.2设置代理服务器4.6超时设置4.7常见的网络异常4.7.1URLError异常和捕获4.7.2HttpError异常和捕获4.8更人性化的requests库4.8.1什么是requests库4.8.2requests库初体验视频库网址:资料领取:32852647084.8.3发送请求4.8.4返回响应4.9案例—使用urllib库爬取百度贴吧4.10本章小结4.11本章习题第5章数据解析5.1了解网页数据和结构5.1.1网页数据格式5.1.2查看网页结构5.2数据解析技术5.3正则表达式5.4XPath与lxml解析库5.4.1什么是XPath5.4.2XPath语法5.4.3XPath开发工具5.4.4什么是lxml库5.4.5lxml库的基本使用5.5BeautifulSoup5.5.1什么是BeautifulSoup5.5.2构建BeautifulSoup对象5.5.3通过操作方法进行解读搜索5.5.4通过CSS选择器进行搜索视频库网址:资料领取:32852647085.6JSONPath与json模块5.6.1什么是JSON5.6.2JSON与XML语言比较5.6.3json模块介绍5.6.4json模块基本使用5.6.5JSONPath介绍5.6.6JSONPath语法对比5.6.7案例—获取拉勾网城市列表5.7案例—解析腾讯社招网站的职位信息5.7.1明确爬虫抓取目标5.7.2分析要解析的数据5.7.3使用urllib库抓取社招网数据5.7.4使用正则、lxml、bs4解析职位数据5.7.5将数据保存到文件中5.8本章小结5.9本章习题第6章并发下载6.1多线程爬虫流程分析6.2使用queue模块实现多线程爬虫6.2.1queue(队列)模块简介6.2.2Queue类简介6.3协程实现并发爬取视频库网址:资料领取:32852647086.3.1协程爬虫的流程分析6.3.2第三方库gevent6.4案例—三种技术采集和解析数据对比6.4.1单线程实现6.4.2多线程实现6.4.3协程实现6.4.4性能分析6.5本章小结6.6本章习题第7章抓取动态内容7.1动态网页介绍7.2selenium和PhantomJS概述7.3selenium和PhantomJS安装配置7.4selenium和PhantomJS基本使用7.4.1入门操作7.4.2定位UI元素7.4.3鼠标动作链7.4.4填充表单7.4.5弹窗处理7.4.6页面切换7.4.7页面前进和后退7.4.8获取页面Cookies视频库网址:资料领取:32852647087.4.9页面等待7.5案例—模拟豆瓣网站登陆7.6本章小结7.7本章习题第8章图像识别与文字处理8.1OCR技术简介8.2Tesseract引擎的下载和安装8.3pytesseract和PIL库概述8.3.1pytesseract库简介8.3.2PIL库简介8.4处理规范格式的文字8.4.1读取图像中格式规范的文字8.4.2对图片进行阈值过滤和降噪处理8.4.3识别图像的中文字符8.5处理验证码8.5.1验证码分类8.5.2简单识别图形验证码8.6案例—识别图形验证码8.7本章小结8.8本章习题第9章存储爬虫数据9.1数据存储简介视频库网址:资料领取:32852647089.2MongoDB数据库简介9.2.1什么是MongoDB9.2.2Windows平台安装MongoDB数据库9.2.3比较MongoDB和MySQL的术语9.3使用PyMongo库存储到数据库9.3.1什么是PyMongo9.3.2PyMongo的基本操作9.4案例—存储网站的电影信息9.4.1分析待爬取的网页9.4.2通过urllib爬取全部页面9.4.3通过bs4选取数据9.4.4通过MongoDB存储电影信息9.5本章小结9.6本章习题第10章初识爬虫框架Scrapy10.1常见爬虫框架介绍10.2Scrapy框架的架构10.3Scrapy框架的运作流程10.4安装Scrapy框架10.4.1Windows7系统下的安装10.4.2Linux(Ubuntu)系统下的安装10.4.3MacOS系统下的安装视频库网址:资料领取:328526470810.5Scrapy框架的基本操作10.5.1新建一个Scrapy项目10.5.2明确抓取目标10.5.3制作Spiders爬取网页10.5.4永久性存储数据10.5.5Scrapy命令小结10.6本章小结10.7本章习题第11章Scrapy终端与核心组件11.1Scrapyshell—测试XPath表达式11.1.1启用Scrapyshell11.1.2使用Scrapyshell11.1.3Scrapyshell使用示例11.2Spiders—抓取和提取结构化数据11.3ItemPipeline—后期处理数据11.3.1自定义ItemPipeline11.3.2完善之前的案例—item写入JSON文件11.4DownloaderMiddlewares—防止反爬虫11.5Settings—定制Scrapy组件11.6实战—斗鱼App爬虫11.6.1使用Fiddler抓取手机App的数据11.6.2分析JSON文件的内容视频库网址:资料领取:328526470811.6.3使用Scrapy抓取数据11.7本章小结11.8本章习题第12章自动抓取网页的爬虫CrawlSpider12.1初识爬虫类CrawlSpider12.2CrawlSpider类的工作原理12.3通过Rule类决定爬取规则12.4通过LinkExtractor类提取链接12.5案例—使用CrawlSpider爬取腾讯社招网站12.6本章小结12.7本章习题第13章Scrapy-Redis分布式爬虫13.1Scrapy-Redis简介13.2Scrapy-Redis的完整架构13.3Scrapy-Redis的运作流程13.4Scrapy-Redis的主要组件13.5搭建Scrapy-Redis开发环境13.5.1安装Scrapy-Redis13.5.2安装和启动Redis数据库13.5.3修改配置文件redis.conf13.6分布式的部署13.6.1分布式策略视频库网址:资料领取:328526470813.6.2测试Slave端远程连接Master端13.7Scrapy-Redis的基本使用13.7.1创建Scrapy项目13.7.2明确抓取目标13.7.3制作Spider爬取网页13.7.4执行分布式爬虫13.7.5使用多个管道存储13.7.6处理Redis数据库里的数据13.8案例—使用分布式爬虫抓取百度百科网站13.8.1创建Scrapy项目13.8.2分析爬虫的目标13.8.3制作Spider爬取网页13.8.4执行爬虫13.9本章小结13.10本章习题

1 / 13
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功