爬虫入门

69443435
3 ℃
2020-03-17

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

爬虫技术入门徐庚Agenda爬虫类型爬虫原理环境搭建抓取网页内容破解验证码破解反爬虫策略爬虫类型静态网页爬虫比如JOUSP动态网页爬虫比如Selenuim、Scrapy通用爬虫比如不提取结构化信息的爬虫，或者支持OG协议的爬虫定制爬虫广度优先爬虫深度优先爬虫爬虫语言Python调试特别方便，框架强大ScrapyGO性能特别好JAVA群众基础好，Nutch爬虫原理先从互联网页面中精心选择一部分网页，以这些网页的链接地址作为种子URL，将这些种子URL放入待抓取URL队列中，爬虫从待抓取URL队列依次读取，解析新的URL，确认这个URL没有抓取过之后，再次放入带抓取队列，同时还会解析网页的内容，获取程序需要的部分，进行最终的处理（存入数据库、建索引等）。解析网页内容是核心部分，大部分爬虫都是基于CSS选择器去解析网页的DOM结构环境搭建这里以windows和python语言为例，首先安装以下组件：1.下载并安装Python(2.73或3.5)我的安装目录是C:\Python272.安装SeleniumC:\Python27\Scriptspipinstall-Uselenium3.安装Chromedriver要注意与chrome浏览器版本号一致,下载后拷贝到python安装目录抓取网页内容•用文本编辑器建立脚本sina.py，并复制以下代码fromseleniumimportwebdriverbrowser=webdriver.Chrome()browser.get(')jsscript=return$('#syncad_1h1a').eq(0).attr('href');href=browser.execute_script(jsscript)print(href)browser.quit()•执行代码c:\Python27pythonsina.py上面的代码会获取新浪的第一条新闻的URL，并打印出来，标红的那行代码是核心，是大家很熟悉的jquery代码破解验证码破解验证码依赖OCR组件，需要先安装：1.下载并安装tesseract下载中文语言包并解压缩到tesseract的tessdata目录(只测试数字和英文忽略)破解验证码•用文本编辑器建立脚本ocrtest.py，并复制以下代码（参考）#coding=utf-8__author__='syq'#(sys)sys.setdefaultencoding('utf-8')importosos.environ['NLS_LANG']='SIMPLIFIEDCHINESE_CHINA.UTF8'try:frompyocrimportpyocrfromPILimportImageexceptImportError:print'模块导入错误,请使用pip安装,pytesseract依赖以下库：'print'~gohlke/pythonlibs/#pil'print'=pyocr.get_available_tools()[:]iflen(tools)==0:print(NoOCRtoolfound)sys.exit(1)print(Using'%s'%(tools[0].get_name()))printtools[0].image_to_string(Image.open('C:/Python27/123.png'),lang='eng')printtools[0].image_to_string(Image.open('C:/Python27/3434.png'),lang='chi_sim')•执行代码提取图片中文字c:\Python27pythonocrtest.py破解反爬虫IP代理池微信虚拟器请求带cookie和useragent本地代理THANKYOU一家技术驱动的数据公司