爬虫入门

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

爬虫技术入门徐庚Agenda爬虫类型爬虫原理环境搭建抓取网页内容破解验证码破解反爬虫策略爬虫类型静态网页爬虫比如JOUSP动态网页爬虫比如Selenuim、Scrapy通用爬虫比如不提取结构化信息的爬虫,或者支持OG协议的爬虫定制爬虫广度优先爬虫深度优先爬虫爬虫语言Python调试特别方便,框架强大ScrapyGO性能特别好JAVA群众基础好,Nutch爬虫原理先从互联网页面中精心选择一部分网页,以这些网页的链接地址作为种子URL,将这些种子URL放入待抓取URL队列中,爬虫从待抓取URL队列依次读取,解析新的URL,确认这个URL没有抓取过之后,再次放入带抓取队列,同时还会解析网页的内容,获取程序需要的部分,进行最终的处理(存入数据库、建索引等)。解析网页内容是核心部分,大部分爬虫都是基于CSS选择器去解析网页的DOM结构环境搭建这里以windows和python语言为例,首先安装以下组件:1.下载并安装Python(2.73或3.5)我的安装目录是C:\Python272.安装SeleniumC:\Python27\Scriptspipinstall-Uselenium3.安装Chromedriver要注意与chrome浏览器版本号一致,下载后拷贝到python安装目录抓取网页内容•用文本编辑器建立脚本sina.py,并复制以下代码fromseleniumimportwebdriverbrowser=webdriver.Chrome()browser.get(')jsscript=return$('#syncad_1h1a').eq(0).attr('href');href=browser.execute_script(jsscript)print(href)browser.quit()•执行代码c:\Python27pythonsina.py上面的代码会获取新浪的第一条新闻的URL,并打印出来,标红的那行代码是核心,是大家很熟悉的jquery代码破解验证码破解验证码依赖OCR组件,需要先安装:1.下载并安装tesseract下载中文语言包并解压缩到tesseract的tessdata目录(只测试数字和英文忽略)破解验证码•用文本编辑器建立脚本ocrtest.py,并复制以下代码(参考)#coding=utf-8__author__='syq'#(sys)sys.setdefaultencoding('utf-8')importosos.environ['NLS_LANG']='SIMPLIFIEDCHINESE_CHINA.UTF8'try:frompyocrimportpyocrfromPILimportImageexceptImportError:print'模块导入错误,请使用pip安装,pytesseract依赖以下库:'print'~gohlke/pythonlibs/#pil'print'=pyocr.get_available_tools()[:]iflen(tools)==0:print(NoOCRtoolfound)sys.exit(1)print(Using'%s'%(tools[0].get_name()))printtools[0].image_to_string(Image.open('C:/Python27/123.png'),lang='eng')printtools[0].image_to_string(Image.open('C:/Python27/3434.png'),lang='chi_sim')•执行代码提取图片中文字c:\Python27pythonocrtest.py破解反爬虫IP代理池微信虚拟器请求带cookie和useragent本地代理THANKYOU一家技术驱动的数据公司

1 / 11
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功