网络爬虫和抽取系统设计购物比价网题号:603140608020软件1401吴帅帅Contents01.爬虫介绍02.项目介绍03.系统架构01-1.什么是网络爬虫?01-2.爬虫架构02-1.什么是购物比价网?02-2.比价网的价值03-1.系统功能03-2.系统组成和分层架构04.技术架构04-1.爬虫选择04-2.WEB框架选择01-3.爬虫工作原理和价值02-2.比价网的目标爬虫介绍Crawlerintroduction爬虫介绍4什么是网络爬虫?网络爬虫:一段自动抓取互联网信息的程序。互联网URLURLURLURLURLURLURL人工爬虫爬虫价值数据爬虫介绍爬虫架构5爬虫URL管理器网页下载器网页解析器爬虫调度端价值数据爬虫介绍爬虫架构-运行流程6调度器URL管理器下载器应用解析器有待爬URL?是/否获取1个待爬URLURL下载URL内容URL内容解析URL内容价值数据、新URL列表价值数据新增到待爬取URL输出价值数据循环项目介绍爬虫的价值7商品价格对比网爬取多个购物网站的某件商品的价格,进行对比。招聘信息网爬取多个招聘网站,将招聘信息分类,供用户查询。技术文章大全爬取某知名博客网站,将某类文章爬取下来,制作成本地离线的电子书。新闻聚合阅读器爬取多个新闻网站,将新闻聚集显示,提供全面的实时信息。价值数据价值:互联网数据,为我所用!项目介绍Projectintroduction项目介绍购物比价网9以价格比较为核心业务,从其他网上商城抓取产品信息,提供给用户浏览和比较,为购买决策提供有力的参考。什么是购物比价网?项目介绍购物比价网价值10解决用户在购物时需打开多个网站,不断自行比较的繁琐问题。节省用户购物时间优化用户的购物体验,带给用户带了更愉悦的购物经历。购物比价网有什么价值?项目介绍购物比价网目标11目标是彻底打捞网络信息,从而拥有海量、准确的产品描述、报价、经销商通讯录、产品测评和使用体验,并通过尽可能简单的操作,让消费者精准锁定中意的产品。购物比价网的目标?系统架构SystemArchitecture系统架构用例图13登录浏览商品收藏商品查询商品推荐商品对比价格include用户系统架构业务架构14价格对比系统架构业务组成15商品推荐根据用户的浏览记录和收藏夹,根据用户喜好给用户推荐商品。折扣搜索用户搜索某一商品时,同时提供各电商网站的关于此商品的折扣信息。价格对比用户查看某一商品的时候,提供价格对比的信息,帮助用户决策。历史价格分析用户可以搜寻某商品的历史价格分析图,为什么时候购买提供决策信息。系统架构分层架构16表现层业务层持久层爬虫层用户信息数据库商品信息数据库历史价格数据库商品推荐价格比对历史价格分析商品显示商品购买入口价格走向图评价信息数据库折扣显示折扣搜索商品价格爬虫商品信息爬虫商品折扣爬虫评价信息展示评价信息爬虫商品价格数据库评价合并技术架构TechnicalFramework技术架构技术选择18爬虫服务器数据库服务器MySQLWEB应用服务器Browser客户端HTTPInternetInternet技术架构选择爬虫框架19Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。技术架构选择URL实现20内存Python内存待爬取URL集合:set()待爬取URL集合:set()MySQLurls(urls,is_crawled)Redis待爬取URL集合:set待爬取URL集合:set关系数据库缓存数据库URL管理器实现方式技术架构技术选择21爬虫服务器数据库服务器MySQLWEB应用服务器Browser客户端HTTPInternetInternetRedisScrapy技术架构选择WEB架构22Django是python的一个web框架,主要目的是简便、快速的开发数据库驱动的网站。它强调代码复用,多个组件可以很方便的以“插件”形式服务于整个框架,Django有许多功能强大的第三方插件,你甚至可以很方便的开发出自己的工具包。这使得Django具有很强的可扩展性。技术架构选择服务器23Nginx是一个高性能的HTTP和反向代理服务器,也是一个IMAP/POP3/SMTP服务器。其将源代码以类BSD许可证的形式发布,因它的稳定性、丰富的功能集、示例配置文件和低系统资源的消耗而闻名。技术架构系统部署24爬虫服务器RedisScrapy数据库服务器MySQLWEB应用服务器DjangouWSGINginxBrowser客户端HTTPInternetInternetTHANKYOUPPT模板下载:行业PPT模板:节日PPT模板:素材下载:背景图片:图表下载:优秀PPT下载:教程:教程:教程:资料下载:课件下载:范文下载:试卷下载:教案下载:论坛: