网页爬虫解决方案

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

网页爬虫解决方案1.需求(质量、性能)1.对于复杂型文本(如:一个标签中包含多个要提取的词或其他多余的词)要进行分词处理。2.对于无法处理的页面或文件,需将整个页面或文件以二进制形式保存。3.对于关键字段(如:处罚对象、处罚时间等),确保精确度在99%以上,要求去掉HTML标签、标点符号和无关单词。4.提高爬虫的性能,对于增量数据要求在一小时内爬取完成。5.针对现有爬虫无法达到上述目标,需调整项目方案。2.开发方案2.1.分布式架构整个爬取过程采用分布式架构,对于90多个网站来说,将任务并行处理,可以有效的提高爬取效率。采用Linux+Hadoop进行分布式架构搭建,Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:1.高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。2.高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。3.高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。4.高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。5.低成本。与一体机、商用数据仓库以及QlikView、YonghongZ-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。采用分布式架构,实现爬虫的并行计算,可以有效满足对于该爬虫的性能要求。多台虚拟机可以并行的爬取网站的数据,并且可以并发的对数据库进行写操作。2.2.热词词库与分词引擎构建行政处罚数据热刺词库。分析行政处罚网站的文本语义以及组织结构,采用人工分析或机器学习模型提取关键的、经常使用的热词,构建热词词库。中文分词就是将一段中文的字序列切分成词序列的过程,基于词库的分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配。若在词库中找到某个字符串,则匹配成功。该方法有三个要素,即分词词典、文本扫描顺序和匹配原则。根据构建的热词词库以及标识符,对文本进行中文分词处理,切分包含该词的最小子串作为需要爬取的内容,提高从非结构化数据中提取结构化数据的质量。由于绝大多数政府网站的数据不规范,建设热词词库以及分词引擎也有利于后期维护,有更强的适应性。3.开发周期虽然开发工作是在原来的基础上进行的,但为了能满足需求中所提到的质量和性能,需要采用以上解决方案或其他更好的解决方案,因此,仍然需要大量的开发工作,预计开发周期为4个月。

1 / 2
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功