网页爬虫解决方案

jiaxingceng
1 ℃
2020-04-20

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

网页爬虫解决方案1.需求（质量、性能）1.对于复杂型文本（如：一个标签中包含多个要提取的词或其他多余的词）要进行分词处理。2.对于无法处理的页面或文件，需将整个页面或文件以二进制形式保存。3.对于关键字段（如：处罚对象、处罚时间等），确保精确度在99%以上，要求去掉HTML标签、标点符号和无关单词。4.提高爬虫的性能，对于增量数据要求在一小时内爬取完成。5.针对现有爬虫无法达到上述目标，需调整项目方案。2.开发方案2.1.分布式架构整个爬取过程采用分布式架构，对于90多个网站来说，将任务并行处理，可以有效的提高爬取效率。采用Linux+Hadoop进行分布式架构搭建，Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点：1.高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。2.高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。3.高效性。Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。4.高容错性。Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。5.低成本。与一体机、商用数据仓库以及QlikView、YonghongZ-Suite等数据集市相比，hadoop是开源的，项目的软件成本因此会大大降低。采用分布式架构，实现爬虫的并行计算，可以有效满足对于该爬虫的性能要求。多台虚拟机可以并行的爬取网站的数据，并且可以并发的对数据库进行写操作。2.2.热词词库与分词引擎构建行政处罚数据热刺词库。分析行政处罚网站的文本语义以及组织结构，采用人工分析或机器学习模型提取关键的、经常使用的热词，构建热词词库。中文分词就是将一段中文的字序列切分成词序列的过程，基于词库的分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配。若在词库中找到某个字符串，则匹配成功。该方法有三个要素，即分词词典、文本扫描顺序和匹配原则。根据构建的热词词库以及标识符，对文本进行中文分词处理，切分包含该词的最小子串作为需要爬取的内容，提高从非结构化数据中提取结构化数据的质量。由于绝大多数政府网站的数据不规范，建设热词词库以及分词引擎也有利于后期维护，有更强的适应性。3.开发周期虽然开发工作是在原来的基础上进行的，但为了能满足需求中所提到的质量和性能，需要采用以上解决方案或其他更好的解决方案，因此，仍然需要大量的开发工作，预计开发周期为4个月。