网络矿工复杂数据采集教程

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

网络矿工复杂数据采集教程(图文版)复杂数据并不一定是采集数据有多难,数据本身可能会很容易采集,但想成批的将数据采集、并按照网站的数据关系组织输出,可能会有很大的难度。或者根本就无法实现这样的采集,或者说采集下来的只是一些没有关系的零散数据,不具备使用价值。当前很多网站在防采方面都做了限制,其中将数据打散,分布到各个网页中,然后通过url请求并将数据重新组织起来进行展示,这也是一种防采限制,数据分散了,对于采集软件如何识别这种数据关系将是很大的考验,如果识别不了这种数据对应关系,那么采集下来的数据就是一堆无意义的数据。网络矿工在这方面有突出的优势,通过导航和多页的操作,可以将这种复杂的数据关系在采集的过程中根据网站的规则自动关联起来进行输出。我们先以一个比较简单的数据采集为例,后续我们会将更加复杂的数据对应关系的采集,当前先通过这个例子让大家熟悉网络矿工在这方面的采集应用。今天的讲解会比较复杂一些,请先熟悉网络矿工的基本操作及数据采集的基础概念,再阅读本文。有关网络矿工的基本使用,可参见网络矿工的基本使用图文教程,在此不再进行过多讲解。我们需要采集的网站为:,这是一个导航页(列表页),点击每一个楼盘的名称,可以打开楼盘的详细页,如:=101903,我们将需要采集的数据在下图中标明:同时在此页面,点击“房屋明细”,打开此楼盘房屋明细表,并采集明细表数据,如下:通过上面的介绍,这个数据采集貌似不复杂,实际做两层导航即可实现。通过列表页导航进行楼盘信息页,再通过楼盘详细页导航进行房屋明细页,但如果我们继续分析,就远不是这样就可以实现的,下面我们进行采集分析讲解。1、楼盘的导航页,这个页面直接导航即可;并不复杂;2、再看楼盘的详细页,=101903,这个页面中有一个iframe,在iframe中显示楼盘的详细信息,iframe请求的网址是=101903,这个页面是楼盘真正的详细页面,对此,通常的做法是还可以再做一层导航进行采集,但我们还要采集楼盘的房屋明细,所以,在此我们不做导航,而是做多页处理;3、再看楼盘的房屋明细,楼盘的房屋明细是一个iframe请求了房屋的明细,通过嗅探器我们可以找到此地址为:=101903,这个页面显示了房屋的明细列表,也就是我们需要采集的数据;4、小结:通过楼盘的详细页,实际是做了两次导航操作,两次平级的导航,第一次请求楼盘的详细信息,第二次请求楼盘房屋的明细,而且是属于1*N的关系,一个楼盘对应多个房屋信息,针对此种需求,我们无法再用导航来实现,所以,我们采用多页的形式进行配置;下面我们进行此采集规则的配置,新建一个采集任务,首先配置采集网址,采集网址为:,我们做一层导航,进入楼盘详细页的主页面,=101903,然后在此进行多页采集的配置,多页采集为两个页面,第一个为楼盘详细页,第二个为楼盘房屋页,因为是一对多的关系,所有首先配置楼盘详细页,再配置楼盘房屋页,如下点击“确定”退出,下一步我们配置采集数据规则,我们需要根据配置的多页进行相应规则的配置,楼盘名称所属采集页;预(销)售许可证、开发商、行政区、区位属于第一个多页,楼盘详细页;房屋代码、幢号、单元号、室号、用途、户型、建筑面积属于第二个多页,楼盘房屋页;配置如下:配置完成后,测试一下:可以看到,系统会自动将数据进行合并输出,而且是按照我们需要的形式进行数据,没有问题。保存退出,这个采集任务讲解告一段落。从我们今天讲解的复杂关系数据采集的角度而言,我们的讲解已经结束,但从实际的角度讲,这个采集规则,还没有真正配置完成,因为楼盘房屋信息页存在翻页的情况,我们需要逐一翻页将所有的房屋信息采集下来,这样才能满足我们的实际需求。多页的配置不存在翻页的处理,那该如何进行?这样我们就又回到了最初所讲,通过导航进行关系处理,但同一个页面要进行两次平级导航,那该如何进行呢?在此我们简单讲解一下,请有兴趣的朋友自行配置,我们还是进行多层导航,进行3层导航,第一层,从楼盘列表页导航进行楼盘详细页的主页,第二层,从楼盘详细页的主页进行楼盘详细页(就是获取iframe的地址),第三层导航从楼盘的详细页进行楼盘房屋信息页,第三层导航对于网站而言是不存在的,是我们虚构出来为了处理数据一对多关系的,网址构建可以通过网络矿工提供的自定义进行处理,在第三层导航进行自动翻页处理,实现房屋信息页的翻页数据采集,采集数据规则一样,但所属页面就不是多页了,而是导航页,进行跨层采集处理,即可实现我们刚才所说的采集需求,请感兴趣的朋友自行配置。上面所讲的例子可以到=62下载,使用网络矿工V2012导入采集规则,即可测试。

1 / 6
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功