八爪鱼采集器高阶教程

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

八爪鱼采集器高阶教程

手动创建翻页循环及下一页死循环解决方法

手动创建翻页循环

相信很多朋友都碰到过这种情况,明明是一个翻页按钮,但是点击后没有创建翻页人选项,很多人会以为这种网页就不能做翻页了,其实这种类型的网页我们可以通过手动创建出一个翻页循环来解决。接下来就教大家如何手动创建翻页循环。

首先我们打开一个无法自动创建翻页的网页,如图中所示,当我们点击下一页按钮后,跳出的执行框中并没有循环点击的选项出现;

针对这种类型的网页,我们可以通过下面几个简单的步骤进行循环翻页的手动创建:

1)选择点击这个元素,添加一个点击步骤到流程中

系统添加点击步骤到流程中后,点击自定义,进入自定义定位方式界面

2)将图中红色方框中下一页的Xpath复制出来,然后把创建的点击步骤删除,

因为我们让系统自动创建点击步骤只是为了得到下一页的Xpath,如果是懂Xpath的朋友可以省掉这个步骤。自动生成的XPath只能对应当前网页,翻页后的页面格式有可能不能应对,所以需要自己修改。

3)接下来我们创翻页循环,先拖一个循环步骤到流程中,打开高级选项,勾选

点击单个元素,将之前复制的下一页人Xpath填到单个元素输入框中,点击保存。

4)拖入一个点击步骤到,打开高级选项,勾选上点击当前循环中设置的元素,

点击保存。

翻页循环就建好了,这种类型的翻页问题就可以通过上面介绍的方法解决。接下来我们再看一下:下一页死循环的问题。

下一页死循环解决方法

什么是下一页死循环?

有些网站可能在我们用系统做好的规则进行采集的时候,明明已经采集到最后一页了,就是不终止跳出循环,一直在最后一页循环采集,这种情况其实是由于xpath定位不对导致的,这种翻页情况我们称为下一页死循环,它可以通过我们对xpath的修改来解决。

当我们采集出现问题的时候,我们可以通过规则流程来找到问题所在。

下面的规则是直接按照新手入门的步骤做的

如上图:

浏览器中要采集的数据已经在最后一页了,可以我们在循环列表中依旧能找到下一页的按钮,代表一直都可以点击这个按钮进行采集,循环是结束不了的

点开循环列表的高级设置按钮,可以看到下一页的xpath如下图所示:

把这个xpath复制到火狐浏览器的Firebug里面进行定位,我们发现在第一页是的确可以定位下一页的,可以看到这个xpath在火狐里面每一页都能定位,

再看一下第一页(class="nex t")和第四页(class="no_next")里面源码的区别

可以看到第一页和第三页下一页的class属性是不一样的,我们只需要前面几页的下一页能正确定位,但是最后一页是不需要的,这样可以直接用class来区别。我们可以手动在火狐浏览器里面直接写,只需要改li里面的改成li[@class=’next’]就可以

然后将这.//*[@id='gkaTable_page']/table/tbody/tr/td/div/ul/li[@class='next']再复制到八爪鱼操作框里面,点击保存,如下图:

配置完成之后进行单机采集就可以看到规则能正常完成采集了

今后大家遇到这种下一页死循环这一类网页的翻页问题就可以参考这个示例的方法

相关文档
最新文档