八爪鱼基本流程教程

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

八爪鱼基本流程教程

在八爪鱼采集原理中我们讲过,八爪鱼是模拟人浏览网页的行为进行数据采集的,比如打开网页、点击某个按钮等。在八爪鱼采集器客户端中,我们需自行配置这些流程。

八爪鱼数据采集,一般有以下几个基本流程,其中打开网页、提取数据是不可或缺的,其他流程可根根据自身需求进行增删。

1、打开网页

本步骤根据设定的网址打开网页,一般为网页采集流程的第一个步骤,用来打开指定的网站或者网页。如果有多个类似的网址需要分别打开执行同样的采集流程,则应该放置在循环的内部,并作为第一个子步骤。

2、点击元素

本步骤对网页上指定的元素执行鼠标左键单击动作,比如点击按钮、点击超链接等。

3、输入文本

本步骤在输入框中输入指定的文本,例如输入搜索关键词,输入账号等。将设定的文本输入到网页的某个输入框中,如使用搜索引擎时输入关键字。

4、循环

本步骤用来重复执行一系列步骤,根据配置不同,支持多种循环方式。1)循环单个元素:循环点击页面中的某个按钮;2)循环固定元素列表:循环处理网页中固定数目的元素;3)循环不固定元素列表:循环处理网页中不固定数目的元素;4)循环URL列表:循环打开一批指定网址的网页,然后执行同样的处理步骤;5)循环文本列表:循环输入一批指定文字,然后执行同样的处理步骤。

5、提取数据

本步骤根据提取数据模板的配置,从网页中提取数据,同时还可添加特殊字段:当前时间、固定字段、添加空字段、添加当前网页网址等。

另外,八爪鱼的规则市场有很多已经做好的规则,可直接下载后导入八爪鱼使用。

1、如何下载采集规则

八爪鱼采集器内置了规则市场,由用户分享配置好的采集规则,互帮互助。使用规则市场下载规则,可以不用花费时间研究和配置采集流程。很多网站的采集规则都可以在规则市场中搜索到,下载运行即可采集。

下载规则有以下三种方式:打开八爪鱼官网(

)->爬虫规则;

打开八爪鱼采集器客户端->市场->爬虫规则;直接在浏览器中访问数多多官网()->爬虫规则。

2、如何使用规则

一般从规则市场下载的规则是.otd为后缀的规则文件,4.*以后的版本中会自动导入下载的规则文件。以前的版本中需要手动导入下载的规则文件。将下载好的规则存储到相应位置。然后打开八爪鱼客户端->任务->导入->选择任务。从邮件或者其他即时通讯软件接受到的

规则同理。

相关采集教程:

八爪鱼使用功能点视频教程

/tutorial/videotutorial/videognd

八爪鱼爬虫软件入门准备

/tutorial/xsksrm/rmzb

八爪鱼爬虫软件功能使用教程/tutorial/gnd ajax网页数据抓取/tutorial/gnd/ajaxlabel 特殊翻页操作/tutorial/gnd/teshufanye 网页数据导出/tutorial/gnd/dataexport 云采集功能点说明/tutorial/gnd/yuncaiji

八爪鱼——90万用户选择的网页数据采集器。

1、操作简单,任何人都可以用:无需技术背景,会上网就能采集。完全可视化流程,点击鼠标完成操作,2分钟即可快速入门。

2、功能强大,任何网站都可以采:对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页,均可经过简单设置进行采集。

3、云采集,关机也可以。配置好采集任务后可关机,任务可在云端执行。庞大云采集集群24*7不间断运行,不用担心IP被封,网络中断。

4、功能免费+增值服务,可按需选择。免费版具备所有功能,能够满足用户的基本采集需求。同时设置了一些增值服务(如私有云),满足高端付费企业用户的需要。

相关文档
最新文档