八爪鱼采集器使用进阶教程共24页文档
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
八爪鱼采集器
销售客服部
目录
一、流程步骤:基本信息与高级选项 二、灵活运用:衔接与自定义流程步骤 三、流程设计:原理及其运行逻辑 四、常见问题:流程设计常见问题 五、扩展延伸:Html、Xpath、正则
流程步骤
默认步骤 自定义
操作名 基本信息
高级选项
操作名:
流程步骤名称,可自定义操作名
基本信息:
流程步骤基本信息,例如:打开网页URL地址; 点击元素标签名、文本;循环列表元素
•或者出现元素 填写Xpath路径,配合执行前等待一
起使用,在等待时间内元素出现则不再继 续等待 •使用当前循环
与循环配合使用 •添加其他特殊字段
网页标题、时间、当前时间、固定 字段等特殊字段
自定义数据字段(修改抓取方式, 定位方式即XPath,格式化数据 删除选中字段 将选中字段上移、下移
灵活运用
一起使用 •验证码图片Xpath
填写Xpath路径,告诉八爪鱼验证 码图片位置 •验证码输入框Xpath
输入框Xpath,用于配合验证码图 片Xpath,正确输入验证码 当前验证码
用于流程设计时调试规则用
判断条件
基本信息:
•判断条件 判断条件分为此次判断条件整体,
和各具体条件分支 条件分支
按不同分支条件执行不同流程步骤
高级选项:
常用流程步骤都拥有高级选项,高级选项内有基 本功能外,其他一些用于特定应用场景的功能
自定义:
按用户需求去设置流程步骤路径位置和操作方式, 例如:修改提取数据字段的Xpath路径
默认操作:
八爪鱼默认生成操作,即便不设置,在特定流 程步骤中,也会隐式生效,例如:流程开始、结束流程
打开网页
基本信息:
循环本身不产生任何操作,只负责建立循环,与
循环产生联动的是勾选了使用循环的流程步骤,来达到 循环的效果 循环/提取数据
与上述类似,循环本身不会产生任何操作,真正 与循环产生联动的是勾选了使用循环的提取数据
流程结束图标,此图片代表一个任务执行完成到 循环 结束
提取数据
运行逻辑
循环Ⅰ
循环Ⅰ第一项 循环Ⅰ第二项 循环Ⅰ第三项
高级选项:
•执行前等待 流程步骤执行前等待时间
•或者出现元素 填写Xpath路径,配合执行前等待
一起使用 •不判断,总是执行该分支
判断条件是从左到右执行 •当前包含文本
填写连续的文本字符串 当前页面包含元素
填写Xpath路径
移动鼠标到元素上
基本信息:
•元素 要移动鼠标到元素的基本信息
高级选项:
•执行前等待 流程步骤执行前等待时间
•或者出现元素 填写Xpath路径,配合执行前等待
一起使用 •使用循环
配合单个元素循环、不固定元素列 表、固定元素列表循环一起使用 •AJAX加载
页面自动刷新时间,AJAX超时为 其设置时间
切换下拉选项
基本信息:
•下拉框 下拉框的基本信息
高级选项:
•执行前等待 流程步骤执行前等待时间
•或者出现元素 填写Xpath路径,配合执行前等待
•或者出现元素 填写Xpath路径,配合执行前等待
一起使用 •使用循环
与文本循环配合使用,达到循环输 入文本效果 •自定义
设置Xpath路径表达式,根据用户 需求自定义流程步骤位置
识别验证码
基本信息:
•识别验证码 流程步骤名称
高级选项:
•执行前等待 流程步骤执行前等待时间
•或者出现元素 填写Xpath路径,配合执行前等待
。
。
。
循环Ⅰ第N项 。
。
。
循环Ⅰ结束
循环Ⅱ第一项 循环Ⅱ第二项
一起使用 •使用循环
配合单个元素循环、不固定元素列 表、固定元素列表循环一起使用 •AJAX加载
页面自动刷新时间,AJAX超时为 其设置时间
自定义流程步骤
自定义抓取方式 提取数据拥有,用于确定是抓取元
素文本、HTML还是元素属性等 •自定义定位元素方式(XPath路径)
提取数据、点击元素、输入文字、 切换下拉选项、循环、移动鼠标到元素 上拥有,用来精确流程步骤的元素路径, 以便精准的执行流程步骤 •格式化数据
•或者出现元素 填写Xpath路径,配合执行前等待
一起使用 •元素在Iframe里
填写Iframe的Xpath,解决框架网页 问题 •循环方式
五种循环方式,解决各种循环场景 •满足以下条件时退出循环
限制循环次数
提取数据
基本信息:
•字段 所提取的数据信息
高级选项:
•执行前等待 流程步骤执行前等待时间
打开网页或提取数据等操作需要使用判断条件筛选下 方可决定是否采集 •移动鼠标到元素上
提取数据需要移动鼠标到元素上,数据方展现出来 •切换下拉选项
循环需要切换下拉选项,才可以进行循环
输入文本
基本信息:
•输入框 输入框信息
要输入的文本 需要在输入框输入的文本信息
高级选项:
•执行前等待 流程步骤执行前等待时间
表、固定元素列表循环一起使用 •开新标签
新标签打开网页页面 •滚动页面
内置浏览器滚动次数与方式 •AJAX加载
页面自动刷新时间,AJAX超时为 设置时间 定位锚点
设置后页面自动跳置锚点 •激活重试
按条件尝试重新打开网页
循环
基wenku.baidu.com信息:
•循环列表 循环操作的列表元素
高级选项:
•执行前等待 流程步骤执行前等待时间
提取数据拥有,用于初步格式化数 据,一般用正则表达式处理 •自定义数据合并方式
提取数据拥有,用于选择是否追加 字段
流程设计
流程设计基本原理Ⅰ:自上而下瀑布流设计
打开网页 循环翻页
流程开始图标,从此图标开始执行工作流程 打开网页
按瀑布流原理,执行到此处,此时八爪鱼内核浏 览器会执行打开设置的页面Url 翻页循环/点击翻页
一般来说,一个常用列表信息的网站,只需要打开网 页、循环翻页、点击翻页、列表循环、提取数据等流程步骤 即可完成采集。但碰到以下场景时,我们需要一些其他流程 步骤来辅助采集,因为灵活运用各流程步骤,对我们采集十 分重要: •输入文本
打开网页,需要输入文本检索方能显示数据信息 •验证码识别
打开网页或提取数据等操作需要输入验证码,方可进 行下一步流程操作 •判断条件
•页面Url 打开网页的网址
高级选项:
•阻止弹窗 阻止弹出窗口
•使用循环 配合URL循环一起使用
•滚动页面 内置浏览器滚动次数与方式
•缓存设置 1.清除缓存 2.Cookie
•激活重试 按条件尝试重新打开网页
点击元素
基本信息:
•要点击元素 点击元素基本信息
高级选项:
•使用循环 配合单个元素循环、不固定元素列
销售客服部
目录
一、流程步骤:基本信息与高级选项 二、灵活运用:衔接与自定义流程步骤 三、流程设计:原理及其运行逻辑 四、常见问题:流程设计常见问题 五、扩展延伸:Html、Xpath、正则
流程步骤
默认步骤 自定义
操作名 基本信息
高级选项
操作名:
流程步骤名称,可自定义操作名
基本信息:
流程步骤基本信息,例如:打开网页URL地址; 点击元素标签名、文本;循环列表元素
•或者出现元素 填写Xpath路径,配合执行前等待一
起使用,在等待时间内元素出现则不再继 续等待 •使用当前循环
与循环配合使用 •添加其他特殊字段
网页标题、时间、当前时间、固定 字段等特殊字段
自定义数据字段(修改抓取方式, 定位方式即XPath,格式化数据 删除选中字段 将选中字段上移、下移
灵活运用
一起使用 •验证码图片Xpath
填写Xpath路径,告诉八爪鱼验证 码图片位置 •验证码输入框Xpath
输入框Xpath,用于配合验证码图 片Xpath,正确输入验证码 当前验证码
用于流程设计时调试规则用
判断条件
基本信息:
•判断条件 判断条件分为此次判断条件整体,
和各具体条件分支 条件分支
按不同分支条件执行不同流程步骤
高级选项:
常用流程步骤都拥有高级选项,高级选项内有基 本功能外,其他一些用于特定应用场景的功能
自定义:
按用户需求去设置流程步骤路径位置和操作方式, 例如:修改提取数据字段的Xpath路径
默认操作:
八爪鱼默认生成操作,即便不设置,在特定流 程步骤中,也会隐式生效,例如:流程开始、结束流程
打开网页
基本信息:
循环本身不产生任何操作,只负责建立循环,与
循环产生联动的是勾选了使用循环的流程步骤,来达到 循环的效果 循环/提取数据
与上述类似,循环本身不会产生任何操作,真正 与循环产生联动的是勾选了使用循环的提取数据
流程结束图标,此图片代表一个任务执行完成到 循环 结束
提取数据
运行逻辑
循环Ⅰ
循环Ⅰ第一项 循环Ⅰ第二项 循环Ⅰ第三项
高级选项:
•执行前等待 流程步骤执行前等待时间
•或者出现元素 填写Xpath路径,配合执行前等待
一起使用 •不判断,总是执行该分支
判断条件是从左到右执行 •当前包含文本
填写连续的文本字符串 当前页面包含元素
填写Xpath路径
移动鼠标到元素上
基本信息:
•元素 要移动鼠标到元素的基本信息
高级选项:
•执行前等待 流程步骤执行前等待时间
•或者出现元素 填写Xpath路径,配合执行前等待
一起使用 •使用循环
配合单个元素循环、不固定元素列 表、固定元素列表循环一起使用 •AJAX加载
页面自动刷新时间,AJAX超时为 其设置时间
切换下拉选项
基本信息:
•下拉框 下拉框的基本信息
高级选项:
•执行前等待 流程步骤执行前等待时间
•或者出现元素 填写Xpath路径,配合执行前等待
•或者出现元素 填写Xpath路径,配合执行前等待
一起使用 •使用循环
与文本循环配合使用,达到循环输 入文本效果 •自定义
设置Xpath路径表达式,根据用户 需求自定义流程步骤位置
识别验证码
基本信息:
•识别验证码 流程步骤名称
高级选项:
•执行前等待 流程步骤执行前等待时间
•或者出现元素 填写Xpath路径,配合执行前等待
。
。
。
循环Ⅰ第N项 。
。
。
循环Ⅰ结束
循环Ⅱ第一项 循环Ⅱ第二项
一起使用 •使用循环
配合单个元素循环、不固定元素列 表、固定元素列表循环一起使用 •AJAX加载
页面自动刷新时间,AJAX超时为 其设置时间
自定义流程步骤
自定义抓取方式 提取数据拥有,用于确定是抓取元
素文本、HTML还是元素属性等 •自定义定位元素方式(XPath路径)
提取数据、点击元素、输入文字、 切换下拉选项、循环、移动鼠标到元素 上拥有,用来精确流程步骤的元素路径, 以便精准的执行流程步骤 •格式化数据
•或者出现元素 填写Xpath路径,配合执行前等待
一起使用 •元素在Iframe里
填写Iframe的Xpath,解决框架网页 问题 •循环方式
五种循环方式,解决各种循环场景 •满足以下条件时退出循环
限制循环次数
提取数据
基本信息:
•字段 所提取的数据信息
高级选项:
•执行前等待 流程步骤执行前等待时间
打开网页或提取数据等操作需要使用判断条件筛选下 方可决定是否采集 •移动鼠标到元素上
提取数据需要移动鼠标到元素上,数据方展现出来 •切换下拉选项
循环需要切换下拉选项,才可以进行循环
输入文本
基本信息:
•输入框 输入框信息
要输入的文本 需要在输入框输入的文本信息
高级选项:
•执行前等待 流程步骤执行前等待时间
表、固定元素列表循环一起使用 •开新标签
新标签打开网页页面 •滚动页面
内置浏览器滚动次数与方式 •AJAX加载
页面自动刷新时间,AJAX超时为 设置时间 定位锚点
设置后页面自动跳置锚点 •激活重试
按条件尝试重新打开网页
循环
基wenku.baidu.com信息:
•循环列表 循环操作的列表元素
高级选项:
•执行前等待 流程步骤执行前等待时间
提取数据拥有,用于初步格式化数 据,一般用正则表达式处理 •自定义数据合并方式
提取数据拥有,用于选择是否追加 字段
流程设计
流程设计基本原理Ⅰ:自上而下瀑布流设计
打开网页 循环翻页
流程开始图标,从此图标开始执行工作流程 打开网页
按瀑布流原理,执行到此处,此时八爪鱼内核浏 览器会执行打开设置的页面Url 翻页循环/点击翻页
一般来说,一个常用列表信息的网站,只需要打开网 页、循环翻页、点击翻页、列表循环、提取数据等流程步骤 即可完成采集。但碰到以下场景时,我们需要一些其他流程 步骤来辅助采集,因为灵活运用各流程步骤,对我们采集十 分重要: •输入文本
打开网页,需要输入文本检索方能显示数据信息 •验证码识别
打开网页或提取数据等操作需要输入验证码,方可进 行下一步流程操作 •判断条件
•页面Url 打开网页的网址
高级选项:
•阻止弹窗 阻止弹出窗口
•使用循环 配合URL循环一起使用
•滚动页面 内置浏览器滚动次数与方式
•缓存设置 1.清除缓存 2.Cookie
•激活重试 按条件尝试重新打开网页
点击元素
基本信息:
•要点击元素 点击元素基本信息
高级选项:
•使用循环 配合单个元素循环、不固定元素列