八爪鱼采集器补采漏采说明
八爪鱼采集器使用进阶教程共24页文档
一起使用 •使用循环
与文本循环配合使用,达到循环输 入文本效果 •自定义
设置Xpath路径表达式,根据用户 需求自定义流程步骤位置
识别验证码
基本信息:
•识别验证码 流程步骤名称
高级选项:
•执行前等待 流程步骤执行前等待时间
•或者出现元素 填写Xpath路径,配合执行前等待
循环本身不产生任何操作,只负责建立循环,与
循环产生联动的是勾选了使用循环的流程步骤,来达到 循环的效果 循环/提取数据
与上述类似,循环本身不会产生任何操作,真正 与循环产生联动的是勾选了使用循环的提取数据
流程结束图标,此图片代表一个任务执行完成到 循环 结束
提取数据
运行逻辑
循环Ⅰ
循环Ⅰ第一项 循环Ⅰ第二项 循环Ⅰ第三项
。
。
。
循环Ⅰ第N项 。
。
。
循环Ⅰ结束
循环Ⅱ第一项 循环Ⅱ第二项
一起使用 •验证码图片Xpath
填写Xpath路径,告诉八爪鱼验证 码图片位置 •验证码输入框Xpath
输入框Xpath,用于配合验证码图 片Xpath,正确输入验证码 当前验证码
用于流程设计时调试规则用
判断条件
基本信息:
•判断条件 判断条件分为此次判断条件整体,
和各具体条件分支 条件分支
按不同分支条件执行不同流程步骤
•或者出现元素 填写Xpath路径,配合执行前等待一
起使用,在等待时间内元素出现则不再继 续等待 •使用当前循环
与循环配合使用 •添加其他特殊字段
网页标题、时间、当前时间、固定 字段等特殊字段
自定义数据字段(修改抓取方式, 定位方式即XPath,格式化数据 删除选中字段 将选中字段上移、下移
八爪鱼采集器实战采集练习案例
题目一:采集列表页同时采集详情页
网址:https:///baojian
红框是采集字段
下箭头是翻页
上箭头需要点击详情页
详情页网址:https:///baojian/1.html、https:///baojian/15902.html
要求:
1.字段不能遗漏
2.字段不能乱序
3.循环限制采集30页
题目2:采集新闻并保持图文顺序网址:/
红线处为翻页
详情页:要保持图文次序
网站:/19835.html
采集效果如图:
采集效果示例:/11088.html
要求:
1.采集新闻标题并且点击进去采集新闻正文内容和作者
2.保持原网页的图文顺序
题目3:利用分支和验证码,采集时验证码失效时能检测出来并自动重新输入验证码
网址:/index.html
要求输入深圳以及验证码并点击查询,然后对列表内容进行翻页采集
要求:
1.采集列表数据
2.采集50页
题目4:利用分支判断,对页码进行判断,跳过偶数页的列表内容
网址:https:///baojian
红框处:2、4、6、8、..、2m、..、2n、2n+2、
要求
1.跳过偶数页的内容都不采集
2.采集奇数页内容的列表以及详情,字段要求与题目1向符合。
文章采集软件使用方法
对于站长以及新媒体运营人员来说,文章采集是必须要掌握的一项功能。
通过文章采集一个是能很清楚的掌握自身行业中哪些类型的文章受用户的喜爱,其实是合理的采集高质量的爆款文章,建立自己的资料库,从而生产出优质的文章。
目前来说,有很多自媒体平台都是可以采集文章的,比如今日头条、百家号、搜狗微信、新浪微博等等,这些平台基本都有搜索功能,你可以根据关键词去采集自己需要的文章。
下面具体为大家介绍八爪鱼文章采集软件的使用方法。
步骤1:创建采集任务1)进入主界面选择,选择“自定义模式”文章采集软件使用步骤12)将上面网址的网址复制粘贴到网站输入框中,点击“保存网址”文章采集软件使用步骤23)保存网址后,页面将在八爪鱼采集器中打开,红色方框中的信息是这次演示要采集的内容,即为今日头条最新发布的热点新闻。
文章采集软件使用步骤3步骤2:设置ajax页面加载时间●设置打开网页步骤的ajax滚动加载时间●找到翻页按钮,设置翻页循环●设置翻页步骤ajax下拉加载时间1)网页打开后,需要进行以下设置:打开流程图,点击“打开网页”步骤,在右侧的高级选项框中,勾选“页面加载完成向下滚动”,设置滚动次数,每次滚动间隔时间,一般设置2秒,这个页面的滚动方式,选择直接滚动到底部;最后点击确定文章采集软件使用步骤4注意:今日头条的网站属于瀑布流网站,没有翻页按钮,这里的滚动次数设置将影响采集的数据量。
文章采集软件使用步骤5步骤3:采集新闻内容创建数据提取列表1)如图,移动鼠标选中评论列表的方框,右键点击,方框底色会变成绿色 然后点击“选中子元素”文章采集软件使用步骤6注意:点击右上角的“流程”按钮,即可展现出可视化流程图。
2)然后点击“选中全部”,将页面中需要需要采集的信息添加到列表中文章采集软件使用步骤7注意:在提示框中的字段上会出现一个“X”标识,点击即可删除该字段。
文章采集软件使用步骤83)点击“采集以下数据”文章采集软件使用步骤9 4)修改采集字段名称,点击下方红色方框中的“保存并开始采集”文章采集软件使用步骤10步骤4:数据采集及导出1)根据采集的情况选择合适的采集方式,这里选择“启动本地采集”文章采集软件使用步骤11说明:本地采集占用当前电脑资源进行采集,如果存在采集时间要求或当前电脑无法长时间进行采集可以使用云采集功能,云采集在网络中进行采集,无需当前电脑支持,电脑可以关机,可以设置多个云节点分摊任务,10个节点相当于10台电脑分配任务帮你采集,速度降低为原来的十分之一;采集到的数据可以在云上保存三个月,可以随时进行导出操作。
八爪鱼采集器使用入门教程
三、提取数据
正式的采集步骤
四、点击元素 循环本身是不会有任何执行操作的,如果要实现循环翻页,则 需要一个点击元素来和循环产生联动
流程设计步骤
流程设计步骤: 在八爪鱼采集器中,一共有11个流程设计操作,其中分为基本步骤和进阶步骤,划分为以下: 基本步骤: 基本步骤本身是应用较多的流程设计操作,通常来说,要实现一个网页的数据快 速整理与采集,这些步骤是必不可少的,基本步骤如下: 1)打开网页 2)点击元素 3)循环 4)提取数据 进阶步骤: 进阶步骤,是指除基本步骤外,我们需要通过下列操作来辅助完成我们的数据采 集,例如:有时候我们采集的数据需要先输入文本才能进行采集,进阶步骤如下: 1)输入文字 2)识别验证码 3)切换下拉选项 4)判断条件 5)移动鼠标到元素上 6)结束循环 7)结束流程
操作基本信息及高级选项
在八爪鱼中,流程操作由基本信息与高级选项两部分组成 一、基本信息: 基本信息一般会将该操作流程的基本信息显示出来,例如:打开网页会显示你打开网页的URL, 点击元素会显示你点击的元素文本等 二、高级选项: 高级选项,可以设置一些额外的选项设置,以便辅助规则正确有效执行,例如:执行前等待、元素 在iframe里等
二、任务规则:
任务规则,就是指根据特定的网页,按人用浏览器去访问网页的过程制定好的自动化任务程 序,一般来说,一个类型相似的网站对应一个任务规则 三、任务状态: 1)任务生命周期:可执行状态、等待状态、运行中状态、已完成状态、已停止状态 2)运行中状态:1)本地采集状态、云采集状态
八爪鱼采集文章具体内容
八爪鱼采集文章具体内容
八爪鱼采集文章的具体内容需要使用八爪鱼采集器来实现。
以下是使用八爪鱼采集文章内容的步骤:
1. 打开八爪鱼采集器,并选择“自定义采集”模式。
2. 在“自定义采集”模式下,需要输入网址,并点击“下一步”。
3. 在网页元素编辑页面,可以观察到网页的结构,需要采集的标题和内容可以通过拖拽选择网页元素的方式来选择。
4. 选中文本后,在右侧的属性列表中,可以设置要采集的内容,例如标题、正文、作者等。
5. 点击“保存并开始采集”按钮,八爪鱼采集器会自动采集网页中的内容,并保存到本地文件中。
需要注意的是,在使用八爪鱼采集文章内容时,需要遵守相关法律法规和网站的使用协议,不得采集涉及隐私、版权等敏感信息,也不能对网站的正常运行造成影响。
使用八爪鱼采集器采集大众点评商家数据
使用八爪鱼采集器采集大众点评商家数据本文介绍采集使用八爪鱼7.0采集大众点评商家的方法采集网站:https:///search/category/7/0使用功能点:网页列表内容提取相关采集教程:美团商家信息采集黄页88数据采集赶集招聘信息采集步骤1:创建采集任务1)进入主界面选择,选择自定义模式使用八爪鱼采集器采集大众点评商家数据图12)将上面网址的网址复制粘贴到网站输入框中,点击“保存网址”3)保存网址后,页面将在八爪鱼采集器中打开,红色方框中的列表就是我们需要采集的信息使用八爪鱼采集器采集大众点评商家数据图3步骤2:创建翻页循环找到翻页按钮,设置翻页循环1)将页面下拉到底部,找到下一页按钮,鼠标点击,在右侧操作提示框中,选择“循环点击下一页”使用八爪鱼采集器采集大众点评商家数据图4步骤3:商家信息采集●选中需要采集的字段信息,创建采集列表●编辑采集字段名称1)如图,移动鼠标选中列表中商家的名称,右键点击,需采集的内容会变成绿色使用八爪鱼采集器采集大众点评商家数据图5注意:点击右上角的“流程”按钮,即可展现出可视化流程图。
2)移动鼠标选中红色方框里任意文本字段后,列表中所有适配内容会变成绿色,在右侧操作提示框中,查看提取的字段,可以将不需要的字段删除,然后点击“选中全部”使用八爪鱼采集器采集大众点评商家数据图6注意:鼠标放在该字段上会出现一个删除标识,点击即可删除该字段。
使用八爪鱼采集器采集大众点评商家数据图7 3)点击“采集以下数据”使用八爪鱼采集器采集大众点评商家数据图84)修改采集字段名称使用八爪鱼采集器采集大众点评商家数据图95)点击下方红色方框中的“保存并开始采集”使用八爪鱼采集器采集大众点评商家数据图106)根据采集的情况选择合适的采集方式,这里选择“启动本地采集”使用八爪鱼采集器采集大众点评商家数据图111)采集完成后,会跳出提示,选择导出数据使用八爪鱼采集器采集大众点评商家数据图122)选择合适的导出方式,将采集好的数据导出使用八爪鱼采集器采集大众点评商家数据图13八爪鱼——70万用户选择的网页数据采集器。
八爪鱼获取数据的内容和方法
八爪鱼是一种网络爬虫工具,可以帮助用户快速获取网页上的数据。
以下是使用八爪鱼获取数据的内容和方法:
确定目标数据源:首先需要确定要获取数据的网站或数据源,了解网站的结构、数据存储方式以及是否存在反爬机制等信息。
选择合适的采集模板:八爪鱼提供了多种采集模板,可以根据目标数据源的结构和数据特点选择合适的模板,如列表页采集、详情页采集等。
配置采集规则:根据目标数据源的特点和需求,配置相应的采集规则,如提取链接、提取字段等。
运行采集任务:配置完成后,可以运行采集任务,八爪鱼会自动按照配置的规则抓取数据。
处理和导出数据:八爪鱼支持将抓取的数据保存为多种格式(如Excel、CSV等),可以根据需要选择相应的格式导出数据。
优化采集规则:在实际使用中,可能需要不断调整和优化采集规则,以获取更准确、更完整的数据。
需要注意的是,在使用八爪鱼进行数据采集时,需要遵守相关法律法规和网站的使用协议,不要进行恶意爬取或滥用数据等行为。
同时,也要注意保护个人隐私和信息安全。
阿里巴巴数据采集器使用方法
阿里巴巴数据采集器使用方法编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(阿里巴巴数据采集器使用方法)的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为阿里巴巴数据采集器使用方法的全部内容。
阿里巴巴数据采集器使用方法阿里巴巴集团经过十几年的快速发展,在全球范围都有它的身影,众多的业务和关联公司形成了一个多样性的生态系统,旗下的业务有:淘宝,天猫,1688,速卖通,闲鱼,蚂蚁金服,阿里云等。
如此多的关联业务,其中的数据也是很有参考价值的。
学习阿里巴巴数据采集器的使用方法让获取数据的来源更广阔。
本文介绍使用八爪鱼采集器采集阿里巴巴数据(以保温杯厂商为例)的方法.采集网站:https:///selloffer/offer_search.htm?keywords=%B1%A3%CE%C2%B1%AD&n=y&spm=a260k.635.3262836.d102本文仅以保温杯厂商搜索结果页URL作为采集示例,大家需要采集其他产品厂商可以更换链接进行采集。
采集的内容:阿里巴巴商品标题,阿里巴巴厂家名称,阿里巴巴厂家电话(其他阿里相关的数据如果要采集的话也是可以添加的)使用功能点:●创建循环翻页●商品URL采集提取●创建URL循环采集任务●修改Xpath步骤1:创建阿里巴巴数据采集任务1)进入主界面,选择“自定义采集"2)将要采集的阿里巴巴列表或搜索结果页URL复制粘贴到输入框中,点击“保存网址”3)打开网页的时候页面需要向下滚动才会出现所有的数据,所以可以在这一步设置一个高级选项,在滚动页面这里设置页面加载完成向下滚动,滚动次数设置3秒,每次间隔3秒,滚动方式选择“直接滚动到底部”.4)保存网址后,页面将在八爪鱼采集器中打开,红色方框中的商品url是这次演示采集的信息步骤2:创建翻页循环1)将页面下拉到底部,找到下一页按钮,鼠标点击,在右侧操作提示框中,选择“循环点击下一页”步骤3:采集阿里巴巴商品URL 1)如图,移动鼠标选中列表中商品的名称,右键点击,需采集的内容会变成绿色,然后点击“选中全部”2)选择“采集以下链接地址”3)点击“保存并开始采集”。
八爪鱼采集器新手入门必备的知识点(7.0版)18页PPT
八爪鱼采集器是一款模拟人的思维去访问网页
文档的互联网数据采集器。通过设计工作流程,可以 实现采集的程序自动化,以达到快速的对网页数据进 行收集整合,完成用户数据采集的目的。
深圳视界信息技术有限公司
界面简介
-八爪鱼界面功能介绍
深圳视界信息技术有限公司
界面简介
-智能模式介绍
深圳视界信息技术有限公司
界面简介
常用步骤:
常用步骤本身是应用较多的流程设计操作,通常来说,要实现一个网页的数据快速整理
与采集,这些步骤是必不可少的,基本步骤如下: 1)打开网页 2)点击元素 3)循环 4)提取数据
进阶步骤:
进阶步骤,是指除基本步骤外,我们需要通过下列操作来辅助完成我们的数据采集,进 阶步骤如下:
1)输入文字 3)切换下拉选项 5)移动鼠标到元素上
7)结束流程
2)识别验证码 4)判断条件 6)结束循环
深圳视界信息技术有限公司
实战演练
新浪财经 vip.stock.finance.sina/q/go.php/vIR_RatingNewest/index.phtml?p =1
58同城 bj.58/waiyu/30390652277055x.shtml?adtype=1&entinfo=303906 52277055_0&adact=3&psid=167579685196837197191772083&i uType=q_1&ClickID=2&PGTID=0d303871-0000-4c8d-427b904ef31bbe7d
结语: 实践出真知,八爪鱼让数据触手可及
深圳视界信息技术有限公司
实战演练
一、打开网页:
八爪鱼产品使用手册
八爪鱼产品使用手册目录1关于八爪鱼 (2)2Cookie (更多内容详见Cookie 视频) (2)2.1 Cookie诞生 (2)2.2 Cookie概述 (2)2.3 Cookie工作原理 (3)3Xpath、Html (3)3.1 Xpath、Html概念 (3)3.2 Html结构 (4)3.3 Html标签、元素、节点 (4)3.4 Html常见标签 (5)3.5 Html常见属性 (6)3.6 Xml、Xpath、Html关系和区别 (7)4常见问题 (7)5常见软件操作教程 (10)5.1 采集单个网页 (10)5.2 采集单个列表页面 (10)5.3 单网页表格信息采集 (10)5.4 采集单网页列表详细信息 (10)5.5 采集分页列表 (10)5.6 采集分页列表详细信息 (10)5.7 采集分页列表+ajax延时设置 (10)5.8 单个文本输入及各种登录方式采集 (11)5.9 Cookie登录 (11)5.10 文本循环输入 (11)5.11 循环切换下拉框 (11)5.12 xpath入门1 (11)5.13 xpath入门2 (11)5.14 一二页重复循环采集 (11)关于八爪鱼八爪鱼·大数据,通过自主创新研发,以分布式云平台架构为产品核心,帮助客户通过在极短的时间内,通过简单操作即可获取想要的数据,并以结构化数据展示,为企业数据挖掘与数据分析提供基础数据源。
于2015年1月,获得国家重点软件企业上市公司“拓尔思”投资。
Cookie (更多内容详见Cookie 视频)Cookie诞生当某个用户打开浏览器发出页面请求时,web服务器只是进行简单相应,然后就关闭与该用户的连接。
所以当用户每发起一个打开网页请求到web服务器的时候,无论是否是第一次打开同一个网页,web服务器都会把这个请求当作第一次来对待,那这样的缺陷可想而知,比如每次打开登录页面的时候都需要输入用户名、密码。
如何利用八爪鱼爬虫抓取数据
如何利用八爪鱼爬虫抓取数据很多人都听说过八爪鱼采集器,知道它强大的网页数据采集功能,以及简单的操作步骤。
但是有的同学担心不懂代码,不会使用八爪鱼爬虫做抓取。
作为同样技术水平为0的文科生小编,看了教程后使用起来666,友好又高效,向你保证不会技术也可以轻松采集。
要系统的学习八爪鱼,完成从入门到采集大神的历练,需要经过以下几个阶段:一、理解八爪鱼工作的核心原理二、了解八爪鱼入门词汇(有一个初步印象)三、采集基本流程教程(明白整体架构)四、细致学习功能点教程+实战案例教程(开始实际操作)一、理解八爪鱼工作的核心原理八爪鱼采集的核心原理是:模拟人浏览网页,复制数据的行为,通过记录和模拟人的一系列上网行为,代替人眼浏览网页,代替人手工复制网页数据,从而实现自动化从网页采集数据,然后通过不断重复一系列设定的动作流程,实现全自动采集大量数据。
理解核心原理是十分必要的,只有理解了工作原理,再结合实际操作仔细体会,才会取得事半功倍的效果。
二、了解八爪鱼入门词汇(有一个初步印象)要掌握的入门词汇主要有:积分、规则、云加速、云优先、URL、单机采集、云采集、定时采集、URL循环、自动导出、COOKIE、XPATH、HTML八爪鱼入门词汇详细资料,请点击以下链接查看:/doc-wf三、了解采集基本流程教程(明白整体架构)八爪鱼在配置规则、采集数据的时候,主要会经过以下几个步骤:打开网页、点击元素、输入文本、提取数据、循环、下翻下拉列表、条件分支、鼠标悬停。
针对这些步骤,八爪鱼内置了很多高级选项。
在针对具体网页的采集过程中,网页结构、网页情况是不一样的。
我们需要观察网页结构,相应地在八爪鱼中进行高级选项的设置。
那么,了解八爪鱼采集基本流程,是十分必要的。
八爪鱼采集基本流程详解,请点击以下链接查看:/doc-wf四、细致学习功能点教程+实战案例教程(开始实际操作)经过前两步,我们掌握了入门词汇,知道经常出现在八爪鱼中的积分、规则、云加速、云优先、URL、COOKIE、XPATH等词是什么意思;我们对八爪鱼的基本采集步骤有了清晰的把控,明白有8大步骤和若干高级选项需要设置。
八爪鱼采集器如何批量采集下载瀑布流网站图片
八爪鱼采集器如何批量采集下载瀑布流网站图片随着瀑布流网站、AJAX 网页等技术和网站表现形式大行其道,技术架构和网页结构都与以往传统的网站有所区别,图片展现形式表现的更加的灵活。
有些企业或个人出于营销研究或者收藏的需求,需要对这类型网站进行网页数据采集。
本文介绍遇到这类型网站时,我们要如何使用八爪鱼采集器来快速收集数据。
示例网址:/explore/huatong/观察示例网址,发现如下特征:1、页面上的图片不是一次加载完成,需要滚动多次才会滚动到底部。
这类型的网站属于瀑布流网站(新浪微博也是此种情况)。
2、详情页不能通过点击标题进入,而需要点击图片才能进入。
相关采集教程:新浪微博数据采集58同城信息采集搜狗微信文章采集步骤1:创建采集任务1、进入主界面,选择自定义模式批量采集下载瀑布流网站图片-图12、将要采集的网址,复制粘贴到网站输入框中,点击“保存网址”批量采集下载瀑布流网站图片-图2步骤2:建立采集规则1、系统自动打开网页。
这是一个瀑布流的网页,涉及AJAX技术,需要设置 AJAX网页加载,以便确保数据采集的时候不会遗漏。
勾选“页面加载完成向下滚动”,设置滚动次数为“2次”,时间为“2秒”,滚动方式为“直接滚动到底部”;最后点击确定批量采集下载瀑布流网站图片-图3注意:示例网站,没有翻页按钮,滚动次数会影响数据采集数量,可按需设置2、由于我们采集时需要点击图片才能进入到产品详情页,在建立元素循环列表的时候,需要将图片链接设置为列表项。
点击页面内的第一张图片,再点击“A 标签”,系统会选中图片的链接并发现同类链接。
选择“选中全部”,再选择“循环点击每个链接”批量采集下载瀑布流网站图片-图4:点击“A标签”批量采集下载瀑布流网站图片-图5:选择“选中全部”批量采集下载瀑布流网站图片-图6:“循环点击每个链接”此步骤涉及Ajax技术。
打开“高级选项”,勾选“Ajax加载数据”,设置时间为“2秒”。
【八爪鱼v7采集教程】模拟手机端功能说明
【八爪鱼采集教程】模拟手机端功能说明
模拟手机端的功能是针对于一类特殊的网站而言的,即某些手机端访问的网站我们在电脑上打开的时候就会自动跳转到PC 版的页面,导致打开显示出来的样式并不是和手机端显示的一样。
那在下图所示位置我们输入网址之后点击‘设置’,并勾选上‘模拟手机访问网页’,就不会自动跳转了,就能正常进行规则配置了。
模拟手机端功能
-图1
下面以/?reftype=web&ref=为例,这个网站在手机端显示的样式为下图:
模拟手机端功能-图2
但是我们在电脑端的浏览器中访问这个网站却被跳转成如下图所示:
模拟手机端功能-图3
如果我们勾上这个模拟手机端访问的功能,如下图所示就能正常打开和手机一样的页面然后进行正常采集了:
模拟手机端功能-图4
相关采集教程:
黄页88数据采集
赶集招聘信息采集
房天下信息采集
八爪鱼——70万用户选择的网页数据采集器。
1、操作简单,任何人都可以用:无需技术背景,会上网就能采集。
完全可视化流程,点击鼠标完成操作,2分钟即可快速入门。
2、功能强大,任何网站都可以采:对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页,均可经过简单设置进行采集。
八爪鱼采集过程中常出现的问题以及解决方法
八爪鱼采集过程中常出现的问题以及解决方法本教程主要讲的是如果你在使用八爪鱼采集时遇到一些问题,如何快速找出错误、解决错误或者如何了解错误、更好的和客服沟通的方法。
八爪鱼采集器主要通过技术将用户浏览网页的操作进行定位和模拟来收集数据,用户不需要明白网页架构、数据采集原理等技能,通过八爪鱼采集器就可以构成八爪鱼可以看懂的、可以循环工作的采集流程。
如果存在采集模式不满足需求的情况,排错后面有更加详细的教程。
采集过程中出现的错误可以归类为五个方面,分别是网页问题、规则问题、定位模拟问题、采集器问题、以及云端问题。
当采集出现异常时,请先按照如下流程进行错误排查,寻找问题类型:1、手动执行一遍规则:打开界面右上角的流程图,用鼠标点击流程图内规则,从上至下,每次点击下一步都有相应反应,没有发生反应的步骤则是问题出现步骤。
注意点:1)循环内的点击以及提取元素要手动选择循环中除第一个以外的内容,防止循环失效,只点击提取循环内第一个元素2)所有规则每一步执行完才执行下一步,网页未加载完全,即浏览器上圆圈等待图标未消失时,观察网页内容是否加载完全,如果加载完全可以自行取消加载,再配置规则。
2、进行单机采集,查看采集结果中未采集到数据的项目。
注意点:规则中最好加入当前网址,这样出现未采集到数据的项目,可以复制网址在浏览器中打开查看原因,确定错误。
下面分别将可能出现问题的现象叙述如下,供你参考:1、手动执行步骤无反应可能现象有两种:1)未正常执行步骤原因:规则问题、采集器问题、定位模拟问题解决方法:可进行排查,删除该步骤,重新添加一遍,如果还是无法执行,则排除了规则问题,你可以:将该网页在浏览器打开进行操作,如果一些滚动翻页或点击翻页在浏览器可以执行而采集器中不能执行,则是采集器问题,原因是采集器内镶浏览器为火狐浏览器,可能是内镶的浏览器版本在随后的版本发生了变化,导致在浏览器可以实现的功能,在采集器内镶浏览器中无法执行,该类网页中的数据,智能采集翻页或滚动之前的数据。
网页图片采集器使用详解
我们有时候需要采集电商网站的商品图片,就需要用到网页图片采集器。
这里详细介绍使用八爪鱼采集器采集网页图片。
采集图片的步骤主要有两大步骤,第一,先将网页中图片的URL采集下来。
第二,通过八爪鱼专用的图片批量下载工具,将采集到的图片URL,下载并保存到本地电脑中。
本文以采集淘宝商品搜索页面的商品图片为例,详细介绍网页图片采集器的使用方法。
采集网址:淘宝商品搜索页面比如T恤(可更换其他关键词对淘宝商品图片进行采集):https:///search?q=T%E6%81%A4&imgfile=&commend=all &search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taob ao-item.1&ie=utf8&initiative_id=tbindexz_20170306采集数据内容:淘宝商品图片地址使用功能点:●翻页设置●图片链接采集步骤1:创建淘宝商品图片采集任务1)进入八爪鱼采集器主界面,选择自定义模式淘宝商品图片采集步骤12)将上面网址的网址复制粘贴到网站输入框中,点击“保存网址”淘宝商品图片采集步骤23)如下图红色框中的淘宝商品图片即为本次要采集的内容。
淘宝商品图片采集步骤3步骤2:创建翻页循环●找到翻页按钮,设置翻页循环●设置ajax翻页时间●设置滚动页面1)将淘宝商品搜索结果页页面下拉到底部,找到下一页按钮,鼠标点击,在右侧操作提示框中,选择“循环点击下一页”这个选项。
淘宝商品图片采集步骤42)选择右上角的流程按钮,点击流程图中的点击翻页按钮,然后选中ajax加载数据,时间选择2秒。
淘宝商品图片采集步骤5步骤3:淘宝商品图片链接采集●选中采集的淘宝商品图片,创建图片的采集列表●提取淘宝商品图片链接1)点击需要采集的图片,点击“选中全部”淘宝商品图片采集步骤62)当前页面中所有的图片地址将会被选中,点击“采集以下图片地址”淘宝商品图片采集步骤7注意:在提示框中的字段上会出现一个“X”标识,点击即可删除该字段。
八爪鱼采集器使用进阶教程
循环
基本信息:
•循环列表 循环操作的列表元素
高级选项:
•执行前等待 流程步骤执行前等待时间 •或者出现元素 填写Xpath路径,配合执行前等待 一起使用 •元素在Iframe里 填写Iframe的Xpath,解决框架网页 问题 •循环方式 五种循环方式,解决各种循环场景 •满足以下条件时退出循环 限制循环次数
八爪鱼默认生成操作,即便不设置,在特定流 程步骤中,也会隐式生效,例如:流程开始、结束流程
打开网页
基本信息:
•页面Url 打开网页的网址
高级选项:
•阻止弹窗 阻止弹出窗口 •使用循环 配合URL循环一起使用 •滚动页面 内置浏览器滚动次数与方式 •缓存设置 1.清除缓存 2.Cookie •激活重试 按条件尝试重新打开网页
点击元素
基本信息:
•要点击元素 点击元素基本信息
高级选项:
•使用循环 配合单个元素循环、不固定元素列 表、固定元素列表循环一起使用 •开新标签 新标签打开网页页面 •滚动页面 内置浏览器滚动次数与方式 •AJAX加载 页面自动刷新时间,AJAX超时为 设置时间 定位锚点 设置后页面自动跳置锚点 •激活重试 按条件尝试重新打开网页
翻页问题
死循环翻页 死循环翻页,一般都是由点击翻页的自定义定位 元素方式中的XPath路径不精准导致的,此时我们需 要根据网页特点,来修改Xpath,教程。 •提取为空 如果网页能正常打开,提取为空一般有下列两种 情况: 1)IFRAME IFRAME问题教程 2)Xpath不精准 Xpath不精准,导致部分数据提取不到,这时我 们需要观察网页结构进行修改Xpath Xpath基础教程 观看完后,尝试自己解决,如果未能解决,可以 到Xpath板块进行发帖咨询
八爪鱼使用答疑
八爪鱼使用答疑API就是操作系统留给应用程序的一个调用接口,应用程序通过调用操作系统的API 而使操作系统去执行应用程序的命令。
满足多种业务场景适合产品、运营、销售、数据分析、政府机关、电商从业者、学术研究等多种身份职业免费模板N个问题:任务停止后,下次采集时可以从停止的地方继续采集吗?回答:目前不可以,任务停止后,下次采集会从头开始采集,不能实现断点续采。
断点续采功能正在开发中,尽请期待。
问题1:八爪鱼能采什么数据?回答:八爪鱼是一款通用的网页数据采集器,通过内置浏览器访问网页并采集数据,满足以下2个条件的数据均可采集①网页上公开显示的数据、通过账号密码登录后可以查看到的数据。
②可以用鼠标复制粘贴下来的数据、网页上没显示但是网页源码中有的数据。
问题2:八爪鱼能采集XX网站吗?回答:八爪鱼可以采集99%的网站。
有2种采集方式:①使用八爪鱼提供的模板采集:八爪鱼客户端中内置了很多网站的采集模板,在客户端中搜索是否有XX网站的模板,如果有,直接使用即可。
②自定义配置采集规则:如果没有想要的模板,可以自己配置采集规则。
问题3:八爪鱼能采集XX行业的数据吗?回答:可以,但是首先需明确XX行业的数据存在于哪个网站上。
例如,电商行业的数据在淘宝/京东/亚马逊等等电商网站上有,那么采集电商行业的数据,就转化成采集淘宝/京东/亚马逊的网站了,此时参见问题2。
如果您不确定想要的行业数据哪个网站上有,可以咨询客服进行数据付费定制,或者参考我们的文章:106个数据分析师专用数据源。
问题1:八爪鱼能采集QQ邮箱/ 用户浏览数据/ 卖家信息/ 客户数据吗?回答:八爪鱼是一款通用的网页数据采集器,通过内置浏览器访问网页并采集数据,满足以下2个条件的数据均可采集:①网页上公开显示的数据、通过账号密码登录后可以查看到的数据。
②可以用鼠标复制粘贴下来的数据、网页上没显示但是网页源码中有的数据。
因此,首先需明确,您需要的QQ邮箱/ 用户浏览数据/ 卖家信息/ 客户数据等数据,是否在网页上展示出来,或者您是否有权限登录查看,如果是,则可以采集。
八爪鱼采集规则基本步骤介绍
八爪鱼采集规则基本步骤介绍八爪鱼采集器采集规则步骤简介:1.打开网页2.点击元素3.输入文本4.提取数据5.循环6.切换下拉选项7.条件分支8.鼠标悬停1、打开网页该步骤根据设定的网址打开网页,一般为网页采集流程的第一个步骤,用来打开指定的网站或者网页。
如果有多个类似的网址需要分别打开执行同样的采集流程,则应该放置在循环的内部,并作为第一个子步骤。
打开网页步骤注意事项:1)网页地址网址,一般可以从网页浏览器如IE等的地址栏中复制得到,如:2)使用当前循环项配合循环步骤来使用,用以重复打开多个类似的网页,然后执行同样的一套流程,循环打开网页时,应为作为循环步骤的第一个子步骤。
如果勾选此项,则无需手动设置网页地址,网页地址会自动显示循环设定的网址列表的当前循环项。
3)阻止弹出窗口用以屏蔽网页弹窗广告,如果打开的网页偶尔会变成另外一个广告页面,则可以使用本选项阻止广告页面弹出。
4)超时在网页加载完成前等待的最大时间,如果网页打开缓慢,或者长时间无法打开,则流程最多等待超时指定的时间,之后无论网页是否加载完成,都直接执行下一步骤,应尽量避免设置过长的超时时间,因为这会影响采集速度。
5)滚动到底部个别网页在打开网页后并没有显示所有数据,需要滚动鼠标滚轮或者拖动页面滚动条到底部,才会加载没有显示的数据,使用此选项在页面加载完成后滚动到底部6)激活重试如果网页没有按照成功打开预期页面,例如显示服务器错误(500),访问频率太快等,或者跳转到其他正常执行不应该出现的页面,可以使用本选项进行重试,但必须配合以下几个重试参数执行,请注意以下几种判断的情况任意一种出现都会导致重试。
7)结果页面网址包含如果出现的页面网址中总是出现某个特殊的字符串,例如网页找不到时一般会出现500.htm等,则使用此选项可以判断没有打开预期页面,需要重试8)结果页面文本包含如果出现的页面文字中中总是出现某个特殊的字符串,例如"访问频率太快",则使用此选项可以判断没有打开预期页面,需要重试9)结果页面文本不包含如果正常打开网页一定会出现某个特殊的字符串,但没有正常打开的时候一定不会出现该字符串,则可以据此判断判断没有打开预期页面,需要重试10)最大重试次数为了避免无限制重复尝试,请示用本选项限制最大重复尝试的次数,如果重试到达最大允许的次数,任然没有成功,则流程将停止重试,继续执行下一步骤11)重试间隔在两次重试之间等待的时间,一般情况下,当打开网页出错时,立即重试很有可能是同样的错误,适当等待则可能成功打开预期网页,但应该尽量避免设置过长的等待时间,因为这会影响采集速度。
新版八爪鱼采集过程中常出现的问题以及解决方法131.doc
八爪鱼采集过程中常出现的问题以及解决方法本教程主要讲的是如果你在使用八爪鱼采集时遇到一些问题,如何快速找出错误、解决错误或者如何了解错误、更好的和客服沟通的方法。
八爪鱼采集器主要通过技术将用户浏览网页的操作进行定位和模拟来收集数据,用户不需要明白网页架构、数据采集原理等技能,通过八爪鱼采集器就可以构成八爪鱼可以看懂的、可以循环工作的采集流程。
如果存在采集模式不满足需求的情况,排错后面有更加详细的教程。
采集过程中出现的错误可以归类为五个方面,分别是网页问题、规则问题、定位模拟问题、采集器问题、以及云端问题。
当采集出现异常时,请先按照如下流程进行错误排查,寻找问题类型:1、手动执行一遍规则:打开界面右上角的流程图,用鼠标点击流程图内规则,从上至下,每次点击下一步都有相应反应,没有发生反应的步骤则是问题出现步骤。
注意点:1)循环内的点击以及提取元素要手动选择循环中除第一个以外的内容,防止循环失效,只点击提取循环内第一个元素2)所有规则每一步执行完才执行下一步,网页未加载完全,即浏览器上圆圈等待图标未消失时,观察网页内容是否加载完全,如果加载完全可以自行取消加载,再配置规则。
2、进行单机采集,查看采集结果中未采集到数据的项目。
注意点:规则中最好加入当前网址,这样出现未采集到数据的项目,可以复制网址在浏览器中打开查看原因,确定错误。
下面分别将可能出现问题的现象叙述如下,供你参考:1、手动执行步骤无反应可能现象有两种:1)未正常执行步骤原因:规则问题、采集器问题、定位模拟问题解决方法:可进行排查,删除该步骤,重新添加一遍,如果还是无法执行,则排除了规则问题,你可以:将该网页在浏览器打开进行操作,如果一些滚动翻页或点击翻页在浏览器可以执行而采集器中不能执行,则是采集器问题,原因是采集器内镶浏览器为火狐浏览器,可能是内镶的浏览器版本在随后的版本发生了变化,导致在浏览器可以实现的功能,在采集器内镶浏览器中无法执行,该类网页中的数据,智能采集翻页或滚动之前的数据。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
八爪鱼采集器补采漏采说明
我们在配置完一个规则任务之后,在采集完成之后有可能会有部分数据采集不成功(例如偶尔网页打不开),如下图所示:这时候如果是单机采集完成时系统检测到有漏采的则会弹出一条提示消息,选择yes就会重新进行补采。
注意单机采集会提示但是云采集不会提示,云采集会自动进行补采。
八爪鱼采集器补采漏采-图1
我们点击是之后,系统会将漏采的信息自动补采完成。
如果依然采集失败系
统会在运行结束后再次询问是否进行补采。
注意整个规则中只能出现一个提取数据的步骤才可以启用补采漏采功能,如下图所示如果有两个或以上提取数据的步骤是不支持补采漏采的
八爪鱼采集器补采漏采-图2
八爪鱼——70万用户选择的网页数据采集器。
1、操作简单,任何人都可以用:无需技术背景,会上网就能采集。
完全可视化流程,点击鼠标完成操作,2分钟即可快速入门。
2、功能强大,任何网站都可以采:对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页,均可经过简单设置进行采集。
3、云采集,关机也可以。
配置好采集任务后可关机,任务可在云端执行。
庞大云采集集群24*7不间断运行,不用担心IP被封,网络中断。