八爪鱼采集器提取数据-找不到时如何处理

合集下载

八爪鱼采集器使用方法图解

八爪鱼采集器使用方法图解

八爪鱼采集器使用方法图解:
1、打开八爪鱼采集器的客户端,登陆软件之后新建一个任务,打开你要采集的网站地址;这里我自己示范的原创设计手稿的采集;
2、进入到设计工作流程环节,在界面浏览器那输入你要采集的网址,点击打开,你就能看到你要采集的网站界面,由于这个网址存在多页内容需要采集,我们再设置采集规则的时候,可以先建立翻页循环,先把鼠标选择页面上的下一页按钮,在弹出的任务对话框,选择高级选项中的循环点击下一页,软件会自动建立一个翻页循环;
3、建好翻页循环好,就是采集当前页上的内容,我要采集图片的URL,就选中一个图片,然后单击,软件会自动弹出对话框,先建立一个元素循环列表;当前页面的所有元素都被抓取后,循环列表则建立完成;
4、设置要抓取的内容,选择元素循环列表中的任意一个元素,在浏览器内找到该元素对应的图片,点击后弹出对话框,选择抓取这个元素的图片地址为字段1,同时我为了方便识别,还抓取了字段2为图片标题名称,设置原理同图片地址;
5、检查一下,翻页循环框应该将产品循环框嵌套在内,表示,先抓取完当前一整页的图片URL后再翻页;
6、设置执行计划后,就可以开始采集了,单击采集的话,直接点击完成步骤下的检查任务,开始运行任务;采集完毕后可以直接下载成EXCEL的文件;
7、将URL转换为图片,这里用八爪鱼图片转换工具,将EXCEL导入之后,就可以自动等待
系统将图片下载下来了
8、。

【八爪鱼采集教程】提取数据如何使用备用位置

【八爪鱼采集教程】提取数据如何使用备用位置

【八爪鱼采集教程】提取数据如何使用备用位置八爪鱼提取字段时,默认每个字段都是在页面里固定的位置,但是某些特殊情况,当某字段在不同的页面是不同的位置时,也可以用八爪鱼的备选位置功能。

当需要提取的字段在网页两个不同位置,即一个Xpath无法定位到该字段时,我们便需要使用备选功能。

下面为你演示如何设置备选位置:示例网站:https:///12079776060.htmlhttps://item.jd.hk/1958056917.html步骤一:自定义采集任务→输入网址提取数据使用备用位置-图1提取数据使用备用位置-图2步骤二:提取元素字段(商品名、店铺名)提取数据使用备用位置-图3步骤三:保存并启动 直接单机运行可以看到第二个网页店铺名空白,提取不到提取数据使用备用位置-图4这时我们回到流程界面,手动运行一下规则。

提取数据使用备用位置-图5提取数据使用备用位置-图6发现第一个网页的字段2可以提取到,第二个网页则为空白,提取不到。

说明两个网页店铺名的字段Xpath不一样,我们用第一个网页的Xpath提取不到第二个网页的信息。

这时我们需要用到备用位置。

步骤四:选中店铺名字段→点击自定义字段→自定义定位元素方式→设置备用位置提取数据使用备用位置-图7 提取数据使用备用位置-图8提取数据使用备用位置-图9提取数据使用备用位置-图10说明:点击需要设置备用位置的元素,选择将这个元素设为备选即可。

也可以自己通过Xpath 进行修改。

提取数据使用备用位置-图11提取数据使用备用位置-图12单机运行一次,发现可以采集到,设置备用位置成功。

提取数据使用备用位置-图13相关采集教程:淘宝评论采集新浪微博数据采集搜狗微信文章采集八爪鱼——70万用户选择的网页数据采集器。

1、操作简单,任何人都可以用:无需技术背景,会上网就能采集。

完全可视化流程,点击鼠标完成操作,2分钟即可快速入门。

2、功能强大,任何网站都可以采:对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页,均可经过简单设置进行采集。

如何利用八爪鱼爬虫抓取数据

如何利用八爪鱼爬虫抓取数据

如何利用八爪鱼爬虫抓取数据听说很多做运营的同学都用八爪鱼采集器去抓取网络数据,最新视频,最热新闻等,但还是有人不了解八爪鱼爬虫工具是如何使用的。

所以本教程以百度视频为例,为大家演示如何采集到页面上的视频,方便工作使用。

常见场景:1、遇到需要采集视频时,可以采集视频的地址(URL),再使用网页视频下载器下载视频。

2、当视频链接在标签中,可切换标签进行采集。

3、当视频链接在标签中,也可采集源码后进行格式化数据。

操作示例:采集要求:采集百度视频上综艺往期视频示例网址:/show/list/area-内地+order-hot+pn-1+channel-tvshow操作步骤:1、新建自定义采集,输入网址后点击保存。

注:点击打开右上角流程按钮。

2、创建循环翻页,找到采集页面中下一页按钮,点击,执行“循环点击下一页”。

在流程中的点击翻页勾选Ajax加载数据,时间设置2-3秒。

3、创建循环点击列表。

点击第一张图片,选择“选中全部”(由于标签可能不同,会导致无法选中全部,可以继续点击没被选中的图片)继续选择循环点击每个元素4、进入详情页后,点击视频标题(从火狐中可以看到视频链接在A标签中,如图所示),所以需要手动更换到相应的A标签。

手动更换为A标签:更换为A标签后,选择“选中全部”,将所有视频标题选中,此时就可以采集视频链接地址。

5、所有操作设置完毕后,点击保存。

然后进行本地采集,查看采集结果。

6、采集完成后将URL导出,使用视频URL批量下载工具将视频下载出来就完成了。

相关采集教程:公告信息抓取/tutorial/hottutorial/qita/gonggao网站源码抓取/tutorial/hottutorial/qita/qitaleixing网页抓取工具新手入门/tutorial/xsksrm八爪鱼网站抓取入门功能介绍/tutorial/xsksrm/rmgnjsajax网页数据抓取/tutorial/gnd/ajaxlabel模拟登录并识别验证码抓取数据/tutorial/gnd/dlyzmxpath抓取网页文字/tutorial/gnd/xpath八爪鱼抓取AJAX滚动页面爬虫教程/tutorial/ajgd_7网页采集提取数据教程,以自定义抓取方式为例/tutorial/zdytq_7八爪鱼——90万用户选择的网页数据采集器。

八爪鱼采集器流程步骤高级选项说明

八爪鱼采集器流程步骤高级选项说明

八爪鱼采集器流程步骤高级选项说明1、打开网页该步骤根据设定的网址打开网页,一般为网页采集流程的第一个步骤,用来打开指定的网站或者网页。

如果有多个类似的网址需要分别打开执行同样的采集流程,则应该放置在循环的内部,并作为第一个子步骤1)页面URL页面URL,一般可以从网页浏览器地址栏中复制得到,如:/ 2)操作名自定义操作名3)超时在网页加载完成前等待的最大时间。

如果网页打开缓慢,或者长时间无法打开,则流程最多等待超时指定的时间,之后无论网页是否加载完成,都直接执行下一步骤。

应尽量避免设置过长的超时时间,因为这会影响采集速度4)阻止弹出用以屏蔽网页弹窗广告,如果打开的网页偶尔会变成另外一个广告页面,则可以使用本选项阻止广告页面弹出5)使用循环配合循环步骤来使用,用以重复打开多个类似的网页,然后执行同样的一套流程,循环打开网页时,应为作为循环步骤的第一个子步骤。

如果勾选此项,则无需手动设置网页地址,网页地址会自动显示循环设定的网址列表的当前循环项6)滚动页面个别网页在打开网页后并没有显示所有数据,需要滚动鼠标滚轮或者拖动页面滚动条到底部,才会加载没有显示的数据,使用此选项在页面加载完成后向下滚动,滚动方式有向下滚动一屏和直接滚动到底部两种7)清理缓存在八爪鱼中,如果需要切换账号,可使用清理浏览器缓存,重新设置其他账号8)自定义cookiecookie指某些网站为了辨别用户身份、进行session 跟踪而储存在用户本地终端上的数据(通常经过加密)。

在八爪鱼中,可以通过做一次预登录获取页面cookie,通过勾选打开网页时使用指定cookie获取登陆后的cookie,从而记住登录状态。

获取的当前页面cookie,可以通过点击查看cookie9)重试如果网页没有按照成功打开预期页面,例如显示服务器错误(500),访问频率太快等,或者跳转到其他正常执行不应该出现的页面,可以使用本选项进行重试,但必须配合以下几个重试参数执行,请注意以下几种判断的情况任意一种出现都会导致重试①当前网页的网址/文本/xpath,包含/不包含如果当前页面网址/文本/xpath总是出现/不出现某个特殊内容,则使用此选项可以判断有没有打开预期页面,需要重试②最大重试次数为了避免无限制重复尝试,请使用本选项限制最大重复尝试的次数,如果重试到达最大允许的次数,任然没有成功,则流程将停止重试,继续执行下一步骤③时间间隔在两次重试之间等待的时间,一般情况下,当打开网页出错时,立即重试很有可能是同样的错误,适当等待则可能成功打开预期网页,但应该尽量避免设置过长的等待时间,因为这会影响采集速度2、点击元素该步骤对网页上指定的元素执行鼠标左键单击动作,比如点击按钮,点击超链接等1)操作名自定义操作名2)执行前等待对此步骤设置执行前等待,即等待设置的时间后,再进行此步骤3)或者出现元素或者出现元素,配合执行前等待使用,在其中输入元素的xpath可以在出现该元素的时候结束执行前的等待。

八爪鱼提取网页数据的方法

八爪鱼提取网页数据的方法
八爪鱼 让数据触手可及
视频教程PPT

提取数据
一、添加特殊字段、上移下移、抓取模板导入导出
二、找不到时如何处理
三、自定义抓取方式 四、自定义定位元素方式 五、备用位置 六、格式化数据
七、自定义合并方式
一、 添加特殊字段、上移下移、抓取模板导入导出
1、添加特殊字段 当前时间 固定字段 空字段 当前页面信息 2、字段上移下移 3、抓取模板导入导出 示例网址: /fang1/
五、备用位置
八爪鱼提取字段时,默认每个字段都是在页面里固定的位置。 但是某些特殊情况,当某字段在不同的页面,是处于不同的位置时,可以用八爪鱼 的备选位置功能。 示例网址: https:///item.htm?spm=a1z10.1-c-s.w1201073114573359259.1.1c3577c8vTygcq&id=566814688341(淘宝商品详情页) https:///item.htm?spm=a230r.1.14.27.2e932897hyfHKC&id= 565712872904&ns=1&abbucket=4(天猫商品详情页)
二、找不到时如何处理
找不到数据时的三种处理办法 使用默认值 在找不到数据时默认填写一个字段,以补充没有采集到的内容 该字段留空 可以在结果中明显的看到哪里有数据没采集到 该步骤所有字段留空 一个字段找不到数据时,便忽略该信息所有字段,相当于跳过该条信息的采集 示例网址:https:///subject/25862578/ https:///subject/1858513/
六、格式化数据
利用格式化数据对需要的字段进行修改 替换 正则表达式替换 去除空格 添加前缀 添加后缀 日期时间格式化 Html转码 示例网址: https:///subject/25862578/

使用八爪鱼采集器采集大众点评商家数据

使用八爪鱼采集器采集大众点评商家数据

使用八爪鱼采集器采集大众点评商家数据本文介绍采集使用八爪鱼7.0采集大众点评商家的方法采集网站:https:///search/category/7/0使用功能点:网页列表内容提取相关采集教程:美团商家信息采集黄页88数据采集赶集招聘信息采集步骤1:创建采集任务1)进入主界面选择,选择自定义模式使用八爪鱼采集器采集大众点评商家数据图12)将上面网址的网址复制粘贴到网站输入框中,点击“保存网址”3)保存网址后,页面将在八爪鱼采集器中打开,红色方框中的列表就是我们需要采集的信息使用八爪鱼采集器采集大众点评商家数据图3步骤2:创建翻页循环找到翻页按钮,设置翻页循环1)将页面下拉到底部,找到下一页按钮,鼠标点击,在右侧操作提示框中,选择“循环点击下一页”使用八爪鱼采集器采集大众点评商家数据图4步骤3:商家信息采集●选中需要采集的字段信息,创建采集列表●编辑采集字段名称1)如图,移动鼠标选中列表中商家的名称,右键点击,需采集的内容会变成绿色使用八爪鱼采集器采集大众点评商家数据图5注意:点击右上角的“流程”按钮,即可展现出可视化流程图。

2)移动鼠标选中红色方框里任意文本字段后,列表中所有适配内容会变成绿色,在右侧操作提示框中,查看提取的字段,可以将不需要的字段删除,然后点击“选中全部”使用八爪鱼采集器采集大众点评商家数据图6注意:鼠标放在该字段上会出现一个删除标识,点击即可删除该字段。

使用八爪鱼采集器采集大众点评商家数据图7 3)点击“采集以下数据”使用八爪鱼采集器采集大众点评商家数据图84)修改采集字段名称使用八爪鱼采集器采集大众点评商家数据图95)点击下方红色方框中的“保存并开始采集”使用八爪鱼采集器采集大众点评商家数据图106)根据采集的情况选择合适的采集方式,这里选择“启动本地采集”使用八爪鱼采集器采集大众点评商家数据图111)采集完成后,会跳出提示,选择导出数据使用八爪鱼采集器采集大众点评商家数据图122)选择合适的导出方式,将采集好的数据导出使用八爪鱼采集器采集大众点评商家数据图13八爪鱼——70万用户选择的网页数据采集器。

八爪鱼提取网页数据的方法

八爪鱼提取网页数据的方法

六、格式化数据
利用格式化数据对需要的字段进行修改 替换 正则表达式替换 去除空格 添加前缀 添加后缀 日期时间格式化 Html转码
示例网址:
七、自定义合并方式
取数据里面的自定义合并方式,一般用于将多个字段追加至同一个字段 例如:新闻正文分页追加等 示例网址:
The End
谢谢大家
2、字段上移下移 3、抓取模板导入导出 示例网址:
二、找不到时如何处理
找不到数据时的三种处理办法 使用默认值 在找不到数据时默认填写一个字段,以补充没有采集到的内容 该字段留空 可以在结果中明显的看到哪里有数据没采集到 该步骤所有字段留空 一个字段找不到数据时,便忽略该信息所有字段,相当于跳过该条信息的采集 示例网址:
三、自定义抓取方式
自定义抓取方式包含以下三种 1、从页面中提取数据 2、从浏览器提取数据 3、生成数据 示例网址:
四、自定义定位元素方式
定位元素:八爪鱼通过Xpath来实现数据的定位。 适用情况:八爪鱼自动定位方式不能满足需求。 示例网址:
五、备用位置
八爪鱼提取字段时,默认每个字段都是在页面里固定的位置。 但是某些特殊情况,当某字段在不同的页面,是处于不同的位置时,可以用八爪鱼 的备选位置功能。 示例网址: (淘宝商品详情页) (天猫商品详情页)
八爪鱼 让数据触手可及
视频教程PPT
提取数据
一、添加特殊字段、上移下移、抓取模板导入导出 二、找不到时如何处理 三、自定义抓取方式 四、自定义定位元素方式 五、备用位置 六、格式化数据 七、自定义合并方式
一、 添加特殊字段、上移下移、抓取模板导入导出
1、添加特殊字段 当前时间 固定字段 空字段 当前页面信息

八爪鱼爬虫采集方法

八爪鱼爬虫采集方法

八爪鱼爬虫采集方法网页爬虫是一个比较热门的网络词,因为大数据时代,各行各业的从业人员都需要大量的数据信息,通过分析这类数据来优化升级自己的产品,从而满足所有消费者的需求,从而更好地抢占市场。

目前市面上比较好用的爬虫工具首推八爪鱼采集器,所以今天就教大家八爪鱼爬虫工具的使用方法,让你轻松get网络爬虫。

文章内示例网址为:/guide/demo/genremoviespage1.html自定义模式采集步骤:步骤1:首先打开八爪鱼采集器→找到自定义采集→点击立即使用自定义模式-图1步骤2:输入网址→设置翻页循环→设置字段提取→修改字段名→对规则进行手动检查→选择采集类型启动采集自定义模式-图2:输入网址自定义模式-图3:设置翻页循环自定义模式-图4:创建循环列表自定义模式-图5:提取字段自定义模式-图6:修改字段名注意点:1.设置翻页循环:观察网页底部有没有翻页图标,如果有并且需要翻页则点击翻页图标,操作提示中循环点击下一页表示循环翻页,可以在循环中设置翻页次数,设置几次则采集网页最新内容几页。

采集该链接的文本选项则会出现提取数据步骤,提取下一页对应的文本;点击采集该链接地址步骤选项会出现提取数据步骤,提取当前字段对应的链接地址。

点击该链接则会出现点击元素步骤,点击该元素一次。

2.设置字段提取:先对网页内容进行分区块,思路为循环各区块,再从循环到的区块中提取每个字段内容,所以设置时先点击2-3各区块,八爪鱼会自动选中剩余所有区块,点击采集以下元素文本会出现循环提取数据步骤,实现对区块的循环采集,但是此时每个区块循环时只会将区块内文字合并为一条提取,此时我们删除该字段并手动添加需要提取的所有字段;点击循环点击每个元素则会出现循环点击元素步骤,对每个区块进行一次点击,该示例中区块点击没有效果,所以该示例中循环点击不存在效果。

如果选择错误,或者出现的内容列表不是你需要的,可以在操作提示中点击区块后的垃圾桶图标进行删除操作,或者点击取消选择,重新设置。

如何利用八爪鱼爬虫抓取数据

如何利用八爪鱼爬虫抓取数据

如何利用八爪鱼爬虫抓取数据很多人都听说过八爪鱼采集器,知道它强大的网页数据采集功能,以及简单的操作步骤。

但是有的同学担心不懂代码,不会使用八爪鱼爬虫做抓取。

作为同样技术水平为0的文科生小编,看了教程后使用起来666,友好又高效,向你保证不会技术也可以轻松采集。

要系统的学习八爪鱼,完成从入门到采集大神的历练,需要经过以下几个阶段:一、理解八爪鱼工作的核心原理二、了解八爪鱼入门词汇(有一个初步印象)三、采集基本流程教程(明白整体架构)四、细致学习功能点教程+实战案例教程(开始实际操作)一、理解八爪鱼工作的核心原理八爪鱼采集的核心原理是:模拟人浏览网页,复制数据的行为,通过记录和模拟人的一系列上网行为,代替人眼浏览网页,代替人手工复制网页数据,从而实现自动化从网页采集数据,然后通过不断重复一系列设定的动作流程,实现全自动采集大量数据。

理解核心原理是十分必要的,只有理解了工作原理,再结合实际操作仔细体会,才会取得事半功倍的效果。

二、了解八爪鱼入门词汇(有一个初步印象)要掌握的入门词汇主要有:积分、规则、云加速、云优先、URL、单机采集、云采集、定时采集、URL循环、自动导出、COOKIE、XPATH、HTML八爪鱼入门词汇详细资料,请点击以下链接查看:/doc-wf三、了解采集基本流程教程(明白整体架构)八爪鱼在配置规则、采集数据的时候,主要会经过以下几个步骤:打开网页、点击元素、输入文本、提取数据、循环、下翻下拉列表、条件分支、鼠标悬停。

针对这些步骤,八爪鱼内置了很多高级选项。

在针对具体网页的采集过程中,网页结构、网页情况是不一样的。

我们需要观察网页结构,相应地在八爪鱼中进行高级选项的设置。

那么,了解八爪鱼采集基本流程,是十分必要的。

八爪鱼采集基本流程详解,请点击以下链接查看:/doc-wf四、细致学习功能点教程+实战案例教程(开始实际操作)经过前两步,我们掌握了入门词汇,知道经常出现在八爪鱼中的积分、规则、云加速、云优先、URL、COOKIE、XPATH等词是什么意思;我们对八爪鱼的基本采集步骤有了清晰的把控,明白有8大步骤和若干高级选项需要设置。

八爪鱼采集过程中常出现的问题以及解决方法

八爪鱼采集过程中常出现的问题以及解决方法

八爪鱼采集过程中常出现的问题以及解决方法本教程主要讲的是如果你在使用八爪鱼采集时遇到一些问题,如何快速找出错误、解决错误或者如何了解错误、更好的和客服沟通的方法。

八爪鱼采集器主要通过技术将用户浏览网页的操作进行定位和模拟来收集数据,用户不需要明白网页架构、数据采集原理等技能,通过八爪鱼采集器就可以构成八爪鱼可以看懂的、可以循环工作的采集流程。

如果存在采集模式不满足需求的情况,排错后面有更加详细的教程。

采集过程中出现的错误可以归类为五个方面,分别是网页问题、规则问题、定位模拟问题、采集器问题、以及云端问题。

当采集出现异常时,请先按照如下流程进行错误排查,寻找问题类型:1、手动执行一遍规则:打开界面右上角的流程图,用鼠标点击流程图内规则,从上至下,每次点击下一步都有相应反应,没有发生反应的步骤则是问题出现步骤。

注意点:1)循环内的点击以及提取元素要手动选择循环中除第一个以外的内容,防止循环失效,只点击提取循环内第一个元素2)所有规则每一步执行完才执行下一步,网页未加载完全,即浏览器上圆圈等待图标未消失时,观察网页内容是否加载完全,如果加载完全可以自行取消加载,再配置规则。

2、进行单机采集,查看采集结果中未采集到数据的项目。

注意点:规则中最好加入当前网址,这样出现未采集到数据的项目,可以复制网址在浏览器中打开查看原因,确定错误。

下面分别将可能出现问题的现象叙述如下,供你参考:1、手动执行步骤无反应可能现象有两种:1)未正常执行步骤原因:规则问题、采集器问题、定位模拟问题解决方法:可进行排查,删除该步骤,重新添加一遍,如果还是无法执行,则排除了规则问题,你可以:将该网页在浏览器打开进行操作,如果一些滚动翻页或点击翻页在浏览器可以执行而采集器中不能执行,则是采集器问题,原因是采集器内镶浏览器为火狐浏览器,可能是内镶的浏览器版本在随后的版本发生了变化,导致在浏览器可以实现的功能,在采集器内镶浏览器中无法执行,该类网页中的数据,智能采集翻页或滚动之前的数据。

八爪鱼采集器使用要点

八爪鱼采集器使用要点

八爪鱼采集器使用要点不少用户会在工单或者是扣扣群里咨询八爪鱼采集相关的问题,我们把这些问题做了整理,做成一份使用要点,希望它们能帮助你解决在使用八爪鱼采集器遇到的问题。

1、手动检查工作流设计器中的规则采集过程中出现的错误可以归类为五个方面,分别是网页问题、规则问题、定位模拟问题、采集器问题、以及云端问题,当可以先检查配置的规则是否有效,寻找存在的问题,最好在运行任务之前手动检查工作流程中的规则。

这样可以看到哪些步骤在可视内置浏览器和数据字段中不起作用。

因此,一旦发现错误,可以修改相应地规则。

查看下面的教程可以了解规则排错的具体方法:八爪鱼7.0版本——基本排错教程:/tutorialdetail-1/jbpc_7.html2、设置正确的超时和滚动时间有时会发现,即使配置了正确的规则,并且可以在手动检查规则时获取数据,但是在启动提取时,数据却会遗漏。

这是因为没有设置高级选中的Ajax, 最简单的方法是在规则中选中“打开网页”和“点击元素”的操作下设置AJAX加载。

另外,您可以在工作流设计器的不同操作下设置等待时间,以便确保加载所需的数据。

有时网页会出现这样的情况,除非向下滚动,否则不会显示某些内容,因此需要在“打开网页”这一步骤中设置滚动时间,否则可能会遗漏设置滚动时间而错过某些数据。

选择向下滚动的方式并设置适当的滚动时间。

这对采集到完整的数据也很重要。

但在执行上述步骤之前,您应该记住,所有步骤都应在页面完全加载后进行; 如果不是,即使您更改了规则,该规则仍然无效。

此外,我们不建议同时选择“在新标签页中打开”和“AJAX加载页面”,除非八爪鱼仍然无法打开某些网站。

具体操作可以参照这个教程:/tutorialdetail-1/ajaxdjfy_7.html3、手动修改XPath正确使用XPath是使用八爪鱼采集数据的关键。

列如翻页,缺失数据和不规则值域等步骤大多数时间涉及XPath的更改。

所以强烈建议用户学习一些关于XPath 的知识。

八爪鱼采集器使用入门教程

八爪鱼采集器使用入门教程

流程设计步骤
流程设计步骤: 在八爪鱼采集器中,一共有11个流程设计操作,其中分为基本步骤和进阶步骤,划分为以下: 基本步骤: 基本步骤本身是应用较多的流程设计操作,通常来说,要实现一个网页的数据快 速整理与采集,这些步骤是必不可少的,基本步骤如下: 1)打开网页 2)点击元素 3)循环 4)提取数据 进阶步骤: 进阶步骤,是指除基本步骤外,我们需要通过下列操作来辅助完成我们的数据采 集,例如:有时候我们采集的数据需要先输入文本才能进行采集,进阶步骤如下: 1)输入文字 2)识别验证码 3)切换下拉选项 4)判断条件 5)移动鼠标到元素上 6)结束循环 7)结束流程
规则介绍
一、设置基本信息: 此处用于填写规则名称与规则备注 二、设计工作流程: 此处用于设计任务规则的自动化流程步骤,例如:你要让该任务打开哪一个网页,做哪些步骤等都 在设计工作流程中完成,设计工作流程是一个任务规则的核心步骤 三、设置执行计划: 此处你可以设置任务规则的相关选项,例如:禁止浏览器加载图片、云采集不拆分任务、启动增量 采集等 四、任务启动选择: 如果规则编写正确,此处你就可以启动一个任务规则的生命周期了,此时如果编辑正确,任务应该 处于可执行状态
二、任务规则:
任务规则,就是指根据特定的网页,按人用浏览器去访问网页的过程制定好的自动化任务程 序,一般来说,一个类型相似的网站对应一个任务规则 三、任务状态: 1)任务生命周期:可执行状态、等待状态、运行中状态、已完成状态、已停止状态 2)运行中状态:1)本地采集状态、云采集状态
流程设计简单示例
1.模拟人去浏览网页 2.通过设计流程操作完成采集自动化
八爪鱼采集器组成
通常,我们将一个采集任务称为一个规则。规则是八爪鱼采集器的核心组成部分,我们将八 爪鱼的组成按规则进行划分,可以分为以下几种: 一、任务列表: 任务列表,是指八爪鱼采集器中编辑的任务,编辑好的任务可以直接从等待状态进行执行状 态

八爪鱼采集器常见问题整理20140616

八爪鱼采集器常见问题整理20140616

八爪鱼采集器常见问题解答1、八爪鱼采集器能采集阿里巴巴等网站的匿名账户信息吗?答:不能采集匿名信息。

2、八爪鱼采集器能采集别人的后台数据吗?答:不能采集,后台数据涉及商业侵权,正规的采集软件不会提供此类服务。

3、八爪鱼能采集QQ号码、邮箱、电话号码之类的吗?答:能采集,规则市场内有QQ群号码采集的规则可直接下载。

4、八爪鱼采集器能采集图片吗?答:可以采集图片的URL,然后通过工具转化后即可将图片采集下来。

5、怎么判断八爪鱼采集器能采集哪些信息答:简单来说,你能看到的信息,八爪鱼采集器均能进行采集,具体规则需要你自行设置或从规则市场内下载。

6、积分都有什么用?答:积分在下载数据、普通用户下载规则等地方会需要用,你下载的数据量越大,所需要的积分越多7、积分怎么获取?答:两种途径:(a)赚取积分:目前论坛上有踩楼送积分活动、上传规则奖励积分活动;官网上也有签到送积分活动、邀请好友送积分等活动,可以免费赚取积分。

(b)购买积分:直接花钱购买积分,详细价格见八爪鱼采集器网站上说明。

8、我邀请的会员网站能识别出是我邀请的吗?答:老用户在会员中心均可获得自己独一无二的邀请链接,通过此链接注册过来的用户系统会自动识别并自动奖励积分,每邀请一个会员奖励2000积分。

9、八爪鱼采集器要收费的吗?答:八爪鱼采集器为免费软件,所有用户均可免费下载使用软件,官方下载地址:/download10、八爪鱼VIP和免费的版本有什么区别?答:八爪鱼VIP是八爪鱼针对会员推出的增值服务打包优惠特权,包括VIP可以任意下载规则、下载插件、单机下载无限制数量等,VIP用户购买积分享受半价优惠等服务,详情见八爪鱼官网/plan,用户如需要八爪鱼直接提供数据服务或定制服务可直接群内联系群主skieer。

11、我付了VIP可以请管理员或八爪鱼来帮我写规则吗?答:VIP是八爪鱼提供的一项产品体验特权优惠,八爪鱼团队本身并不提供代写规则服务,以后官方也不会有此类收费服务。

八爪鱼使用答疑

八爪鱼使用答疑

八爪鱼使用答疑API就是操作系统留给应用程序的一个调用接口,应用程序通过调用操作系统的API 而使操作系统去执行应用程序的命令。

满足多种业务场景适合产品、运营、销售、数据分析、政府机关、电商从业者、学术研究等多种身份职业免费模板N个问题:任务停止后,下次采集时可以从停止的地方继续采集吗?回答:目前不可以,任务停止后,下次采集会从头开始采集,不能实现断点续采。

断点续采功能正在开发中,尽请期待。

问题1:八爪鱼能采什么数据?回答:八爪鱼是一款通用的网页数据采集器,通过内置浏览器访问网页并采集数据,满足以下2个条件的数据均可采集①网页上公开显示的数据、通过账号密码登录后可以查看到的数据。

②可以用鼠标复制粘贴下来的数据、网页上没显示但是网页源码中有的数据。

问题2:八爪鱼能采集XX网站吗?回答:八爪鱼可以采集99%的网站。

有2种采集方式:①使用八爪鱼提供的模板采集:八爪鱼客户端中内置了很多网站的采集模板,在客户端中搜索是否有XX网站的模板,如果有,直接使用即可。

②自定义配置采集规则:如果没有想要的模板,可以自己配置采集规则。

问题3:八爪鱼能采集XX行业的数据吗?回答:可以,但是首先需明确XX行业的数据存在于哪个网站上。

例如,电商行业的数据在淘宝/京东/亚马逊等等电商网站上有,那么采集电商行业的数据,就转化成采集淘宝/京东/亚马逊的网站了,此时参见问题2。

如果您不确定想要的行业数据哪个网站上有,可以咨询客服进行数据付费定制,或者参考我们的文章:106个数据分析师专用数据源。

问题1:八爪鱼能采集QQ邮箱/ 用户浏览数据/ 卖家信息/ 客户数据吗?回答:八爪鱼是一款通用的网页数据采集器,通过内置浏览器访问网页并采集数据,满足以下2个条件的数据均可采集:①网页上公开显示的数据、通过账号密码登录后可以查看到的数据。

②可以用鼠标复制粘贴下来的数据、网页上没显示但是网页源码中有的数据。

因此,首先需明确,您需要的QQ邮箱/ 用户浏览数据/ 卖家信息/ 客户数据等数据,是否在网页上展示出来,或者您是否有权限登录查看,如果是,则可以采集。

八爪鱼采集器使用方法图解

八爪鱼采集器使用方法图解

八爪鱼采集器使用方法
图解
文档编制序号:[KKIDT-LLE0828-LLETD298-POI08]
八爪鱼采集器使用方法图解:
1、打开八爪鱼采集器的客户端,登陆软件之后新建一个任务,打开你要采集的网站地址。

这里我自己示范的原创设计手稿的采集。

2、进入到设计工作流程环节,在界面浏览器那输入你要采集的网址,点击打开,你就能看到你要采集的网站界面,由于这个网址存在多页内容需要采集,我们再设置采集规则的时候,可以先建立翻页循环,先把鼠标选择页面上的【下一页】按钮,在弹出的任务对话框,选择高级选项中的【循环点击下一页】,软件会自动建立一个翻页循环。

3、建好翻页循环好,就是采集当前页上的内容,我要采集图片的URL,就选中一个图片,然后单击,软件会自动弹出对话框,先建立一个元素循环列表。

当前页面的所有元素都被抓取后,循环列表则建立完成。

4、设置要抓取的内容,选择元素循环列表中的任意一个元素,在浏览器内找到该元素对应的图片,点击后弹出对话框,选择【抓取这个元素的图片地址】为字段1,同时我为了方便识别,还抓取了字段2为图片标题名称,设置原理同图片地址。

5、检查一下,翻页循环框应该将产品循环框嵌套在内,表示,先抓取完当前一整页的图片URL后再翻页。

6、设置执行计划后,就可以开始采集了,单击采集的话,直接点击【完成】步骤下的【检查任务】,开始运行任务。

采集完毕后可以直接下载成EXCEL的文件。

7、将URL转换为图片,这里用八爪鱼图片转换工具,将EXCEL导入之
后,就可以自动等待系统将图片下载下来了!
8、。

八爪鱼采集器判断条件的使用方法

八爪鱼采集器判断条件的使用方法

八爪鱼v7判断条件功能的使用本教程为大家讲解判断条件的使用,首先讲解何时需要使用判断条件。

常见情景:1、判断某一条件(如关键词)是否存在,存在就采集不存在则不采。

例:采集京东商品信息,只想采集自营商品。

则可以通过分支判断是否为自营商品,是则采集,不是则不采。

2、要采集的数据有多种情况,网页源码存在多种样式,需分开收集。

例:网页正文有的是图片有的文字,两者形式的数据提取方法不同。

此时通过分支判断功能判断是图片还是文字,然后转到不到分支里进行提取数据。

判断条件功能页面介绍:判断条件-图1:功能页面什么时候执行分支:可设置出现的某个特殊字眼(文本)或某个元素执行该分支。

该文本或元素只在某一情况下会出现,若设置的字眼或元素不唯一则会导致进入的分支与设想的不同不判断,总是执行该分支:默认选中此项,一般是最右边的分支为此项,若最左边的分支设置为此项则永远不会执行右边的分支,且最右边的分支不管设置什么都会执行,即如果所有条件都不满足时将会执行最右边的分支步骤当前页面包含文本:选中后,在下方文本框中填入进入本分支的特殊文本(字眼),八爪鱼将会在当前全页面查找这个文本,找到则执行该分支,反之不执行当前循环项包含文本:选中后,在下方文本框中填入进入本分支的特殊文本,八爪鱼将会在当前循环项中找这个文本,找到则执行该分支,反之不执行。

此项需与循环配套使用当前页面包含元素:选中后,在下方文本框中填入进入本分支的特殊元素(Xpath路径),八爪鱼将会在当前全页面找这个元素,找到则执行该分支,反之不执行当前循环项包含元素:选中后,在下方文本框中填入进入本分支的特殊元素(XPath路径),八爪鱼将会在当前循环项中找这个元素,找到则执行该分支,反之不执行此项需与循环配套使用在Iframe里,IframeXpath:同点击元素的元素在Iframe里,IframeXpath,需要填入Iframe的Xpath,不是定位元素的Xpath,是Iframe的Xpath(该操作很少使用,无必要请莫用)操作示例:采集要求:采集论坛第一页的所有“发布”贴,其余不采集示例网址:/forum-plugin-1.html操作步骤:1、先按常规流程制作采集流程,当遇到需要设置判断条件的步骤时,点击右上角“流程”。

八爪鱼爬虫模拟登录抓取数据

八爪鱼爬虫模拟登录抓取数据

八爪鱼使用cookie登陆网站采集数据(7.0版本)本文给大家演示,通过记录Cookie登录网站,再进行数据采集的方式。

Cookie:某些网站为了辨别用户身份、进行session 跟踪而储存在用户本地终端上的数据(通常经过加密)。

在八爪鱼里,有些网站是需要登陆账号之后,才能进行采集数据。

我们需要先做一个登录流程,登陆进网站,然后获取登陆后的Cookie,记住登陆状态,浏览器即会自动打开登陆后要采集的网址。

登录网址:https:///示例网址:https:///list?spm=a217f.8051907.312344.10.Xesvx1&style=grid&selle r_type=taobao&cps=yes&cat=50000671我们需要先创建一个登录流程:在登录网址里面,输入用户名、密码,登陆网站。

然后获取登陆后的Cookie,记住登陆状态。

步骤1:打开网页1)登陆八爪鱼7.0采集器,点击新建任务,选择“自定义采集”,进入到任务配置页面2)然后输入登录网址,点击“保存网址”,系统会进入到流程设计页面并自动打开前面输入的登录网址Cookie 登录方法(7.0)-图1步骤2:登录网站1)在浏览器中,用鼠标点击用户名输入框,输入自己的用户名。

用同样的方式输入密码Cookie登录方法(7.0)-图22)在浏览器中,用鼠标点击登陆按钮,在右边弹出的提示框里选择“点击该按钮”(或直接按键盘上的enter键也可)Cookie登录方法(7.0)-图33)浏览器会自动登陆,打开我们最终需要采集数据的网址。

这时登陆流程便做好了步骤3:新建“打开网页”1)打开“流程”。

在流程设计器中,拖入一个打开网页的步骤2)输入最终要采集的网址URL,点击“确定”。

八爪鱼浏览器以登录后的状态打开了此URLCookie登录方法(7.0)-图43)在拖入“打开网页”的步骤之后,默认超时时间是空白的。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

八爪鱼采集器提取数据-找不到时如何处理八爪鱼提取字段时,有找不到时如何处理的选项。

如下图:
八爪鱼提取数据找不到时如何处理-图1
下面介绍如何设置找不到字段时的操作:
步骤一、点击需要设置的字段名称→自定义数据字段→自定义定位元素方式
八爪鱼提取数据找不到时如何处理-图2
八爪鱼提取数据找不到时如何处理-图3
进入自定义定位元素方式后,我们可以看到下图中红框内,有找不到时如何处理的三个选项,分为:使用默认值、该字段留空以及该步骤所有字段留空。

八爪鱼提取数据找不到时如何处理-图4
这里为了方便演示,我们修改一下元素匹配的Xpath,这样八爪鱼就抓取不到原来的字段了。

八爪鱼提取数据找不到时如何处理-图5
八爪鱼提取数据找不到时如何处理-图6
由于我们在标题处选择的是找不到时该字段留空,所以修改Xpath后,标题处提取到的数据为空。

八爪鱼提取数据找不到时如何处理-图7
我们同样修改类型和评分处的Xpath看一下其余两项效果。

评分处的使用默认值设置提取不到内容容时出现默认值,默认值设置如下:
八爪鱼提取数据找不到时如何处理-图8 步骤二:保存并启动
八爪鱼提取数据找不到时如何处理-图9 可以看到弹出了采集错误报告,当前网页三条数据均未采集到信息
八爪鱼提取数据找不到时如何处理-图10
此处是因为类型中,找不到字段时该步骤所有字段留空,导致标题、类型、评分、上映年份以及时间均为空值,当八爪鱼一条信息采集不到任何一个字段时便会弹出错误提醒,我们可以查看采集错误报告看到错误类型来进行修改。

八爪鱼提取数据找不到时如何处理-图11
如上图,我们设置类型采集不到数据时该字段留空,保存并运行后,可以看到:
八爪鱼提取数据找不到时如何处理-图12
标题与类型因为我们设置的该字段留空,所以未显示有任何内容;八爪鱼因为我们没有设置该步骤所有字段留空,所以也没有弹出错误报告;评分处因为我们设置使用默认值,默认值为找不到数据*——*,所以弹出如图所示的内容。

这就是找不到数据时的三种办法,其中该字段留空可以使我们在结果中明显的看到哪里有数据没采集到;该步骤所有字段留空则会使一个字段找不到数据时,便忽略该信息所有字段,相当于跳过该条信息的采集;使用默认值可以让你在找不到数据时默认填写一个字段,来补充没有采集到的内容。

相关采集教程:
天猫商品信息采集
新浪微博数据采集
1688热门商品采集
八爪鱼——70万用户选择的网页数据采集器。

1、操作简单,任何人都可以用:无需技术背景,会上网就能采集。

完全可视化流程,点击鼠标完成操作,2分钟即可快速入门。

2、功能强大,任何网站都可以采:对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页,均可经过简单设置进行采集。

3、云采集,关机也可以。

配置好采集任务后可关机,任务可在云端执行。

庞大云采集集群24*7不间断运行,不用担心IP被封,网络中断。

4、功能免费+增值服务,可按需选择。

免费版具备所有功能,能够满足用户的基本采集需求。

同时设置了一些增值服务(如私有云),满足高端付费企业用户的需要。

相关文档
最新文档