八爪鱼验证码登陆-控件识别方法(7.0版本)
八爪鱼爬虫原理详解
八爪鱼爬虫原理详解
大家都知道八爪鱼采集器可以抓取网页数据,云采集还可以有加速的效果,但是你知道八爪鱼的爬虫云加速的原理是什么吗?下面就跟随小八了解一下强大的云采集爬虫原理吧!
对于旗舰版以上的用户,可以通过云采集实现多任务并发和单任务加速的采集效果,以便用户快速的收集整理互联网公开数据。本教程主要讲八爪鱼爬虫云采集原理、规则加速设置。
一、云采集原理
A.一个规则任务进行云采集最少占用一个云节点,最多可以占满所有云节点
B.一个规则任务满足可拆分成子任务的情况下,最多拆成199个子任务
C.一个子任务占用一个节点,子任务全部执行完成意味着任务完成
D.一个规则任务拆成多个子任务分配到不同云节点就达到加速采集的效果
E.如果云节点被占满,那么新启动的任务或被拆分的子任务会进入等待队列,直到用户某个云节点执行完用户的某个任务释放出节点资源,
图 1 云采集运行中
如图红线处任务分配到云节点,多任务并发采集数据,如图红框处,由于节点被占满,只能进入等待队列,等待某个云节点执行完成后释放资源。
二、云采集加速设置
由云采集原理D可知,如果要一个任务加速采集的效果,那么这个任务要满足拆分条件或者将任务改成满足拆分条件的任务,这样才能达到单任务加速的效果。
满足拆分条件的任务分别为:
A.URL列表循环
B.文本列表循环
C.固定元素列表循环
1、URL列表循环、文本循环
示例网址:/search/category/15/30
对于非AJAX网站,以大众店铺为例,假设我要采集该网站所有分类下的店铺,那么我们可先采集分类的URL,然后做URL循环进行采集店铺信息,具体步骤如下:
八爪鱼规则用不了如何排查错误(7.X版)
网页一直正在加载
Ajax即通过在后台与服务器进行少量数据交换,意味着可以在 不重新加载整个网页的情况下,对网页的某部分进行更新。 最简单的方式是看在八爪鱼浏览器里点击的时候网页有没有改 变加载状态 这种表示网页正在加载 这种表示网页没有加载或者已加载完成 当网页内容已经加载完成,但还是显示正在加载时,规则里面
Ajax即通过在后台与服务器进行少量数据交换,意味着可以在 不重新加载整个网页的情况下,对网页的某部分进行更新。 最简单的方式是看在八爪鱼浏览器里点击的时候网页有没有改 变加载状态 这种表示网页正在加载 这种表示网页没有加载或者已加载完成 当网页状态有发生改变的时候就不需要设置ajax,因为八爪鱼会自动根 据网页的状态来判断是否可以进行下一步操作 而当网页状态没有发生改变的时候就需要设置ajax,因为八爪鱼没有可 判断的依据,运行本地采集时八爪鱼就会按照一个默认时长120秒后再 执行下一个操作,这时大部分新用户会发现八爪鱼不动了一直不提取数 据,所以这时需要设置ajax告诉八爪鱼,需要采集的网页内容已经出来 了,可以进行下一步操作了,这个ajax时间就是要观察从点击到需要采 集的数据出现需要多久,则设置多久即可。 如果不设置采集时出现的现象就会一直等待在这里不提取数据,感觉采 集速度会很慢,设置了之后会加快速度。 前面说了一般网页设置ajax的目的是局部刷新,后台与服务器 进行少量数据交换,而新标签打开的意思是重新打开加载整个网页,一 般来说设置了ajax是不需要再开新标签的,请在设置ajax的时候把勾选 的新标签取消掉。
网页数据抓取方法详解
网页数据抓取方法详解
互联网时代,网络上有海量的信息,有时我们需要筛选找到我们需要的信息。很多朋友对于如何简单有效获取数据毫无头绪,今天给大家详解网页数据抓取方法,希望对大家有帮助。
八爪鱼是一款通用的网页数据采集器,可实现全网数据(网页、论坛、移动互联网、QQ空间、电话号码、邮箱、图片等信息)的自动采集。同时八爪鱼提供单机采集和云采集两种采集方式,另外针对不同的用户还有自定义采集和简易采集等主要采集模式可供选择。
如果想要自动抓取数据呢,八爪鱼的自动采集就派上用场了。
定时采集是八爪鱼采集器为需要持续更新网站信息的用户提供的精确到分钟的,可以设定采集时间段的功能。在设置好正确的采集规则后,八爪鱼会根据设置的时间在云服务器启动采集任务进行数据的采集。定时采集的功能必须使用云采集的时候,才会进行数据的采集,单机采集是无法进行定时采集的。
定时云采集的设置有两种方法:
方法一:任务字段配置完毕后,点击‘选中全部’→‘采集以下数据’→‘保存并开始采集’,进入到“运行任务”界面,点击‘设置定时云采集’,弹出‘定时云采集’配置页面。
第一、如果需要保存定时设置,在‘已保存的配置’输入框内输入名称,再保存配置,保存成功之后,下次如果其他任务需要同样的定时配置时可以选择这个配置。
第二、定时方式的设置有4种,可以根据自己的需求选择启动方式和启动时间。所有设置完成之后,如果需要启动定时云采集选择下方‘保存并启动’定时采集,然后点击确定即可。如果不需要启动只需点击下方‘保存’定时采集设置即可。
方法二:在任务列表页面,每个任务名称右方都有‘更多操作’选项,点击之后,在下拉选项中选择云采集设置定时,同样可以进行上述操作。
八爪鱼如何登录采集
八爪鱼如何登录采集介绍使用八爪鱼进行登录采集的方法建采集任务
1.打开数据采集器,点击开始采集
2.输入任务名,点击下一步
编写采集规则
1.复制你要登录采集的网址
2.在流程设计器里选择打开网页,并拖动到设计器里,粘贴刚刚复制的网址,点击保存并打开网站
3.在下面打开的网址上找到账号输入框并点击右键,执行输入文本操作,如图所示
4.在红色方块指示区域输入登录账号,并点击保存
5.完成账号的保存好,继续右键点击密码输入框,执行输入文本操作,如图所示
6.在红色方框指示区域内输入登录密码,记得点击保存
7.最后一步,鼠标右键点击登录,再选择执行点击元素操作
8.成功登录采集页面,接下来就可以对需要采集的数据进行抓取了
八爪鱼验证码登陆-控件识别方法(7.0版本)
八爪鱼验证码登陆-控件识别方法(7.0版本)
本文给大家演示登陆界面有验证码或者其他验证(如滑块验证)的网站通过八爪鱼控件识别进行数据采集的方式。
所讲示例采集数据网址为/login.aspx
小贴士:通过八爪鱼的控件进行识别,这种方式如果需要自动识别,就需要购买验证码套餐,如果不购买也只能进行单机采集然后手动输入,注意这种方法只能是输入验证码的框才可以用这种方式。
步骤1 登陆八爪鱼7.0采集器→点击新建任务→自定义采集,进入到任务配置页面:然后输入网址→保存网址,系统会进入到流程设计页面并自动打开前面输入的网址。
验证码登陆-控件识别方法-图1:输入网址
接下来步骤是输入用户名密码了,八爪鱼模拟的是人的操作行为,所以这一步过程也很简单
步骤2 在浏览器中鼠标点击用户名输入框→在右边弹出的提示里面选择“输入文字”→输入自己的用户名→选择“确定”。
同样的方式输入密码,这样输入用户名密码的步骤就完成了。
验证码登陆-控件识别方法-图2:输入密码
验证码登陆-控件识别方法-图3:输入密码
这里八爪鱼采集器需要知道
1.验证码图片在哪里
2.输入框验证码的框在哪里
步骤3 点击下方浏览器中验证码图片的位置→按照提示框中的提示选择浏览器中的验证码框→再按照提示框中的提示点击浏览器中的登陆按钮
验证码登陆-控件识别方法-图4:点击验证码输入框
验证码登陆-控件识别方法-图5:点击验证码图片位置、登录按钮
接下来需要配置验证码输入失败和成功的两种场景
步骤4 点击提示框中的确认按钮,系统会自动提交一个错误的验证码→然后点击浏览器中的“验证码不正确”提示→再点击提示框中的确认按钮→选择提示框中的“开始配置识别成功场景”→在提示框中输入显示出来的验证码→选择提示框中的“应用到网页并完成配置”选项
八爪鱼如何登录采集
八爪鱼如何登录采集
八爪鱼是一款强大的网络爬虫工具,能够帮助用户快速便捷地进行网
页数据采集。要使用八爪鱼登录并进行采集,首先需要进行以下几个步骤:
2.注册和登录账号
安装好八爪鱼软件后,用户需要先注册一个八爪鱼账号。打开八爪鱼
软件后,在登录界面点击“注册账号”按钮,按照提示填写相关信息进行
注册。注册完成后,使用注册时填写的账号和密码登录八爪鱼。
3.创建新项目
登录成功后,八爪鱼的主界面会显示用户创建的项目列表。首次登录时,列表应该是空的。点击主界面右上方的“新建”按钮,选择“项目”
选项,即可创建一个新项目。在项目创建界面,可以填写项目名称、选择
相应的模板、设置项目参数等。完成填写后,点击“创建”按钮,即可成
功创建一个新项目。
4.配置项目
项目创建成功后,会自动进入项目配置界面。在这个界面,用户需要
进行项目配置和页面选择,以确定八爪鱼要采集的目标网页和要获取的数据。用户可以通过选择网页上的特定元素(比如链接、表格等)来确定采
集的范围。可以使用八爪鱼提供的各种功能工具(如选择器、正则表达式等)来进行更准确的页面选择和数据提取。
5.进行登录设置
如果需要在采集前进行登录操作,可以通过在项目配置界面点击页面
选择框下的“登录”按钮来设置登录操作。用户可以根据需求,选择合适
的登录类型(如表单登录、Cookies登录等)、填写相应的登录参数和验证规则,以实现项目的登录功能。八爪鱼提供了图形化的登录设置界面和预览功能,方便用户进行操作和验证。
6.运行项目
项目配置完成后,点击页面选择框下的“运行”按钮,或使用快捷键F5,即可运行项目。八爪鱼会自动打开目标网页,并按照用户的配置进行登录、页面选择和数据采集。在采集过程中,用户可以在八爪鱼的界面实时查看采集结果,并进行相应的数据处理、导出等操作。
【八爪鱼v7采集教程】模拟手机端功能说明
【八爪鱼采集教程】模拟手机端功能说明
模拟手机端的功能是针对于一类特殊的网站而言的,即某些手机端访问的网站我们在电脑上打开的时候就会自动跳转到PC 版的页面,导致打开显示出来的样式并不是和手机端显示的一样。那在下图所示位置我们输入网址之后点击‘设置’,并勾选上‘模拟手机访问网页’,就不会自动跳转了,就能正常进行规则配置了。
模拟手机端功能
-图1
下面以/?reftype=web&ref=为例,这个网站在手机端显示的样式为下图:
模拟手机端功能-图2
但是我们在电脑端的浏览器中访问这个网站却被跳转成如下图所示:
模拟手机端功能-图3
如果我们勾上这个模拟手机端访问的功能,如下图所示就能正常打开和手机一样的页面然后进行正常采集了:
模拟手机端功能-图4
相关采集教程:
黄页88数据采集
赶集招聘信息采集
房天下信息采集
八爪鱼——70万用户选择的网页数据采集器。
1、操作简单,任何人都可以用:无需技术背景,会上网就能采集。完全可视化流程,点击鼠标完成操作,2分钟即可快速入门。
2、功能强大,任何网站都可以采:对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页,均可经过简单设置进行采集。
八爪鱼采集器入门教程详细说明
八爪鱼采集器入门教程详细说明
刚接触八爪鱼的时候,作为一个文科运营喵,还是一脸懵逼的。爬虫是什么?采集器是什么?八爪鱼采集器怎么工作的?怎么就能采集到数据了?八爪鱼的这些高级选项,该怎么设置?
一堆问题的我,上八爪鱼官网(/),啃了各种产品说明、各种教程、然后边看教程边操作......相对市面上其他采集器而言,八爪鱼的可视化流程已经降低了操作难度,即使是没有技术背景的人,也挺容易入门的。但是,学习初期难免感到毫无头绪。本文整理了比较系统的八爪鱼详细入门说明,希望对大家有用。
要系统的学习并掌握八爪鱼,完成从入门到采集大神的历练,需要经过以下几个阶段:
一、理解八爪鱼工作的核心原理
二、了解八爪鱼入门词汇(有一个初步印象)
三、采集基本流程教程(明白整体架构)
四、细致学习功能点教程+实战案例教程(开始实际操作)
一、理解八爪鱼工作的核心原理
八爪鱼采集的核心原理是:模拟人浏览网页,复制数据的行为,通过记录和模拟人的一系列上网行为,代替人眼浏览网页,代替人手工复制网页数据,从而实现自动化从网页采集数据,然后通过不断重复一系列设定的动作流程,实现全自动采集大量数据。
理解核心原理是十分必要的,只有理解了工作原理,再结合实际操作仔细体会,才会取得事半功倍的效果。
二、了解八爪鱼入门词汇(有一个初步印象)
要掌握的入门词汇主要有:积分、规则、云加速、云优先、URL、单机采集、云采集、定时采集、URL循环、自动导出、COOKIE、XPATH、HTML
八爪鱼入门词汇详细资料,请点击以下链接查看:
/doc-wf
三、了解采集基本流程教程(明白整体架构)
八爪鱼采集器使用必知的关键词
八爪鱼采集器使用必知的关键词
1、积分
积分是用来支付八爪鱼增值服务的一种方式,在八爪鱼采集器采集数据后,用来导出数据。免费版导出数据需积分,专业版及以上导出数据无限制。积分可以单独购买,也可以通过签到、完善个人资料、绑定社交账号等多种方式获得。
注意:不同的账号类型在使用八爪鱼增值服务时会有不同的收费策略,具体的收费策略和区别在版本说明里面有详细的解释。
2、规则
规则是八爪鱼规则配置程序记录人工操作流程、展现在八爪鱼客户端中并能进行导入导出操作的一条程序规则。当一条规则配置好之后,八爪鱼即可按照所配置的规则自动地进行数据采集,代替人工采集。
3、云加速
八爪鱼系统采用分布式集群部署的方式,每个集群由数量庞大的云节点组成,单个节点的采集能力相当于一台PC机的采集能力。通过八爪鱼后台的版本资源分配策略,分配到多少个云节点资源就享有几倍的加速,版本高的账户有更高的加速倍数。
4、云优先
如果是多用户共享一个云集群的资源,一个集群的规模大小是有上限的,如果同一时间提交云集群任务过多,造成资源拥堵,那么根据用户账号版本的不同,八爪鱼系统会进行默认排序,版本高的,优先级高,将有优先获得资源分配的权益。暂时未分配到资源的任务将进行排队轮候。
5、URL
URL 指正常网站的网址。
6、单机采集
单机采集是指不占用云集群的资源,只能通过八爪鱼客户端所在的PC 进行工作,在工作期间,
需要电脑和软件都处于运行状态,电源中断或者网路中断都会导致数据采集任务的中断。
7、云采集
云采集是指通过使用八爪鱼提供的服务器集群进行工作,该集群是7*24小时的工作状态,在客户端将任务设置完成并提交到云服务执行进行云采集之后,可以关闭软件,关闭电脑进行脱机采集,真正实现无人值守。除此之外,云采集通过云服务器集群的分布式部署方式,多节点同时进行作业,可以提高采集效率,并且可以高效的避开各种网站的IP 封锁策略。
八爪鱼爬虫工具抓取出现验证码怎么办
八爪鱼在采集过程中出现验证码,不确定出现时间甚至位置
原因:该情况一般是采集速度比较快、采集数据多,触发了网站的防采集机制所导致的。
解决方案:由于其不确定性,并不是采集每一条数据都出现验证码。故需在规则中引入分支判断,对网页是否出现验证码进行判断。如:出现时走左分支,不出现时走右分支。分支的判断一般可选择“当前页面包含文本”,具体请根据网页实际情况进行操作。分支判断的使用请参考相应教程,教程链接:/tutorial/judge.aspx?t=1在配置规则的过程中,应采取先判断后识别验证码的流程顺序。此外,由于验证码不是
时时出现,故一定要找到验证码出现的界面,从而完成“识别验证码”该步骤的建立。
操作示例:
1、按常规流程制作规则。
验证码在采集过程中出现,不确定出现时间甚至位置-图1
2、运行单机采集,采集部分数据后发现提示访问频繁,需要输入验证码。
此时应停止采集,对规则进修改。
验证码在采集过程中出现,不确定出现时间甚至位置-图2 3、回到“流程”页面,从流程设计器左侧栏拖一个“判断条件”到流程图中。
验证码在采集过程中出现,不确定出现时间甚至位置-图3
4、设置好判断条件。(验证码页面会出现的正常页面不会出现。如:您的访问出错了,验证输入框的xpath。示例采用的是验证码提示语“您的访问出错了”,诸位可自行选择合适的判断条件。详细操作请参考分支判断的使用。)
验证码在采集过程中出现,不确定出现时间甚至位置-图4 5、判断条件设好后,点击需要识别的验证码。如图:
验证码在采集过程中出现,不确定出现时间甚至位置-图5
八爪鱼数据爬虫如何使用
八爪鱼数据爬虫如何使用
八爪鱼作为目前最火的一款网页数据爬虫软件,对于大多数没有接触过这类软件的用户来说,到底如何使用呢?八爪鱼采集原理就是模拟人浏览网页的行为进行数据采集的,目前八爪鱼提供两个采集模式,简易采集和自定义采集,简易采集只要选择自己要爬的网站模板,再配置相应的参数即可;自定义采集是需要用户将网址放到八爪鱼里打开后,再设置相应的采集步骤,比如最基本的打开网页、点击元素,提取数据等,这边主要讲一下怎么使用自定义模式去爬取网页数据。
1、打开网页
本步骤根据设定的网址打开网页,一般为网页采集流程的第一个步骤,用来打开指定的网站或者网页。如果有多个类似的网址需要分别打开执行同样的采集流程,则应该放置在循环的内部,并作为第一个子步骤。
2、点击元素
本步骤对网页上指定的元素执行鼠标左键单击动作,比如点击按钮、点击超链接等。
3、输入文本
本步骤在输入框中输入指定的文本,例如输入搜索关键词,输入账号等。将设定的文本输入到网页的某个输入框中,如使用搜索引擎时输入关键字。
4、循环
本步骤用来重复执行一系列步骤,根据配置不同,支持多种循环方式。1)循环单个元素:循环点击页面中的某个按钮;2)循环固定元素列表:循环处理网页中固定数目的元素;3)循环不固定元素列表:循环处理网页中不固定数目的元素;4)循环URL列表:循环打开一批指定网址的网页,然后执行同样的处理步骤;5)循环文本列表:循环输入一批指定文字,然后执行同样的处理步骤。
5、提取数据
本步骤根据提取数据模板的配置,从网页中提取数据,同时还可添加特殊字段:当前时间、固定字段、添加空字段、添加当前网页网址等。
八爪鱼爬虫采集方法
八爪鱼爬虫采集方法
网页爬虫是一个比较热门的网络词,因为大数据时代,各行各业的从业人员都需要大量的数据信息,通过分析这类数据来优化升级自己的产品,从而满足所有消费者的需求,从而更好地抢占市场。目前市面上比较好用的爬虫工具首推八爪鱼采集器,所以今天就教大家八爪鱼爬虫工具的使用方法,让你轻松get网络爬虫。
文章内示例网址为:
/guide/demo/genremoviespage1.html
自定义模式采集步骤:
步骤1:首先打开八爪鱼采集器→找到自定义采集→点击立即使用
自定义模式-图1
步骤2:输入网址→设置翻页循环→设置字段提取→修改字段名→对规则进行手动检查→选择采集类型启动采集
自定义模式-图2:输入网址
自定义模式-图3:设置翻页循环
自定义模式-图4:创建循环列表
自定义模式-图5:提取字段
自定义模式-图6:修改字段名
注意点:
1.设置翻页循环:观察网页底部有没有翻页图标,如果有并且需要翻页则点击翻页图标,操作提示中循环点击下一页表示循环翻页,可以在循环中设置翻页次数,设置几次则采集网页最新内容几页。采集该链接的文本选项则会出现提取数据步骤,提取下一页对应的文本;点击采集该链接地址步骤选项会出现提取数据步骤,提取当前字段对应的链接地址。点击该链接则会出现点击元素步骤,点击该元素一次。
2.设置字段提取:先对网页内容进行分区块,思路为循环各区块,再从循环到的区块中提取每个字段内容,所以设置时先点击2-3各区块,八爪鱼会自动选中剩余所有区块,点击采集以下元素文本会出现循环提取数据步骤,实现对区块的循环采集,但是此时每个区块循
八爪鱼采集器v7查看数据和导出数据
八爪鱼采集器v7查看数据和导出数据
八爪鱼采集器作为一个工具,可以采集到互联网上的可见的公开数据。在采集器中除了配置任务,当然还有数据的展示以及数据导出,为后期的数据分析和挖掘提供数据支持。
相关采集教程:
八爪鱼采集原理
58同城信息采集
搜狗微信文章采集
八爪鱼采集器查看数据的方法:
在7.0版本,我们可以在任务列表界面查看到各个任务最近一次任务所采集到数据量。
步骤1:打开7.0
版本的八爪鱼,点击左侧的任务选项,弹出任务列表界面。
在每个任务的中间都记录该任务当前采集状态、最近一次云采集的数据量、本地采集的数据量。
八爪鱼查看数据和导出数据-图1:云采集
八爪鱼查看数据和导出数据-图2:本地采集
步骤2:点击“云采集:已采集到XXX 条数据…”或是“本地采集:已采集到XXX 条数据”。页面会直接跳转到查看数据界面。该界面展示了当前任务所采集到的最终数据
形
式。
八爪鱼查看数据和导出数据-图3
云数据界面:
云数据界面中展示了当前任务名称(页面中间),以及该任务的总数据量和页数(页面左下方)。同时有一个提示信息:数据只保存3个月。(页面右上角)也就是说云采集的数据,八爪鱼采集器会在云端保存3个月,之后数据即被清除。因此数据需要及时导出。
八爪鱼查看数据和导出数据-图4
本地数据:
本地数据界面与云数据界面基本没有差别。但是本地数据是任务进行本地采集时生成,每次本地采集会将之前保存的本地数据清除,只保留最新一次运行的数据。而云数据所保存的时每次云采集运行结束后的数据的汇总。
八爪鱼查看数据和导出数据-图5
跳转任务编辑界面
造数与八爪鱼采集器对比哪个更好用呢?
造数与八爪鱼采集器对比
在各路程序猿和爬虫语言打的火热的时候,采集器也已经在数据行业里变得不可或缺,采集器也叫作采集软件,是指将互联网上通过web途径公开的资源采集复制到本地的工具软件,其实也就是网络爬虫工具。八爪鱼和造数就是其中两款采集器,对于不会写爬虫代码的朋友来说,找到一款合适的采集器,可以达到事半功倍的效果。本文就两款采集器的优缺点做一个对比,仅供大家参考。
造数是一个基于云端爬取的智能云爬虫服务站点,通过一套网页分析的算法,分析出网页中结构化的数据,然后再爬取页面中的数据,无需编程基础,只需输入网址,选取所需的数据,就可轻松获取互联网的公开数据,并以Excel 表格等形式下载,或使用API 与企业内部系统深度整合。
造数有什么优缺点呢?
优点:
云端采集网页,不需要占用电脑资源下载软件
采集到数据以后可以设置数据自动推送
缺点:
1、不支持全自动网站登录采集,也不支持本地采集,采集比较容易受到限制
2、不能采集滚动页面,最多支持两个层级的采集,采集不是很灵活
然后我们看一下八爪鱼
八爪鱼是非常适合技术小白的一款采集器,技术比较成熟,功能强大,操作简单。八爪鱼采集器的各方面的功能都比较完善,云采集是它的一大特色,相比其他采集软件,云采集能够做到更加精准、高效和大规模。还有识别验证码、提供优质代理IP、UA自动切换等智能防封的组合功能,在采集过程都不用担心网站的限制。如果不想创建采集任务,可以到客户端直接使用简易采集模式,选择模板,设置参数马上就可以拿到数据。
八爪鱼有什么优缺点呢?
1、功能强大。八爪鱼采集器是一款通用爬虫,可应对各种网页的复杂结构(瀑布流等)和防采集措施(登录、验证码、封IP),实现百分之九十九的网页数据抓取。
使用八爪鱼v7登录天猫进行采集
使用八爪鱼v7登录天猫进行采集
本文介绍使用八爪鱼登录天猫
采集网站:
https:///?ali_trackid=2:mm_26632258_3504122_5593469 7:1505705580_3k5_698191132&upsid=9b4208c748a0c5748fa7f26e4771 f6e6&clk1=9b4208c748a0c5748fa7f26e4771f6e6
使用功能点:
cookie登陆方法(7.0版本)
/tutorial/cookie70.aspx?t=1
相关采集教程:
淘宝评论采集
天猫店铺采集
天猫商品信息采集
步骤1:创建采集任务
1)进入主界面,选择“自定义模式”
使用八爪鱼v7登录天猫进行采集图1
2)将要采集的网址复制粘贴到网站输入框中,点击“保存网址”
使用八爪鱼v7登录天猫进行采集图2
步骤2:登录天猫
1)在页面右上角,打开“流程”,以展现出“流程设计器”和“定制当前操作”两个板块。系统自动打开网页,进入天猫首页。点击“请登录”按钮,选择“循环点击该链接”
使用八爪鱼v7登录天猫进行采集图3
2)页面默认为扫描二维码登录。点击“密码登录”,选择“点击该链接”,进入使用密码登录页面
使用八爪鱼v7登录天猫进行采集图4
3)点击账号输入框,选择“输入文字”
使用八爪鱼v7登录天猫进行采集图5
输入账号,点击“确定”
使用八爪鱼v7登录天猫进行采集图6 4)点击密码输入框,选择“输入文字”
使用八爪鱼v7登录天猫进行采集图7
输入密码,点击“确定”
使用八爪鱼v7登录天猫进行采集图8
5)点击“登录”按钮,选择“点击该链接”
八爪鱼采集器新手入门必备的知识点(7.0版)
网页数 据
八爪鱼采集 器
数据 库
EXCE L
AP I
其 他
产品介绍
高级模式
简单规则设置,灵活应对 各种复杂网页结构
强大的功能+简便的操作,我们提供三 种操作模式,满足不同用户的个性化应 用需求。
向导模式
内置向导流程,点击执行 轻松解决采集难题 智能模式 智能识别算法,一键即可 提取结构化数据 简易模式 内置采集模板,输入参数 即可提取模板数据
界面简介
-八爪鱼界面功能介绍
界面简介
-智能模式介绍
界面简介
-app简易模式介绍
界面简介
-网页简易模式介绍
界面简介
-向导模式介绍
界面简介
-高级模式介绍
流程步骤
一、输入网址: 此处用于输入要采集网页URL 二、设计工作流程: 此处用于设计任务规则的自动化流程步骤,例如:你要让任 务规则打开哪一个网页,做哪些步骤等都在设计工作流程中完成,设计 工作流程是一个任务规则的核心步骤 三、任务启动选择: 如果规则编写正确,此处你就可以启动一个任务规则进行单 机采集或云采集了,并且可以设置定时计划
循环本身是不会有任何执行操作的,如果要实现循环翻页,则 需要一个点击元素来和循环产生联动
Ajax加载与新标签页
即通过在后台与服务器进行少量数据交换,意味 着可以在不重新加载整个网页的情况下,对网页的某 部分进行更新。 最简单的方式是看在八爪鱼浏览器里点击的时候 有没有转,, 如果是像这样就不是ajax,这种标志 就是ajax,需要设置ajax即可,如果不设置采集时出现 的现象就会一直等待在这里不提取数据,感觉采集速 度会很慢,设置了之后会加快速度。 一般真正ajax的情况下是一定不会开新标签的, 如果勾选了新标签就需要取消掉。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
八爪鱼验证码登陆-控件识别方法(7.0版本)
本文给大家演示登陆界面有验证码或者其他验证(如滑块验证)的网站通过八爪鱼控件识别进行数据采集的方式。
所讲示例采集数据网址为/login.aspx
小贴士:通过八爪鱼的控件进行识别,这种方式如果需要自动识别,就需要购买验证码套餐,如果不购买也只能进行单机采集然后手动输入,注意这种方法只能是输入验证码的框才可以用这种方式。
步骤1 登陆八爪鱼7.0采集器→点击新建任务→自定义采集,进入到任务配置页面:然后输入网址→保存网址,系统会进入到流程设计页面并自动打开前面输入的网址。
验证码登陆-控件识别方法-图1:输入网址
接下来步骤是输入用户名密码了,八爪鱼模拟的是人的操作行为,所以这一步过程也很简单
步骤2 在浏览器中鼠标点击用户名输入框→在右边弹出的提示里面选择“输入文字”→输入自己的用户名→选择“确定”。
同样的方式输入密码,这样输入用户名密码的步骤就完成了。
验证码登陆-控件识别方法-图2:输入密码
验证码登陆-控件识别方法-图3:输入密码
这里八爪鱼采集器需要知道
1.验证码图片在哪里
2.输入框验证码的框在哪里
步骤3 点击下方浏览器中验证码图片的位置→按照提示框中的提示选择浏览器中的验证码框→再按照提示框中的提示点击浏览器中的登陆按钮
验证码登陆-控件识别方法-图4:点击验证码输入框
验证码登陆-控件识别方法-图5:点击验证码图片位置、登录按钮
接下来需要配置验证码输入失败和成功的两种场景
步骤4 点击提示框中的确认按钮,系统会自动提交一个错误的验证码→然后点击浏览器中的“验证码不正确”提示→再点击提示框中的确认按钮→选择提示框中的“开始配置识别成功场景”→在提示框中输入显示出来的验证码→选择提示框中的“应用到网页并完成配置”选项
验证码登陆-控件识别方法-图6:点击确认按钮
验证码登陆-控件识别方法-图7:配置验证码输入失败场景
验证码登陆-控件识别方法-图8:配置验证码输入成功场景
验证码登陆-控件识别方法-图9:配置验证码输入成功场景
上述操作中验证码识别就完成了,接下来需要手动执行这个流程,任务会自动进去到登陆界面
步骤5 点击“流程”按钮→进入到流程界面→手动点击流程步骤(可以看到浏览器中会按照会执行这些步骤)→点到识别验证码步骤时→在辅助模式选项中输入浏览器中当前显示的验证码→选择应用到网页并提交
验证码登陆-控件识别方法-图10:辅助模式选项
这样操作之后,可以看到任务就正常登陆进去了。
步骤6 这里我随意提取一个数据仅供演示登陆功能,具体的操作可以参考新手入门的教程。
验证码登陆-控件识别方法-图11:提取数据
步骤7 接下来选择保存并启动按钮,系统将会在本地启动一个采集流程,当执行到输入验证码操作时,如果是购买过验证码套餐的,直接勾选“自动识别验证码”即可。如果没有购买的这里手动输入点确定也是可以的,但是这里这个规则就不能用云采集。
验证码登陆-控件识别方法-图12:启动采集
验证码登陆-控件识别方法-图13:勾选自动识别验证码
相关采集教程:
天猫商品信息采集
豆瓣电影短评采集
大众点评评价采集
八爪鱼——70万用户选择的网页数据采集器。
1、操作简单,任何人都可以用:无需技术背景,会上网就能采集。完全可视化流程,点击鼠标完成操作,2分钟即可快速入门。
2、功能强大,任何网站都可以采:对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页,均可经过简单设置进行采集。
3、云采集,关机也可以。配置好采集任务后可关机,任务可在云端执行。庞大云采集集群24*7不间断运行,不用担心IP被封,网络中断。
4、功能免费+增值服务,可按需选择。免费版具备所有功能,能够满足用户的基本采集需求。同时设置了一些增值服务(如私有云),满足高端付费企业用户的需要。