八爪鱼采集器使用进阶教程共24页文档

合集下载

网站抓字软件如何使用

网站抓字软件如何使用网站上有海量的文字信息，有时我们想提取采集下来。

有没有可以让工作简单的网站抓字软件供大家使用呢？下面给大家教一款软件是如何实现这个功能的。

八爪鱼是一款通用的网页数据采集器，可采集互联网上的公开数据。

用户可以设置从哪个网站爬取数据，爬取那些数据，爬取什么范围的数据，什么时候去爬取数据，爬取的数据如何保存等等。

言归正传，本文将以搜狗微信的文章正文采集为例，讲解使用八爪鱼采集网页文章正文的方法。

文章正文采集，主要有两大类情况：一、采集文章正文中的文本，不含图片；二、采集文章正文中的文本和图片URL。

示例网站：/使用功能点：Xpath /search?query=XPath判断条件/tutorialdetail-1/judge.html分页列表信息采集/tutorial/fylb-70.aspx?t=1AJAX滚动教程/tutorialdetail-1/ajgd_7.htmlAJAX点击和翻页/tutorialdetail-1/ajaxdjfy_7.html一、采集文章正文中的文本，不含图片具体步骤：步骤1：创建采集任务1）进入主界面，选择“自定义模式”网站抓字软件使用步骤12）将要采集的网址URL复制粘贴到网站输入框中，点击“保存网址”网站抓字软件使用步骤2步骤2：创建翻页循环1）在页面右上角，打开“流程”，以展现出“流程设计器”和“定制当前操作”两个板块。

网页打开后，默认显示“热门”文章。

下拉页面，找到并点击“加载更多内容”按钮，在操作提示框中，选择“更多操作”网站抓字软件使用步骤32）选择“循环点击单个元素”，以创建一个翻页循环网站抓字软件使用步骤4由于此网页涉及Ajax技术，我们需要进行一些高级选项的设置。

选中“点击元素”步骤，打开“高级选项”，勾选“Ajax加载数据”，设置时间为“2秒”网站抓字软件使用步骤5注：AJAX即延时加载、异步更新的一种脚本技术，通过在后台与服务器进行少量数据交换，可以在不重新加载整个网页的情况下，对网页的某部分进行更新。

八爪鱼系统操作文档

八爪鱼系统操作1 进入系统：开机后出现输入密码画面输入正确的密码后点OK 开始密码为1 2 3 进入系统可以修改。

2 上分：在要上分的机号栏对应的上分数栏上点击就可以增加要上分的分数。

每点一次增加一定的分数增加的分数大小可点击左上角的+10 + 50 +100 +1000 +10000来改变。

当选择好上分数后点出本栏旁边的>>按纽既完成一次上分。

若选择的上分数有误可点击按纽清除上分数据。

3退分：在要退分的机号栏对应的退分数栏上点击就可以增加要退分的分数。

第点一次增加一定的分数增加的分数大小可点击左上角+10+50 +100 +1000 +10000来改变。

当选择好退分数后点出本栏旁边的>>按纽即完成一次退分。

若选择的退分数有错误可点击X 按纽清除退分数据。

退分数不会超过该机台的总分。

4 退出：/当服务员要暂时离开时点击该处即可锁机输入开机密码后就可继续操作。

5 打印：输入密码进入打印其中可进行以下操作。

1 清除帐目重新游戏清除各分机的总上分、总退分、总押分、总赢分等帐目轮数和局数从头开始。

2 查明细帐目查询和统计各分机的总上分、总退分、总押分、总赢分等帐目并累加统计。

点击打印即可在打印机上打出帐目清单。

要在后台机器上查帐目3 上分界面设置显示机台总上分选择上分机是否在上分画面显示机台总上分数。

显示总分选择上机分是否在上分两面显示机台总分。

4 机台界面设置按横式显示牌路选择是按横式还是按竖式显示牌路。

显示网上押分选择显示网上实际押分还是虚拟押分。

押分后要按确认键选择押分后是否要按确认键。

和中奖时退下闲庄押分选择开出和中奖时下一局是否要自动退下闲庄的押分。

牌路从左到右选择牌路的排列方向。

5 修改游戏参数修改游戏参数方法是用鼠标点击要修改的参数项然后输入新的值参数如下每局时间每局倒计时用的时间押分键值每按一次押分键所增加的押分数休息时间每轮牌后的休息时间庄家抽水率开出庄赢时奖分的抽水率 95——100 每天开牌轮数每天开牌的轮数 5—12 押分的下限和上限值每个门子押分的最低分和最高分其中和的上限是指所有机台和押分的总数的上限。

八爪鱼采集器使用方法图解

八爪鱼采集器使用方法图解：
1、打开八爪鱼采集器的客户端,登陆软件之后新建一个任务,打开你要采集的网站地址;这里我自己示范的原创设计手稿的采集;
2、进入到设计工作流程环节,在界面浏览器那输入你要采集的网址,点击打开,你就能看到你要采集的网站界面,由于这个网址存在多页内容需要采集,我们再设置采集规则的时候,可以先建立翻页循环,先把鼠标选择页面上的下一页按钮,在弹出的任务对话框,选择高级选项中的循环点击下一页,软件会自动建立一个翻页循环;
3、建好翻页循环好,就是采集当前页上的内容,我要采集图片的URL,就选中一个图片,然后单击,软件会自动弹出对话框,先建立一个元素循环列表;当前页面的所有元素都被抓取后,循环列表则建立完成;
4、设置要抓取的内容,选择元素循环列表中的任意一个元素,在浏览器内找到该元素对应的图片,点击后弹出对话框,选择抓取这个元素的图片地址为字段1,同时我为了方便识别,还抓取了字段2为图片标题名称,设置原理同图片地址;
5、检查一下,翻页循环框应该将产品循环框嵌套在内,表示,先抓取完当前一整页的图片URL后再翻页;
6、设置执行计划后,就可以开始采集了,单击采集的话,直接点击完成步骤下的检查任务,开始运行任务;采集完毕后可以直接下载成EXCEL的文件;
7、将URL转换为图片,这里用八爪鱼图片转换工具,将EXCEL导入之后,就可以自动等待
系统将图片下载下来了
8、。

文章采集软件使用方法

对于站长以及新媒体运营人员来说，文章采集是必须要掌握的一项功能。

通过文章采集一个是能很清楚的掌握自身行业中哪些类型的文章受用户的喜爱，其实是合理的采集高质量的爆款文章，建立自己的资料库，从而生产出优质的文章。

目前来说，有很多自媒体平台都是可以采集文章的，比如今日头条、百家号、搜狗微信、新浪微博等等，这些平台基本都有搜索功能，你可以根据关键词去采集自己需要的文章。

下面具体为大家介绍八爪鱼文章采集软件的使用方法。

步骤1：创建采集任务1）进入主界面选择，选择“自定义模式”文章采集软件使用步骤12）将上面网址的网址复制粘贴到网站输入框中，点击“保存网址”文章采集软件使用步骤23）保存网址后，页面将在八爪鱼采集器中打开，红色方框中的信息是这次演示要采集的内容，即为今日头条最新发布的热点新闻。

文章采集软件使用步骤3步骤2：设置ajax页面加载时间●设置打开网页步骤的ajax滚动加载时间●找到翻页按钮，设置翻页循环●设置翻页步骤ajax下拉加载时间1）网页打开后，需要进行以下设置：打开流程图，点击“打开网页”步骤，在右侧的高级选项框中，勾选“页面加载完成向下滚动”，设置滚动次数，每次滚动间隔时间，一般设置2秒，这个页面的滚动方式，选择直接滚动到底部；最后点击确定文章采集软件使用步骤4注意：今日头条的网站属于瀑布流网站，没有翻页按钮，这里的滚动次数设置将影响采集的数据量。

文章采集软件使用步骤5步骤3：采集新闻内容创建数据提取列表1）如图，移动鼠标选中评论列表的方框，右键点击，方框底色会变成绿色然后点击“选中子元素”文章采集软件使用步骤6注意：点击右上角的“流程”按钮，即可展现出可视化流程图。

2）然后点击“选中全部”，将页面中需要需要采集的信息添加到列表中文章采集软件使用步骤7注意：在提示框中的字段上会出现一个“X”标识，点击即可删除该字段。

文章采集软件使用步骤83）点击“采集以下数据”文章采集软件使用步骤9 4）修改采集字段名称，点击下方红色方框中的“保存并开始采集”文章采集软件使用步骤10步骤4：数据采集及导出1）根据采集的情况选择合适的采集方式，这里选择“启动本地采集”文章采集软件使用步骤11说明：本地采集占用当前电脑资源进行采集，如果存在采集时间要求或当前电脑无法长时间进行采集可以使用云采集功能，云采集在网络中进行采集，无需当前电脑支持，电脑可以关机，可以设置多个云节点分摊任务，10个节点相当于10台电脑分配任务帮你采集，速度降低为原来的十分之一；采集到的数据可以在云上保存三个月，可以随时进行导出操作。

八爪鱼采集器使用入门教程

一、打开网页：打开网页，一般指我们所要采集数据的网站，正如平时我们浏览该网站的数据信息时需要输入URL一样二、循环翻页：循环翻页，指一般我们需要快速收集整合时，是需要做到翻页循环的，循环翻页的本质是一个单个元素的循环
三、提取数据
正式的采集步骤
四、点击元素循环本身是不会有任何执行操作的，如果要实现循环翻页，则需要一个点击元素来和循环产生联动
流程设计步骤
流程设计步骤：在八爪鱼采集器中，一共有11个流程设计操作，其中分为基本步骤和进阶步骤，划分为以下：基本步骤：基本步骤本身是应用较多的流程设计操作，通常来说，要实现一个网页的数据快速整理与采集，这些步骤是必不可少的，基本步骤如下： 1）打开网页 2）点击元素 3）循环 4）提取数据进阶步骤：进阶步骤，是指除基本步骤外，我们需要通过下列操作来辅助完成我们的数据采集，例如：有时候我们采集的数据需要先输入文本才能进行采集，进阶步骤如下： 1）输入文字 2）识别验证码 3）切换下拉选项 4）判断条件 5）移动鼠标到元素上 6）结束循环 7）结束流程
操作基本信息及高级选项
在八爪鱼中，流程操作由基本信息与高级选项两部分组成一、基本信息：基本信息一般会将该操作流程的基本信息显示出来，例如：打开网页会显示你打开网页的URL，点击元素会显示你点击的元素文本等二、高级选项：高级选项，可以设置一些额外的选项设置，以便辅助规则正确有效执行，例如：执行前等待、元素在iframe里等
二、任务规则：
任务规则，就是指根据特定的网页，按人用浏览器去访问网页的过程制定好的自动化任务程序，一般来说，一个类型相似的网站对应一个任务规则三、任务状态： 1)任务生命周期:可执行状态、等待状态、运行中状态、已完成状态、已停止状态 2）运行中状态：1）本地采集状态、云采集状态

八爪鱼采集器入门教程详细说明

八爪鱼采集器入门教程详细说明刚接触八爪鱼的时候，作为一个文科运营喵，还是一脸懵逼的。

爬虫是什么？采集器是什么？八爪鱼采集器怎么工作的？怎么就能采集到数据了？八爪鱼的这些高级选项，该怎么设置？一堆问题的我，上八爪鱼官网（/），啃了各种产品说明、各种教程、然后边看教程边操作......相对市面上其他采集器而言，八爪鱼的可视化流程已经降低了操作难度，即使是没有技术背景的人，也挺容易入门的。

但是，学习初期难免感到毫无头绪。

本文整理了比较系统的八爪鱼详细入门说明，希望对大家有用。

要系统的学习并掌握八爪鱼，完成从入门到采集大神的历练，需要经过以下几个阶段：一、理解八爪鱼工作的核心原理二、了解八爪鱼入门词汇（有一个初步印象）三、采集基本流程教程（明白整体架构）四、细致学习功能点教程+实战案例教程（开始实际操作）一、理解八爪鱼工作的核心原理八爪鱼采集的核心原理是：模拟人浏览网页，复制数据的行为，通过记录和模拟人的一系列上网行为，代替人眼浏览网页，代替人手工复制网页数据，从而实现自动化从网页采集数据，然后通过不断重复一系列设定的动作流程，实现全自动采集大量数据。

理解核心原理是十分必要的，只有理解了工作原理，再结合实际操作仔细体会，才会取得事半功倍的效果。

二、了解八爪鱼入门词汇（有一个初步印象）要掌握的入门词汇主要有：积分、规则、云加速、云优先、URL、单机采集、云采集、定时采集、URL循环、自动导出、COOKIE、XPATH、HTML八爪鱼入门词汇详细资料，请点击以下链接查看：/doc-wf三、了解采集基本流程教程（明白整体架构）八爪鱼在配置规则、采集数据的时候，主要会经过以下几个步骤：打开网页、点击元素、输入文本、提取数据、循环、下翻下拉列表、条件分支、鼠标悬停。

针对这些步骤，八爪鱼内置了很多高级选项。

在针对具体网页的采集过程中，网页结构、网页情况是不一样的。

我们需要观察网页结构，相应地在八爪鱼中进行高级选项的设置。

八爪鱼产品使用手册

八爪鱼产品使用手册目录1关于八爪鱼 (2)2Cookie （更多内容详见Cookie 视频） (2)2.1 Cookie诞生 (2)2.2 Cookie概述 (2)2.3 Cookie工作原理 (3)3Xpath、Html (3)3.1 Xpath、Html概念 (3)3.2 Html结构 (4)3.3 Html标签、元素、节点 (4)3.4 Html常见标签 (5)3.5 Html常见属性 (6)3.6 Xml、Xpath、Html关系和区别 (7)4常见问题 (7)5常见软件操作教程 (10)5.1 采集单个网页 (10)5.2 采集单个列表页面 (10)5.3 单网页表格信息采集 (10)5.4 采集单网页列表详细信息 (10)5.5 采集分页列表 (10)5.6 采集分页列表详细信息 (10)5.7 采集分页列表+ajax延时设置 (10)5.8 单个文本输入及各种登录方式采集 (11)5.9 Cookie登录 (11)5.10 文本循环输入 (11)5.11 循环切换下拉框 (11)5.12 xpath入门1 (11)5.13 xpath入门2 (11)5.14 一二页重复循环采集 (11)关于八爪鱼八爪鱼·大数据，通过自主创新研发，以分布式云平台架构为产品核心，帮助客户通过在极短的时间内，通过简单操作即可获取想要的数据，并以结构化数据展示，为企业数据挖掘与数据分析提供基础数据源。

于2015年1月，获得国家重点软件企业上市公司“拓尔思”投资。

Cookie （更多内容详见Cookie 视频）Cookie诞生当某个用户打开浏览器发出页面请求时，web服务器只是进行简单相应，然后就关闭与该用户的连接。

所以当用户每发起一个打开网页请求到web服务器的时候，无论是否是第一次打开同一个网页，web服务器都会把这个请求当作第一次来对待，那这样的缺陷可想而知，比如每次打开登录页面的时候都需要输入用户名、密码。

八爪鱼爬虫采集方法

八爪鱼爬虫采集方法网页爬虫是一个比较热门的网络词，因为大数据时代，各行各业的从业人员都需要大量的数据信息，通过分析这类数据来优化升级自己的产品，从而满足所有消费者的需求，从而更好地抢占市场。

目前市面上比较好用的爬虫工具首推八爪鱼采集器，所以今天就教大家八爪鱼爬虫工具的使用方法，让你轻松get网络爬虫。

文章内示例网址为：/guide/demo/genremoviespage1.html自定义模式采集步骤：步骤1：首先打开八爪鱼采集器→找到自定义采集→点击立即使用自定义模式-图1步骤2：输入网址→设置翻页循环→设置字段提取→修改字段名→对规则进行手动检查→选择采集类型启动采集自定义模式-图2：输入网址自定义模式-图3：设置翻页循环自定义模式-图4：创建循环列表自定义模式-图5：提取字段自定义模式-图6：修改字段名注意点：1.设置翻页循环：观察网页底部有没有翻页图标，如果有并且需要翻页则点击翻页图标，操作提示中循环点击下一页表示循环翻页，可以在循环中设置翻页次数，设置几次则采集网页最新内容几页。

采集该链接的文本选项则会出现提取数据步骤，提取下一页对应的文本；点击采集该链接地址步骤选项会出现提取数据步骤，提取当前字段对应的链接地址。

点击该链接则会出现点击元素步骤，点击该元素一次。

2.设置字段提取：先对网页内容进行分区块，思路为循环各区块，再从循环到的区块中提取每个字段内容，所以设置时先点击2-3各区块，八爪鱼会自动选中剩余所有区块，点击采集以下元素文本会出现循环提取数据步骤，实现对区块的循环采集，但是此时每个区块循环时只会将区块内文字合并为一条提取，此时我们删除该字段并手动添加需要提取的所有字段；点击循环点击每个元素则会出现循环点击元素步骤，对每个区块进行一次点击，该示例中区块点击没有效果，所以该示例中循环点击不存在效果。

如果选择错误，或者出现的内容列表不是你需要的，可以在操作提示中点击区块后的垃圾桶图标进行删除操作，或者点击取消选择，重新设置。

如何利用八爪鱼爬虫抓取数据

如何利用八爪鱼爬虫抓取数据很多人都听说过八爪鱼采集器，知道它强大的网页数据采集功能，以及简单的操作步骤。

但是有的同学担心不懂代码，不会使用八爪鱼爬虫做抓取。

作为同样技术水平为0的文科生小编，看了教程后使用起来666，友好又高效，向你保证不会技术也可以轻松采集。

要系统的学习八爪鱼，完成从入门到采集大神的历练，需要经过以下几个阶段：一、理解八爪鱼工作的核心原理二、了解八爪鱼入门词汇（有一个初步印象）三、采集基本流程教程（明白整体架构）四、细致学习功能点教程+实战案例教程（开始实际操作）一、理解八爪鱼工作的核心原理八爪鱼采集的核心原理是：模拟人浏览网页，复制数据的行为，通过记录和模拟人的一系列上网行为，代替人眼浏览网页，代替人手工复制网页数据，从而实现自动化从网页采集数据，然后通过不断重复一系列设定的动作流程，实现全自动采集大量数据。

理解核心原理是十分必要的，只有理解了工作原理，再结合实际操作仔细体会，才会取得事半功倍的效果。

针对这些步骤，八爪鱼内置了很多高级选项。

在针对具体网页的采集过程中，网页结构、网页情况是不一样的。

我们需要观察网页结构，相应地在八爪鱼中进行高级选项的设置。

那么，了解八爪鱼采集基本流程，是十分必要的。

八爪鱼采集基本流程详解，请点击以下链接查看：/doc-wf四、细致学习功能点教程+实战案例教程（开始实际操作）经过前两步，我们掌握了入门词汇，知道经常出现在八爪鱼中的积分、规则、云加速、云优先、URL、COOKIE、XPATH等词是什么意思；我们对八爪鱼的基本采集步骤有了清晰的把控，明白有8大步骤和若干高级选项需要设置。

八爪鱼采集器v7查看数据和导出数据

八爪鱼采集器v7查看数据和导出数据八爪鱼采集器作为一个工具，可以采集到互联网上的可见的公开数据。

在采集器中除了配置任务，当然还有数据的展示以及数据导出，为后期的数据分析和挖掘提供数据支持。

相关采集教程：八爪鱼采集原理58同城信息采集搜狗微信文章采集八爪鱼采集器查看数据的方法：在7.0版本，我们可以在任务列表界面查看到各个任务最近一次任务所采集到数据量。

步骤1：打开7.0版本的八爪鱼，点击左侧的任务选项，弹出任务列表界面。

在每个任务的中间都记录该任务当前采集状态、最近一次云采集的数据量、本地采集的数据量。

八爪鱼查看数据和导出数据-图1：云采集八爪鱼查看数据和导出数据-图2：本地采集步骤2：点击“云采集：已采集到XXX 条数据…”或是“本地采集：已采集到XXX 条数据”。

页面会直接跳转到查看数据界面。

该界面展示了当前任务所采集到的最终数据形式。

八爪鱼查看数据和导出数据-图3云数据界面：云数据界面中展示了当前任务名称（页面中间），以及该任务的总数据量和页数（页面左下方）。

同时有一个提示信息：数据只保存3个月。

（页面右上角）也就是说云采集的数据，八爪鱼采集器会在云端保存3个月，之后数据即被清除。

因此数据需要及时导出。

八爪鱼查看数据和导出数据-图4本地数据：本地数据界面与云数据界面基本没有差别。

但是本地数据是任务进行本地采集时生成，每次本地采集会将之前保存的本地数据清除，只保留最新一次运行的数据。

而云数据所保存的时每次云采集运行结束后的数据的汇总。

八爪鱼查看数据和导出数据-图5跳转任务编辑界面云数据界面中可以直接跳转到任务编辑界面，直接点击“编辑任务”（左上角的蓝色框）。

当查看到任务的数据不符合预期时，就可以执行该操作，跳转任务编辑界面，即可进行修改。

然后再次运行任务。

八爪鱼查看数据和导出数据-图6八爪鱼查看数据和导出数据-图7数据翻页、跳转在左下方可以点击翻页操作，查看后续的数据情况。

同时还是填写某一个页面数，点击“跳转”会自动跳转到相应的页面。

【八爪鱼v7采集教程】分页列表详细信息采集方法

【八爪鱼采集教程】分页列表详细信息采集方法很多网站有会这种模式，多个列表页面，点击列表中的一行链接会打开一个详细信息页面，本文给大家演示如何采集分页列表详情页面里的信息。

目的是让大家了解怎么创建循环翻页并能正常采集网页详情的数据信息。

本文教程里讲到的示例网站地址为：/guide/demo/moviespage1.html步骤1登陆八爪鱼7.0采集器→点击新建任务→自定义采集，进入到任务配置页面：然后输入网址→保存网址，系统会进入到流程设计页面并自动打开前面输入的网址。

分页列表详细信息采集-图1我们需要循环点击下图浏览器中电影名称,再提取子页面中的数据信息,所以我们需要先做一个翻页循环再做一个循环点击电影名称提取数据的列表。

步骤2点击下图浏览器页面中的“下一页”按钮，在弹出的对话框中选择“循环点击下一页”；分页列表详细信息采集-图2下面对电影名称创建循环点击步骤3 鼠标点击下图中第一个电影名称“教父：第二部”，在弹出的操作提示中选择“选中全部”选项, 然后选择“循环点击每个链接”选项分页列表详细信息采集-图3分页列表详细信息采集-图4接下来页面就自动跳转到详情页面中去了，我们再做提取数据步骤4 点击要提取的标题在弹出的提示框中选择“采集该元素的文本”，然后同样的方式选择点击浏览器中的其他字段，再选择“采集该元素的文本”分页列表详细信息采集-图5步骤5 这样提取完毕之后我们可以点一下流程按钮，然后修改字段名称。

在下面界面中修改字段名称，修改完成之后，点击“确定”保存分页列表详细信息采集-图6步骤6 点击“保存并启动”，再再弹出的对话框中选择“启动本地采集”。

系统会在本地开启一个采集任务并采集数据, 接下来选择导出数据，这里以选择导出excel2007为例，然后点击确定. 之后选择文件存放路径，再点保存即可分页列表详细信息采集-图7下面是数据示例分页列表详细信息采集-图8相关采集教程：黄页88数据采集赶集招聘信息采集大众点评评价采集八爪鱼——70万用户选择的网页数据采集器。

文章采集软件如何使用

文章采集软件如何使用本文教大家如何采集文章，介绍使用八爪鱼采集器采集欢乐书客（以次元学院小说为例）的方法。

上述仅以次元学院小说举例，大家在采集欢乐书客小说的时候，可以更换小说书籍进行采集。

采集的内容包括：小说章节，小说内容使用功能点：分页列表及详细信息提取/tutorialdetail-1/fylbxq7.html步骤1：创建欢乐书客小说采集任务1）进入主界面，选择“自定义模式”欢乐书客小说采集步骤12）将要采集的欢乐书客小说网址复制粘贴到网站输入框中，点击“保存网址”欢乐书客小说采集步骤2步骤2：创建列表循环1）在页面右上角，打开“流程”，以展现出“流程设计器”和“定制当前操作”两个板块。

若章节被隐藏，点击查看全部章节并选择点击该链接。

欢乐书客小说采集步骤32）选中页面里的第一条链接，系统会自动识别页面内的同类链接，选择“选中全部”欢乐书客小说采集步骤43）选择“循环点击每个链接”欢乐书客小说采集步骤5步骤3：采集欢乐书客小说内容1）选中页面内要采集的小说内容（被选中的内容会变成绿色），选择“采集该元素的文本”欢乐书客小说采集步骤62）修改字段名称欢乐书客小说采集步骤73）选择“启动本地采集”欢乐书客小说采集步骤8步骤4：数据采集及导出1）采集完成后，会跳出提示，选择“导出数据。

选择“合适的导出方式”，将采集好的评论信息数据导出欢乐书客小说采集步骤92）这里我们选择excel作为导出为格式，数据导出后如下图欢乐书客小说采集步骤10相关采集教程：百度文库采集/tutorial/bdwkxq百度贴吧采集器/tutorial/baidutiebafast百度贴吧帖子信息采集详细教程/tutorial/tiebashendu贴吧邮箱采集/tutorial/tiebayxcj百度新闻采集/tutorial/bdnewscj爱站关键词采集/tutorial/azkeywordcj个人房源采集网站以及方法/tutorial/grfangyuancj自媒体文章怎么采集/tutorial/zmtwzcj爆文采集方法/tutorial/baowencj八爪鱼——90万用户选择的网页数据采集器。

八爪鱼采集器使用要点

八爪鱼采集器使用要点不少用户会在工单或者是扣扣群里咨询八爪鱼采集相关的问题，我们把这些问题做了整理，做成一份使用要点，希望它们能帮助你解决在使用八爪鱼采集器遇到的问题。

1、手动检查工作流设计器中的规则采集过程中出现的错误可以归类为五个方面，分别是网页问题、规则问题、定位模拟问题、采集器问题、以及云端问题，当可以先检查配置的规则是否有效，寻找存在的问题，最好在运行任务之前手动检查工作流程中的规则。

这样可以看到哪些步骤在可视内置浏览器和数据字段中不起作用。

因此，一旦发现错误，可以修改相应地规则。

查看下面的教程可以了解规则排错的具体方法：八爪鱼7.0版本——基本排错教程：/tutorialdetail-1/jbpc_7.html2、设置正确的超时和滚动时间有时会发现，即使配置了正确的规则，并且可以在手动检查规则时获取数据，但是在启动提取时，数据却会遗漏。

这是因为没有设置高级选中的Ajax, 最简单的方法是在规则中选中“打开网页”和“点击元素”的操作下设置AJAX加载。

另外，您可以在工作流设计器的不同操作下设置等待时间，以便确保加载所需的数据。

有时网页会出现这样的情况，除非向下滚动，否则不会显示某些内容，因此需要在“打开网页”这一步骤中设置滚动时间，否则可能会遗漏设置滚动时间而错过某些数据。

选择向下滚动的方式并设置适当的滚动时间。

这对采集到完整的数据也很重要。

但在执行上述步骤之前，您应该记住，所有步骤都应在页面完全加载后进行; 如果不是，即使您更改了规则，该规则仍然无效。

此外，我们不建议同时选择“在新标签页中打开”和“AJAX加载页面”，除非八爪鱼仍然无法打开某些网站。

具体操作可以参照这个教程：/tutorialdetail-1/ajaxdjfy_7.html3、手动修改XPath正确使用XPath是使用八爪鱼采集数据的关键。

列如翻页，缺失数据和不规则值域等步骤大多数时间涉及XPath的更改。

所以强烈建议用户学习一些关于XPath 的知识。

网页图片采集器使用详解

我们有时候需要采集电商网站的商品图片，就需要用到网页图片采集器。

这里详细介绍使用八爪鱼采集器采集网页图片。

采集图片的步骤主要有两大步骤，第一，先将网页中图片的URL采集下来。

第二，通过八爪鱼专用的图片批量下载工具，将采集到的图片URL，下载并保存到本地电脑中。

本文以采集淘宝商品搜索页面的商品图片为例，详细介绍网页图片采集器的使用方法。

采集网址：淘宝商品搜索页面比如T恤（可更换其他关键词对淘宝商品图片进行采集）：https:///search?q=T%E6%81%A4&imgfile=&commend=all &search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taob ao-item.1&ie=utf8&initiative_id=tbindexz_20170306采集数据内容：淘宝商品图片地址使用功能点：●翻页设置●图片链接采集步骤1：创建淘宝商品图片采集任务1）进入八爪鱼采集器主界面，选择自定义模式淘宝商品图片采集步骤12）将上面网址的网址复制粘贴到网站输入框中，点击“保存网址”淘宝商品图片采集步骤23）如下图红色框中的淘宝商品图片即为本次要采集的内容。

淘宝商品图片采集步骤3步骤2：创建翻页循环●找到翻页按钮，设置翻页循环●设置ajax翻页时间●设置滚动页面1）将淘宝商品搜索结果页页面下拉到底部，找到下一页按钮，鼠标点击，在右侧操作提示框中，选择“循环点击下一页”这个选项。

淘宝商品图片采集步骤42）选择右上角的流程按钮，点击流程图中的点击翻页按钮，然后选中ajax加载数据，时间选择2秒。

淘宝商品图片采集步骤5步骤3：淘宝商品图片链接采集●选中采集的淘宝商品图片，创建图片的采集列表●提取淘宝商品图片链接1）点击需要采集的图片，点击“选中全部”淘宝商品图片采集步骤62）当前页面中所有的图片地址将会被选中，点击“采集以下图片地址”淘宝商品图片采集步骤7注意：在提示框中的字段上会出现一个“X”标识，点击即可删除该字段。

企业信息采集器使用方法

企业信息采集器使用方法一般企业都会密切关注行业或者竞争对手的实时动态，而且有的企业还会有企业信息收集分析部门，不定时地为企业的决策者提供准确的数据分析报表。

这时候企业信息的采集就变得尤为重要了，企业信息采集器可选八爪鱼采集器操作简单采集效率高。

本文介绍使用八爪鱼采集天眼查企业信息（以家装公司为例）的方法采集网站：https:///search?key=%E5%AE%B6%E8%A3%85%E5%85%AC%E5%8F%B8&c heckFrom=searchBox步骤1：创建采集任务1）打开八爪鱼软件，选择自定义采集下拉框中的向导模式开始采集2）粘贴地址链接，然后点击“下一步”步骤2：创建翻页设置1）打开网页以后，勾选左边第二栏“网页列表中每个链接页的详细内容”，然后选择“下一步”2）之后在列表中选中公司的链接，配置列表里就会有相应的文字显示然后接着选中第二条，上面的列表框里就会自动显示剩下的链接，接着选择“下一步”3）这时需要设置一下翻页选项，勾选第二个“需要翻页”，并选中页面底部的翻页按钮，以创建翻页设置。

步骤3 :提取所需信息1）之后选择我们需要的内容，如下图红框所示，分别选中需要提取的信息2）然后在页面上方的列表中对选择的字段进行自定义修改，并选择“下一步”步骤4：数据采集及导出1）最后启动本地采集，采集完成之后选择合适的方式导出 2）导出之后数据如下图所示相关采集教程：黄页88企业信息采集：/tutorial/hottutorial/qyxx/huangye88Xpath 入门教程1，以采集黄页88企业信息举例：/tutorial/xpathrm1黄页88企业名录采集方法：/tutorial/hy88cj顺企网企业黄页采集详细步骤：/tutorial/sqwcj-7114黄页企业信息采集详细教程步骤：/tutorial/qyxxcj-7企业信息采集软件：/tutorial/qyxxcj使用八爪鱼采集天眼查企业信息（以家装公司为例）：/tutorial/tycqyxxcj企业信息采集教程，以采集企查查企业名录为例：/tutorial/qichachacj企查查企业邮箱采集：/tutorial/qccqyemailcj。

网页数据傻瓜式采集方法教程

八爪鱼采集器简易模式的使用方法定位：简易模式下存放了国内一些主流网站采集规则，在你需要采集相关网站时可以直接调用，节省了制作规则的时间以及精力。

使用前提：采集网站在简易模式中内置了规则模板才可以采集，如果你要采集的网站不在简易模式中请使用智能模式或自定义模式，自定义模式初学者简易从向导模式开始使用。

推荐使用情况：简单采集简易模式内置模板中规则的网站数据，多为输入关键词查询具体详情页数据。

简易模式采集步骤：步骤1：首先打开八爪鱼采集器→点击网站简易采集模式下的立即使用图标→选取需要采集的数据源→点击自定义任务：八爪鱼采集器简易模式使用方法-图1八爪鱼采集器简易模式使用方法-图2八爪鱼采集器简易模式使用方法-图3八爪鱼采集器简易模式使用方法-图4步骤2：更改任务名→将任务放置在合适的任务组当中→输入需要搜索的关键词→设置采集该网站前多少页内容。

八爪鱼采集器简易模式使用方法-图5建议：1.如果不能确定需要多少页数据，建议打开网站看一看每页数据量做简单计算后设置，如果还是不能确定，建议稍微多设置一点翻页，因为多采集的数据可以在Excel当中进行删减，如果少采集了数据，简易模式下只能从头开始重新采集。

自定义模式下可以从任意位置进行采集，简易模式暂无该项功能。

八爪鱼提供任务组功能，可以将任务分类进行放置，建议修改任务名放置于对应任务组中方便认出数据内容。

步骤3：采集完成→导出任务（选择导出方式，导出位置，免费版用户导出需要积分）八爪鱼采集器简易模式使用方法-图6八爪鱼采集器简易模式使用方法-图7相关采集教程：天猫商品信息采集黄页88数据采集大众点评评价采集八爪鱼——70万用户选择的网页数据采集器。

1、操作简单，任何人都可以用：无需技术背景，会上网就能采集。

完全可视化流程，点击鼠标完成操作，2分钟即可快速入门。

2、功能强大，任何网站都可以采：对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页，均可经过简单设置进行采集。

八爪鱼采集器使用方法图解

八爪鱼采集器使用方法
图解
文档编制序号：[KKIDT-LLE0828-LLETD298-POI08]
八爪鱼采集器使用方法图解：
1、打开八爪鱼采集器的客户端，登陆软件之后新建一个任务，打开你要采集的网站地址。

这里我自己示范的原创设计手稿的采集。

2、进入到设计工作流程环节，在界面浏览器那输入你要采集的网址，点击打开，你就能看到你要采集的网站界面，由于这个网址存在多页内容需要采集，我们再设置采集规则的时候，可以先建立翻页循环，先把鼠标选择页面上的【下一页】按钮，在弹出的任务对话框，选择高级选项中的【循环点击下一页】，软件会自动建立一个翻页循环。

3、建好翻页循环好，就是采集当前页上的内容，我要采集图片的URL，就选中一个图片，然后单击，软件会自动弹出对话框，先建立一个元素循环列表。

当前页面的所有元素都被抓取后，循环列表则建立完成。

4、设置要抓取的内容，选择元素循环列表中的任意一个元素，在浏览器内找到该元素对应的图片，点击后弹出对话框，选择【抓取这个元素的图片地址】为字段1，同时我为了方便识别，还抓取了字段2为图片标题名称，设置原理同图片地址。

5、检查一下，翻页循环框应该将产品循环框嵌套在内，表示，先抓取完当前一整页的图片URL后再翻页。

6、设置执行计划后，就可以开始采集了，单击采集的话，直接点击【完成】步骤下的【检查任务】，开始运行任务。

采集完毕后可以直接下载成EXCEL的文件。

7、将URL转换为图片，这里用八爪鱼图片转换工具，将EXCEL导入之
后，就可以自动等待系统将图片下载下来了！
8、。

八爪鱼采集器高阶教程

八爪鱼采集器高阶教程手动创建翻页循环及下一页死循环解决方法手动创建翻页循环相信很多朋友都碰到过这种情况，明明是一个翻页按钮，但是点击后没有创建翻页人选项，很多人会以为这种网页就不能做翻页了，其实这种类型的网页我们可以通过手动创建出一个翻页循环来解决。

接下来就教大家如何手动创建翻页循环。

首先我们打开一个无法自动创建翻页的网页，如图中所示，当我们点击下一页按钮后，跳出的执行框中并没有循环点击的选项出现；针对这种类型的网页，我们可以通过下面几个简单的步骤进行循环翻页的手动创建：1)选择点击这个元素，添加一个点击步骤到流程中系统添加点击步骤到流程中后，点击自定义，进入自定义定位方式界面2)将图中红色方框中下一页的Xpath复制出来，然后把创建的点击步骤删除，因为我们让系统自动创建点击步骤只是为了得到下一页的Xpath，如果是懂Xpath的朋友可以省掉这个步骤。

自动生成的XPath只能对应当前网页，翻页后的页面格式有可能不能应对，所以需要自己修改。

3)接下来我们创翻页循环，先拖一个循环步骤到流程中，打开高级选项，勾选点击单个元素，将之前复制的下一页人Xpath填到单个元素输入框中，点击保存。

4)拖入一个点击步骤到，打开高级选项，勾选上点击当前循环中设置的元素，点击保存。

翻页循环就建好了，这种类型的翻页问题就可以通过上面介绍的方法解决。

接下来我们再看一下：下一页死循环的问题。

下一页死循环解决方法什么是下一页死循环？有些网站可能在我们用系统做好的规则进行采集的时候，明明已经采集到最后一页了，就是不终止跳出循环，一直在最后一页循环采集，这种情况其实是由于xpath定位不对导致的，这种翻页情况我们称为下一页死循环，它可以通过我们对xpath的修改来解决。

当我们采集出现问题的时候，我们可以通过规则流程来找到问题所在。

下面的规则是直接按照新手入门的步骤做的如上图：浏览器中要采集的数据已经在最后一页了，可以我们在循环列表中依旧能找到下一页的按钮，代表一直都可以点击这个按钮进行采集，循环是结束不了的点开循环列表的高级设置按钮，可以看到下一页的xpath如下图所示：把这个xpath复制到火狐浏览器的Firebug里面进行定位，我们发现在第一页是的确可以定位下一页的，可以看到这个xpath在火狐里面每一页都能定位，再看一下第一页（class="nex t"）和第四页（class="no_next"）里面源码的区别可以看到第一页和第三页下一页的class属性是不一样的，我们只需要前面几页的下一页能正确定位，但是最后一页是不需要的，这样可以直接用class来区别。

网站信息抓取软件如何使用

网站信息抓取软件如何使用我们经常需要在网站上获取一些信息供我们使用，网站数据获取方式主要有以下几种：网站数据手工复制、网站数据自动抓取工具等。

手工复制费时费力，利用好数据抓取工具成为了省时省力的选择，极大提升了我们的效率。

八爪鱼是一款极容易上手、可视化操作、功能强大的网站数据抓取工具。

以下是一个使用八爪鱼采集目标网站数据的完整示例。

示例中采集的是链家网上-租房-深圳分类下的出租房屋信息。

本文仅以链家网这个网站为例，其他直接可见的网站均可通过八爪鱼这个工具采集。

示例网站：步骤1：创建采集任务1）进入主界面选择，选择自定义模式如何实现获取网站数据，以采集链家房源信息为例图12）将上面网址的网址复制粘贴到网站输入框中，点击“保存网址”如何实现获取网站数据，以采集链家房源信息为例图23）保存网址后，页面将在八爪鱼采集器中打开，红色方框中的列表内容，就是演示采集数据如何实现获取网站数据，以采集链家房源信息为例图3步骤2：创建翻页循环找到翻页按钮，设置翻页循环1）将页面下拉到底部，找到下一页按钮，鼠标点击，在右侧操作提示框中，选择“循环点击下一页”如何实现获取网站数据，以采集链家房源信息为例图4步骤3：房源信息采集●选中需要采集的字段信息，创建采集列表●编辑采集字段名称1）如图，移动鼠标选中列表中标题的名称，右键点击，需采集的内容会变成绿色如何实现获取网站数据，以采集链家房源信息为例图5注意：点击右上角的“流程”按钮，即可展现出可视化流程图。

2）移动鼠标选中红色方框里任意文本字段后，列表中所有适配内容会变成绿色，在右侧操作提示框中，查看提取的字段，可以将不需要的字段删除，然后点击“选中全部”如何实现获取网站数据，以采集链家房源信息为例图6 注意：鼠标放在该字段上会出现一个删除标识，点击即可删除该字段。

如何实现获取网站数据，以采集链家房源信息为例图7 3）点击“采集以下数据”如何实现获取网站数据，以采集链家房源信息为例图8 4）修改采集字段名称，点击下方红色方框中的“保存并开始采集”如何实现获取网站数据，以采集链家房源信息为例图95）根据采集的情况选择合适的采集方式，这里选择“启动本地采集”如何实现获取网站数据，以采集链家房源信息为例图10说明：本地采集占用当前电脑资源进行采集，如果存在采集时间要求或当前电脑无法长时间进行采集可以使用云采集功能，云采集在网络中进行采集，无需当前电脑支持，电脑可以关机，可以设置多个云节点分摊任务，10个节点相当于10台电脑分配任务帮你采集，速度降低为原来的十分之一；采集到的数据可以在云上保存三个月，可以随时进行导出操作。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

•或者出现元素填写Xpath路径，配合执行前等待
一起使用 •使用循环
与文本循环配合使用，达到循环输入文本效果 •自定义
设置Xpath路径表达式，根据用户需求自定义流程步骤位置
识别验证码
基本信息：
•识别验证码流程步骤名称
高级选项：
•执行前等待流程步骤执行前等待时间
•或者出现元素填写Xpath路径，配合执行前等待
循环本身不产生任何操作，只负责建立循环，与
循环产生联动的是勾选了使用循环的流程步骤，来达到循环的效果循环/提取数据
与上述类似，循环本身不会产生任何操作，真正与循环产生联动的是勾选了使用循环的提取数据
流程结束图标，此图片代表一个任务执行完成到循环结束
提取数据
运行逻辑
循环Ⅰ
循环Ⅰ第一项循环Ⅰ第二项循环Ⅰ第三项
。
。
。
循环Ⅰ第N项。
。
。
循环Ⅰ结束
循环Ⅱ第一项循环Ⅱ第二项
一起使用 •验证码图片Xpath
填写Xpath路径，告诉八爪鱼验证码图片位置 •验证码输入框Xpath
输入框Xpath，用于配合验证码图片Xpath，正确输入验证码当前验证码
用于流程设计时调试规则用
判断条件
基本信息：
•判断条件判断条件分为此次判断条件整体，
和各具体条件分支条件分支
按不同分支条件执行不同流程步骤
•或者出现元素填写Xpath路径，配合执行前等待一
起使用，在等待时间内元素出现则不再继续等待 •使用当前循环
与循环配合使用 •添加其他特殊字段
网页标题、时间、当前时间、固定字段等特殊字段
自定义数据字段（修改抓取方式，定位方式即XPath，格式化数据删除选中字段将选中字段上移、下移
灵活运用
表、固定元素列表循环一起使用 •开新标签
新标签打开网页页面 •滚动页面
内置浏览器滚动次数与方式 •AJAX加载
页面自动刷新时间，AJAX超时为设置时间定位锚点
设置后页面自动跳置锚点 •激活重试
按条件尝试重新打开网页
循环
基本信息：
•循环列表循环操作的列表元素
高级选项：
•执行前等待流程步骤执行前等待时间
提取数据拥有，用于初步格式化数据，一般用正则表达式处理 •自定义数据合并方式
提取数据拥有，用于选择是否追加字段
流程设计
流程设计基本原理Ⅰ：自上而下瀑布流设计
打开网页循环翻页
流程开始图标，从此图标开始执行工作流程打开网页
按瀑布流原理，执行到此处，此时八爪鱼内核浏览器会执行打开设置的页面Url 翻页循环/点击翻页
一般来说，一个常用列表信息的网站，只需要打开网页、循环翻页、点击翻页、列表循环、提取数据等流程步骤即可完成采集。但碰到以下场景时，我们需要一些其他流程步骤来辅助采集，因为灵活运用各流程步骤，对我们采集十分重要： •输入文本
打开网页，需要输入文本检索方能显示数据信息 •验证码识别
打开网页或提取数据等操作需要输入验证码，方可进行下一步流程操作 •判断条件
八爪鱼采集器
销售客服部
目录
一、流程步骤：基本信息与高级选项二、灵活运用：衔接与自定义流程步骤三、流程设计：原理及其运行逻辑四、常见问题：流程设计常见问题五、扩展延伸：Html、Xpath、正则
流程步骤
默认步骤自定义
操作名基本信息
高级选项
操作名：
流程步骤名称，可自定义操作名
基本信息：
流程步骤基本信息，例如：打开网页URL地址；点击元素标签名、文本；循环列表元素
一起使用 •使用循环
配合单个元素循环、不固定元素列表、固定元素列表循环一起使用 •AJAX加载
页面自动刷新时间，AJAX超时为其设置时间
自定义流程步骤
自定义抓取方式提取数据拥有，用于确定是抓取元
素文本、HTML还是元素属性等 •自定义定位元素方式（XPath路径）
提取数据、点击元素、输入文字、切换下拉选项、循环、移动鼠标到元素上拥有，用来精确流程步骤的元素路径，以便精准的执行流程步骤 •格式化数据
打开网页或提取数据等操作需要使用判断条件筛选下方可决定是否采集 •移动鼠标到元素上
提取数据需要移动鼠标到元素上，数据方展现出来 •切换下拉选项
循环需要切换下拉选项，才可以进行循环
输入文本
基本信息：
•输入框输入框信息
要输入的文本需要在输入框输入的文本信息
高级选项：
•执行前等待流程步骤执行前等待时间
•页面Url 打开网页的网址
高级选项：
•阻止弹窗阻止弹出窗口
•使用循环配合URL循环一起使用
•滚动页面内置浏览器滚动次数与方式
•缓存设置 1.清除缓存 2.Cookie
•激活重试按条件尝试重新打开网页
点击元素
基本信息：
•要点击元素点击元素基本信息
高级ห้องสมุดไป่ตู้项：
•使用循环配合单个元素循环、不固定元素列
•或者出现元素填写Xpath路径，配合执行前等待
一起使用 •使用循环
配合单个元素循环、不固定元素列表、固定元素列表循环一起使用 •AJAX加载
页面自动刷新时间，AJAX超时为其设置时间
切换下拉选项
基本信息：
•下拉框下拉框的基本信息
高级选项：
•执行前等待流程步骤执行前等待时间
•或者出现元素填写Xpath路径，配合执行前等待
高级选项：
•执行前等待流程步骤执行前等待时间
•或者出现元素填写Xpath路径，配合执行前等待
一起使用 •不判断，总是执行该分支
判断条件是从左到右执行 •当前包含文本
填写连续的文本字符串当前页面包含元素
填写Xpath路径
移动鼠标到元素上
基本信息：
•元素要移动鼠标到元素的基本信息
高级选项：
•执行前等待流程步骤执行前等待时间
•或者出现元素填写Xpath路径，配合执行前等待
一起使用 •元素在Iframe里
填写Iframe的Xpath，解决框架网页问题 •循环方式
五种循环方式，解决各种循环场景 •满足以下条件时退出循环
限制循环次数
提取数据
基本信息：
•字段所提取的数据信息
高级选项：
•执行前等待流程步骤执行前等待时间
高级选项：
常用流程步骤都拥有高级选项，高级选项内有基本功能外，其他一些用于特定应用场景的功能
自定义：
按用户需求去设置流程步骤路径位置和操作方式，例如：修改提取数据字段的Xpath路径
默认操作：
八爪鱼默认生成操作，即便不设置，在特定流程步骤中，也会隐式生效，例如：流程开始、结束流程
打开网页
基本信息：