八爪鱼如何通过xpath实现自定义定位元素
淘宝店铺采集软件使用方法
淘宝店铺采集软件使用方法淘宝上有很多店铺数据,比如销量,主营产品,宝贝数量,店铺评分等等,合理的利用好这些数据,有助于找到自己的竞争对手,了解自身与竞争对手的差别,那么应该如何去采集这些店铺数据呢。
在这里为大家推荐一款采集软件八爪鱼,只需简单配置规则,就能实现自定义采集任何网站数据,包括淘宝店铺的各种数据,下面介绍八爪鱼采集软件采集淘宝店铺的使用方法。
采集网站:https:///search?app=shopsearch&q=%E6%B1%9F%E5%B0%8F%E7%99% BD&imgfile=&commend=all&ssid=s5-e&search_type=shop&sourceId=tb.index&spm=a21bo.2017 .201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306步骤1:创建淘宝店铺信息采集任务1)进入主界面,选择“自定义采集”淘宝店铺信息采集步骤12)将要采集的网址URL复制粘贴到网站输入框中,点击“保存网址”淘宝店铺信息采集步骤2步骤2:创建翻页循环1)打开网页之后,找到页面最下方的“下一页”创建翻页循环,如下图淘宝店铺信息采集步骤3点击下一页,在操作提示中选择循环点击下一页,以此生成循环翻页。
注意:有时点击下一页并不会出现循环点击下一页,但若此时出现循环点击单个链接,则可以选则循环点击单个链接(或元素),其功能和循环点击下一页相同。
淘宝店铺信息采集步骤4步骤3:创建循环列表1)将鼠标移动到页面上方(蓝色表示点击后会选中的元素),选择页面某一行数据(包含的字段进可能全),如图蓝色部分,然后点击。
淘宝店铺信息采集步骤52)点击后继续选择下一行同类型的数据,如图:淘宝店铺信息采集步骤6再次点击,操作提示中出现已选中XX个元素,以下是列表。
八爪鱼采集器使用进阶教程共24页文档
一起使用 •使用循环
与文本循环配合使用,达到循环输 入文本效果 •自定义
设置Xpath路径表达式,根据用户 需求自定义流程步骤位置
识别验证码
基本信息:
•识别验证码 流程步骤名称
高级选项:
•执行前等待 流程步骤执行前等待时间
•或者出现元素 填写Xpath路径,配合执行前等待
循环本身不产生任何操作,只负责建立循环,与
循环产生联动的是勾选了使用循环的流程步骤,来达到 循环的效果 循环/提取数据
与上述类似,循环本身不会产生任何操作,真正 与循环产生联动的是勾选了使用循环的提取数据
流程结束图标,此图片代表一个任务执行完成到 循环 结束
提取数据
运行逻辑
循环Ⅰ
循环Ⅰ第一项 循环Ⅰ第二项 循环Ⅰ第三项
。
。
。
循环Ⅰ第N项 。
。
。
循环Ⅰ结束
循环Ⅱ第一项 循环Ⅱ第二项
一起使用 •验证码图片Xpath
填写Xpath路径,告诉八爪鱼验证 码图片位置 •验证码输入框Xpath
输入框Xpath,用于配合验证码图 片Xpath,正确输入验证码 当前验证码
用于流程设计时调试规则用
判断条件
基本信息:
•判断条件 判断条件分为此次判断条件整体,
和各具体条件分支 条件分支
按不同分支条件执行不同流程步骤
•或者出现元素 填写Xpath路径,配合执行前等待一
起使用,在等待时间内元素出现则不再继 续等待 •使用当前循环
与循环配合使用 •添加其他特殊字段
网页标题、时间、当前时间、固定 字段等特殊字段
自定义数据字段(修改抓取方式, 定位方式即XPath,格式化数据 删除选中字段 将选中字段上移、下移
八爪鱼xpath入门教程以及定位元素实例
xpath入门教程以及定位元素实例本文用来讲解xpath的入门基础,本教材是xpath入门2,建议大家从入门1教程开始学习Xpath的教程适合对八爪鱼已经有一些基础的用户来学习。
示例地址/tutorial?type=0&page=0&tag=%E8%BF%9B%E9%98%B6&version=otherXpath:是一种路径查询语言,简单的说就是利用一个路径表达式找到我们需要的数据位置。
Html:超文本标记语言,是用来描述网页的一种语言。
主要用于控制数据的显示和外观。
HTML文档也被称为网页。
Xpath专用于xml中沿着路径查找数据用的,但是八爪鱼采集器内部有一套针对Html的Xpath引擎,使得直接用Xpath就能精准的查找定位网页里面的数据。
xpath入门2-图1例如下图通过火狐的firebug、firepath查看网页源码。
查看方法参考“xpath入门1”教程xpath入门2-图2完整的HTML文件至少包括<HTML>标签、<HEAD>标签、<TITLE>标签和<BODY>标签,并且这些标签都是成对出现的,开头标签为<>,结束标签为</>,在这两个标签之间添加内容。
通过这些标签中的相关属性可以设置页面的背景色、背景图像等。
Html标签作为开始和结束的标记由尖括号包围的关键词,比如 <html>标签对中,第一个标签是开始标签,第二个标签是结束标签元素HTML的网页内容是由元素组成的,从开始标签到结束标签的所有代码。
元素的开始和结束都使用标签作为开始和结束的标记节点所有事物都是节点整个文档是一个文档节点每个 HTML 元素是元素节点HTML元素内的文本是文本节点每个 HTML 属性是属性节点注释是注释节点Html常见标签<a></a> 定义超链接,用于从一张页面链接到另一张页面<h1></h1> 文本标题标签,最大的标签。
【八爪鱼采集教程】提取数据如何使用备用位置
【八爪鱼采集教程】提取数据如何使用备用位置八爪鱼提取字段时,默认每个字段都是在页面里固定的位置,但是某些特殊情况,当某字段在不同的页面是不同的位置时,也可以用八爪鱼的备选位置功能。
当需要提取的字段在网页两个不同位置,即一个Xpath无法定位到该字段时,我们便需要使用备选功能。
下面为你演示如何设置备选位置:示例网站:https:///12079776060.htmlhttps://item.jd.hk/1958056917.html步骤一:自定义采集任务→输入网址提取数据使用备用位置-图1提取数据使用备用位置-图2步骤二:提取元素字段(商品名、店铺名)提取数据使用备用位置-图3步骤三:保存并启动 直接单机运行可以看到第二个网页店铺名空白,提取不到提取数据使用备用位置-图4这时我们回到流程界面,手动运行一下规则。
提取数据使用备用位置-图5提取数据使用备用位置-图6发现第一个网页的字段2可以提取到,第二个网页则为空白,提取不到。
说明两个网页店铺名的字段Xpath不一样,我们用第一个网页的Xpath提取不到第二个网页的信息。
这时我们需要用到备用位置。
步骤四:选中店铺名字段→点击自定义字段→自定义定位元素方式→设置备用位置提取数据使用备用位置-图7 提取数据使用备用位置-图8提取数据使用备用位置-图9提取数据使用备用位置-图10说明:点击需要设置备用位置的元素,选择将这个元素设为备选即可。
也可以自己通过Xpath 进行修改。
提取数据使用备用位置-图11提取数据使用备用位置-图12单机运行一次,发现可以采集到,设置备用位置成功。
提取数据使用备用位置-图13相关采集教程:淘宝评论采集新浪微博数据采集搜狗微信文章采集八爪鱼——70万用户选择的网页数据采集器。
1、操作简单,任何人都可以用:无需技术背景,会上网就能采集。
完全可视化流程,点击鼠标完成操作,2分钟即可快速入门。
2、功能强大,任何网站都可以采:对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页,均可经过简单设置进行采集。
【八爪鱼采集攻略】提取数据如何设置自定义抓取方式
【八爪鱼采集攻略】提取数据如何设置自定义抓取方式自定义抓取方式包含“从页面中提取数据”’、“从浏览器提取数据”、“生成数据”三部分。
八爪鱼提取数据-自定义抓取方式图11、从页面中提取数据(1)抓取元素的指定属性值:首先要先选中InnerHtml和OuterHtml查看要提取的属性值是否存在,再选中抓取元素的指定属性值。
例如源码:<a id="hot-comments-tab" class="on" href="comments">热门</a> 中,id、class、href就是A标签的属性,在下拉选项中选取要提取的属性名称,即可提取到该属性的属性值,演示如下:八爪鱼提取数据-自定义抓取方式图2八爪鱼提取数据-自定义抓取方式图3(2)抓取文本:提取网页中展示的内容,可见的文字信息。
(3)抓取地址:一般用于抓取图片地址或Iframe地址,首先字段的Xpath定位到的是IMG标签或者Iframe标签,提取其中的src属性值。
(4)抓取选中项的文本:配合循环下拉框试用,提取当前选中项的文本(5)抓取这个元素的OuterHtml,InnerHtml:提取网页源码(6)抓取值:一般用于抓取输入框的文字,首先字段的Xpath定位到的是input 标签,提取其中的value值,演示如下:八爪鱼提取数据-自定义抓取方式图4八爪鱼提取数据-自定义抓取方式图5(7)抓取超链接:首先字段的Xpath定位到的是A标签,从A标签中提取href的属性值。
演示如下:八爪鱼提取数据-自定义抓取方式图6八爪鱼提取数据-自定义抓取方式 图7 2、从浏览器提取数据八爪鱼提取数据-自定义抓取方式图8(1)页面网址:同添加其他特殊字段中的抓取当前页面的网址效果(2)页面标题:同添加其他特殊字段中的抓取当前页面的标题效果(3)从页面源码里抓取:可直接用正则表达式提取网页源码里匹配到的数据3、生成数据八爪鱼提取数据-自定义抓取方式图9(1)生成固定的值:同添加其他特殊字段中的生成固定值效果,常用于发布到网站时设置发布的用户名,发布到的版块等固定字段(2)使用当前时间:同添加其他特殊字段中的使用当前时间效果,用于记录采集时间,此设置有可能会导致八爪鱼采集器去重功能检测失效相关采集教程:美团商家信息采集1688热门商品采集搜狗微信文章采集八爪鱼——70万用户选择的网页数据采集器。
如何利用八爪鱼爬虫抓取数据
如何利用八爪鱼爬虫抓取数据听说很多做运营的同学都用八爪鱼采集器去抓取网络数据,最新视频,最热新闻等,但还是有人不了解八爪鱼爬虫工具是如何使用的。
所以本教程以百度视频为例,为大家演示如何采集到页面上的视频,方便工作使用。
常见场景:1、遇到需要采集视频时,可以采集视频的地址(URL),再使用网页视频下载器下载视频。
2、当视频链接在标签中,可切换标签进行采集。
3、当视频链接在标签中,也可采集源码后进行格式化数据。
操作示例:采集要求:采集百度视频上综艺往期视频示例网址:/show/list/area-内地+order-hot+pn-1+channel-tvshow操作步骤:1、新建自定义采集,输入网址后点击保存。
注:点击打开右上角流程按钮。
2、创建循环翻页,找到采集页面中下一页按钮,点击,执行“循环点击下一页”。
在流程中的点击翻页勾选Ajax加载数据,时间设置2-3秒。
3、创建循环点击列表。
点击第一张图片,选择“选中全部”(由于标签可能不同,会导致无法选中全部,可以继续点击没被选中的图片)继续选择循环点击每个元素4、进入详情页后,点击视频标题(从火狐中可以看到视频链接在A标签中,如图所示),所以需要手动更换到相应的A标签。
手动更换为A标签:更换为A标签后,选择“选中全部”,将所有视频标题选中,此时就可以采集视频链接地址。
5、所有操作设置完毕后,点击保存。
然后进行本地采集,查看采集结果。
6、采集完成后将URL导出,使用视频URL批量下载工具将视频下载出来就完成了。
相关采集教程:公告信息抓取/tutorial/hottutorial/qita/gonggao网站源码抓取/tutorial/hottutorial/qita/qitaleixing网页抓取工具新手入门/tutorial/xsksrm八爪鱼网站抓取入门功能介绍/tutorial/xsksrm/rmgnjsajax网页数据抓取/tutorial/gnd/ajaxlabel模拟登录并识别验证码抓取数据/tutorial/gnd/dlyzmxpath抓取网页文字/tutorial/gnd/xpath八爪鱼抓取AJAX滚动页面爬虫教程/tutorial/ajgd_7网页采集提取数据教程,以自定义抓取方式为例/tutorial/zdytq_7八爪鱼——90万用户选择的网页数据采集器。
八爪鱼提取网页数据的方法
视频教程PPT
提取数据
一、添加特殊字段、上移下移、抓取模板导入导出
二、找不到时如何处理
三、自定义抓取方式 四、自定义定位元素方式 五、备用位置 六、格式化数据
七、自定义合并方式
一、 添加特殊字段、上移下移、抓取模板导入导出
1、添加特殊字段 当前时间 固定字段 空字段 当前页面信息 2、字段上移下移 3、抓取模板导入导出 示例网址: /fang1/
五、备用位置
八爪鱼提取字段时,默认每个字段都是在页面里固定的位置。 但是某些特殊情况,当某字段在不同的页面,是处于不同的位置时,可以用八爪鱼 的备选位置功能。 示例网址: https:///item.htm?spm=a1z10.1-c-s.w1201073114573359259.1.1c3577c8vTygcq&id=566814688341(淘宝商品详情页) https:///item.htm?spm=a230r.1.14.27.2e932897hyfHKC&id= 565712872904&ns=1&abbucket=4(天猫商品详情页)
二、找不到时如何处理
找不到数据时的三种处理办法 使用默认值 在找不到数据时默认填写一个字段,以补充没有采集到的内容 该字段留空 可以在结果中明显的看到哪里有数据没采集到 该步骤所有字段留空 一个字段找不到数据时,便忽略该信息所有字段,相当于跳过该条信息的采集 示例网址:https:///subject/25862578/ https:///subject/1858513/
六、格式化数据
利用格式化数据对需要的字段进行修改 替换 正则表达式替换 去除空格 添加前缀 添加后缀 日期时间格式化 Html转码 示例网址: https:///subject/25862578/
微信文章爬虫实现方法
微信文章爬虫实现方法如今越来越多的优质内容发布在微信公众号中,对这些内容,有些朋友会有采集下来的需求,下面为大家介绍使用八爪鱼爬虫工具去抓取采集微信文章信息。
本文将以搜狗微信文章为例,介绍使用八爪鱼采集网页文章正文的方法。
文章正文里一般包括文本和图片两种。
本文将采集文章正文中的文本+图片URL。
将采集以下字段:文章标题、时间、来源和正文(正文中的所有文本,将合并到一个excel单元格中,将使用到“自定义数据合并方式”功能,请大家注意)。
同时,采集文章正文中的文本+图片URL,将用到“判断条件”,“判断条件”的使用,有很多需要注意的地方。
以下两个教程,大家可先熟悉一下。
“自定义数据合并方式”详解教程:“判断条件”详解教程:采集网站:/步骤1:创建采集任务1)进入主界面,选择“自定义模式”微信文章爬虫实现方法步骤12)将要采集的网址URL复制粘贴到网站输入框中,点击“保存网址”微信文章爬虫实现方法步骤2步骤2:创建翻页循环1)在页面右上角,打开“流程”,以展现出“流程设计器”和“定制当前操作”两个板块。
网页打开后,默认显示“热门”文章。
下拉页面,找到并点击“加载更多内容”按钮,在操作提示框中,选择“更多操作”微信文章爬虫实现方法步骤32)选择“循环点击单个元素”,以创建一个翻页循环微信文章爬虫实现方法步骤4由于此网页涉及Ajax技术,我们需要进行一些高级选项的设置。
选中“点击元素”步骤,打开“高级选项”,勾选“Ajax加载数据”,设置时间为“2秒”微信文章爬虫实现方法步骤5注:AJAX即延时加载、异步更新的一种脚本技术,通过在后台与服务器进行少量数据交换,可以在不重新加载整个网页的情况下,对网页的某部分进行更新。
表现特征:a、点击网页中某个选项时,大部分网站的网址不会改变;b、网页不是完全加载,只是局部进行了数据加载,有所变化。
验证方式:点击操作后,在浏览器中,网址输入栏不会出现加载中的状态或者转圈状态。
拼多多采集软件使用方法
拼多多采集软件使用方法2018年你绝对被拼多多刷过屏,犹如自媒体的爆文一般一夜之间就火了,出现在微信群、朋友圈、各大新闻头条,成为了全民APP。
拼多多的商业模式很简单就是通过团购低价购买某件商品。
月流水能达到400亿的规模也是惊人的,那么里面稍纵即逝的拼团信息如何快速获取呢,学习拼多多采集软件的使用方法能让你总是快人一步。
本文介绍使用八爪鱼采集拼多多商品(限时秒杀)的方法。
本文仅以限时秒杀这个栏目做举例说明,大家在采集的时候也可以采集其他栏目。
采集内容包括:商品标题、商品图片、商品价格,商品原价、商品销量使用功能点:●提取数据●修改Xpath步骤1:创建拼多多商品采集任务1)进入主界面,选择“自定义采集”2)将要采集的网站URL复制粘贴到输入框中,点击“保存网址”步骤2:提取拼多多数据字段1)鼠标选中要采集的数据,比如我选的是商品标题、商品图片、商品价格,商品原价、商品销量,商品在右面的提示框中选择“选中全部”拼多多商品采集-提取数据字段2)随后点击“采集数据”,接下来点击“保存并开始采集”3)打开右上角流程按钮,观察发现图片地址是默认扫码的按钮,并不是我们想要的。
3)选中拼多多商品图片这个字段,依次点击自定义数据字段->自定义定位元素方式,按下图进行“自定义定位元素设置图”设置。
元素匹配的xpath://body/section[1]/div[4]/div[1]/ul[1]/li[1]/div[1]/DIV[1]/IMG[1]相对xpath:/DIV[1]/IMG[1]修改好后点击确定自定义数据字段自定义定位元素设置图步骤5:拼多多商品数据采集及导出 1)修改采集字段名称,点击“保存并开始采集”启动本地采集采集完成后,会跳出提示,选择“导出数据”选择“合适的导出方式”,将采集好的数据导出,这里我们选择excel作为导出为格式,一份完好的拼多多商品数据就导出好了,数据导出后如下图本文来自于:/tutorialdetail-1/pddspcj.html相关采集教程:拼多多商品数据抓取:/tutorial/pddspcj网页数据爬取教程:/tutorial/hottutorial电商爬虫:/tutorial/hottutorial/dianshang淘宝数据采集:/tutorial/hottutorial/dianshang/taobao京东爬虫:/tutorial/hottutorial/dianshang/jd天猫爬虫:/tutorial/hottutorial/dianshang/tmall阿里巴巴数据采集:/tutorial/hottutorial/dianshang/alibaba亚马逊爬虫:/tutorial/hottutorial/dianshang/amazon电商爬虫教程:/tutorial/hottutorial/dianshang/dsqita八爪鱼——90万用户选择的网页数据采集器。
八爪鱼采集器如何循环采集数据
四、固定元素列表循环
适用情况:网页上要采集的元素是固定数目的。1) 每一页的元素数目固定;2)采集特定数目的元素。 实现方式:通过固定因素列表循环,循环页面内 的固定元素。 定位方式:使用xpath定位,一条xpath对应循环 列表中的一个元素。 示例网址:/
三、单个元素循环
适用情况:需循环点击页面内的某个按钮。例如: 循环点击下一页按钮进行翻页。
实现方式:通过单个元素循环方式,达到循环点 击下一页按钮进行翻页目的。
定位方式:使用xpath定位,在当前页始终能定 位到下一页按钮。
示例网址: /guide/demo/genrem oviespage1.html
应用:循环下翻下拉框
适用情况:网页中存在可以下拉并选择元素的 下拉框,需要先循环选择下拉框中的元素,再 进行数据采集。 循环选择下拉框中所有元素或循环选择下拉框 中某些特定元素。 示例网址:/
The End
谢谢大家
二、文本循环
适用情况:在搜索框中循环输入关键词,采集关键 词搜索结果的信息。 示例网址:https:/// 注意事项:有的网页,点击搜索按钮后,页面会发 生变化,能正常采集到第一个关键词的数据,则打 开网页步骤需放在文本循环内 示例网址:https:///
五、不固定元素列表循环
适用情况:网页上要采集的元素不是固定数目。 每个页面上元素数目不固定:一页存在同类元 素7个,另一页存在同类元素10个......
实现方式:通过不固定因素列表循环,循环页 面内的不固定数目的元素。
定位方式:使用xpath定位,一条xpath对应 循环列表中的多个元素。
示例网址: /?utm_source=link&spm =u-LscBIm_2J9tMeMj.psy_111
开奖数据如何采集
开奖数据如何采集如今网络发达彩票数据可以做到即停即开同步发布,对于职业玩家需要及时得到一手数据进行统计分析,希望通过这些数据找到一些线索再利用概率论相关知识提高中奖率,掌握科学的采集工具把数据采集下来是必不可少的。
本文介绍使用八爪鱼采集彩票开奖数据采集的方法。
采集网站:/award/采集的内容包括:彩种,期次,开奖时间,开奖号码,头奖奖金,投注提示。
使用功能点:●∙Ajax点击●∙修改Xpath步骤1:创建网易彩票开奖采集任务1)进入主界面,选择“自定义采集”2)将要采集的网站URL复制粘贴到输入框中,点击“保存网址”步骤2:设置循环1)打开流程设计,从左侧拖入一个“循环”到流程中,并设置“循环方式”为不固定元素列表,“不固定元素列表”填入//table/tbody/tr。
这里用到了XPATH,如果对XPATH不是很了解的话,可以阅读教程:xpath入门教程1xpath入门教程22)同理从左侧拖入一个“提取数据”到循环流程中,接下来就是设置各个字段数据的提取。
步骤3:提取字段数据本文提取的数据有彩种,期次,开奖时间,开奖号码,头奖奖金,投注提示。
因为提取步骤都是一样的,只是设置的参数不一样,所以下面以提取“彩种”数据举例说明具体操作步骤:1)点击“添加特殊字段”,选择“添加空字段”2)点击“自定义数据字段”,随后选择“自定义定位元素”//h2[@class="title"]/strong[text()="数字彩票"]/../following-sibling::table[1]/td[1]/a“相对XPATH”:/td[1]/a随后点击确认按钮。
4)点击“自定义数据字段”,随后选择“自定义抓取方式” 5)选择“抓取文本”按钮,随后点击确定按钮。
6)可以看到“彩种”这个字段已经设置好了。
期次,开奖时间,开奖号码,头奖奖金,投注提示的数据步骤也是如此,只是参数设置不一样,下面介绍具体参数设置。
八爪鱼采集器流程步骤高级选项说明
八爪鱼采集器流程步骤高级选项说明1、打开网页该步骤根据设定的网址打开网页,一般为网页采集流程的第一个步骤,用来打开指定的网站或者网页。
如果有多个类似的网址需要分别打开执行同样的采集流程,则应该放置在循环的内部,并作为第一个子步骤1)页面URL页面URL,一般可以从网页浏览器地址栏中复制得到,如:/ 2)操作名自定义操作名3)超时在网页加载完成前等待的最大时间。
如果网页打开缓慢,或者长时间无法打开,则流程最多等待超时指定的时间,之后无论网页是否加载完成,都直接执行下一步骤。
应尽量避免设置过长的超时时间,因为这会影响采集速度4)阻止弹出用以屏蔽网页弹窗广告,如果打开的网页偶尔会变成另外一个广告页面,则可以使用本选项阻止广告页面弹出5)使用循环配合循环步骤来使用,用以重复打开多个类似的网页,然后执行同样的一套流程,循环打开网页时,应为作为循环步骤的第一个子步骤。
如果勾选此项,则无需手动设置网页地址,网页地址会自动显示循环设定的网址列表的当前循环项6)滚动页面个别网页在打开网页后并没有显示所有数据,需要滚动鼠标滚轮或者拖动页面滚动条到底部,才会加载没有显示的数据,使用此选项在页面加载完成后向下滚动,滚动方式有向下滚动一屏和直接滚动到底部两种7)清理缓存在八爪鱼中,如果需要切换账号,可使用清理浏览器缓存,重新设置其他账号8)自定义cookiecookie指某些网站为了辨别用户身份、进行session 跟踪而储存在用户本地终端上的数据(通常经过加密)。
在八爪鱼中,可以通过做一次预登录获取页面cookie,通过勾选打开网页时使用指定cookie获取登陆后的cookie,从而记住登录状态。
获取的当前页面cookie,可以通过点击查看cookie9)重试如果网页没有按照成功打开预期页面,例如显示服务器错误(500),访问频率太快等,或者跳转到其他正常执行不应该出现的页面,可以使用本选项进行重试,但必须配合以下几个重试参数执行,请注意以下几种判断的情况任意一种出现都会导致重试①当前网页的网址/文本/xpath,包含/不包含如果当前页面网址/文本/xpath总是出现/不出现某个特殊内容,则使用此选项可以判断有没有打开预期页面,需要重试②最大重试次数为了避免无限制重复尝试,请使用本选项限制最大重复尝试的次数,如果重试到达最大允许的次数,任然没有成功,则流程将停止重试,继续执行下一步骤③时间间隔在两次重试之间等待的时间,一般情况下,当打开网页出错时,立即重试很有可能是同样的错误,适当等待则可能成功打开预期网页,但应该尽量避免设置过长的等待时间,因为这会影响采集速度2、点击元素该步骤对网页上指定的元素执行鼠标左键单击动作,比如点击按钮,点击超链接等1)操作名自定义操作名2)执行前等待对此步骤设置执行前等待,即等待设置的时间后,再进行此步骤3)或者出现元素或者出现元素,配合执行前等待使用,在其中输入元素的xpath可以在出现该元素的时候结束执行前的等待。
xpath元素定位写法
xpath元素定位写法XPath元素定位是一种通过路径表达式来定位XML或HTML文档中的元素的技术。
以下是一些XPath元素定位的常见写法:1. 通过元素名称定位:`//elementName`,例如:`//div`,表示查找所有名称为div的元素。
2. 通过元素属性定位:`//elementName[@attributeName='attributeValue']`,例如:`//input[@id='username']`,表示查找所有属性id值为username的input元素。
3. 通过元素文本内容定位:`//elementName[text()='textValue']`,例如:`//a[text()='登录']`,表示查找所有文本内容为“登录”的a元素。
4. 通过元素位置定位:`(//elementName)[position]`,例如:`(//input)[1]`,表示查找第一个input元素。
5. 通过父元素定位子元素:`//parentElement/childElement`,例如:`//div/input`,表示查找div元素下的所有input子元素。
6. 通过元素路径定位:`/parentElement/childElement`,例如:`/html/body/div`,表示查找根元素html下的body下的div元素。
7. 通过元素相对位置定位:`//elementName1/following-sibling::elementName2`,例如:`//input/following-sibling::button`,表示查找input元素后面的所有兄弟元素中的button元素。
8. 通过元素属性包含某些文字定位:`//elementName[contains(@attributeName,'textValue')]`,例如:`//a[contains(@href,'login')]`,表示查找所有href属性值包含“login”的a元素。
xpath self用法
xpath self用法XPath 是一种用于在XML 文档中定位元素和节点的查询语言。
在XPath 中,可以使用`self` 关键字来引用当前节点。
本文将详细介绍`self` 的用法,并以一步一步的方式解释如何在XPath 中使用`self`。
第一步:了解`self` 的含义和作用`self` 关键字代表当前节点本身。
在XPath 查询中,通常可以使用`self` 来引用当前上下文中的节点,以便在查询中对当前节点进行进一步操作或检查。
使用`self` 关键字可以提高查询语句的灵活性和可读性。
第二步:在XPath 中使用`self`在XPath 表达式中,可以使用`self::` 关键字来引用当前节点。
例如,使用`self::element` 表达式可以选取当前节点中的元素节点。
以下是一些使用`self` 的示例:1. 选取当前节点:`self::node()`这个XPath 表达式选取当前节点本身,不论当前节点的类型是什么。
2. 选取当前元素节点:`self::element`这个XPath 表达式选取当前节点中的元素节点。
3. 选取当前属性节点:`self::attribute`这个XPath 表达式选取当前节点中的属性节点。
4. 选取当前文本节点:`self::text()`这个XPath 表达式选取当前节点中的文本节点。
第三步:结合其他XPath 轴使用`self`除了单独使用`self` 关键字之外,还可以将其与其他XPath 轴结合使用。
例如:1. 使用`self::` 和`ancestor::` 轴结合:可以使用`self::element/ancestor::element` 的方式选择当前节点及其所有祖先节点中的某个元素节点。
2. 使用`self::` 和`following-sibling::` 轴结合:可以使用`self::element/following-sibling::element` 的方式选择当前节点及其后续同级节点中的某个元素节点。
元素定位-XPATH定位方法总结
元素定位-XPATH定位⽅法总结1、Xpath定位⽅法探讨xpath是⽐较常⽤的⼀种定位元素的⽅式,因为它很⽅便,缺点是,消耗系统性能。
如果Xpath使⽤的⽐较好,⼏乎可以定位到任何页⾯元素,⽽且受页⾯变化影响较⼩。
1.1、什么是XPATH: XPath (XML Path Language) 是⼀门在 HTML⽂档中查找信息的语⾔,可⽤来在 HTML⽂档中对元素和属性进⾏遍历。
详细使⽤⽅法可见 W3School官⽅⽂档:1.2、XPATH节点选择⽅式1)Chrome插件⼯具:Xpath helper可以验证定位元素的位置准确性、可以查看某个元素的xpath路径,但路径通常较长不建议此⽅式2)Chrome浏览器:⿏标右键copy->Copy Xpath直接复制某个元素xpath路径(常⽤⽅式)3)⼿动编写xpath路径:⽅式⼆不能满⾜所有情况,需要⼿动微调路径借助⽅式⼀来验证1.3、XPATH节点定位⽅法与特点使⽤绝对路径定位元素 例如:driver.findElement(By.xpath("/html/body/div/form/input"))。
特点:这个路径是从⽹页起始标签开始⼀直到要定位的元素的路径,如果要定位的元素在页⾯最下⾯,则这个Xpath路径会⾮常长。
如果在要定位的元素与页⾯开始之间的元素有任何增减,元素定位就会失败。
使⽤相对路径定位元素 例如:driver. findElement(By.xpath ("//input") ) 返回查找到的第⼀个符合条件的元素。
特点:相对路径⼀般只会包含与被定位元素最近的⼏层元素有关,相对路径写的好的话,页⾯变动影响最⼩,⽽且定位准确。
使⽤索引定位元素,索引的初始值为1,注意与数组等区分开。
例如:driver. findElement(By.xpath ("//input[2]") )返回查找到的第⼆个符合条件的元素。
八爪鱼采集器使用进阶教程
新标签页问题
我们在采集分页列表,一般是以下两个逻辑: 1.标签页A保存列表元素 2.标签页B打开详情页页面 如果我们在点击元素高级选项处,不勾选新开标 签页,那么我们实际上就会在标签页A点击到详情页, 此时由于标签页A的变化,列表中保存的元素就已经不 存在,所以导致我们只能提取一条详情页数据 原理: 八爪鱼在建立流程设计时,实际上都是基于某个 标签页进行建立的,如果你所建立的流程设计是基于B 页面,但实际上当你点击该流程设计时,内核浏览器 出现在A页面,此时你就应该删除流程设计重新制作或 者通过拖拽,完成自动修复:
翻页问题
死循环翻页 死循环翻页,一般都是由点击翻页的自定义定位 元素方式中的XPath路径不精准导致的,此时我们需 要根据网页特点,来修改Xpath,教程。 •提取为空 如果网页能正常打开,提取为空一般有下列两种 情况: 1)IFRAME IFRAME问题教程 2)Xpath不精准 Xpath不精准,导致部分数据提取不到,这时我 们需要观察网页结构进行修改Xpath Xpath基础教程 观看完后,尝试自己解决,如果未能解决,可以 到Xpath板块进行发帖咨询
循环
基本信息:
•循环列表 循环操作的列表元素
高级选项:
•执行前等待 流程步骤执行前等待时间 •或者出现元素 填写Xpath路径,配合执行前等待 一起使用 •元素在Iframe里 填写Iframe的Xpath,解决框架网页 问题 •循环方式 五种循环方式,解决各种循环场景 •满足以下条件时退出循环 限制循环次数
输入文本
基本信息:
•输入框 输入框信息 要输入的文本 需要在输入框输入的文本信息
高级选项:
•执行前等待 流程步骤执行前等待时间 •或者出现元素 填写Xpath路径,配合执行前等待 一起使用 •使用循环 与文本循环配合使用,达到循环输 入文本效果 •自定义 设置Xpath路径表达式,根据用户 需求自定义流程步骤位置
Xpath工具使用教程
Xpath工具使用教程八爪鱼·云采集网络爬虫软件本教程告诉大家如何使用八爪鱼内置的某path工具。
一、常见使用场景在日常使用八爪鱼采集数据时,偶尔会出现一些特殊情况,比如说某个采集步骤因为网页或八爪鱼识别的问题,定位发生了偏差,导致自动生成的某path有一点问题,采集出错。
这个时候需要我们手写某path来定位想要设置的步骤,而八爪鱼有个内置的某path工具,可以帮助大家写一些简单的某path位置(除了打开网页步骤没有某path工具以外,其他步骤都有)。
二、某path工具位置某path工具可以在两个地方打开。
一个入口是:登陆进去后的软件首页-工具箱里可以直接打开。
八爪鱼·云采集网络爬虫软件另一个入口是:流程中步骤的“自定义”按钮,点击进入八爪鱼·云采集网络爬虫软件点击“自定义”按钮后,点击“不懂某path,试试某path工具”三、某path工具界面介绍打开某path工具,该工具界面主要分为五个部分:八爪鱼·云采集网络爬虫软件左上是填写网址左中是浏览器左下是页面HTML源码(由于某path工具的网页源码层次不分明,查看源码的话建议使用火狐浏览器的插件firebug和firepath,这是某path的入门教程,新用户有兴趣的也可以去学习一下:1、我们来看一下定位参数八爪鱼·云采集网络爬虫软件八爪鱼·云采集网络爬虫软件2)元素位置:默认填了1,这个位置的意思就是第几个,一般没什么用,因为火狐里自动生成的某path很多都是用位置定位的,要用这个不如用火狐生成来得快;3)元素ID属性值,元素name属性值,元素cla属性值:属性值就是一行源码内用<>尖括号括起来的参数,会有很多,这里的三个属性值是大部分网页都会有的属性值,这里只有三种,但改也是可以的,例如:八爪鱼·云采集网络爬虫软件八爪鱼·云采集网络爬虫软件如果你想定位的属性不是这三个,比如说target,也可以直接把target=后面双引号里的属性值复制一下,随便放入到一个属性里面八爪鱼·云采集网络爬虫软件这时候是匹配不到的,需要将生成的某path里的属性改成target即可:4)元素文本:是火狐里的所有黑色字体,一般是会在网页显示出来我们可以直接看到的字体,如果要填这一格,填的必须是全部的文本,少一个空格标点符号,全角半角不一致都会八爪鱼·云采集网络爬虫软件导致定位不到,不过要是是纯文字的那就没问题;5)元素文本包含字符串:包含,顾名思义就是只要文本里有就会定位出来,不用管什么标点符号空格;6)元素文本开始字符串:就是前几个字,如果源码里是以什么空格标点符号之类的开头的,如果这里没写,就定位不到2、看完了右上角的参数设置,我们来看一下右下角的元素之间的层级关系父元素,子元素,这两个是相对应的,八爪鱼·云采集网络爬虫软件前面元素,后面元素也是相对应的。
八爪鱼采集过程中常出现的问题以及解决方法
八爪鱼采集过程中常出现的问题以及解决方法本教程主要讲的是如果你在使用八爪鱼采集时遇到一些问题,如何快速找出错误、解决错误或者如何了解错误、更好的和客服沟通的方法。
八爪鱼采集器主要通过技术将用户浏览网页的操作进行定位和模拟来收集数据,用户不需要明白网页架构、数据采集原理等技能,通过八爪鱼采集器就可以构成八爪鱼可以看懂的、可以循环工作的采集流程。
如果存在采集模式不满足需求的情况,排错后面有更加详细的教程。
采集过程中出现的错误可以归类为五个方面,分别是网页问题、规则问题、定位模拟问题、采集器问题、以及云端问题。
当采集出现异常时,请先按照如下流程进行错误排查,寻找问题类型:1、手动执行一遍规则:打开界面右上角的流程图,用鼠标点击流程图内规则,从上至下,每次点击下一步都有相应反应,没有发生反应的步骤则是问题出现步骤。
注意点:1)循环内的点击以及提取元素要手动选择循环中除第一个以外的内容,防止循环失效,只点击提取循环内第一个元素2)所有规则每一步执行完才执行下一步,网页未加载完全,即浏览器上圆圈等待图标未消失时,观察网页内容是否加载完全,如果加载完全可以自行取消加载,再配置规则。
2、进行单机采集,查看采集结果中未采集到数据的项目。
注意点:规则中最好加入当前网址,这样出现未采集到数据的项目,可以复制网址在浏览器中打开查看原因,确定错误。
下面分别将可能出现问题的现象叙述如下,供你参考:1、手动执行步骤无反应可能现象有两种:1)未正常执行步骤原因:规则问题、采集器问题、定位模拟问题解决方法:可进行排查,删除该步骤,重新添加一遍,如果还是无法执行,则排除了规则问题,你可以:将该网页在浏览器打开进行操作,如果一些滚动翻页或点击翻页在浏览器可以执行而采集器中不能执行,则是采集器问题,原因是采集器内镶浏览器为火狐浏览器,可能是内镶的浏览器版本在随后的版本发生了变化,导致在浏览器可以实现的功能,在采集器内镶浏览器中无法执行,该类网页中的数据,智能采集翻页或滚动之前的数据。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
八爪鱼如何通过xpath实现自定义定位元素
定位元素:八爪鱼通过Xpath来实现元素的定位。
适用情况:八爪鱼自动定位方式不能满足需求的情况。
下面演示如何通过自定义定位元素方式来修改元素匹配的Xpath,借此修改提取元素步骤采集到的数据。
示例网址:
/guide/demo/genremoviespage1.html 步骤一:点击自定义采集下的立即使用→输入网址并保存
自定义定位元素方式-图1
自定义定位元素方式-图2
步骤二:点击采集位置→循环采集元素→补充并修改提取元素步骤
自定义定位元素方式-图3
自定义定位元素方式-图4
说明:循环采集元素会采集所有信息,我们在补充并修改提取元素步骤进行了删除第一个字段操作,同时添加了我们需要的正确字段。
步骤三:修改自定义定位元素方式
选中要修改的字段→点击高级选项中自定义数据字段(如下图)
→点击自定义定位元素方式
进入自定义定位元素方式后,我们在下图红框处修改Xpath
自定义定位元素方式-图6
其中元素匹配的Xpath是指可以通过这个Xpath路径在网页中直接找到所需数据的路径;相对Xpath指相对于循环Xpath的路径,将循环中的Xpath接上相对Xpath路径就可以生成一条直接匹配元素的路径。
下面进行演示。
演示中使用了火狐浏览器的Firebug插件,详细使用情况请到Xpath使用教程中查看。
自定义定位元素方式-图7
自定义定位元素方式-图8
自定义定位元素方式-图9
自定义定位元素方式-图10
如图,示例中将循环中的Xpath和字段对应的相对Xpath接在一起,在浏览器中可以查找到所有的标题。
假如我们想通过Xpath 的修改采集其他的字段怎么采集呢?
下面演示如何通过自定义定位元素方式修改标题字段的Xpath 使之采集的内容变成类型中的内容
步骤1:找出类型所在的Xpath 是怎样的
自定义定位元素方式
-
图11
自定义定位元素方式-图12
自定义定位元素方式-图13
说明:我们知道循环中的内容为每个需要采集的内容所在的位置,我们将循环中的Xpath 复制进入浏览器也看到匹配到了所有电影的框。
随后我们查看类型所在的Xpath,可以看到如下图:
自定义定位元素方式-图14
查看到的Xpath为html/body/div/div/ul/li[1]/span[2]/span/span
步骤2:修改Xpath 使之定位到所有的电影类型。
因为我们知道LI 元素定位三个电影整体的框,所以我们将循环中的//LI[@class='movie']替换到类型所在的Xpath 中,形成Xpath 为://LI[@class='movie']/span[2]/span/span 元素前//表示不论LI 在何处都匹配,所以可以省掉前面所有的元素。
此时我们的得到的Xpath 就可以匹配所有的电影类型
自定义定位元素方式
-图15
可以看到该Xpath 可以定位到红色箭头位置所示的3个元素,红框中也标出了类型,我们
一共在该页只有三个电影,所以我们就得到了所有电影类型的Xpath 。
步骤3:将得到的Xpath 放入自定义定位元素方式中
自定义定位元素方式-图16
自定义定位元素方式
-图
17
自定义定位元素方式-图18
自定义定位元素方式-图19
说明:复制元素匹配Xpath后,因为我们知道循环Xpath为LI元素,所以我们复制LI元素后的部分进入相对Xpath中。
通过手动运行三个电影验证标题是否改为类型,确定改变,会跟着变化,修改完成。
步骤四:保存并启动→数据导出
自定义定位元素方式-图20
自定义定位元素方式-图21
相关采集教程:
京东商品信息采集
58同城信息采集
搜狗微信文章采集
八爪鱼——70万用户选择的网页数据采集器。
1、操作简单,任何人都可以用:无需技术背景,会上网就能采集。
完全可视化流程,点击鼠标完成操作,2分钟即可快速入门。