淘宝数据采集器怎么使用

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

淘宝数据采集器怎么使用

淘宝是目前电子商务人员需要提取数据比较常见的网站，淘宝数据采集下来有很多作用，比如监控竞争对手产品价格、SKU等数据，从而为自己产品定价提供支持。下面本文介绍淘宝数据采集能提取哪些数据以及如何使用。

淘宝数据采集器能提取到哪些数据？

一般来说，淘宝数据采集器能采集到：产品名称、类别、产品原价、销售价格、网址、评论、卖家信息、搜索关键词等数据。

下面介绍使用八爪鱼采集器去采集淘宝卖家数据的方法，只需配置采集规则，就能自定义采集自身需要的淘宝数据。

采集网站：

https:///search?app=shopsearch&q=江小白

&isb=0&shop_type=&ratesum=

步骤1：创建淘宝采集任务

1）进入主界面，选择“自定义采集”

淘宝数据采集器使用步骤1

2）将要采集的网址URL复制粘贴到网站输入框中，点击“保存网址”

淘宝数据采集器使用步骤2

步骤2：创建翻页循环

1）打开网页之后，找到页面最下方的“下一页”创建翻页循环，如下图

淘宝数据采集器使用步骤3

点击下一页，在操作提示中选择循环点击下一页，以此生成循环翻页。注意：有时点击下一页并不会出现循环点击下一页，但若此时出现循环点击单个链接,则可以选则循环点击单个链接（或元素），其功能和循环点击下一页相同。

淘宝数据采集器使用步骤4

步骤3：创建循环列表

1）将鼠标移动到页面上方（蓝色表示点击后会选中的元素），选择页面某一行数据（包含的字段进可能全），如图蓝色部分，然后点击

。

淘宝数据采集器使用步骤5

2）点击后继续选择下一行同类型的数据，如图:

淘宝数据采集器使用步骤6

再次点击，操作提示中出现已选中XX个元素，以下是列表。此时点击采集以下元素。

淘宝数据采集器使用步骤7

3）至此循环列表创建完毕。

淘宝数据采集器使用步骤8

步骤4：提取数据设置

1）自动生成的数据字段会将匹配到的文本和链接都抓取上，其中不需要的字段可点击选中后删除。

淘宝数据采集器使用步骤9

注：若太多字段是自己不需要的，可点中某一个字段后，同时按住键盘上的Ctrl 和A，即可选中全部字段，然后点击下方的“删除数据字段”。

淘宝数据采集器使用步骤10

删除字段后再一个个选择自己需要的字段。如图，选中后点击，然后需求选择“采集该链接的文本”或“采集该链接地址”还是“采集该元素的文本”。此时一般不要点击“选中全部”，点“选中全部”后会再生成一个循环提取数据。之前步骤3中的操作已建立好了循环列表。故不需要再次建立。

淘宝数据采集器使用步骤11

2）删除不需要字段（或点击采集所需字段）后，对现有字段进行重命名。

淘宝数据采集器使用步骤12

3）命名后检查字段发现部分字段缺失。如“城市”“店铺ID”“店铺类型”。

淘宝数据采集器使用步骤13

4）对于“城市”，检查页面发现在第三行数据中有相应信息。则先在循环列表的循环项中选中第三项（蓝色表示已选中），然后再点击提取数据。

淘宝数据采集器使用步骤14

淘宝数据采集器使用步骤15

1）选中第三项进行提取时发现其省份和城市在一起，无法单独提取。如需分成两个字段，则需要进行数据格式，通过正则表达来实现。

2）选中字段后点击下方的自定义数据字段。

淘宝数据采集器使用步骤16

3）数据格式化操作参照请参考下方动图。如需完整的格式教程请参考：/tutorialdetail-1/gshsj_7.html

淘宝数据采集器使用步骤17

4）对于“店铺ID”，先弄清楚“店铺ID”是个什么类型的数据，然后页面上未展现，则看看网页源码里是否有这个数据。百度后可知“店铺ID”是shop

后接一串数字的数据，如“shop123123123”。查看源码，发现可以找到该信息。

5）准备工具：火狐浏览器（54版或之前版本），安装firebug和firepath插件。其他工具能查看源码斌顺利写XPath也可以。

A. 在浏览器中打开网页，然后找到对应的数据区域

B. 逐个检查该区域源码，找到符合要求是数据。

淘宝数据采集器使用步骤18

C. 根据目标数据——点评ID，所在位置写出其XPath路径。此处的XPath路径为：//li/a[@trace="shop"]

淘宝数据采集器使用步骤19

9）点击网页图片选择抓取图片地址（选择其他的也可以，重点是生成一个数据

字段并含有相对XPath）。

淘宝数据采集器使用步骤20

10）选择自定义字段，对该字段进行XPath和提取方式的修改。

淘宝数据采集器使用步骤21

A.修改XPath，选择“自定义元素定位方式”，然后将相对XPath替换为之前在浏览器中写好的XPath——//li/a[@trace="shop"]

淘宝数据采集器使用步骤22

淘宝数据采集器使用步骤23

淘宝数据采集器使用步骤24

B：修改该字段的抓取方式，选择“自定义抓取方式”

淘宝数据采集器使用步骤25

此处选择“抓取超链接（A标签的href）”，因为该店铺ID 在其href属性下。如果我们需要的数据在其他属性中，也可以通过上方的“抓取元素的指定属性值”来获取。要是均不能获取到，则选择抓取网页源码。选择完毕后点击下方“确定”进行保存。

淘宝数据采集器使用步骤26

12）对数据进行格式化处理

淘宝数据采集器使用步骤27

A.选择“正则表达式匹配”

淘宝数据采集器使用步骤28