淘宝卖家数据采集
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
淘宝卖家数据采集
在淘宝网中,我们搜索一款商品后,往往会有多个卖家提供该商品。当我们需要批量获取这些卖家数据时,需要如何操作呢?如果您有编程能力可以通过自编写爬虫程序来实现。若没有,可选用款成熟的爬虫软件。下面我们选用八爪鱼采集来进行操作演示。
首先会为大家讲解,我们拿到一个数据采集需求时,如何去分析需求;怎样设计采集流程;最后制作并调试采集规则。希望大家可以建立一套通用采集逻辑,明白基本的操作思路。
操作思路:
采集网站:
https:///search?app=shopsearch&q=江小白
&isb=0&shop_type=&ratesum=
本文以“江小白”为关键词先在淘宝网进行店铺搜索,然后店铺类型选择“淘宝店”。最后以此时的网址为采集网址,放入八爪鱼中进行任务制作并采集数据。
大家在采集其他店铺时,可以更换搜索关键词,然后将生成的网址复制黏贴到八爪鱼中进行使用。
采集内容:店铺名称,店铺ID,店铺类型,宝贝数,商品销量,店铺省份,店铺城市,店铺旺旺号。
使用功能点:
●∙数据格式化
●∙添加特殊字段
●∙XPath
●∙滚动页面
●∙Ajax超时
步骤1:创建淘宝卖家信息采集任务
1)进入主界面,选择“自定义采集”
淘宝卖家信息采集步骤1
2)将要采集的网址URL复制粘贴到网站输入框中,点击“保存网址”
淘宝卖家信息采集步骤2
步骤2:创建翻页循环
1)打开网页之后,找到页面最下方的“下一页”创建翻页循环,如下图
淘宝卖家信息采集步骤3
点击下一页,在操作提示中选择循环点击下一页,以此生成循环翻页。注意:有时点击下一页并不会出现循环点击下一页,但若此时出现循环点击单个链接,则可以选则循环点击单个链接(或元素),其功能和循环点击下一页相同。
淘宝卖家信息采集步骤4
步骤3:创建循环列表
1)将鼠标移动到页面上方(蓝色表示点击后会选中的元素),选择页面某一行数据(包含的字段进可能全),如图蓝色部分,然后点击
。
淘宝卖家信息采集步骤5
2)点击后继续选择下一行同类型的数据,如图:
淘宝卖家信息采集步骤6
再次点击,操作提示中出现已选中XX个元素,以下是列表。此时点击采集以下元素。
淘宝卖家信息采集步骤7
3)至此循环列表创建完毕。
淘宝卖家信息采集步骤8
步骤4:提取数据设置
1)自动生成的数据字段会将匹配到的文本和链接都抓取上,其中不需要的字段可点击选中后删除。
淘宝卖家信息采集步骤9
注:若太多字段是自己不需要的,可点中某一个字段后,同时按住键盘上的Ctrl 和A,即可选中全部字段,然后点击下方的“删除数据字段”。
淘宝卖家信息采集步骤10
删除字段后再一个个选择自己需要的字段。如图,选中后点击,然后需求选择“采集该链接的文本”或“采集该链接地址”还是“采集该元素的文本”。此时一般不要点击“选中全部”,点“选中全部”后会再生成一个循环提取数据。之前步骤3中的操作已建立好了循环列表。故不需要再次建立。
淘宝卖家信息采集步骤11
2)删除不需要字段(或点击采集所需字段)后,对现有字段进行重命名。
淘宝卖家信息采集步骤12
3)命名后检查字段发现部分字段缺失。如“城市”“店铺ID”“店铺类型”。
淘宝卖家信息采集步骤13
4)对于“城市”,检查页面发现在第三行数据中有相应信息。则先在循环列表的循环项中选中第三项(蓝色表示已选中),然后再点击提取数据。
淘宝卖家信息采集步骤14
淘宝卖家信息采集步骤15
1)选中第三项进行提取时发现其省份和城市在一起,无法单独提取。如需分成两个字段,则需要进行数据格式,通过正则表达来实现。
2)选中字段后点击下方的自定义数据字段。
淘宝卖家信息采集步骤16
3)数据格式化操作参照请参考下方动图。如需完整的格式教程请参考:/tutorialdetail-1/gshsj_7.html
淘宝卖家信息采集步骤17
4)对于“店铺ID”,先弄清楚“店铺ID”是个什么类型的数据,然后页面上未展现,则看看网页源码里是否有这个数据。百度后可知“店铺ID”是shop
后接一串数字的数据,如“shop123123123”。查看源码,发现可以找到该信息。
5)准备工具:火狐浏览器(54版或之前版本),安装firebug和firepath插件。其他工具能查看源码斌顺利写XPath也可以。
A. 在浏览器中打开网页,然后找到对应的数据区域
B. 逐个检查该区域源码,找到符合要求是数据。
淘宝卖家信息采集步骤18
C. 根据目标数据——点评ID,所在位置写出其XPath路径。此处的XPath路径为://li/a[@trace="shop"]
淘宝卖家信息采集步骤19
9)点击网页图片选择抓取图片地址(选择其他的也可以,重点是生成一个数据
字段并含有相对XPath)。
淘宝卖家信息采集步骤20
10)选择自定义字段,对该字段进行XPath和提取方式的修改。
淘宝卖家信息采集步骤21
A.修改XPath,选择“自定义元素定位方式”,然后将相对XPath替换为之前在浏览器中写好的XPath——//li/a[@trace="shop"]
淘宝卖家信息采集步骤22
淘宝卖家信息采集步骤23
淘宝卖家信息采集步骤24
B:修改该字段的抓取方式,选择“自定义抓取方式”