淘宝联盟采集软件如何使用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
淘宝联盟采集软件如何使用
目前市面主流的数据采集软件有五六种,在此我们仅以操作最为简单快捷的八爪鱼采集器为例进行介绍。淘宝联盟是阿里妈妈网站下的一个站点,在该站点下既可以通过选择类目进行商品筛选,也可以通过输入关键词搜索来筛选所需商品。在此我们以更为灵活的关键词搜索为例来讲解软件的使用操作。
采集网站:
本文仅以阿里妈妈淘宝联盟衣服搜索结果页面举例说明,大家如果有其他采集淘宝联盟商品的需求,可以更换搜索关键词进行采集。
采集内容为:
商品图片地址,商品标题,店铺名,销量,商品价格,佣金,比率,商品链接使用功能点:
●创建循环翻页
●商品URL采集提取
●创建URL循环采集任务
●修改Xpath
步骤1:创建淘宝联盟采集任务
1)进入主界面,选择“自定义采集”
阿里妈妈淘宝联盟采集步骤1
2)将要采集的网站URL复制粘贴到输入框中,点击“保存网址”
阿里妈妈淘宝联盟采集步骤2
3)保存网址后,鼠标点击输入框,在右侧操作提示框中,选择“输入文字”
阿里妈妈淘宝联盟采集步骤3
4)然后输入采集的商品,点击确定
阿里妈妈淘宝联盟采集步骤4
5)网络加载速度比较慢,所以需要设置执行前等待,为防止输入框没加载完毕操作失效还需要设置出现元素。
阿里妈妈淘宝联盟采集步骤5
然后点击搜索,并选择“点击该按钮”
阿里妈妈淘宝联盟采集步骤6
由于网页涉及Ajax技术。所以需要选中点击元素,打开“高级选项”,勾选“Ajax 加载数据”,设置时间为“5秒”。因为页面打开后需要向下滑动才可以出现更多内容,所以还需要设置页面滚动,滚动次数选择30次,每次间隔2秒,选择向下滚动一屏完成后,点击“确定”。
阿里妈妈淘宝联盟采集步骤7
步骤2:创建翻页循环
1)将页面下拉到底部,找到下一页按钮,鼠标点击,在右侧操作提示框中,选择“循环点击单个链接”
阿里妈妈淘宝联盟采集步骤8
2)同上,此步骤也需要设置高级选项,打开“高级选项”,勾选“Ajax加载数据”,设置时间为“3秒”。因为页面打开后需要向下滑动才可以出现更多内容,所以还需要设置页面滚动,滚动次数选择30次,每次间隔1秒,选择向下滚动一屏完成后,点击“确定”
阿里妈妈淘宝联盟采集步骤9
步骤3:采集阿里妈妈淘宝联盟商品信息
1)移动鼠标,选中第一个商品图片,标题,店铺名,系统会自动识别出相似的元素,在提示框中选择“选中全部”,随后点击采集图片地址或者采集以下元素文本。
阿里妈妈淘宝联盟采集步骤10
2)如果要采集商品链接,价格,佣金,比率,销量的话,则要写xpath才能实现采集。以采集价格字段举例:
首先选择添加特殊字段
阿里妈妈淘宝联盟采集步骤11
然后选中该字段,选择自定义数据字段(下图红色框中的)
阿里妈妈淘宝联盟采集步骤12
随后选择自定义定位元素方式,并按下图填入XPah。
价格的元素匹配的XPath为//div[1]//div[@class="content-line clearfix mt5"]/span[1]
相对Xpath勾上,并填入//div[@class="content-line clearfix mt5"]/span[1]
需要注意的事,Xpath会随着网站结构的改变而改变,所以上面xpath不能确保一直有效。如果要采集这些数据,建议学习一下Xpath:
网页数据采集相对XPATH使用教程
xpath入门教程1
xpath入门教程2
阿里妈妈淘宝联盟采集步骤13
填好xpath之后,随后在自定义数据字段->自定义抓取方式中选择抓取文本即可。
阿里妈妈淘宝联盟采集步骤14
同理,如果要采集佣金,比率,商品链接分别设置为:
佣金:
元素匹配的XPath为
//div[1]//div[@class="content-line clearfix"]/span[2]
相对Xpath勾上,并填入//div[@class="content-line clearfix"]/span[2] 自定义数据字段->自定义抓取方式中选择抓取文本
商品链接:
元素匹配的XPath为
//div/a[@class="search-box-img img-loaded"]
相对Xpath勾上,并填入//div/a[@class="search-box-img img-loaded"] 自定义数据字段->自定义抓取方式中选择抓取超链接(a标签的href)
比率:
元素匹配的XPath为
//div[1]//div[@class="content-line clearfix"]/span[1]
相对Xpath勾上,并填入//div[@class="content-line clearfix"]/span[1] 自定义数据字段->自定义抓取方式中选择抓取文本
销量:
元素匹配的XPath为
//div[1]//div[@class="content-line clearfix mt5"]/span[2]
相对Xpath勾上,并填入
//div[1]//div[@class="content-line clearfix mt5"]/span[2]
自定义数据字段->自定义抓取方式中选择抓取文本
设置完成以后,可以看到数据都在字段中了:
阿里妈妈淘宝联盟采集步骤15
3)然后再选择‘’启动本地采集”