网站图片批量采集方法

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

网站图片批量采集方法
网站数据信息包含文本，图片，视频，动画等，其中主要的数据信息之一就是图片，很多网站上或多或少都有图片数据，有时看到一些精美的、有价值的图片，想把这些的图片保存下来，应该怎么操作呢？今天给大家讲解网站图片的批量采集方法。

本文以阿里巴巴网站为例的方法。

采集网站：
PS：
使用八爪鱼采集器，只需做好规则，即可全自动地将我们的想要的图片采集下来。

主要经过两大步：先将图片URL采集下来；再通过八爪鱼提供的图片批量下载工具，将URL批量转化为图片。

使用功能点：
●分页列表及详细信息提取
/tutorialdetail-1/fylbxq7.html
●AJAX滚动教程
/tutorialdetail-1/ajgd_7.html
步骤1：创建阿里巴巴图片采集任务
1）进入主界面，选择“自定义模式”，点击“立即使用”
2）将要采集的网址复制粘贴到网站输入框中，点击“保存网址”
步骤2：创建翻页循环
1）系统自动打开网页，进入阿里巴巴“衣服”商品列表页。

观察网页结构，当把页面下拉至底部的时候，会加载出一批新的数据，随着我们的下拉，页面会有新的数据加载出来。

经过2次下拉加载，此页面达到最底部，出现“下一页”按钮。

所以涉及Ajax下拉加载，需要对其进行一些高级选项的设置。

点击右上角的“流程“按钮，选中左侧的“打开网页”，打开“高级选项”，勾选“页面加载完成
后向下滚动”，设置滚动次数为“5次”，每次间隔“2秒”，滚动方式为“直接滚动到底部”，最后点击“确定”
注意：这里的滚动次数及间隔时间，需要针对网站情况进行设置，并不是绝对的。

一般情况下，间隔时间>网站加载时间即可。

有时候网速较慢，网页加载很慢，还需根据具体情况进行调整。

具体请看：八爪鱼7.0教程——AJAX滚动教程
/tutorialdetail-1/ajgd_7.html
2）将页面下拉到底部，点击“下一页”按钮，在右侧的操作提示框中，选择“循环点击下一页”
与“打开网页”类似，此步骤同样涉及Ajax下拉加载。

点击左侧流程中的“点击翻页”，打开“高级选项”，勾选“页面加载完成后向下滚动”，设置滚动次数为“5次”，每次间隔“2秒”，滚动方式为“直接滚动到底部”，最后点击“确定”
步骤3：创建列表循环并提取阿里巴巴图片数据
1）移动鼠标，选中页面里要采集的数据。

下面选中的是图片，商品标题，选中后，系统会自动识别页面里的其他相似链接。

在右侧操作提示框中，选择“选中全部”。

2）选择“采集数据”并点击
3）字段信息选择完成后，选中相应的字段，可以进行字段的自定义命名。

完成后，点击“确定”
4）接下来为将图片URL批量导出为图片做准备。

点击“添加特殊字段”，选择“添加固定字段”，输入“E:\阿里巴巴图片采集\”，其中“E:\\”为图片存储盘，“阿里巴巴图片采集”为图片保存文件夹名
步骤5：阿里巴巴图片数据采集及导出
1）点击左上角的“开始采集”，选择启动“本地采集”
注：本地采集占用当前电脑资源进行采集，如果存在采集时间要求或当前电脑无法长时间进行采集可以使用云采集功能，云采集在网络中进行采集，无需当前电脑支持，电脑可以关机，可以设置多个云节点分摊任务，10个节点相当于10台电脑分配任务帮你采集，速度降低为原来的十分之一；采集到的数据可以在云上保存三个月，可以随时进行导出操作。

采集完成后，会跳出提示，选择“导出数据”。

选择“合适的导出方式”，将采集好微博发博数据导出，这里我们选择excel作为导出为格式，数据导出后如下图所示。

步骤6：将图片URL批量转换为图片
经过如上操作，我们已经得到了要采集的图片的URL。

接下来，再通过八爪鱼专用的图片批量下载工具，将采集到的图片URL中的图片，下载并保存到本地电脑中。

图片批量下载工具：https:///s/1c2n60NI
1）下载八爪鱼图片批量下载工具，双击文件中的MyDownloader.app.exe文件，打开软件
2）打开File菜单，选择从EXCEL导入（目前只支持EXCEL格式文件）
3）进行相关设置，设置完成后，点击OK即可导入文件
选择EXCEL文件：导入你需要下载图片地址的EXCEL文件
EXCEL表名：对应数据表的名称
文件URL列名：表内对应URL的列名称
保存文件夹名：EXCEL中需要单独一个列，列出图片想要保存到文件夹的路径，可以设置不同图片存放至不同文件夹
如果要把文件保存到文件夹，则路径需要以“\”结尾，例如：“D:\同步\”，如果要下载后按照指定的文件名保存，则需要包含具体的文件名，例如“D:\同步\1.jpg”
如果下载的文件路径和文件名完全一样，则原先存在的文件会被删除
2）点击OK后，界面如图所示，再点击“开始下载”
3）页面下方会显示图片下载状态
4）找到自己设定的图片保存文件夹，可以看到，图片URL已经批量转换为图片了。

本文来自：/tutorialdetail-1/alibabapiccj.html
相关采集教程：
1.网站图片采集：
/tutorial/hottutorial/qita/tupian
2.豆瓣图片采集并下载保存本地的方法：
/tutorial/tpcj-7
3.微博图片采集：
/tutorial/wbpiccj
4.微博粉丝信息采集：
/tutorial/wbyhxxcj
5.当当图书采集：
/tutorial/ddtscj
6.阿里巴巴图片抓取下载：
/tutorial/alibabapiccj
7.网站图片采集方法：
/tutorial/webpiccj
8.京东商品图片采集详细教程：
/tutorial/jdpiccj
9.淘宝买家秀图片采集详细教程：
/tutorial/tbmjxpic
10.瀑布流网站图片采集方法，以百度图片采集为例：
/tutorial/bdpiccj
八爪鱼——90万用户选择的网页数据采集器。

1、操作简单，任何人都可以用：无需技术背景，会上网就能采集。

完全可视化流程，点击鼠标完成操作，2分钟即可快速入门。

2、功能强大，任何网站都可以采：对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页，均可经过简单设置进行采集。

3、云采集，关机也可以。

配置好采集任务后可关机，任务可在云端执行。

庞大云采集集群24*7不间断运行，不用担心IP被封，网络中断。

4、功能免费+增值服务，可按需选择。

免费版具备所有功能，能够满足用户的基本采集需求。

同时设置了一些增值服务（如私有云），满足高端付费企业用户的需要。