网页图片提取方法 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

网页图片提取方法

对于新媒体运营来说，平日一定要注意积累图片素材，这样到写文案用的时候，才不会临时来照图片，耗费大量的时间。

本文向大家介绍一款网络数据采集工具【八爪鱼数据采集器】，以【图片采集】为例，教大家如何使用八爪鱼采集软件采集网络图片的方法。

1、图片采集

在八爪鱼中，采集图片有以下几大步

1、先采集网页图片的地址链接url

2、通过八爪鱼提供的专用图片批量下载工具将URL转化为图片

八爪鱼图片批量下载工具：https:///s/1c2n60NI

2、常见应用情景

1）非瀑布流网站纯图片采集

采集示例：豆瓣网图片采集教程/tutorial/tpcj-7

2）瀑布流网站纯图片采集

这类瀑布流网站的采集需要按下面的步骤对采集规则进行设置：

①点击采集规则打开网页步骤的高级选项；

②勾选页面加载完成后下滚动；

③填写滚动的次数及每次滚动的间隔；

④滚动方式设置为：直接滚动到底部；

完成上面的规则设置后，再对页面中图片的url进行采集

采集示例：百度网图片采集教程/tutorial/bdpiccj

3)文章图文采集

需要将文章里的文字和图片都采集下来，一般有两种方法

方法1：判断条件，设置判断条件分别采集文字和图片

采集示例：/tutorial/txnewscj

方法2：先整体采集文字，再循环采集图片

采集示例：/tutorial/ucnewscj

3、教程目的

采集图片URL这个步骤，以上图片采集教程中都有详细说明，不再赘述。本文将重点讲解图片采集的采集技巧和注意事项。

4、采集图片URL操作步骤

以下演示一个采集图片URL的具体操作步骤，以百度图片url采集为例。不同的网站图片url会遇到不同的情况，请大家灵活处理。

5、图片批量导出操作步骤

经过如上操作，我们已经得到了要采集的图片的URL。接下来，再通过八爪鱼专用的图片批量下载工具，将采集到的图片URL中的图片，下载并保存到本地电脑中。

1）下载八爪鱼图片批量下载工具，双击文件中的MyDownloader.app.exe，打开软件2）打开File菜单，选择从EXCEL导入（目前只支持EXCEL格式文件）

3）进行相关设置

选择EXCEL文件：导入你需要下载图片地址的EXCEL文件

EXCEL表名：对应数据表的名称

文件URL列名：表内对应URL的列名称

保存文件夹名：EXCEL中需要单独一个列，列出图片想要保存到文件夹的路径。以下示例中，我们将“D:\百度图片采集\”作为图片保存路径（可自定义选择其他磁盘进行存贮、可自定义修改文件夹名；“D:\\”需在英文状态下输入）

以下是具体操作演示：

6、图片采集及批量导出技巧

1）将不同图片，保存到不同文件夹中：在八爪鱼配置抓取模板时，预先添加一个字段，作为图片文件夹名，可设置多层文件夹。例，“D:\第一层文件夹名\第二层文件夹名\”，其中“D:\第一层文件夹名\”是固定的，“第二层文件夹名”，根据图片采集时的标题/关键词变化

2）对图片进行编号：如果下载后需要将图片按照指定的文件名保存，则需要包含具体的文件名，例如“D:\第一层文件夹名\

第二层文件夹名\1.jpg”，可利用excel自动编号

7、注意事项

1）支持下载的格式

采集下来的图片url，以.jpg、.gif、.png等图片格式结尾时，一般情况下能批量转换为图片

如果采集下来的url不是以图片格式结尾，则不能转换成功，可能此图片仅支持在线查看。3）如果图片URL采集下来是乱码，可能是图片需要一定的加载时间，我们需要在提取数据步骤前，设置执行前等待，让图片完全加载出来；对于需在当前屏幕展示一段时间，图片才能完全加载出来的情况，还需相应的设置ajax滚动，具体请参考ajax滚动教程。