如何批量提取网页图片

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

如何批量提取网页图片

很多人需要在网页上收集大量的图片，一个个下载费事费力。今天教给大家一个批量提取网页图片的方法，供大家提高工作效率。

采集网站：

/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result&fr= &sf=1&fmq=1511164186444_R&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&isty pe=2&ie=utf-8&hs=2&word=%E5%A4%8F%E7%9B%AE%E5%8F%8B%E4%BA%BA%E5%B8%90

使用功能点：

●∙Ajax下拉滚动

/tutorialdetail-1/ajgd_7.html

●∙分页列表信息采集

/tutorialdetail-1/fylb-70.html

步骤1：创建采集任务

1）进入主界面，选择自定义模式

2）将上面网址的网址复制粘贴到网站输入框中，点击“保存网址”

3）系统自动打开网页。我们发现，百度图片网是瀑布流的网页，经过每一次下拉加载，都会出现新的数据。当图片足够多的时候，可无数次下拉加载。因而，此网页涉及AJAX技术，需要设置AJAX 超时，以便确保数据采集的时候不会遗漏。

选中“打开网页”步骤，打开“高级选项”，勾选“页面加载完成向下滚动”，设置滚动次数为“5次”（根据自身需求进行设置），时间为“2秒”，滚动方式为“向下滚动一屏”；最后点击“确定”

注意：示例网站，没有翻页按钮，滚动次数、滚动方式会影响数据采集数量，可按需设置

步骤2：采集图片URL

1）选中页面内第一个图片，系统会自动识别同类图片。在操作提示框中，选择“选中全部”

2）选择“采集以下图片地址”

步骤3：修改Xpath

1）选中“循环”步骤，打开“高级选项”。可以看到八爪鱼系统自动采用的是“不固定元素列表”循环，Xpath为：//DIV[@id='imgid']/DIV[1]/UL[1]/LI

2）将此条Xpath：//DIV[@id='imgid']/DIV[1]/UL[1]/LI，复制到火狐浏览器中进行观察——仅可定位到网页中22张图片

3）我们需要一条能够定位到网页中全部所需图片的Xpath。观察网页源码并将Xpath修改为：//DIV[@id='imgid']/DIV/UL[1]/LI，网页中全部所需的图片均被定位了

4）将修改后的Xpath：//DIV[@id='imgid']/DIV/UL[1]/LI，复制粘贴到八爪鱼中相应位置，完成后点击“确定”

5）点击“保存”，再点击“开始采集”，这里选择“启动本地采集”

说明：本地采集占用当前电脑资源进行采集，如果存在采集时间要求或当前电脑无法长时间进行采集可以使用云采集功能，云采集在网络中进行采集，无需当前电脑支持，电脑可以关机，可以设置多个云节点分摊任务，10个节点相当于10台电脑分配任务帮你采集，速度降低为原来的十分之一；采集到的数据可以在云上保存三个月，可以随时进行导出操作。

步骤4：数据采集及导出

1）采集完成后，会跳出提示，选择导出数据

2）选择合适的导出方式，将采集好的数据导出

步骤5：将图片URL批量转换为图片

经过如上操作，我们已经得到了要采集的图片的URL。接下来，再通过八爪鱼专用的图片批量下载工具，将采集到的图片URL中的图片，下载并保存到本地电脑中。

图片批量下载工具：https:///s/1c2n60NI

1）下载八爪鱼图片批量下载工具，双击文件中的MyDownloader.app.exe文件，打开软件

2）打开File菜单，选择从EXCEL导入（目前只支持EXCEL格式文件）

3）进行相关设置，设置完成后，点击OK即可导入文件

选择EXCEL文件：导入你需要下载图片地址的EXCEL文件

EXCEL表名：对应数据表的名称

文件URL列名：表内对应URL的列名称

保存文件夹名：EXCEL中需要单独一个列，列出图片想要保存到文件夹的路径，可以设置不同图片存放至不同文件夹

如果要把文件保存到文件夹，则路径需要以“\”结尾，例如：“D:\同步\”，如果要下载后按照指定的文件名保存，则需要包含具体的文件名，例如“D:\同步\1.jpg”

如果下载的文件路径和文件名完全一样，则原先存在的文件会被删除