如何使用八爪鱼批量下载网页
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
如何使用八爪鱼批量下载网页
八爪鱼作为一款通用的网页数据采集器,其并不针对于某一网站某一行业的数据进行采集,而是网页上所能看到或网页源码中有的文本信息几乎都能采集,有些朋友有批量下载网页的需求,其实可以使用八爪鱼采集器去实现。
下面以UC头条网页为大家详细介绍如何使用八爪鱼批量下载网页。
采集网站:https:///
使用功能点:
Xpath
xpath入门教程1
/tutorialdetail-1/xpathrm1.html
xpath入门2
/tutorialdetail-1/xpathrm1.html
相对XPATH教程-7.0版
/tutorialdetail-1/xdxpath-7.html
AJAX滚动教程
/tutorial/ajgd_7.aspx?t=1
步骤1:创建UC头条文章采集任务
1)进入主界面,选择“自定义模式”
2)将要采集的网址URL复制粘贴到网站输入框中,点击“保存网址”
3)在页面右上角,打开“流程”,以展现出“流程设计器”和“定制当前操作”两个板块。
网页打开后,默认显示“推荐”文章。
观察发现,此网页没有翻页按钮,而是通过下拉加载,不断加载出新的内容
因而,我们选中“打开网页”步骤,在高级选项中,勾选“页面加载完成后向下滚动”,滚动次数根据自身需求进行设置,间隔时间根据网页加载情况进行设置,滚动方式为“向下滚动一屏”,然后点击“确定”
(注意:间隔时间需要针对网站情况进行设置,并不是绝对的。
一般情况下,间隔时间>网站加载时间即可。
有时候网速较慢,网页加载很慢,还需根据具体情况进行调整。
具体请看:八爪鱼7.0教程——AJAX滚动教程
步骤2:创建翻页循环及提取数据
1)移动鼠标,选中页面里第一条文章链接。
系统会自动识别相似链接,在操作提示框中,选择“选中全部”
2)选择“循环点击每个链接”
3)系统会自动进入文章详情页。
点击需要采集的字段(这里先点击了文章标题),在操作提示框中,选择“采集该元素的文本”
文章发布时间、文章作者、文章发布时间、文章正文内容采集方法同上。
以下采集的是文章正文
步骤3:提取UC头条文章图片地址
1)接下来开始采集图片地址。
先点击文章中第一张图片,再点击页面中第二张图片,在弹出的操作提示框中,选择“采集以下图片地址”
2)修改字段名称,再点击“确定”
3)现在我们已经采集到了图片URL,接下来为批量导出图片做准备。
批量导出图片的时候,我们想要同一篇文章中的图片放进同一个文件中,文件夹以文章标题命名。
首先,我们选中标题,在操作提示框中,选择“采集该元素的文本”
选中标题字段,点击如图所示按钮
选择“格式化数据”
点击添加步骤
选择“添加前缀”
在如图位置,输入前缀:“D:\UC头条图片采集\”,然后点击“确定”
以同样的方式添加后缀“\”,然后点击“确定”
4)修改字段名为“图片存储地址”,最后展示出的“D:\UC头条图片采集\文章标题”即为图片保存文件夹名,其中“D:\UC头条图片采集\”是固定的,文章标题是变化的
步骤4:修改Xpath
1)选中整个“循环”步骤,打开“高级选项”,可以看到,八爪鱼默认生成的是固定元素列表,定位的是前13篇文章的链接
2)在火狐浏览器中打开要采集的网页并观察源码。
我们发现,通过此条Xpath://DIV[@class='news-list']/UL[1]/LI/DIV[1]/DIV[1]/A,页面中所需的所有文章均被定位了
3)将修改后的Xpath,复制粘贴到八爪鱼中所示位置,然后点击“确定”
步骤5:文章数据采集及导出
1)点击左上角的“保存”,然后点击“开始采集”,选择“启动本地采集”
注:本地采集占用当前电脑资源进行采集,如果存在采集时间要求或当前电脑无法长时间进行采集可以使用云采集功能,云采集在网络中进行采集,无需当前电脑支持,电脑可以关机,可以设置多个云节点分摊任务,10个节点相当于10台电脑分配任务帮你采集,速度降低为原来的十分之一;采集到的数据可以在云上保存三个月,可以随时进行导出操作。
2)采集完成后,会跳出提示,选择“导出数据”,选择“合适的导出方式”,将采集好的数据导出
3)这里我们选择excel作为导出为格式,数据导出后如下图
步骤6:将图片URL批量转换为图片
经过如上操作,我们已经得到了要采集的图片的URL。
接下来,再通过八爪鱼专用的图片批量下载工具,将采集到的图片URL中的图片,下载并保存到本地电脑中。
图片批量下载工具:https:///s/1c2n60NI
1)下载八爪鱼图片批量下载工具,双击文件中的MyDownloader.app.exe文件,打开软件
2)打开File菜单,选择从EXCEL导入(目前只支持EXCEL格式文件)
3)进行相关设置,设置完成后,点击OK即可导入文件
选择EXCEL文件:导入你需要下载图片地址的EXCEL文件
EXCEL表名:对应数据表的名称
文件URL列名:表内对应URL的列名称,在这里为“图片URL”
保存文件夹名:EXCEL中需要单独一个列,列出图片想要保存到文件夹的路径,可以设置不同图片存放至不同文件夹,在这里为“图片存储地址”
可以设置不同图片存放至不同文件夹,在这里我们已经于前期准备好了,同一篇文章中的图片会放进同一个文件中,文件夹以文章标题命名
4)点击OK后,界面如图所示,再点击“开始下载”
5)页面下方会显示图片下载状态
6)全部下载完成后,找到自己设定的图片保存文件夹,可以看到,图片URL 已经批量转换为图片了,且同一篇文章中的图片会放进同一个文件中,文件夹以文章标题命名
本文来自:/tutorialdetail-1/ucnewscj.html
相关采集教程:
ebay爬虫抓取图片/tutorial/ebaypicpc
房源采集/tutorial/grfycj
欢乐书客小说采集/tutorial/hlskxscj
新浪新闻采集/tutorial/xlnewscj
BBC英文文章采集/tutorial/englisharticlecj
高德地图数据采集方法/tutorial/gddtsjcj
企查查企业邮箱采集 /tutorial/qccqyemailcj
大众点评简易模式智能防封模版使用说明/tutorial/dzdpffmbsm
qq邮箱采集/tutorial/qqemailcj
八爪鱼——90万用户选择的网页数据采集器。
1、操作简单,任何人都可以用:无需技术背景,会上网就能采集。
完全可视化流程,点击鼠标完成操作,2分钟即可快速入门。
2、功能强大,任何网站都可以采:对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页,均可经过简单设置进行采集。
3、云采集,关机也可以。
配置好采集任务后可关机,任务可在云端执行。
庞大云采集集群24*7不间断运行,不用担心IP被封,网络中断。
4、功能免费+增值服务,可按需选择。
免费版具备所有功能,能够满足用户的基本采集需求。
同时设置了一些增值服务(如私有云),满足高端付费企业用户的需要。