如何高效抓取网站文章

如何高效抓取网站文章
如何高效抓取网站文章

https://www.360docs.net/doc/987589115.html,

如何高效抓取网站文章

现在大多数做内容的都是需要参考很多网页文章的,那在互联网告告诉发展的今天应该怎样高效的去抓取网站文章呢,本文以UO头条为例,UC 头条是UC浏览器团队潜力打造的新闻资讯推荐平台,拥有大量的新闻资讯内容,并通过阿里大数据推荐和机器学习算法,为广大用户提供优质贴心的文章。很多用户可能有采集UC头条文章采集的需求,这里采集了文章的文本和图片。文本可直接采集,图片需先将图片URL采集下来,然后将图片URL批量转换为图片。

本文将采集UC头条的文章,采集的字段为:标题、发布者、发布时间、文章内容、页面网址、图片URL、图片存储地址。

采集网站:https://https://www.360docs.net/doc/987589115.html,/

使用功能点:

Xpath

https://www.360docs.net/doc/987589115.html,

xpath入门教程1

https://www.360docs.net/doc/987589115.html,/tutorialdetail-1/xpathrm1.html xpath入门2

https://www.360docs.net/doc/987589115.html,/tutorialdetail-1/xpathrm1.html

相对XPATH教程-7.0版

https://www.360docs.net/doc/987589115.html,/tutorialdetail-1/xdxpath-7.html

AJAX滚动教程

https://www.360docs.net/doc/987589115.html,/tutorial/ajgd_7.aspx?t=1

步骤1:创建UC头条文章采集任务

1)进入主界面,选择“自定义模式”

https://www.360docs.net/doc/987589115.html,

2)将要采集的网址URL复制粘贴到网站输入框中,点击“保存网址”

https://www.360docs.net/doc/987589115.html,

3)在页面右上角,打开“流程”,以展现出“流程设计器”和“定制当前操作”两个板块。网页打开后,默认显示“推荐”文章。观察发现,此网页没有翻页按钮,而是通过下拉加载,不断加载出新的内容

因而,我们选中“打开网页”步骤,在高级选项中,勾选“页面加载完成后向下滚动”,滚动次数根据自身需求进行设置,间隔时间根据网页加载情况进行设置,滚动方式为“向下滚动一屏”,然后点击“确定”

https://www.360docs.net/doc/987589115.html,

(注意:间隔时间需要针对网站情况进行设置,并不是绝对的。一般情况下,间隔时间>网站加载时间即可。有时候网速较慢,网页加载很慢,还需根据具体情况进行调整。具体请看:八爪鱼7.0教程——AJAX滚动教程

https://www.360docs.net/doc/987589115.html,/tutorial/ajgd_7.aspx?t=1)

步骤2:创建翻页循环及提取数据

https://www.360docs.net/doc/987589115.html,

1)移动鼠标,选中页面里第一条文章链接。系统会自动识别相似链接,在操作提示框中,选择“选中全部”

2)选择“循环点击每个链接”

https://www.360docs.net/doc/987589115.html,

3)系统会自动进入文章详情页。点击需要采集的字段(这里先点击了文章标题),在操作提示框中,选择“采集该元素的文本”

https://www.360docs.net/doc/987589115.html,

文章发布时间、文章作者、文章发布时间、文章正文内容采集方法同上。以下采集的是文章正文

https://www.360docs.net/doc/987589115.html,

步骤3:提取UC头条文章图片地址

1)接下来开始采集图片地址。先点击文章中第一张图片,再点击页面中第二张图片,在弹出的操作提示框中,选择“采集以下图片地址”

https://www.360docs.net/doc/987589115.html,

2)修改字段名称,再点击“确定”

https://www.360docs.net/doc/987589115.html,

3)现在我们已经采集到了图片URL,接下来为批量导出图片做准备。批量导出图片的时候,我们想要同一篇文章中的图片放进同一个文件中,文件夹以文章标题命名。

首先,我们选中标题,在操作提示框中,选择“采集该元素的文本”

https://www.360docs.net/doc/987589115.html,

选中标题字段,点击如图所示按钮

https://www.360docs.net/doc/987589115.html,

选择“格式化数据”

https://www.360docs.net/doc/987589115.html,

点击添加步骤

https://www.360docs.net/doc/987589115.html,

选择“添加前缀”

https://www.360docs.net/doc/987589115.html,

在如图位置,输入前缀:“D:\UC头条图片采集\”,然后点击“确定”

https://www.360docs.net/doc/987589115.html,

以同样的方式添加后缀“\”,然后点击“确定”

https://www.360docs.net/doc/987589115.html,

4)修改字段名为“图片存储地址”,最后展示出的“D:\UC头条图片采集\文章标题”即为图片保存文件夹名,其中“D:\UC头条图片采集\”是固定的,文章标题是变化的

https://www.360docs.net/doc/987589115.html,

步骤4:修改Xpath

1)选中整个“循环”步骤,打开“高级选项”,可以看到,八爪鱼默认生成的是固定元素列表,定位的是前13篇文章的链接

https://www.360docs.net/doc/987589115.html,

2)在火狐浏览器中打开要采集的网页并观察源码。我们发现,通过此条Xpath://DIV[@class='news-list']/UL[1]/LI/DIV[1]/DIV[1]/A,页面中所需的所有文章均被定位了

相关主题
相关文档
最新文档