如何高效抓取网站文章

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

如何高效抓取网站文章

现在大多数做内容的都是需要参考很多网页文章的，那在互联网告告诉发展的今天应该怎样高效的去抓取网站文章呢，本文以UO头条为例，UC 头条是UC浏览器团队潜力打造的新闻资讯推荐平台，拥有大量的新闻资讯内容，并通过阿里大数据推荐和机器学习算法，为广大用户提供优质贴心的文章。很多用户可能有采集UC头条文章采集的需求，这里采集了文章的文本和图片。文本可直接采集，图片需先将图片URL采集下来，然后将图片URL批量转换为图片。

本文将采集UC头条的文章，采集的字段为：标题、发布者、发布时间、文章内容、页面网址、图片URL、图片存储地址。

采集网站：https:///

使用功能点：

Xpath

xpath入门教程1

/tutorialdetail-1/xpathrm1.html xpath入门2

/tutorialdetail-1/xpathrm1.html

相对XPATH教程-7.0版

/tutorialdetail-1/xdxpath-7.html

AJAX滚动教程

/tutorial/ajgd_7.aspx?t=1

步骤1：创建UC头条文章采集任务

1）进入主界面，选择“自定义模式”

2）将要采集的网址URL复制粘贴到网站输入框中，点击“保存网址”

3）在页面右上角，打开“流程”，以展现出“流程设计器”和“定制当前操作”两个板块。网页打开后，默认显示“推荐”文章。观察发现，此网页没有翻页按钮，而是通过下拉加载，不断加载出新的内容

因而，我们选中“打开网页”步骤，在高级选项中，勾选“页面加载完成后向下滚动”，滚动次数根据自身需求进行设置，间隔时间根据网页加载情况进行设置，滚动方式为“向下滚动一屏”，然后点击“确定”

（注意：间隔时间需要针对网站情况进行设置，并不是绝对的。一般情况下，间隔时间>网站加载时间即可。有时候网速较慢，网页加载很慢，还需根据具体情况进行调整。具体请看：八爪鱼7.0教程——AJAX滚动教程

/tutorial/ajgd_7.aspx?t=1）

步骤2：创建翻页循环及提取数据

1）移动鼠标，选中页面里第一条文章链接。系统会自动识别相似链接，在操作提示框中，选择“选中全部”

2）选择“循环点击每个链接”

3）系统会自动进入文章详情页。点击需要采集的字段（这里先点击了文章标题），在操作提示框中，选择“采集该元素的文本”

文章发布时间、文章作者、文章发布时间、文章正文内容采集方法同上。以下采集的是文章正文

步骤3：提取UC头条文章图片地址

1）接下来开始采集图片地址。先点击文章中第一张图片，再点击页面中第二张图片，在弹出的操作提示框中，选择“采集以下图片地址”

2）修改字段名称，再点击“确定”

3）现在我们已经采集到了图片URL，接下来为批量导出图片做准备。批量导出图片的时候，我们想要同一篇文章中的图片放进同一个文件中，文件夹以文章标题命名。

首先，我们选中标题，在操作提示框中，选择“采集该元素的文本”

选中标题字段，点击如图所示按钮

选择“格式化数据”

点击添加步骤

选择“添加前缀”

在如图位置，输入前缀：“D:\UC头条图片采集\”，然后点击“确定”

以同样的方式添加后缀“\”，然后点击“确定”

4）修改字段名为“图片存储地址”，最后展示出的“D：\UC头条图片采集\文章标题”即为图片保存文件夹名，其中“D：\UC头条图片采集\”是固定的，文章标题是变化的

步骤4：修改Xpath

1）选中整个“循环”步骤，打开“高级选项”，可以看到，八爪鱼默认生成的是固定元素列表，定位的是前13篇文章的链接

2）在火狐浏览器中打开要采集的网页并观察源码。我们发现，通过此条Xpath：//DIV[@class='news-list']/UL[1]/LI/DIV[1]/DIV[1]/A，页面中所需的所有文章均被定位了

3）将修改后的Xpath，复制粘贴到八爪鱼中所示位置，然后点击“确定”

步骤5：文章数据采集及导出

1）点击左上角的“保存”，然后点击“开始采集”，选择“启动本地采集”

注：本地采集占用当前电脑资源进行采集，如果存在采集时间要求或当前电脑无法长时间进行采集可以使用云采集功能，云采集在网络中进行采集，无需当前电脑支持，电脑可以关机，可以设置多个云节点分摊任务，10个节点相当于10台电脑分配任务帮你采集，速度降低为原来的十分之一；采集到的数据可以在云上保存三个月，可以随时进行导出操作。

2）采集完成后，会跳出提示，选择“导出数据”，选择“合适的导出方式”，将采集好的数据导出

3）这里我们选择excel作为导出为格式，数据导出后如下图

步骤6：将图片URL批量转换为图片

经过如上操作，我们已经得到了要采集的图片的URL。接下来，再通过八爪鱼专用的图片批量下载工具，将采集到的图片URL中的图片，下载并保存到本地电脑中。

图片批量下载工具：https:///s/1c2n60NI

1）下载八爪鱼图片批量下载工具，双击文件中的MyDownloader.app.exe文件，打开软件

2）打开File菜单，选择从EXCEL导入（目前只支持EXCEL格式文件）

3）进行相关设置，设置完成后，点击OK即可导入文件

选择EXCEL文件：导入你需要下载图片地址的EXCEL文件

EXCEL表名：对应数据表的名称

文件URL列名：表内对应URL的列名称，在这里为“图片URL”

保存文件夹名：EXCEL中需要单独一个列，列出图片想要保存到文件夹的路径，可以设置不同图片存放至不同文件夹，在这里为“图片存储地址”

可以设置不同图片存放至不同文件夹，在这里我们已经于前期准备好了，同一篇文章中的图片会放进同一个文件中，文件夹以文章标题命名