网页抓取工具:一个简单的文章采集示例 (1)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

网页抓取工具:一个简单的文章采集示例

通过采集网页抓取工具火车采集器官网的faq为例来说明采集器采集的原理和过程。

本例以/qc-12.html 演示地址,以火车采集器V9为工具进行示例说明。

(1)新建个采集规则

选择一个分组上右击,选择“新建任务”,如下图:

(2)添加起始网址

在这里我们需要采集5页数据。

分析网址变量规律

第一页地址:/qc-12.html?p=1

第二页地址:/qc-12.html?p=2

第三页地址:/qc-12.html?p=3

由此我们可以推算出p=后的数字就是分页的意思,我们用[地址参数]表示:所以设置如下:

地址格式:把变化的分页数字用[地址参数]表示。

数字变化:从1开始,即第一页;每次递增1,即每次分页的变化规律数字;共5项,即一共采集5页。

预览:采集器会按照上面设置的生成一部分网址,让你来判读添加的是否正确。然后确定即可

(3)[常规模式]获取内容网址

常规模式:该模式默认抓取一级地址,即从起始页源代码中获取到内容页A链接。

在这里给大家演示用自动获取地址链接+设置区域的方式来获取。

查看页面源代码找到文章地址所在的区域:

设置如下:

注:更详细的分析说明可以参考本手册:

操作指南> 软件操作> 网址采集规则> 获取内容网址

点击网址采集测试,看看测试效果

(3)内容采集网址

以/q-1184.html 为例讲解标签采集

注:更详细的分析说明可以下载参考官网的用户手册。

操作指南> 软件操作> 内容采集规则> 标签编辑

我们首先查看它的页面源代码,找到我们“标题”所在位置的代码:

导入Excle是跳出对话框~打开Excle出错- 火车采集器帮助中心

分析得出:开头字符串为:</p><p>结尾字符串为:

数据处理——内容替换/排除:需要把- 火车采集器帮助中心给替换为空

内容标签的设置原理也是类似的,找到内容所在源码中的位置

分析得出:开头字符串为:

结尾字符串为:

数据处理——HTML标签排除:把不需要的A链接等过滤

再设置个“来源”字段

这样一个简单的文章采集规则就做好了,使用通用的网页抓取工具火车采集器并按照这个示例的步骤就可以进行其它类型数据采集的扩展啦。

相关文档
最新文档