网页文字提取方法

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

网页文字提取方法
互联网上有很多有价值的信息，我们需要将他们提取出来，为我们所用。

是否有好用的软件推荐呢？今天就给大家介绍一款免费网页文字抓取器抓取本文介绍使用八爪鱼采集新浪博客文章的方法。

采集网站：
/s/articlelist_1406314195_0_1.html
采集的内容包括：博客文章正文，标题，标签，分类，日期。

步骤1：创建新浪博客文章采集任务
1）进入主界面，选择“自定义采集”
2）将要采集的网址URL复制粘贴到网站输入框中，点击“保存网址”
步骤2：创建翻页循环
1）打开网页之后，打开右上角的流程按钮，使制作的流程可见状态。

点击页面下方的“下一页”，如图，选择“循环点击单个链接”，翻页循环创建完成。

（可在左上角流程中手动点击“循环翻页”和“点击翻页”几次，测试是否正常翻页。

）
2）由于进入详情页时网页加载很慢，网址一直在转圈状态，无法立即执行下一个步骤，因此在“循环翻页”的高级选项里设置“ajax 加载数据”，超时时间设置为5秒，点击“确定”。

步骤3：创建列表循环
1）鼠标点击列表目录中第一个博文，选择操作提示框中的“选中全部”。

2）鼠标点击“循环点击每个链接”，列表循环就创建完成，并进入到第一个循环项的详情页面。

由于进入详情页时网页加载很慢，网址一直在转圈状态，
无法立即执行下一个步骤，因此在“点击元素”的高级选项里设置“ajax 加载数据”，AJAX 超时设置为3秒，点击“确定”。

3）数据提取，接下来采集具体字段，分别选中页面标题、标签、分类、时间，点击“采集该元素的文本”，并在上方流程中修改字段名称。

鼠标点击正文所在的地方，点击提示框中的右下角图标，扩大选项范围，直至包括全部正文内容。

（笔者测试点击2下就全部包括在内了）
同样选择“采集该元素的文本”，修改字段名称，数据提取完毕。

4）由于该网站网页加载速度非常慢，所以可在流程各个步骤的高级选项里设置“执行前等待”几秒时间，也可避免访问页面较快出现防采集问题。

设置后点击“确定”。

步骤4：新浪博客数据采集及导出
1）点击左上角的“保存”，然后点击“开始采集”。

选择“启动本地采集
2）采集完成后，会跳出提示，选择“导出数据”，选择“合适的导出方式”，将采集好的数据导出, 这里我们选择excel作为导出为格式，这个时候新浪博客数据就导出来了，数据导出后如下图
相关采集教程：
xpath抓取网页文字
/tutorial/gnd/xpath
提取网页文字数据
/tutorial/gnd/tiqushuju
网页数据爬取教程
/tutorial/hottutorial
网页邮箱采集
/tutorial/hottutorial/qita/youxiang
网页抓取工具新手入门
/tutorial/xsksrm
循环翻页爬取网页数据
/tutorial/gnd/xunhuan
ajax网页数据抓取
/tutorial/gnd/ajaxlabel
八爪鱼——90万用户选择的网页数据采集器。

1、操作简单，任何人都可以用：无需技术背景，会上网就能采集。

完全可视化流程，点击鼠标完成操作，2分钟即可快速入门。

2、功能强大，任何网站都可以采：对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页，均可经过简单设置进行采集。

3、云采集，关机也可以。

配置好采集任务后可关机，任务可在云端执行。

庞大云采集集群24*7不间断运行，不用担心IP被封，网络中断。

4、功能免费+增值服务，可按需选择。

免费版具备所有功能，能够满足用户的基本采集需求。

同时设置了一些增值服务（如私有云），满足高端付费企业用户的需要。