网站新闻采集抓取教程
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
如何抓取网易新闻的网站数据(涉及Ajax技术)
互联网数据爆发式增长,有效获取、分析这些数据,并使之产生价值,是我们的工作所在。那么,首先要思考的问题是:如何抓取网站数据?
今天分享的是,使用网页数据采集器-八爪鱼,采集网站数据的一个完整示例。采集的目标网站是网易新闻。观察发现,打开网易新闻这一网站后,当下拉页面时,会发现页面有新的数据在进行加载。分析得出,此网站涉及Ajax技术,需在八爪鱼中进行一些高级选项的设
置,这一点需要大家特别注意。具体可上八爪鱼官网,学习
AJAX滚动教程。
采集网站:
示例规则下载:
https:///1875781361/FhuTqwUjk?from=page_1005051875781361_profil e&wvr=6&mod=weibotime&type=comment#_rnd1503315170479
步骤1:创建采集任务
1)进入主界面选择,选择自定义模式
如何抓取网易新闻的网站数据图1
2)将上面网址的网址复制粘贴到网站输入框中,点击“保存网址”
如何抓取网易新闻的网站数据图2
3)保存网址后,页面将在八爪鱼采集器中打开,红色方框中的信息是这次演示要采集的内容
如何抓取网易新闻的网站数据图3
步骤2:设置ajax页面加载时间
设置打开网页步骤的ajax滚动加载时间
1)在页面打开后,当下拉页面时,会发现页面有新的数据在进行加载
如何抓取网易新闻的网站数据图4
所以需要进行以下设置:打开流程图,点击“打开网页”步骤,在右侧的高级选项框中,勾选“页面加载完成向下滚动”,设置滚动次数,每次滚动间隔时间,一般设置2秒,这个页面的滚动方式,选择直接滚动到底部;最后点击确定
如何抓取网易新闻的网站数据图5
步骤3:采集列表内容
选中需要采集列表中的新闻框,创建数据提取列表
1)移动鼠标,选中图片中的新闻信息框。右键点击,需采集的内容会变成绿色
如何抓取网易新闻的网站数据图6
注意:点击右上角的“流程”按钮,即可展现出可视化流程图。
2)系统会识别新闻信息框中的子元素,在操作提示框中,选择“选中子元素”
如何抓取网易新闻的网站数据图7
3)系统会自动识别出页面中的其他同类元素,在操作提示框中,选择“选中全部”,以建立一个列表循环
如何抓取网易新闻的网站数据图8
注意:选中字段,鼠标放在该字段上会出现一个删除标识,点击即可删除该字段。
如何抓取网易新闻的网站数据图9
4)我们可以看到,页面中第一条电影评论区块的所有元素均被选中,变为绿色。选择“采集以下数据” 如何抓取网易新闻的网站数据图
10
5)修改采集字段名称,点击下方红色方框中的“保存并开始采集”
如何抓取网易新闻的网站数据图11
步骤4:数据采集及导出
1)根据采集的情况选择合适的采集方式,这里选择“启动本地采集”
如何抓取网易新闻的网站数据图12
说明:本地采集占用当前电脑资源进行采集,如果存在采集时间要求或当前电脑无法长时间进行采集可以使用云采集功能,云采集在网络中进行采集,无需当前电脑支持,电脑可以关机,可以设置多个云节点分摊任务,10个节点相当于10台电脑分配任务帮你采集,速度降低为原来的十分之一;采集到的数据可以在云上保存三个月,可以随时进行导出操作。
2)采集完成后,会跳出提示,选择导出数据
如何抓取网易新闻的网站数据图13
3)选择合适的导出方式,将采集好的数据导出
如何抓取网易新闻的网站数据图14
本文以网易新闻上的数据抓取为例,抓取了网易新闻-国际分类下的新闻标题、标签、发布时间、跟帖人数等信息。大家在实操过程中,基本步骤可参考以上操作。但因由于网页形式极为丰富,网页结构不尽相同,故需具体情况具体分析。
相关采集教程:
京东商品信息采集
百度搜索结果采集
搜狗微信文章采集