新浪微博数据抓取方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

新浪微博数据抓取方法

新浪微博做为国内的老牌的社交媒体平台,日活跃用户达到1.65亿,可谓重大舆情的发源地,各种惊人讯息往往都是先从微博发酵起来的。故抓取新浪微博的数据就非常有价值了,可做个各种舆情分析或监控。

而如何抓取新浪微博数据呢?以下我们利用八爪鱼采集为大家做个简单演示。

示例网址:

采集的内容包括:博客文章正文,标题,标签,分类,日期。

步骤1:创建新浪博客文章采集任务

1)进入主界面,选择“自定义采集”

2)将要采集的网址URL复制粘贴到网站输入框中,点击“保存网址”

步骤2:创建翻页循环

1)打开网页之后,打开右上角的流程按钮,使制作的流程可见状态。点击页面下方的“下一页”,如图,选择“循环点击单个链接”,翻页循环创建完成。(可在左上角流程中手动点击“循环翻页”和“点击翻页”几次,测试是否正常翻页。)

2)由于进入详情页时网页加载很慢,网址一直在转圈状态,无法立即执行下一个步骤,因此在“循环翻页”的高级选项里设置“ajax加载数据”,超时时间设置为5秒,点击“确定”。

步骤3:创建列表循环

)鼠标点击列表目录中第一个博文,选择操作提示框中的“选中全部”。

1

由于进入详情页时网页加载很慢,网址一直在转圈状态,无法立即执行下一个步

骤,因此在“点击元素”的高级选项里设置“

ajax加载数据”,AJAX超时设置

为3秒,点击“确定”。

3)数据提取,接下来采集具体字段,分别选中页面标题、标签、分类、时间,点击“采集该元素的文本”,并在上方流程中修改字段名称。

鼠标点击正文所在的地方,点击提示框中的右下角图标,扩大选项范围,直至包括全部正文内容。(笔者测试点击2下就全部包括在内了)

同样选择“采集该元素的文本”,修改字段名称,数据提取完毕。

4

)由于该网站网页加载速度非常慢,所以可在流程各个步骤的高级选项里设置

“执行前等待”几秒时间,也可避免访问页面较快出现防采集问题。设置后点击“确定”。

步骤4:新浪博客数据采集及导出

,然后点击“开始采集”。

1)点击左上角的“保存”

2)采集完成后,会跳出提示,选择“导出数据”,选择“合适的导出方式”,将采集好的数据导出, 这里我们选择excel作为导出为格式,这个时候新浪博客数据就导出来了,数据导出后如下图

相关采集教程:

微博爬虫 /tutorial/hottutorial/zimeiti/weibo

单机采集提示异常信息处理(以新浪微博采集举例)/tutorial/djcjyc_7

新浪微博评论数据的抓取与采集方法 /tutorial/wbplcj-7

新浪微博发布内容采集方法 /tutorial/xlwbcj_7

微博图片采集 /tutorial/wbpiccj

微信公众号热门文章采集(文本+图片) /tutorial/wxcjimg

微信公众号文章正文采集 /tutorial/wxcjnotimg

微信文章采集

/tutorial/hottutorial/zimeiti/sogouweixin

微信文章爬虫使用教程 /tutorial/wxarticlecrawl

八爪鱼——100万用户选择的网页数据采集器。

1、操作简单,任何人都可以用:无需技术背景,会上网就能采集。完全可视化流程,点击鼠标完成操作,2分钟即可快速入门。

2、功能强大,任何网站都可以采:对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页,均可经过简单设置进行采集。

3、云采集,关机也可以。配置好采集任务后可关机,任务可在云端执行。庞大云采集集群24*7不间断运行,不用担心IP被封,网络中断。

4、功能免费+增值服务,可按需选择。免费版具备所有功能,能够满足用户的基本采集需求。同时设置了一些增值服务(如私有云),满足高端付费企业用户的需要。

八爪鱼——90万用户选择的网页数据采集器。

1、操作简单,任何人都可以用:无需技术背景,会上网就能采集。完全可视化流程,点击鼠标完成操作,2分钟即可快速入门。

2、功能强大,任何网站都可以采:对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页,均可经过简单设置进行采集。

3、云采集,关机也可以。配置好采集任务后可关机,任务可在云端执行。庞大云采集集群24*7不间断运行,不用担心IP被封,网络中断。

4、功能免费+增值服务,可按需选择。免费版具备所有功能,能够满足用户的基本采集需求。同时设置了一些增值服务(如私有云),满足高端付费企业用户的需要。

相关文档
最新文档