如何实现搜索关键词的新浪微博信息采集与监控

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

搜索新浪微博指定信息的采集与监控

之前我们已经讲过如何采集新浪微博博主信息的采集与监控,但是也听很多朋友说,我需要监控特定关键词的相关微博最新信息,那么我们应该如何采集呢,下面的教程就主要实现我们对搜索出来的微博信息采集与监控。

众所周知,微博微信作为时下最火热的社交平台,如果能对这两个平台上的数据进行深入分析挖掘,那么价值将非常巨大,但是在采集过程中,很多朋友也因为新浪的防采集很是头痛,笔者通过多方比较尝试,笔者最终顺利完成了整个数据采集过程,要采集的数据为指定城市的所有微博用户的相关信息。比如微博内容、微博评论数、微博转发数等等,进入正题,看看具体一步一步怎么操作来实现的。

此次的教程需要用到的是熊猫采集软件,这是新一代的智能采集器,操作非常简单容易,不需要专业基础,新手首选。且功能特别强悍复杂,只要是浏览器能看到的内容,都可以用熊猫批量的采集下来。如各种电话号码邮箱,各种网站信息搬家,网络信息监控、网络舆情监测、股票资讯实时监控等等。

熊猫采集器是唯一拥有子页面嵌套访问功能的采集软件,对于本案例涉及到的微博的信息获取,需要利用这个功能,轻松获取到js加载的信息内容。

如果有兴趣的看官们,可以百度熊猫采集软件下载即可,熊猫的免费版就已经包含我下面演示所以功能。

那么我就进入本次教程的演示环节吧!

首先,我们打开我们这次采集需要的工具,也就是熊猫采集器,点击新建项目(标准)

这个时候是进入我们的基础设置,在这里,我们可以给我们创建的项目命名一个名称已方便我们以后好区分我们之前设置过的项目,当然,我们不设置也是可以的,因为我这里是采集搜索出来的新浪微博信息,我就去了一个新浪微博收索的名称。

直接点击下一步设置,进入到标题列表页及其翻页设置,列表页是包含我们要采集内容的链接网址的页面,比如百度搜索一个关键词,会列出来很多网页,这些网页我们就可以认为是标题列表页面。我们在新浪微博搜索的地方需要我们要监控的关键词,比如我要监控“财经行业”这个关键词的微博信息,那么我们就需要这个关键词点击搜索就会出来我们需要的标题列表页面。

如下图:

下面我们将这个标题列表页的网址拷贝到我们的软件中来

因为信息里面的信息内容是经过了Unicode加密处理,那么我们在分析并采集他的内容的时候需要进行一下Unicode解密,在熊猫的高级设置里面解析设置里面就有这个功能,我们只需要在软件里面讲它勾选上即可,如下图,

点击确认出来,点击开始进行预分析的按钮,会出现下图的提示

如果我们需要翻页采集,那么选择是即可,不要则选择否即可。因为新浪搜索出来的信息页没有翻页,所以这里我们选择否即可,如果你要采集的信息地方需要多页采集,那么我们就需要进行翻页设置采集,这个可根据你的实际情况来决定。在采集新浪的时候,我们必须要进行登陆才可以采集。所以这时候我们需要利用熊猫的模拟登录功能来实现我们的登陆,首先我们需要利用抓包工具或者流量器自带的抓包,来获取到我们账户登陆过的cookie,这里我就用浏览器的抓包,右键我们的鼠标,会出现审查元素,点击进去,选择network,如下图:

这个时候我需要重新刷新一下页面,找到我们需要的cookie即可

将这个cookie放入到熊猫进行模拟登陆:

做完了这些工作,我们如果在分析完网页后,打开源码,会发现其中有转义字符,这个时候我们需要将源码做一个修缮,将这些转义字符换成我们正常的字符。那么下面进入源码的修缮

下面点击下一步设置,进入到我们选择内容页的设置,这个时候我们不能像采集如新闻页面一样的直接可以找到我们需要采集进去的链接,我们需要利用方式3,中介出来我们收索出来的这些微博的网址。这个时候我们需要抽取出源码中的某些代码,然后进行组合,形成我们需要采集的微博的网址

点击检查中介设置的时候,右边就会出现我们所以需要采集的网址了,下面进入下一步设置,也就是内容页模板管理设置。这里系统默认会把我们在上一步第一条中的链接作为模板,在这里,我们也可以自己选择一个链接作为模板,只要把网址粘贴到添加新模板按钮左边的文本框里,点击添加新模板即可,但是这里我们就不要自己去找模板了,直接使用上一级传过来的就可以了。如下图:

点击添加新模板之后会弹出一个设置模板的新窗口。点击软件右上方的开始分析,稍等片刻之后软件会询问你是否需要软件自动提取标题正文,一般情况下我们在这里都会选择否,如果你是采集新闻类的内容,这个地方你也可以选择是,也可以选择否,(选择是的话就软件就直接帮我们分析出来标题和正文了,操作就很简单,选择否就需要我们自己找到我们要采集的内容,这种操作会很灵活,由于选择是非常简单,而且我们采集的也不是新闻,所以我们这里就选择否了)如图

这个时候,我们会发现并没有内容可供我们采集,这个原因是因为新浪做了防采集措施,我们需要对源码进行一个修缮,

具体修缮规则如下

这个时候保存,出来,再次点击开始分析,我们会发现我们想要采集的内容已经出现在熊猫在左栏中了,如图:

这个时候我们只需要进行一步很简单的操作,就可以将我们要的信息采集下来,选中我们想要采集的信息,勾选上采集该项,用我们表里面的任意一个字段存下来即可:

当然,针对这些可见信息,只要我们简单的勾选上即可,有些朋友会说,我怎么采集不到发布微博的作者呢?这是因为作者信息被隐藏起来了,我们需要利用中介方式来将我们的作者信息给获取到,在获取我们的作者信息的时候,我们需要做一个工作,就是去项目高级设置里面将采集里的显示内容页面的url勾选上,如图:

下面到我们的模板页面里面将我们需要的作者信息给找出来,也就是利用我们的中介方式,我们需要找到在源码中作者是在什么地方?通过我们的查找,作者的信息存在着很多地方,我们需要找到一个有唯一性的做为我们中介的代码,通过我们查找,发现以&name=开头,并以&uid=为结尾的地方是一个具体唯一的标示地方。那么我们就通过这段源码来采集我们需要的作者信息,中介规则如下

然后勾选上该链接为指向下级子页面的链接,进去就可以采集我们这条网址信息了。

相关文档
最新文档