最新舆情监测系统采集技术分享

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

舆情系统原理-参考

舆情调查软件就从舆情监测系统的架构说起是：

1、舆情采集系统：

一、只要是互联网上发生的与“我”相关的舆情信息，都可以第一时间监测到，并且以最直观的方式显示出来，“一网打尽，一目了然”。监测网站类型包括：新闻、论坛、博客、贴吧、微博、电子报、搜索引擎等。

二、对于重点舆情以及负面信息通过手机短信等方式及时预警，不需要有专人值守就可以随时掌握舆情。

三、自动分析舆情信息的发展变化趋势、舆情信息的首发网站、作者、转载情况、热度变化、评估干预处理之后的效果等。

四、自动生成各种统计分析报表和舆情报告，助力舆情工作。配合相应的工作机制，可以有效提升舆情监管的质量和效率，提升舆情应对水平。

五、除了提供系统级7*24小时的运维服务，还配备专门的舆情分析师协助监测，人工预警。系统建设目标是整合互联网信息渠道，形成系统、有效的舆情监测机制。实现系统运行，监控互联网信息、新浪、腾讯等主要微博微博，对其进行实时数据采集、全网监控、分析、检索，对敏感信息进行预警，防止负面信息传播，对重大事件做出最及时的反应和相应处理建议。并对近一段时期的热点问题、敏感词句进行搜索，从而掌握网络舆情，辅助领导决策服务。主要的

门户网站，主要的报纸、主要的大型网络论坛、社区、贴吧、博客、微博。例如新浪新闻、各大报纸的电子报、天涯论坛、新浪微博、百度贴吧等。各类与我相关的以及区域内有影响力的网站。百度、谷歌、360搜索等搜索引擎。论坛搜索，博客搜索、微博搜索等专业搜索引擎。重点网站提供的站内搜索等。

2、舆情分析系统：

分析引擎是本系统的关键组成部分。其主要作用是对采集系统采集的数据，自动进行智能分析。分析引擎的主要功能包括：自定分析舆情级别、自动生成热点、负面舆情研判、自动分类、自动生成专题、转载计算、自动抽取舆情要素和关键词、自动摘要、自动预警、自动生成统计图表等功能。例如：多瑞科舆情数据分析站系统引擎内置了政府舆情模型、企业舆情模型和垂直监控模型，这些分析模型，是在多年舆情行业中按照客户的实际需求，不断重构和完善起来的，具有良好的实际应用效果。在实际项目中，不用通过二次开发就可以全面满足政府、企业单独应用。或者通过SAAS平台完成从上到下的垂直监测需求。对于特殊的应用需要，分析引擎还支持扩展插件，用于快速完成二次开发，支持各种需求定制。

3、舆情服务平台：

主要是用户进行日常舆情管理的平台，能够及时接受舆情信息，进行一些常规的舆情管理工作。

4.舆情系统原理:

全网舆情监测的手段：数据源的获取是做舆情监测的第一步，有了米才能做粥嘛。从获取的方法上有简单的取巧办法，也有复杂到需要应对各类网站难题的情况。方法大致如下：

使用搜索入口作为捷径

搜索入口有两类：一类是搜索引擎的入口，一类是网站的站内搜索。

做舆情监测往往是有主题、有定向的去做，所以很容易就可以找到监测对象相关的关键字，然后利用这些关键字去各类搜索入口爬取数据。

当然也会遇到反扒的问题，例如你长时间、高频次的爬取搜索引擎的结果页面，网站的反扒策略就会被触发，让你输入验证码来核实是否是人类行为。

使用搜索入口作为捷径也会带来一些好处，除了爬取门槛低，不需要自己收录各

类网站信息外，另一个特别明显的好处是可验证性非常好，程序搜索跟人搜索的结果会是一致的，所以人很难验证出你获取的数据有偏颇。

爬虫根据网站入口遍历爬取网站内容

第一步要规划好待爬取的网站有哪些？根据不同的业务场景梳理不同的网站列表，例如主题中谈到的只要监测热门的话题，这部分最容易的就是找门户类、热门类网站，爬取他们的首页推荐，做文章的聚合，这样就知道哪类是最热门的了。思路很简单，大家都关注的就是热门。至于内容网站怎么判断热门，这个是可以有反馈机制的：一类是编辑推荐；一类是用户行为点击收集，然后反馈排序到首页。

第二步是使用爬虫获取数据。爬虫怎么写是个非常大的话题，在这里不展开说明，需要提一嘴的是，爬虫是个门槛很低但是上升曲线极高的技术。难度在于：网站五花八门；反扒策略各有不同；数据获取后怎么提取到想要的内容。

数据检索与聚合

数据获取下来后哪些是你关心的、哪些是垃圾噪声，需要用一些NLP处理算法来解决这些问题。这方面门槛高、难度大。首先大规模的数据如何被有效的检索使用就是个难题。比如一天收录一百万个页面（真实环境往往比这个数量级高很多），上百G的数据如何存储、如何检索都是难题。值得高兴的是业内已经有一些成熟的方案，比如使用solr或者es来做存储检索，但随着数据量的增多、增大，这些也会面临着各种问题。

通常对热门的判断逻辑是被各家网站转载、报道的多，所以使用NLP的手段来做相似性计算是必须的，业内常用的方法有Simhash或者计算相似性余弦夹角。有些场景不单单是文章相似，还需要把类似谈及的文章都做聚合，这时就需要用到一些聚类算法，例如LDA算法。从实践经验来看，聚类算法的效果良莠不齐，需要根据文本特征的情况来测试。

目前舆情监测的现状存在很多待改进的地方。首先，手工监测存在天然局限性。通过安排固定人手24小时值班，不间断地浏览目标站点并搜索目标关键词，是在缺少自动化系统时最直接也是最初级的舆情监测方式。由于受到每个人主观思想的限制，手工监测总会有观察盲区，总会有觉得不重要但事后被证明很严重的地方，且手工无法察觉到一些站点或者一些偏僻的网页内容发生改变；同时，人

不是机器，长期反复监测容易导致疲劳，经常会使得该判断出来的舆情，一不留神就漏掉了。这些都会在实时性和准确性上存在很大波动。

其次是过度依赖搜索引擎。人们往往认为在网络舆情的大海里也只有搜索引擎才可能具备捞针的本领。但是，搜索引擎仍然具有不少局限性。除了搜索结果受关键词影响很大外，搜索引擎返回的结果往往来自不受任何访问限制的网站，而诸如论坛等需要登录的网站则完全被排除在外。但是网民发表意见最多的地方，恰恰是这些提供互动功能的网站。更进一步的，搜索引擎的网络爬虫具有一定的时延性，因此不能实时搜索到最新的网页更新。因此，搜索引擎不能为我们提供问题的全貌，因为它只针对关键词而不针对问题，所以谈不上全面性；搜索引擎也不能在第一时间得到我们所想要的结果，因为不仅是它的内容更新不够快，而且它也不能提供针对时效性的服务，所以谈不上及时性；搜索引擎只能在海量网页中返回另一个海量的结果，而且是以杂乱无章的形式，对于我们关心什么，它一无所知，所以它给出的结果是所有人都关心的，而非我关心的，因此也谈不上准确性。可见，我们不能完全依赖搜索引擎来监测网络舆情，需要提出全新的技术手段来获知网络舆情，并跟踪和分析舆情。

因此，要想保证舆情监测的实时性、全面性和准确性，最可靠的办法就是使用自动化的多瑞科舆情数据分析站系统舆情监测系统，依靠软件系统来消除人工方式的不足，依靠软件系统来定点的监测目标站点及整个网络，跟踪分析各个舆情主题的发展轨迹，并自动地整理生成日报/周报等报告，将舆情与政府的日常工作业务有机整合在一起.