网络舆情热点发现与跟踪研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
网络舆情热点发现与跟踪研究
作者:桑远超
来源:《中国科技博览》2015年第30期
[摘要]网络舆情监控系统中的原始数据处于报道层,分析和处置的对象则位于事件层。针对这两个层次间的差距,本文首先研究事件、话题、报道三者间的关系,提出使用话题发现与跟踪技术归类不同话题,提高信息呈现的有序性,提升事件发现及分析的效率。针对话题发现生成话题重要程度难以区分的问题,通过研究网络中热点话题的典型特征,提出了一种热点话题评价模型,该模型可以对话题发现生成的不同话题计算其相对热度。研究了网络舆情热点发现系统的设计方法。针对高效数据采集的需求,设计并实现了分布式的主题爬虫。针对于大量非结构化数据存储的需求,将非关系型数据库运用到系统实现中。
[关键词]网络舆情;话题发现与跟踪;文本聚类
中图分类号:TP391.1 文献标识码:A 文章编号:1009-914X(2015)30-0114-01
一、引言
随着网民数量的增多,互联网资源的增加,网络媒体己经成为事实意义上的第四媒体,其影响也日趋深入于人们的日常生活。研究如何提早发现网络上的热点话题、敏感事件,并根据有关情况实施恰当的处理措施,成为了相关部门函待解决的一个问题。本文在基于相关的网络话题发现和追踪、热点话题发现以及搜索技术的研究基础上,研究如何实现自动热点话题发现与追踪,并基于以上技术实现网络舆情热点发现系统。该方法有助深入分析研究互联网舆情,实现热点信息、敏感信息的主动发现,为决策制订提供辅助信息;在提升互联网舆情的管理和控制,重大事件的应急响应能力方面能够发挥积极作用。
二、系统概述
1.1 数据采集功能
由于系统处理的是网络数据,首先需要实现对网页数据的自动收集功能。数据采集由指定页面开始,通过网页中的超链接访问指向的页面,收集到新的网页后重复获取链接访问页面的过程,在此过程中收集符合需求的网页数据。本系统中将新闻内容作为分析处理的数据来源,将采集的范围限制在指定网站的新闻板块。
信息采集是系统的基础功能,后续的相关分析处理都基于信息采集的数据来源进行。没有迅速、高效的信息收集就无法做到及时、准确的舆情分析。因此该信息采集部分一方面需要实现高效率的数据收集,另一方面需要覆盖足够数量的数据源,以保证数据收集的广度。
1.2 数据预处理功能
在本系统的处理过程中,数据的最初来源是网页。由于互联网的国际化特征,网页根据开发者的选择,往往遵守不同的字符编码规范,在处理之间需要将不同编码的页面转换为统一的字符编码。另外,网页数据是一种半结构化数据,一个页面除了待处理数据以外还包含其它的各种内容,如图片、视屏、链接、广告等,而且相关部分在HTML描述中缺乏足够信息表示其意义。因此,我们需要一种方式将系统所需的部分从网页中提取出来。该部分主要的功能就是将非结构化、有噪声、编码不统一的网页原始数据转化为结构化、内容规范、编码统一可由后续模块直接处理的数据。
1.3 舆情分析功能
这是舆情分析系统的核心部分,其功能根据需要可以包括热点话题识别、敏感话题识别、主题跟踪、趋势分析和预警等功能。根据实际项目需求,本系统集中于实现话题识别跟踪和热点话题发现两项功能。
热点话题识别是基于话题识别与跟踪的结果实现的功能。热点话题识别在产生己经归类的不同话题结果上,对各个话题的“热度”进行打分。通过对于话题“热度”的排序,给用户对于不同话题重要程度的判断一个相对的参考值,帮助用户分析出当前舆情信息中值得关注的主要话题。
1.4 数据存储功能
热点话题发现与追踪是一个依赖于大量数据分析处理得到结果的过程,因此系统需要有稳定的数据存储模块。本系统中,数据库作为数据流的中心,提供给各个相关模块数据存储、数据备份和数据交换的功能。通过与数据库进行交互能够避免各个模块设计设计单独的调用接口,有助于减少模块的祸合度。
三、系统实现方法
2.1 数据采集和预处理
该模块实现数据采集和数据预处理功能。数据采集通过网络爬虫实现。网络爬虫根据用户需求定制采集标准,从指定的URL开始,通过页面之间的相互链接,有选择性地自动获取页面。网络爬虫需要实现的基本功能是页面下载,除此以外,爬虫需要实现网页信息抽取,URL 的抽取、过滤、排序等相关功能。从结构示意方面来看,典型的爬虫包括下载模块,调度模块,URL队列三个模块。
其中下载模块实现页面下载,URL抽取,正文抽取功能。由于页面下载是阻塞时间较长的IO任务,该模块往往使用多线程技术或以异步IO以提高性能。对于获取的页面,由于网页中一般会包含有和页面主要内容不相关的图片、链接和文本内容,因此该模块需要应用用户配置的模式从页面中去除噪声并抽取出URL和网页正文。对于大量的网站定制相应的正文抽取规则是一项非常消耗人力的工作,当前的优化在于如何尽可能的实现页面正文的自动识别和抽取。
2.2 话题跟踪与热点话题发现
这是舆情分析系统的核心模块,热点话题发现与跟踪模块实现两个功能,一是舆情话题的发现与跟踪,另一个是热点话题的发现,后者的基于前者的结果实现。本模块包含实现功能较多,分解为多两个子模块实现整体功能。
当前模块通过过滤停用词实现降维,对于经过分词和词性标注的文本,过滤掉其中除名词和动词以外的词语。对于新闻报道,直观上通过名词和动词就可以分辨出报道的主题信息。当前模块中通过基于Python实现的jieba分词模块实现分词。
系统由数据采集模块负责收集原始数据,当满足聚类条件时,通过进程间通讯通知话题发现与跟踪模块从数据库中获取数据并处理。话题发现与跟踪模块处理结束后,通知话题热点发现模块判断话题热度。以上处理的结果写入到数据库中。
2.3 数据存储
热点话题发现与追踪是依赖于大量数据进行分析处理的任务,作为数据流的中心模块,数据库对数据采集和预处理模块、热点话题发现与跟踪模块提供数据存储功能,对用户结果展现和热点话题发现与跟踪模块提供数据读取功能。
在这些存取过程中,整个系统对于传统数据库主要支持的ACID原则--原子性、一致性、隔离性、持久性的需求不大,系统体现出一种更符合BASE原则--基本可用、柔性事务、最终一致性的相关特性,同时数据库所需要支持的主要的数据都具有半结构化的特征。因此本系统采用了适宜于处理非结构化数据对象的NoSql类数据库MongoDB实现相关数据的保存。
四、结语
随着互联网的影响力与日俱增,网络舆情左右社会事件发生条件、发展过程、处理结果的能力也随之增强,网络舆情的相关研究也越来越受到相关方面的重视。对此,本文针对网络舆情分析中数据量大,网络报道冗余度高,难以分辨舆情热点的问题,基于话题发现与跟踪相关研究设计了热点话题发现模型,并根据上述模型实现了网络舆情热点发现系统,验证了热点话