网络舆情及其技术分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
网络舆情及其分析技术
舆情是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,民众对社会管理者产生和持有的社会政治态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。网络舆情形成迅速,对社会影响巨大,不仅需要各级党政干部密切关注,也需要社会各界高度重视。
随着因特网在全球范围内的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”,网络成为反映社会舆情的主要载体之一。网络环境下的舆情信息的主要来源有:新闻评论、BBS、聊天室、博客、聚合新闻(RSS)。网络舆情表达快捷、信息多元,方式互动,具备传统媒体无法比拟的优势。
网络的开放性和虚拟性,决定了网络舆情具有以下特点:1、直接性,通过BBS,新闻点评和博客网站,网民可以立即发表意见,下情直接上达,民意表达更加畅通;2、突发性,网络舆论的形成往往非常迅速,一个热点事件的存在加上一种情绪化的意见,就可以成为点燃一片舆论的导火索;3、偏差性,由于发言者身份隐蔽,并且缺少规则限制和有效监督,网络自然成为一些网民发泄情绪的空间。在现实生活中遇到挫折,对社会问题片面认识等等,都会利用网络得以宣泄。因此在网络上更容易出现庸俗、灰色的言论。
与国外相比,我国网络舆情还存在以下特殊情况:一是由于历史的原因,我国曾长期处于封闭状态,容易受到外来思想文化的冲击。二是目前我国正处于社会转型期,不可避免地存在诸多矛盾,容易使一些人出现情绪化冲动,以致不能明辨是非。三是少数社会管理者对于舆论习惯于回避或堵塞。
因此,网络这把锋利的“双刃剑”在提供了下情上达的便捷方式的同时,也对我国政治安全和文化安全构成了严重威胁,具体表现在以下三个方面:一是西方国家利用网络对我国进行“西化”、“分化”,网上思想舆论阵地的争夺战日趋激烈。二是传统的政治斗争手段,在网上将以更高效的方式实现,利用网络串联、造谣、煽动将比在现实中容易得多,也隐蔽得多。三是通过网络,西方的观念、生活方式可以便捷地渗透进来。
对于网络舆情的这些特点,社会管理者应当了然于心。对现实中出现的各种网络舆论,社会管理者应能做出及时反馈,防微杜渐,防患于未然。因此,必须利用现代信息技术对网络舆情予以分析,从而进行控制和引导。
由于网上的信息量十分巨大,仅依靠人工的方法难以应对网上海量信息的收集和处理,需要加强相关信息技术的研究,形成一套自动化的网络舆情分析系统,及时应对网络舆情,由被动防堵,化为主动梳理、引导。以多瑞科舆情数据分析站为例,系统应该具备以下功能:
首先是舆情分析引擎。这是舆情分析系统的核心功能,包括:1、热点话题、敏感话题识别,可以根据新闻出处权威度、评论数量、发言时间密集程度等参数,识别出给定时间段内的热门话题。利用关键字布控和语义分析,识别敏感话题。2、倾向性分析,对于每个话题,对每个发信人发表的文章的观点、倾向性进行分析与统计。
3、主题跟踪,分析新发表文章、贴子的话题是否与已有主题相同。
4、自动摘要,对各类主题,各类倾向能够形成自动摘要。
5、趋势分析,分析某个主题在不同的时间段内,人们所关注的程度。
6、突发事件分析,对突发事件进行跨时间、跨空间综合分析,获知事件发生的全貌并预测事件发展的趋势。
7、报警系统,对突发事件、涉及内容安全的敏感话题及时发现并报警。
8、统计报告,根据舆情分析引擎处理后的结果库生成报告,用户可通过浏览器浏览,提供信息检索功能,根据指定条件对热点话题、倾向性进行查询,并浏览信息的具体内容,提供决策支持。
其次是自动信息采集功能。现有的信息采集技术主要是通过网络页面之间的链接关系,从网上自动获取页面信息,并且随着链接不断向整个网络扩展。目前,一些搜索引擎使用这项技术对全球范围内的网页进行检索。舆情监控系统应能根据用户信息需求,设定主题目标,使用人工参预和自动信息采集结合的方法完成信息收集任务。
第三是数据清理功能。对收集到的信息进行预处理,如格式转换、数据清理,数据统计。对于新闻评论,需要滤除无关信息,保存新闻的标题、出处、发布时间、内容、点击次数、评论人、评论内容、评论数量等。对于
论坛BBS,需要记录帖子的标题、发言人、发布时间、内容、回帖内容、回帖数量等,最后形成格式化信息。条件允许时,可直接针对服务器的数据库进行操作。
多瑞科舆情分析系统的核心技术在于舆情分析引擎,涉及的最主要的技术包括文本分类、聚类、观点倾向性识别、主题检测与跟踪、自动摘要等计算机文本信息内容识别技术。这些技术一向是国内外信息工作者关注的领域。文本检索会议(TREC)、情报检索专业组会议(SIGIR)、文本检测与跟踪会议(TDT)等都是展示此类技术最新研究成果的最主要的国际会议和论坛。其中基于关键词统计分析方法的技术相对比较成熟,但在其有效性方面还有很大的提高空间。
近年来,专家学者一直在研究更加有效的方法,其中基于语义的内容识别方法是当前研究的重中之重,虽然也取得了较大进展,但仍存在很多问题和困难需要克服。为了增加我国网络信息控制能力,我们必须迎难而上,加强相关技术的研究。