网络热点事件发现-计算智能

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

网络热点事件发现■计算智能

上海大学2015〜2016学年冬季学期研究生课程考试

文献阅读报告

课程名称: ________ 《计算智能》课程编号:08SB69005

题网络热点事件检测

研究生姓名:学号:

论文评语:

成绩:___________________

任课教师:王路

网络热点事件检测

2016年03月15日

摘要:网络的事件检测与内容挖掘是一个重要的研究方向,其任务是实时监控新闻报道流、

网页及微博、微信等媒体,并从中识别新话题、新事件。现有方法在基于网页的事件识别中已经比较成熟,然而对

于一些与传统媒体相差甚大的新媒体,例如微信,事件识别算法还比较欠缺。本文通过分析三篇事件检测的论文,

对事件检测的方法进行了探讨,并且对于新媒体的事件检测算法提岀了一些改进建议及思考。

关键词:事件检测算法新媒体

Inheritance Anomaly in Concurrent Object

Orientation Abstract: Network event detection and content mining is a hot topic. Its

task is to monitor the real-time news streaming, web pages, microblogging, blogs and other media, and then identify the

new topic and event. The existing methods are mainly focused to identify the webpage-based event, and it has been

relatively mature, however, for some of the new media like twitter, which is highly different from the normal webpage,

event recognition algorithm is relatively lacking. This paper analyzes three event detection papers, and gives a brief

introduction, finally put forward some suggestions for new media event detection algorithm in future improvement.

Key Words: event detection; algorithm; new media

1 研究背景及意义

热点事件是指某个时间段内各个领域内发生的引起人们较大关注的事件。如:“郭美美事件”、“表叔杨达才事件”、“房姐龚爱爱事件”等。这些事件都是来源于网络热点事件,这些事件对社会产生了重要的影响。然而目前对于热点事件的提取通常都是人工筛选的。

然而,在信息化的时代,网络信息的数据量成几何级增长,而且由于网络中言论的自由化,虚拟化,导致网络信息真假难辨,鱼龙混杂,此外网络中的信息传播速度快,受众量大,传播范围广,尤其是近年来出现的

微信,微博等新兴传媒形式,具有内容简短,参与发言人数众多,话题随意性强等特征。这些网络媒体所具有的特征导致人工识别和研判显得力不从心,如何利用计算机网络技术、人工智能技术和数据挖掘技术自动的检测和挖掘热点事件成为一个重要的研究课题。

热点事件的发现方法有很多,目前研究的一个重

要方向是在话题的基础上进行热点事件检测。话题是

指一个种子事件以及所有与其直接相关的事件与活动。例如:马航飞机的失联,失联本身是一个热点事件也是一个种子事件,而随后发生的一系列的营救活动,经济影响,政治影响等均属于此话题的直接相关事件。

目前有关话题事件的研究的工作主要集中于两类方法:一种是基于传统向量,空间话题模型的话题演化挖掘[13],通过将文档的时间信息作为话题属性引入到话题特征计算,进而构建具有动态演变性的话题模型;另一种方法则是在概率话题模型的基础上,通过计算时间信息与话题、文档、词项的后验概率分布完成对话题事件的内容检测和挖掘[19,20]。

随着微博这种新兴传媒的产生,其内容简短、随意性强的特性导致了一个新的热点事件检测方向。

[1]探讨了利用tweeter来做事件检测,运用其中的时间、文本以及地理标识[1]。Cheng[7]等提出了一个通过用户发布的微博内容预测用户发布微

博的位置信息的模型。文献[8]中则提出了社会

化社区中流行事件跟踪的统计模型,并和传统的感染模型进行了比较。Lee等人[10,11]对关键词定义了BursT加权公式,并引入了滑动窗口实时监

控事件的发生。[12]使用主题模型,对微博文本进行主题建模,从而避免数据稀疏问题。

2基于关键词元的话题内事件检测[23]

2.1主要思想

由于事件的个数难以确定,且相同话题的不同事

件新闻间的相似度较大。所以之前的基于话题的事件检测算法算法有所不足,于是本文提出了基于事件词元委员会的事件检测与关系发现方法。即首先挖掘每个事件的核心词元,从事件区别于其他事件的核心词元(词元委员会)入手,以核心词元代表事件,通过新闻与核心词元的相似度判断事件的核心新闻,进而根据新闻与事件核心新闻的相似度判断新闻所属事件。在Linguistic Data Consortium ( LDC) 的两个数据集上的实验结果显示,提出的事件检测与关系发现方法可以显著地改善已有方法的效果。

2.2算法主要步骤

本文算法主要分为基于词元委员会的事件检测和基于词元委员会的事件关系发现两个部分。

2.2.1基于词元委员会的事件检测

相关文档
最新文档