中文微博突发事件检测研究_王勇

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Digital Dissemination Research,Beijing Information Science and Technology University,Beijing 100101,China) 2 ( Beijing TRS Information Technology Co. ,Ltd. ,Beijing 100101,China)
与以上方法不同,本文先进行突发词集抽取,使用
突发词表示文本,然后分析微博描述突发事件的特性, 对文本进行过滤,去除垃圾信息,最后提出一种 基 于 “绝对聚类”的方法对文本进行聚类,返回各类簇中热 度最大的微博作为突发事件的检测结果。
本文研究的内容和话题检测与跟踪 ( Topic Detection and Tracking,TDT ) 研 究 中 的 子 任 务 话 题 检 测 ( Topic Detection Task,TD) 有一些共同之处,主要任务 都是检测和组织系统预先未知的话题[14]。不过两者也 有很大不同,相对于 TD 而言,本文更侧重于从大规模数 据中检测突发事件,并且还涉及到垃圾信息的处理。
以文本为中心的方法针对传统的文本,效果较好, 但是微博文本中含有很多垃圾信息,先进行聚类再进 行突发特征识别会引入很多噪声信息,并且在文本聚 类时还存在较多阈值的选取问题,阈值选取大多是根 据经验值来 设 定,对 聚 类 结 果 比 较 敏 感。 以 特 征 为 中 心的方法避免了阈值的问题,但是没有很好地解决垃 圾信息的问题。
3 微博文本特征表示
由于微博内容简短,传统的基于词的特征向量方
法易导致 向 量 的 稀 疏 性 问 题 和 空 间 高 维 性 问 题。 因
此,本文使用突发词作为微博文本的特征,构建基于突
发词的微博文本特征向量。
3. 1 突发词集抽取
定义 1: 突发词
对于在某个时间段 Si( i > 0) 内出现的任意一个词 k,如果 Fi,k ≥δ1 、Ri,k ≥δ2 且 Wi,k ≥δ3 ,则称这个词为突 发词。
其中,Fi,k 表示词 k 在时间段 Si 内的词频,Ri,k 表示 从时间段 Si -1 到时间段 Si 内词 k 的增长率,Wi,k 表示词 k 在时间段 Si 内的 TF - PDF 值,δ1 、δ2 和 δ3 表示待设定 的三个阈值。Fi,k ≥δ1 表述词 k 的“热点性”,Ri,k ≥δ2 表 述词 k 的“突发性”,Wi,k ≥δ3 表述词 k 的“重要性”。
本文中,使用突发词表示的文本称为突发词文本。
2 相关工作
目前,国内外针对文本流的突发事件研究已经有 不少成果,但是针对微博的突发事件研究,还是比较新 的领域。
按照突发特征识别的顺序,突发事件识别可以分 为以文本为中 心 的 方 法[3,4] 和 以 突 发 特 征 为 中 心 的 方 法[5 -7]。前者是先进行文本聚类,再在类中抽取出突 发特征,进行突发事件的识别; 后者是先抽取出突发特 征,再对突发特征进行分组,使用突发特征组进行突发 事件的识别。
词条件的词,构成 Si 内的突发词集,记为 BurstSeti 。
BurstSeti = { Termi1 ,Termi2 ,…Termi,j ,…}
( 4)
其中,Termi,j 表示时间段 Si 中的第 j 个突发词。
3. 2 文本的突发词向量
对于某个时间段 Si 中的任意微博文本 texti,j ,可以 用突发词向量表示为:
58 现代图书情报技术
总第 230 期 2013 年 第 2 期
Frequency) [15]算法能很好地解决这个问题,并且该算
法考虑到词在不同渠道( Channel) 下的权重,本文使用
TF - PDF 算法计算语料中词的权重,计算方法如下:
Wj
D
=

c =1
|
F
jc
|
exp(
njc ) Nc
( 2)
总第 230 期 2013 年 第 2 期
中文微博突发事件检测研究*
王 勇1 肖诗斌1,2 郭跇秀1 吕学强1,2 1( 北京信息科技大学网络文化与数字传播北京市重点实验室 2 ( 北京拓尔思信息技术股份有限公司 北京 100101)
北京 100101)
【摘要】从微博中准确而高效地挖掘出突发事件是近年来的研究热点。通过词频统计、词增长率计算和 TF - PDF 算法抽取突发词集,使用突发词表示文本并结合微博突发事件的描述特征进行文本过滤; 提出一种“绝对聚类”算 法,对描述突发事件的文本进行聚类,并通过微博的回复数和转发数加权计算热度,检测各类事件中热度最大的 作为突发事件。检测准确率为 92. 60% ,召回率为 85. 51% ,F 值为 0. 89。实验结果表明,相比于传统的突发事件 检测方法,该方法能够比较准确地检测到微博中的突发事件,有一定的应用价值。 【关键词】突发事件 突发词 文本过滤 绝对聚类 【分类号】TP311. 6
微博具 有 便 捷 性、背 对 脸 和 原 创 性 等 特 性。 尤 其 是便捷性,不再像传统博客每次都要思考很久并且长 篇大论; 反之,用户可以随时随地发布自己的信息,这 给人们的信 息 交 流 带 来 质 的 飞 跃。 然 而,微 博 中 充 斥 着各种各样的短信息,也给用户获取自己感兴趣的突 发话题增加了 难 度[2]。 在 数 据 爆 炸 的 今 天,用 户 不 可 能通过阅读大量的微博信息来获取实时的突发事件。 因此,从海量微博数据中挖掘出用户感兴趣的突发事 件,是非常有意义的。
| Fjc | =
Fjc
K
( 3)
槡k
∑F =1
kc
2
其中,Wj 为 词 j 的 权 重,在 微 博 渠 道 ( Channel) c
中,Fjc 为词 j 的词频,njc 为包含词 j 的文档数,Nc 为所
有文档数,K 为某个微博渠道中所有词的词数,D 为微
博渠道的数目。
根据定义 1,抽取时间段 Si( i > 0) 中所有满足突发
XIANDAI TUSHU QINGBAO JISHU 57
情报分析与研究
可以随时和朋友、关注的人和被关注的人进行交流、讨 论。目前,国外著名的微博服务有 Twitter,国内中文微 博服务主要有网易微博、腾讯微博、搜狐微博和新浪微 博等。据中国互联网信息中心( CNNIC) 统计显示,截 至 2012 年 6 月底,我国微博用户数达到 2. 73 亿,较上 一年底增长了 9. 5% ,网民使用率为 50. 9% 。 [1]
( 2) TF - PDF 权重计算
TF - IDF 算法是信息索引领域常用的权重算法,
其中 IDF 的计算倾向于在别的文本中出现更少“区分
度”较高的词。而突发事件中,出现突发词的文本数比
较多,使用 TF - IDF 算法不利于突发词的权重计算。
而 TF - PDF ( Term Frequency - Proportional Document
1引言
微博是近年来出现的新兴媒体,和传统的博客不同,它是一个可以方便快捷地发布、分享、传播以及获取信息 的 平 台 ,用 户 可 以 通 过 网 页 、WAP 页 面 、短 信 、实 时 消 息 软 件 、电 子 邮 件 以 及 各 种 客 户 端 组 件 等 发 布 和 接 收 信 息 ,
收稿日期: 2013 - 01 - 18 收修改稿日期: 2013 - 02 - 12 * 本文系国家自然科学基金项目“基于本体的专利自动标引研究”( 项目编号: 61271304) 、国家自然科学基金项目“网页内容真实性评价 研究”( 项目编号: 61171159) 、北京市教委科技发展计划重点项目暨北京市自然科学基金 B 类重点项目“面向领域的互联网多模态信息精准搜 索方法研究”( 项目编号: KZ201311232037) 和国家科技支撑计划课题“增强型搜索引擎关键技术研究与示范”( 项目编号: 2011BAH11B03) 的 研究成果之一。
Research on Chinese Micro - blog Bursty Topics Detection
Wang Yong1 Xiao Shibin1,2 Guo Yixiu1 Lv Xueqiang1,2 1 ( Beijing Key Laboratory of Internet Culture and
texti,j = { e1 ,e2 ,…eL }
( 5)
其中,如果 texti,j 包含该时间段中的某个突发词 k,
则 ek = 1,反之,ek = 0。例如,如果 Si 内突发词集为{ 汶
Leabharlann Baidu
川,地 震,纪 念} ,文 本 texti,j 中 包 含 突 发 词 { 汶 川,纪
念} ,则 texti,j = { 1,0,1} 。
在以文本为中心的事件识别中,由于微博受字数 限制( 一般在 140 个字以内) 导致本身内容短小,数据 稀疏性问题 比 较 严 重。针 对 数 据 稀 疏 性 问 题,目 前 常 用的方法有基于语义扩展的方法[8 -11]和进行主题建模 的方法。主题建模方法中,最常用的是经典的 LDA 方 法以及 LDA 方法的一些扩展[3,12,13]。
( 1) 词增长率计算
词的增长率 Ri,k 表示当前时间段 Si 中的词 k 相对
于上一个时间段 Si -1 的增长率,计算方法如下:
{Ri,k =
Fi,k Fi - 1,k
Fi - 1,k > 0
( 1)
NaN
Fi - 1,k = 0
当 Fi -1,k = 0,即当前时间段 Si 内出现的某个词 k 词频很大,但是上一时间段 Si -1 内没有出现时,Ri,k 的 值为一个比较大的常数 NaN。
【Abstract】Much attention is paid to mining bursty topics accurately and efficiently from micro - blog nowadays. In this paper,a set of burst terms are extracted by counting the term frequency,calculating the growth rate of the terms and using Term Frequency - Proportional Document Frequency ( TF - PDF) algorithm to measure the weight. And then micro - blog texts are described with the burst terms. Analyzing the characteristic that bursty topics propagate in the platform of micro - blog,the authors filter the texts that do not contribute to detect bursty topics. The paper proposes a novel clustering strategy of “Absolute Clustering”to cluster the micro - blog texts. By figuring up the hot spot of the texts with weighted value of reply and retweet number,the top 5 texts are extracted as the result of burst topics detection. The experiments show that the precision is 92. 60% ,the recall is 85. 51% and the F - measure is 0. 89. Contrast with the traditional method,the validity of the proposed method is proved. 【Keywords】Bursty topics Burst terms Filter Absolute clustering
相关文档
最新文档