基于LDA的微博热点话题发现研究
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
热 点话题发 现[ J ] . 计算机仿真, 2 0 1 3 , 1 1 ( 3 0 ) : 3 8 3 — 3 8 7 [ 4 】 李永道. 微 博热 点话题发现方法研究【 D] . 南京: 南京师范大
学, 2 0 1 3
( 5 ) 使用 c l l r e聚类算法Ⅲ 进行热 点话题 聚类 。
【 2 】 h t t p : / / w ww . c n p a me n g . c o r n /
( 2 ) 经过预处理 的微博文本 , 按照时间顺序每 5 0 0个微博 做 为 一个文 档 ,分成 8 O个 文档 。使用 中科 院 的分词 系统
I C T C L AS分 词 。
算法 , 注 重 微 博 文 本 语 义 层 面 的挖 掘 , 得 到 了一 定 的 效 果 。但
2 实验 与 结果分 析
本文所使用的实验语料是使用 中国爬盟提供 的微博采集
器 在新浪微博上采集的微博文本 。本文采集 了这个时 间段
中发布 的 4万篇微博 。实验步骤如 下:
( 1 ) 预处理 , 在采集 的微 博文本中“ @” 后面 的内容是提 到 的用户名 , 对 于本文的微博热点话题发现研究没有意义 , 所 以 把这部分 内容过滤掉 。其次, “ ¨ 料¨群 ”符号里面的 内容往 往是某个用户 或新浪 平台 自己发起的话题讨论标题 ,需要过
2 0 1 5 年 第 5 期
信 息 通 信
I NF OR M ATI ON & COM M UNI CAT I ON S
2 01 5
( 总第 1 4 9期)
( S u m . N o 1 4 9 )
基于 L D A 的微 博 热 点话 题 发 现研 究
梁 韬, 朱艳辉 ( 湖 南工业 大学 计算机与通信学院 , 湖 南 株洲 4 1 2 0 0 8 )
表 2 本 文 方 法
表示每个特征词对某个主题 的贡献值 ,值越大表示这个 特征
词对主题 的贡献越大 , 更能表征该主题 。 设文档有 K个主题 , N 个词语 。本 文使用 L DA 模型进行微博 文本特征 提取 的步 骤如下 : ( 1 ) 把p h i 分布中的词语在每个主题下按照值从大Nd , 的 顺序排序 ;
果。
( 2 ) 设定一个 比例值 n , 按照该比例提取每个主题下的特
征 词语数 , 为n * N个 。 因为共有 K个主题 , 所 Байду номын сангаас提取 的特征词
语个 数为 n N K。
3 结语
以新浪微博为代表 的中文微博 社交媒体 的发展迅速 ,使 得微博热 点话题研 究领域得 到越来越 多人的重视 ,本文在前 人 的研 究基础上 , 提 出了基于 L DA模 型的微博 热点话题发_ f 见
无监督学 习的方法从文本中发现文本 中所包含 的隐含语 义。 使用 L D A模 型提取文本特征可 以去除大 量的垃圾信息词语 ,
节约计算成本 , 提高结果 的满 意度 。L D A 的模型假 设每篇文 章是 由主题随机组成 的,而每个主题又是 由若干特征词 语随 机组成, 在进 行 L DA建模的时候 , 会生成一个分布 p h i , 分布 p h i 表示 的是 “ 特征词和主题” 的分布, p h i 分布 中的每个 元素
基金项 目: 国家 自然科 学基 金项 目, 黎曼流形上基于均值偏移 的逆半调研究项 , 项 目编号 : 6 1 1 7 0 1 0 2 。 作者简介 : 梁韬 ( 1 9 8 9 一 ) , 男, 安徽肥 西人, 研 究方 向为文本 分 类, 智能信息处理 。
摘要 : 随着微 博 的广 泛应 用, 每 天会 产 生海 量的微 博 文本 , 从 这 些海 量 的微博 文本 中快速 准确 地发 现 热点 话题 已 经成 为微博 研 究 的重 点。 文章 利 用 L DA 模 型进 行特 征 选择 , 降低 了数据 处 理 的维度 , 提 高 了微 博热 点话 题 算 法
效率。
关键词 : 微博; 热 点话题 ; L DA
中图分类号 : T P 3 9 3 . 0 9 2 文献标识码 : A 文章编号 : 1 6 7 3 . 1 1 3 1 ( 2 0 1 5 ) 0 5 . 0 0 3 2 — 0 1 结果如表 1 、 表 2所示:
表l B a s e l i n e 方 法
滤掉 。
是本文 没有 考虑 到统计方面的 问题, 考虑得较单 一, 所 以在 下 步的研究中将考虑微博 文本统计 与语义两个层面的信 息进 行微博话题发现研究 。
一
参考文献: [ 1 ] 董婧 灵. 基于 L DA模型 的文本 聚类研 究【 D 】 . 武汉: 华 中帅
范大学, 2 0 1 2
l基 于 L DA模 型 的特征 选择
L D A( L a t e n t Di r i e h l e t Al l o c a t i o n ) 模 型 是 一 种 用 于 生 成 文
档主题的模型 , 同时也被称 为一个三层 贝叶斯概率模型 , 该模 型包含 了文档 , 主题 , 词语三层结构… 。L D A模型 的 目的是 以
由表 1与 表 2可 知 本 文 的 算 法优 于 b a s e l i n e 的结果, 本 文 的 特 征 选 择 算 法 可 以通 过 较 少 的 微 博 数 目表 现 出热 点话 题 的
信息 。并且从大部分 的话题 中得到优于 b a s e l i n e的 F值 。因
此本文基于 L DA 的微博热点话题发现方法取得 了一 定的效
[ 3 】 杨长春 , 周猛, 叶施仁, 徐小松. 基 于改进 C UR E算法的微博
( 3 ) 特征提取 , 按照 Gi b b s 抽样 ( 本文使用 G i b b s 抽样 的方 法实现 L DA模型)的数据格式对文档进行基于 L D A模 型的
特征词提取过程 。 ( 4 ) 构 建微 博文本的 V s M( 向量空 间模型) 。 。