基于动态LDA主题模型的内容主题挖掘与演化_胡吉明
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文本内容挖掘与语义建模是信息推荐和数据挖掘 领域的研究热点与核心内容, 而文本内容的主题挖掘 则是语义建模的重要基础 。 当前网络环境下, 信息内 容具有呈动态交互和随时间发展演化等特征, 因此要 求创新信息内容挖掘方法, 提升内容主题挖掘的准确 性, 动态描述其演化趋势 。基于此, 本文对传统潜在狄 利克雷分布( LDA ) 主题模型进行动态化改进, 运用增 量 Gibbs 抽样估计算法, 实现文本内容主题的准确挖 掘; 在文本时间片划分的基础上, 基于主题相似度和强 度度量, 描述内容主题的时间演化趋势 。 本文研究对 语义层次的信息内容建模以及提高内容描述的准确性 具有重要作用 。
[4 ] 是目前最常用 汇、 主题和文本之间的语义关联问题 ,
热点问题难以跟踪的问题, 通过计算文献作者的舆论 评价得到每个评价社区的关键词概率描述, 实现了社 区中评论主题的发现, 对文本语义挖掘和共享等具有 重要意义
[12 ]
的文本主题提取方法
[5 ]
。 更重要的是, LDA 主题模型
。黄颖通过基于 LDA 和主题词的相关性
[15 ] 掘, 提取出 T 个主题, 运用增量 Gibbs 抽样算法 得
图2
动态演化 LDA 文本生成模型
图 2 中, 可直接观测变量( 词汇) 用实心圆表示, 隐 含的潜在变量( 主题) 用空心圆表示; 图中矩形表示重 复过程, 大矩形表示从狄利克雷( Dirichlet ) 分布中为文 小矩形 本集中的每个文本 d 反复提取的主题分布 θ d , 则表 示 从 主 题 分 布 中 反 复 抽 样 产 生 的 文 本 词 w2 , …, w V }。 汇 { w1 , 根据传统 LDA 模型的文本生成过程, 动态 LDA 主 题模型运算过程如图 3 所示:
( ) - i, j t -1 ( wi ) - i, j t -1
。 在基于动态 LDA 主题
)
是上一时间
模型的 文 本 挖 掘 和 演 化 研 究 中, 本 文 采 用 KL 距 离 ( Kullback-Leibler divergence ) [4] 计算主题 - 词汇 概率 分布之间的相似度, 观测时间片文本集中内容主题的 差异, 描绘主题随时间变化的脉络和趋势; 与此同时, 主题强度的变化采用主题在时间片文本集内所占的比 从而得出时间片内内容主题 例来衡量( θ 的平均值) , 强度的变化趋势 。 3. 1 基于主题相似性计算的演化 KL 距离是衡量两个主题概率密度分布差异最常 用的度量标准, 公式为: D ( P ( w s1 ) ‖P ( w s1 ) ) = ∑ P ( w s1 ) log
[17 ]
此, 本文增量改进原始 Gibbs 抽样算法 2. 2
, 并将其运用
于 LDA 主题模型中实现其动态化运算 。 基于增量吉布斯抽样估计的主题确定 本文在进行动态 LDA 模型构建时, 首先引入先验 加 权,重 新 计 算 时 间 片 t 时 刻 的 后 验 概 率 P t
W U 为用户自行设定的权重, 词汇数, 本文认为当前时
139
胡吉明
陈果. 基于动态 LDA 主题模型的内容主题挖掘与演化
( zi = j z - i , wi , di , ), 即目标函数的计算公式变为: wi , di , Pt ( zi = j z - i , ) =
( w) w) d) ( n( ( n( - i, j ) t + v ( n - i, j ) t -1 + β - i, j )t + α ( ) ( ) ( d) ( n - i, j ) t + v ( n - i, j ) t - 1 + Vβ ( n - i, ) t + Tα ( w) ( d) w) T n ( n( ( ( + v n + ) ) β - i, j t - i, j t -1 - i, j )t + α ∑ ( ) ( ) ( d) j =1 ( n - i, j ) t + v ( n - i, j ) t - 1 + Vβ ( n - i, ) t + Tα
明等基于 LDA 模型研究了用户评论内容主题和热点 关键词的挖掘方法, 实验表明该模型具有较好的热点 主题识别效果
[11 ]
、 概率潜在语义分析
和 LDA
[3 ]
, 通过对人类思维过程的模拟, 找
。 刘洪涛等针对内容主题不明确和
到产生文本的最佳主题和词汇, 能够最大程度地表示 文本中所蕴含的含义, 信息丢失较少, 较好地解决了词
138
第 58 卷 第 2 期 2014 年 1 月
题数目以探知新事件
[13 ]
。
间片内的文本信息受到上一时间片文本信息的影响) 从而建 作为当前时间片文本主题提取的先验概率 φ t , 立动态 LDA 文本主题挖掘模型, 如图 2 所示:
2
基于动态 LDA 的内容主题挖掘模型
网络环境下文本信息所具有的短文本结构特征加
基于产生式的三层贝叶斯概率计算得到通过潜在主题
新事件监测模型, 结合报道发生的时间确定合理的主
“社会网络环境下 信息 内 容 主题 挖掘 与语义 分 类 研究” ( 项目编号: 13YJC870008 ) 和国家 自然 科 * 本文系教育部人文社会科学青年基金项目 “社会网络环境下基于用户 - 资源关联的信息推荐研究( 项目编号: 71303178 ) ” 学青年基金项目 研究成果之一。 [作者简介] 胡吉明, Email: whuhujiming@qq. com; 陈果, 武汉大学信息资源研究中心讲师, 武汉大学信息资源研究中心博士研究生。 收稿日期: 2013 - 11 - 13 修回日期: 2014 - 01 - 04 本文起止页码: 138 - 142 本文责任编辑: 王传清
文本内容的主题提取即选择合适的文本内容主题 和特征词汇, 以 此对文本内容进行特征描述和建模 。 主题模型作为一种文本内容的概率生成模型或产生式 模型, 如潜在语义 分 析 ( LSA ) ( PLSA)
[2 ] [1 ]
构建了基于语言模型的 新 奇 新 闻 检 测 系 统 BilNov -
[10 ] 2005 , 实现了新奇新闻主题的动态实时挖掘 。 余传
第 58 卷 第 2 期 2014 年 1 月
基于动态 LDA 主题模型的内容主题挖掘与演化
■ 胡吉明 [ 摘 陈果
*
要] 指 出文本 内 容 主题 的 挖掘 和演 化 研究 对 于 文本建 模 和 分 类 及 推 荐 效 果 提 升 具 有 重要 作 用 。 从
分析基于 LDA 主题 模型的文本 内 容 主题 挖掘 原 理 入 手, 针 对 当 前 网 络 环境下 的文本 内 容 特 点 , 构建 适 用 于 动 态 文 内容本主题挖掘 的 LDA 模 型, 并通过 改 进的 Gibbs 抽样 估 计提 高主题 挖掘 的准 确性 , 进而从 主题 相 似 度 和 强度两个方 面研究 内 容 主题 随 时间 的演 化问题 。实验 表明 , 所提方 法 可行 且有 效 , 对后 续 有 关文本语义建 模 和 分 类 研究 等具有 重要 的实 践 意 义 。 [ 关键词] 主题 挖掘 [ 分类号] G202 DOI: 10. 13266 / j. issn. 0252 - 3116. 2014. 02. 023 主题 演 化 动 态 LDA 模型
有限混合表示的文本, 并且通过词汇表中所有词汇的 概率分布来表示每个主题, 文本内容则根据主题和词 汇的混合分布来区分
[6 ]
。 LDA 主题模型采用 Dirichlet , 因此具有很好的先验概率
分布简化了模型的推导过程, 避免了 LSA 和 PLSA 模 型产生的过拟合的问题
[7 ]
假设, 参数数量不会随着文本数量的增长而线性增长, 泛化能力强, 在算法复杂度和展示效果方面表现优越, 广泛应用于文本主题挖掘 、 文本分类聚类 、 文本检索 、 内容主题演化等领域
图1
基于动态 LDA 主题模型的文本主题挖掘框架
在基于 LDA 主题模型进行文本主题提取的过程 中, 本文改进的重点是基于时间窗口将动态演化的文 本按时间窗划分, 按照文本内容主题的连续性和差异 性, 运用增量 Gibbs 抽样算法进行抽样计算 。 d2 , …, dl }, 首先, 确立时间 t 内的文本集合 Dt = { d1 , 时间窗大小根据用户需求 、 具体应用领域和文本分析 的粗细粒度设定( M t ) 。 文本时间片一旦划分, 则保证 不同时间片内的文本不能交换, 而同一时间片内的文 本可以交换 。其次, 根据前一时间的主题 - 词汇分布 的后验概率 φ t - 1 乘上权重 W ( W = Vt WU , V 为 t 时刻的 Vt - 1 t
t 4. 1 从多项式分布 θ t d 中抽样生成主题的概率分布 z j: P ( z j α ) 4. 2 从多项式分布 φ t 中抽样生成词汇的概率分布 w i: P ( w i z j, βt zj )
出文本内容 和 主 题 之 间 的 概 率 分 布 关 系 ( 文 本 - 主 题和主题 - 词 汇) 。 进 而 对 前 一 个 时 间 片 文 本 集 中 文本的主题 - 词 汇 概 率 分 布 关 系 加 权 处 理 ( W ) 后, 作为当前时间片文本集中主题 - 词汇分布的先验概 率, 求出随时间变化的主题 - 词汇和文本 - 主题概 率分布, 最终得到此文本内容主题的时间演化模式, 如图 1 所示:
i i i i i i i
3
基于主题相似度和强度度量的主题
随着时间的发展, 信息内容的主题和强度也会发
演化
( 1) 生变化, 表现为从开始到高潮再到衰落的过程, 甚至循 环往复 。有效地组织大规模文本信息, 并按时间顺序 描述其主题的演化过程, 从而帮助用户追踪所需求偏 好的主题, 具有实际意义 。 文本主题随时间的演化主要从不同时间片的主题 相似度和强度变化来衡量
动态演化 LDA 文本生成过程 首先将文本按照设定好的时间间隔划分为 t 个时间片文本集, 每个时间 片文本集内对应一个 φ t 和 θ t d。 z2 , …, zT } ,选 择 第 一 个 时 间 片 文 本 集 t 对每 一 个 主 题 z t ∈ { z1 , = {1 , 2, …, t} 1 如果是第一个时间片 t = 1 , 则 φ t ~ Dir ( β1 ) 2 否则, 计算 φ t = φ t - 1 W 3 4 抽样计算 θ t 对每一个文本 d, d ~ Dir ( α ) 对文本中的每一个词汇 w i
[1来自百度文库 ]
大了文 本 挖 掘 和 表 示 的 难 度
, 因 此, 本文在现有
LDA 主题挖掘基础上, 结合微博 、 博客 、 社交网络等社 会化网络服务中的交互式信息特点, 构建动态 LDA 主 题模型, 按时间片划分文本信息, 将增量 Gibbs 抽样算 法引入其中, 通过参数估计得到时间片文本集中连续 的主题 - 词汇分布和文本 - 主题分布 。 2. 1 LDA 主题模型的动态化改进 首先采用滑动时间窗把文本划分到时间片内, 时 间片内的文本数根据其主题和词汇分布的不同而不 同, 且允许不同时间片内存在相同的文本( 因文本存 组 成 文 本 时 间 片 集; 然 后 在主题交叉 或 相 似 现 象) , 采用 LDA 主题模型对每个时间片文本集进行主题挖
[18 ]
zi = j 表 示 把 主 题 j 赋 给 词 汇 wi 作 为 其 主 其中, 题, 表示其他所有已知的或可见的信息( 如其他所 z -i 表示 以 及 超 参 数 α 和 β) , 有词汇 w - i 和 文 本 d - i , 当前词汇外的所有其他词汇的主题 z k ( k ≠ i ) 赋值( 即 v (n 分配给 z k ( k ≠ i ) 的 词 汇 数 ) , (n
图3
动态演化 LDA 文本生成过程
LDA 模型推理的依据就是文本生成过程的逆过 程, 根据文本的生成规则和已知参数, 通过概率推导求 得文本的主题结构; 本文中所要推理的参数为时间片 文本集内的主题 - 词汇概率分布 φ 和文本 - 主题分布 Gibbs 抽样 θ,
[16 ]
是其常用且最有效的推导方法 。 基于
[8 ]
。
近年来, 网络信息内容主题的挖掘受到国内外研 究者和机构的广泛关注, 旨在准确捕捉网络信息内容 的动态演化特征, 跟踪或准确发现其发展变化趋势 。 如 M. Mohd 等设计了交互事件跟踪( iEvent ) 系统, 以此 发现用户交互所产生的热点内容主题
[9 ]
1
引
言
。 C. Aksoy 等