主题模型介绍PPT课件

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
主题模型介绍
张永俊 信息系统工程实验室 中国人民大学
CS583, Bing Liu, UIC
1
主要内容
Dirichlet-Multinomial 共轭分布 LSA、Unigram model 和PLSA LDA模型 Gibbs Sampling
可编辑
2
Dirichlet-Multinomial 共轭分布
可编辑
6
PLSA模型
每个文档的主题服从Multinomial 分布 每个主题下的词项上服从Multinomial 分布 生成方式
- 给定文档d后,以一定的概率选择d对应的主题z, - 然后以一定概率选择z中的词语w
可编辑
百度文库
7
PLSA模型
P(z|d):给定文档下主题 的概率
θ :M*K,文档-主题矩阵
Multinomial分布
Dirichlet分布
可编辑
3
Dirichlet-Multinomial 共轭分布
贝叶斯法则
共轭分布:后验概率分布和先验概率分布有相 同的形式
Mult(n | p, N) * Dir( p | a) Dir( p | a n)
可编辑
4
隐性语义分析(LSA)
- 2. sample xi from - 3. Iteration.
可编辑
13
最终得到文档—主题,主题—词分布
可编辑
14
可编辑
15
2020/1/1
16
P(w|z):给定主题下词的 出现概率
Φ:K*V,主题-词矩阵
可编辑
8
2020/1/1
9
LDA
在PLSA基础上加入Dirichlet先验分布
可编辑
10
可编辑
11
w是观测值已知,z是隐含变量,真 正需要采样的是
可编辑
12
Gibbs sampling
MCMC 步骤:
- 1. choose dimension i (random or by permutation)
VSM:不能解决一词多义和一义多词 LAS:SVD分解
左奇异向量表示词的一些特性,右奇异向量表示 文档的一些特性,中间的奇异值矩阵表示左奇 异向量的一行与右奇异向量的一列的重要程序 ,数字越大越重要。
缺乏严谨的数理统计基础,而且SVD分解非常 耗时
可编辑
5
Unigram 模型
每篇文档都是由各个词组成(文档→词) 所有的词服从独立的Multinomial分布 Dirichlet先验下的Unigram model:
相关文档
最新文档