主题模型介绍PPT
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
左奇异向量表示词的一些特性,右奇异向量表示 文档的一些特性,中间的奇异值矩阵表示左奇 异向量的一行与右奇异向量的一列的重要程序 ,数字越大越重要。
缺乏严谨的数理统计基础,而且SVD分解非常 耗时
5
Unigram 模型
每篇文档都是由各个词组成(文档→词) 所有的词服从独立的Multinomial分布 Dirichlet先验下的Unigram model:
12
最终得到文档—主题,主题—词分布
13
14
主题模型介绍
张永俊 信息系统工程实验室 中国人民大学
1
主要内容
Dirichlet-Multinomial 共轭分布 LSA、Unigram model 和PLSA LDA模型 Gibbs Sampling
2
Dirichlet-Multinomial 共轭分布
Multinomial分布 Dirichlet分布
3
Dirichlet-Multinomial 共轭分布
贝叶斯法则
共轭分布:后验概率分布和先验概率分布有相 同的形式
Mult(nr | pr , N) * Dir( pr | ar) : Dir( pr | ar nr)
4
隐性语义分析(LSA)
VSM:不能解决一词多义和一义多词 LAS:SVD分解
出现概率 Φ:K*V,主题-词矩阵
8
பைடு நூலகம் LDA
在PLSA基础上加入Dirichlet先验分布
9
10
w是观测值已知,z是隐含变量,真 正需要采样的是
11
Gibbs sampling
MCMC 步骤:
- 1. choose dimension i (random or by permutation) - 2. sample xi from - 3. Iteration.
6
PLSA模型
每个文档的主题服从Multinomial 分布 每个主题下的词项上服从Multinomial 分布 生成方式
- 给定文档d后,以一定的概率选择d对应的主题z, - 然后以一定概率选择z中的词语w
7
PLSA模型
P(z|d):给定文档下主题 的概率
θ:M*K,文档-主题矩阵 P(w|z):给定主题下词的
缺乏严谨的数理统计基础,而且SVD分解非常 耗时
5
Unigram 模型
每篇文档都是由各个词组成(文档→词) 所有的词服从独立的Multinomial分布 Dirichlet先验下的Unigram model:
12
最终得到文档—主题,主题—词分布
13
14
主题模型介绍
张永俊 信息系统工程实验室 中国人民大学
1
主要内容
Dirichlet-Multinomial 共轭分布 LSA、Unigram model 和PLSA LDA模型 Gibbs Sampling
2
Dirichlet-Multinomial 共轭分布
Multinomial分布 Dirichlet分布
3
Dirichlet-Multinomial 共轭分布
贝叶斯法则
共轭分布:后验概率分布和先验概率分布有相 同的形式
Mult(nr | pr , N) * Dir( pr | ar) : Dir( pr | ar nr)
4
隐性语义分析(LSA)
VSM:不能解决一词多义和一义多词 LAS:SVD分解
出现概率 Φ:K*V,主题-词矩阵
8
பைடு நூலகம் LDA
在PLSA基础上加入Dirichlet先验分布
9
10
w是观测值已知,z是隐含变量,真 正需要采样的是
11
Gibbs sampling
MCMC 步骤:
- 1. choose dimension i (random or by permutation) - 2. sample xi from - 3. Iteration.
6
PLSA模型
每个文档的主题服从Multinomial 分布 每个主题下的词项上服从Multinomial 分布 生成方式
- 给定文档d后,以一定的概率选择d对应的主题z, - 然后以一定概率选择z中的词语w
7
PLSA模型
P(z|d):给定文档下主题 的概率
θ:M*K,文档-主题矩阵 P(w|z):给定主题下词的