主题模型综述
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
此时我们使用E步骤里计算的隐含变量的后验概率,得 到新的参数值。 两步迭代进行直到收敛。
.
解决方法(MLE)
.
拉格朗日乘子法
.
ห้องสมุดไป่ตู้
求解方程组得到
.
LDA
.
.
涉及到的数学知识
概率 条件概率、贝叶斯、Gamma\Beta\Dirichlet分布、共轭 分布、随机过程之马尔科夫链
随机抽样:MCMC、GibbsSamples
其中: P(di):表示生成这篇文章的先验概率 P(zk|di):表示在di这篇文章中选择主题zk的概率 P(wj|zk):表示在Zk主题下选择单词wj的概率
.
.
最大似然函数
.
EM(期望最大化算法)
EM算法的步骤是: (1)E步骤:求隐含变量Given当前估计的参数条件下的后
验概率。 (2)M步骤:最大化Complete data对数似然函数的期望,
Unsupervised Learning by Probabilistic Latent Semantic Analysis
主题模型概述
THOMAS HOFMANN
.
th@cs.brown.edu
Content
Latent semantic analysis(LSA) SVD Probabilistic latent semantic analysis(PLSA) Expect Maximum(EM) LDA(Latent Dirichlet Analysis) 各种变种及应用(扩展部分)
.
.
LSA
主要用于文本分析 思想:找低阶的矩阵对terms-doc矩阵进行分解,得到
doc的潜在语义 可以处理多义词和同义词的问题 求解方式:SVD(奇异值分解)
.
SVD奇异值分解
词项文档矩阵做SVD分解
求解方法: 迭代法、并行方法、求NN’的特征值法
.
PLSA
Generate model
.
解决方法(MLE)
.
拉格朗日乘子法
.
ห้องสมุดไป่ตู้
求解方程组得到
.
LDA
.
.
涉及到的数学知识
概率 条件概率、贝叶斯、Gamma\Beta\Dirichlet分布、共轭 分布、随机过程之马尔科夫链
随机抽样:MCMC、GibbsSamples
其中: P(di):表示生成这篇文章的先验概率 P(zk|di):表示在di这篇文章中选择主题zk的概率 P(wj|zk):表示在Zk主题下选择单词wj的概率
.
.
最大似然函数
.
EM(期望最大化算法)
EM算法的步骤是: (1)E步骤:求隐含变量Given当前估计的参数条件下的后
验概率。 (2)M步骤:最大化Complete data对数似然函数的期望,
Unsupervised Learning by Probabilistic Latent Semantic Analysis
主题模型概述
THOMAS HOFMANN
.
th@cs.brown.edu
Content
Latent semantic analysis(LSA) SVD Probabilistic latent semantic analysis(PLSA) Expect Maximum(EM) LDA(Latent Dirichlet Analysis) 各种变种及应用(扩展部分)
.
.
LSA
主要用于文本分析 思想:找低阶的矩阵对terms-doc矩阵进行分解,得到
doc的潜在语义 可以处理多义词和同义词的问题 求解方式:SVD(奇异值分解)
.
SVD奇异值分解
词项文档矩阵做SVD分解
求解方法: 迭代法、并行方法、求NN’的特征值法
.
PLSA
Generate model