主题模型背景知识基础
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
主题模型背景知识基础
主要内容
• 文本分析
• 参数估计
• 共轭分布
• 概率基础知识
• 贝叶斯网络 • LDA • 主题模型应用
文本分析
• 随着存储技术和互联网的进步,各种各样的信息特别是文本信息 呈指数式增长 • 检索这些海量的信息,挖掘出有用的知识成为主要任务 如:分析一篇文章涉及了哪些主题 一个文本数据集中包含了哪些主题 一位作者对哪些主题感兴趣 。。。。。。
贝叶斯网络 • 一个贝叶斯网络定义包括一个有向无环图(DAG)和一个条件 概率表集合。DAG中每一个节点表示一个随机变量,可以是可 直接观测变量或隐藏变量,而有向边表示随机变量间的条件依 赖;条件概率表中的每一个元素对应DAG中唯一的节点,存储 此节点对于其所有直接前驱节点的联合条件概率。 • 性质:每一个节点在其直接前驱节点的值制定后,这个节点条 件独立于其所有非直接前驱前辈节点。 • 基础:条件独立
h
ml
agr max P( X | )
• MAP——在ML的基础上引入先验
h
map
agr max P( X | ) p( )
• Bayesian——待估参数服从某种分布的随机变量
共轭分布
形式相同
p ( | X ) p ( X | ) p ( ) p( X )
参数估计
参数估计问题
已知观测值集合X
估计出分布参数 θ
预测/回归问题
计算新观测值的概率
参数估计
贝叶斯法则
似然 先验
p ( | X )
p ( X | ) p ( ) p( X )
后验
边缘概率
参数估计 三种简单的估计方法 • ML——得到让可能性达到最大的参数,结果与观测值拟合最优
LDA • LDA是非常重要的一个主题模型 • 基于Bag-of-word假设,丢弃词语、句子、段落的结构次序,但 是依然能够仅仅通过单词的数量来分析文档的主题分布 • 每个文档表示成潜在主题的随机混合,而每个主题是一个在所 有单词上的概率分布
LDA
LDA——过程 对于语料库 D 中的每个文档 ,LDA是如下的变参数层次贝 叶斯网络: 1.采样得到单词的个数 N ~ Poission( ) 2.采样得到θ作为文档的主题分布 ~ Dir ( )
抽样法
Gibbs Sampling
主题模型应用 • 主题模型(如LDA)估计出观测到的文档、单词之间的内在联 系,在一些扩展模型中(如ATM)甚至能估计出更多的信息。 利用这些估计,我们可以
1. 估计未知文档的主题结构 2. 推断文档的相似性、作者的兴趣程度等 3. 。。。。。。
Байду номын сангаас
END
谢
谢!
便于计算
概率知识基础——Dirichlet分布
K 1 Dir ( ; ) B ( ) i 1
i 1
i
其 中
(1 ,... k )且 (1 ,... k )且 i 1。归一化因子B( )
是Beta函数
B ( )
(
i 1 K i 1
3.对于每个单词 n a) 把θ作为参数,选择话题 zn ~ Multi( ) b) 从分布 p(n | zn , ) 中选择单词 n
LDA——推断得到参数 LDA模型中最重要的计算任务是计算隐含变量的后验概率
文档中主题的概率
每个词的主题指定概率
变分法
Variational Inference
• 那么随机变量X和Y是条件独立的
• 记做X╨Y|Z
贝叶斯网络 • 贝叶斯网络是将概率统计应用于复杂领域进行不确定性推理和 数据分析的工具。建立BN的目的主要是进行概率推理 (probabilistic inference)。 • 贝叶斯网络的提出就是把复杂的联合概率分布分解成一系列相 对简单的模块,从而大大降低知识获取和概率推理的复杂度, 使得可以把概率论应用于大型问题。
K
i
)
( i )
概率知识基础——Multinomial分布
Mult( x; n, )
n!
xi !
i 1
K
x i i 1
K
i
其中xi 表述数值i在样本中出现的次数。 连加求和得到所有样本的个数n xi
i 1 K
概率知识基础——条件独立
• 有三个随机变量X,Y,Z • 如果条件概率密度可以写成 • p(X,Y|Z) = p(X|Z) • p(Y|Z).
主要内容
• 文本分析
• 参数估计
• 共轭分布
• 概率基础知识
• 贝叶斯网络 • LDA • 主题模型应用
文本分析
• 随着存储技术和互联网的进步,各种各样的信息特别是文本信息 呈指数式增长 • 检索这些海量的信息,挖掘出有用的知识成为主要任务 如:分析一篇文章涉及了哪些主题 一个文本数据集中包含了哪些主题 一位作者对哪些主题感兴趣 。。。。。。
贝叶斯网络 • 一个贝叶斯网络定义包括一个有向无环图(DAG)和一个条件 概率表集合。DAG中每一个节点表示一个随机变量,可以是可 直接观测变量或隐藏变量,而有向边表示随机变量间的条件依 赖;条件概率表中的每一个元素对应DAG中唯一的节点,存储 此节点对于其所有直接前驱节点的联合条件概率。 • 性质:每一个节点在其直接前驱节点的值制定后,这个节点条 件独立于其所有非直接前驱前辈节点。 • 基础:条件独立
h
ml
agr max P( X | )
• MAP——在ML的基础上引入先验
h
map
agr max P( X | ) p( )
• Bayesian——待估参数服从某种分布的随机变量
共轭分布
形式相同
p ( | X ) p ( X | ) p ( ) p( X )
参数估计
参数估计问题
已知观测值集合X
估计出分布参数 θ
预测/回归问题
计算新观测值的概率
参数估计
贝叶斯法则
似然 先验
p ( | X )
p ( X | ) p ( ) p( X )
后验
边缘概率
参数估计 三种简单的估计方法 • ML——得到让可能性达到最大的参数,结果与观测值拟合最优
LDA • LDA是非常重要的一个主题模型 • 基于Bag-of-word假设,丢弃词语、句子、段落的结构次序,但 是依然能够仅仅通过单词的数量来分析文档的主题分布 • 每个文档表示成潜在主题的随机混合,而每个主题是一个在所 有单词上的概率分布
LDA
LDA——过程 对于语料库 D 中的每个文档 ,LDA是如下的变参数层次贝 叶斯网络: 1.采样得到单词的个数 N ~ Poission( ) 2.采样得到θ作为文档的主题分布 ~ Dir ( )
抽样法
Gibbs Sampling
主题模型应用 • 主题模型(如LDA)估计出观测到的文档、单词之间的内在联 系,在一些扩展模型中(如ATM)甚至能估计出更多的信息。 利用这些估计,我们可以
1. 估计未知文档的主题结构 2. 推断文档的相似性、作者的兴趣程度等 3. 。。。。。。
Байду номын сангаас
END
谢
谢!
便于计算
概率知识基础——Dirichlet分布
K 1 Dir ( ; ) B ( ) i 1
i 1
i
其 中
(1 ,... k )且 (1 ,... k )且 i 1。归一化因子B( )
是Beta函数
B ( )
(
i 1 K i 1
3.对于每个单词 n a) 把θ作为参数,选择话题 zn ~ Multi( ) b) 从分布 p(n | zn , ) 中选择单词 n
LDA——推断得到参数 LDA模型中最重要的计算任务是计算隐含变量的后验概率
文档中主题的概率
每个词的主题指定概率
变分法
Variational Inference
• 那么随机变量X和Y是条件独立的
• 记做X╨Y|Z
贝叶斯网络 • 贝叶斯网络是将概率统计应用于复杂领域进行不确定性推理和 数据分析的工具。建立BN的目的主要是进行概率推理 (probabilistic inference)。 • 贝叶斯网络的提出就是把复杂的联合概率分布分解成一系列相 对简单的模块,从而大大降低知识获取和概率推理的复杂度, 使得可以把概率论应用于大型问题。
K
i
)
( i )
概率知识基础——Multinomial分布
Mult( x; n, )
n!
xi !
i 1
K
x i i 1
K
i
其中xi 表述数值i在样本中出现的次数。 连加求和得到所有样本的个数n xi
i 1 K
概率知识基础——条件独立
• 有三个随机变量X,Y,Z • 如果条件概率密度可以写成 • p(X,Y|Z) = p(X|Z) • p(Y|Z).