第6章_贝叶斯学习与EM算法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 难度之二:一般情况下,确定贝叶斯最优假 设的计算代价比较大(在某些特定情形下, 这种计算代价可以大大降低)。
Machine Learning
Peng Kaixiang 2014. All rights reserved.
Date: File:
11.04.2021 ML6.5
Machine Learning for
• 类似地,P(D)表示训练数据D的先验概率,P(D|h) 表示假设h成立时D的概率;
• 机器学习中,我们关心的是P(h|D),即给定D时h 的成立的概率,称为h的后验概率。
Machine Learning
Peng Kaixiang 2014. All rights reserved.
Date: File:
Peng Kaixiang 2014. All rights reserved.
Date: File:
11.04.2021 ML6.3
Machine Learning for
Control Engineering
贝叶斯学习方法的特性
• 观察到的每个训练样例可以增量地降低或升高某假
设的估计概率。而其它算法会在某个假设与任一样 例不一致时完全去掉该假设;(最大优点)
第6章 贝叶斯学习与EM算法 ( Bayesian Learning and EM Algorithm )
Machine Learning
Peng Kaixiang 2014. All rights reserved.
Date: File:
11.04.2021 ML6.1
Machine Learning for
Machine Learning
Peng Kaixiang 2014. All rights reserved.
Date: File:
11.04.2021 ML6.11
Machine Learning for
Control Engineering
贝叶斯法则
• 机器学习的任务:在给定训练数据D时,确 定假设空间H中的最佳假设。
Date: File:
11.04.2021 ML6.7
Machine Learning for
Control Engineering
3.先验信息,即在抽样之前有关统计推断的一些信 息。
譬如,在估计某产品的不合格率时,假如工厂保 存了过去抽检这种产品质量的资料,这些资料(包括 历史数据)有时估计该产品的不合格率是有好处的。 这些资料所提供的信息就是一种先验信息。
File:
ML6.10
Machine Learning for
Control Engineering
前面的分析总结如下:人们根据先验信息对参数θ 已有一个认识,这个认识就是先验分布π(θ)。 通过试验,获得样本。从而对θ的先验分布进行调 整,调整的方法就是使用上面的贝叶斯公式,调整 的结果就是后验分布 ( x1,, xn) 。后验分布是三 种信息的综合。获得后验分布使人们对θ的认识又 前进一步,可看出,获得样本的的效果是把我们对 θ的认识由π(θ)调整到 ( x1,, xn) 。所以对 θ的统计推断就应建立在后验分布 ( x1,, xn)的基 础上。
• 最佳假设:一种方法是把它定义为在给定数 据D以及H中不同假设的先验概率的有关知 识下的最可能假设。
• 贝叶斯理论提供了一种计算假设概率的方法, 基于假设的先验概率、给定假设下观察到不 同数据的概率以及观察到的数据本身。
Machine Learning
Peng Kaixiang 2014. All rights reserved.
Machine Learning
Peng Kaixiang 2014. All rights reserved.
Date: File:
11.04.2021 ML6.6
Machine Learning for
Control Engineering
统计推断中可用的三种信息
美籍波兰统计学家耐曼(E.L.Lehmann1894-1981) 高度概括了在统计推断中可用的三种信息:
Control Engineering
概述
• 贝叶斯推理提供了一种概率手段,基于如下的 假定:待考察的量遵循某概率分布,且可根据 这些概率及已观察到的数据进行推理,以作出 最优的决策。
• 贝叶斯推理为衡量多个假设的置信度提供了定 量的方法。
• 贝叶斯推理为直接操作概率的学习算法提供了 基础,也为其它算法的分析提供了理论框架。
病的患者的化验准确率为97% • 总结如下
P(cancer)=0.008, P(cancer)=0.992 P(+|cancer)=0.98, P(-|cancer)=0.02 P(+|cancer)=0.03, P(-|cancer)=0.97
11.04.2021 ML6.13
Machine Learning for
Control Engineering
贝叶斯公式
• 贝叶斯公式提供了从先验概率P(h)、P(D) 和P(D|h)计算后验概率P(h|D)的方法;
P(h | D) P(D | h)P(h) P(D)
(6.1)
• P(h|D)随着P(h)和P(D|h)的增长而增长,随 着P(D)的增长而减少,即如果D独立于h时 被观察到的可能性越大,那么D对h的支持 度越小。
Date: File:
11.04.2021 ML6.12
Machine Learning for
Control Engineering
先验概率和后验概率
• 用P(h)表示在没有训练数据前假设h拥有的初始概 率。P(h)被称为h的先验概率;
• 先验概率反映了关于h是一正确假设的机会的背景 知识;
• 如果没有这一先验知识,可以简单地将每一候选 假设赋予相同的先验概率;
• P(D|h)常被称为给定h时数据D的似然度,而 使P(D|h)最大的假设被称为极大似然假设:
hML argmax P(D | h)
hH
• 假设空间H可扩展为任意的互斥命题集合, 只要这些命题的概率之和为1。
Machine Learning
Peng Kaixiang 2014. All rights reserved.
• 确定MAP的方法是用贝叶斯公式计ห้องสมุดไป่ตู้每个候 选假设的后验概率,计算式如下:
hMAP
arg max
hH
P(h |
D)
arg max
hH
P(D | h)P(h) P(D)
arg max
hH
P(D | h)P(h)
(6.2)
最后一步,去掉了P(D),因为它是不依赖于 h的常量。
Machine Learning
p(x1,, xn, ) p(x1,, xn ) ( )
(
x1,, xn )
p(x1,, xn , )
p(x1,, xn )
p(x1,, xn ) ( )
p(x ,, x ) ( )d Machine Learning
1
n
Date: 11.04.2021
Peng Kaixiang 2014. All rights reserved.
1.总体信息,即总体分布或所属分布族给我们的信息。 譬如“总体视察指数分布”或“总体是正态分布”在 统计推断中都发挥重要作用,只要有总体信息,就要 想方设法在统计推断中使用 2.样本信息,即样本提供我们的信息,这是任一种统 计推断中都需要
Machine Learning
Peng Kaixiang 2014. All rights reserved.
Control Engineering
内容安排
• 介绍贝叶斯理论; • 定义极大似然假设(ML)和极大后验概率假设
(MAP); • 将此概率框架应用于分析前面章节的相关问题和学习
算法; • 介绍几种直接操作概率的学习算法;
– 贝叶斯最优分类器 – Gibbs算法 – 朴素贝叶斯分类器
• 讨论EM算法,一类参数估计的方法。
Machine Learning
Peng Kaixiang 2014. All rights reserved.
Date: File:
11.04.2021 ML6.14
Machine Learning for
Control Engineering
极大后验假设
• 学习器在候选假设集合H中寻找给定数据D 时可能性最大的假设h,h被称为极大后验假 设(MAP);
Machine Learning
Peng Kaixiang 2014. All rights reserved.
Date: File:
11.04.2021 ML6.2
Machine Learning for
Control Engineering
简介
• 贝叶斯学习算法与机器学习相关的两个原因:
– 贝叶斯学习算法能够计算显示的假设概率,比如朴素贝 叶斯分类器;
– 贝叶斯方法为理解多数学习算法提供了一种有效的手段, 而这些算法不一定直接操纵概率数据,比如:
• Find-S • 候选消除算法 • 神经网络学习:选择使误差平方和最小化的神经网络 • 推导出另一种误差函数:交叉熵 • 可分析决策树的归纳偏置 • 可考察最小描述长度原则
Machine Learning
假设Ⅱ 当给定θ后,从总体p(x│θ)中随机抽取一 个样本 X1,, X n,该样本中含有θ的有关信息。这种信 息就是样本信息。
Machine Learning
Peng Kaixiang 2014. All rights reserved.
Date: File:
11.04.2021 ML6.9
Machine Learning for
Machine Learning for
Control Engineering
贝叶斯公式的密度函数形式
假设Ⅰ 随机变量X有一个密度函数p(x;θ),其中 θ是一个参数,不同的θ对应不同的密度函数,故从 贝叶斯观点看,p(x;θ)是在给定后θ是个条件密 度函数,因此记为p(x│θ)更恰当一些。这个条件 密度能提供我们的有关的θ信息就是总体信息。
Control Engineering
假设Ⅲ 对参数θ已经积累了很多资料,经过分析、整理
和加工,可以获得一些有关θ的有用信息,这种信息就是 先验信息。参数θ不是永远固定在一个值上,而是一个事 先不能确定的量。从贝叶斯观点来看,未知参数θ是一个 随机变量。而描述这个随机变量的分布可从先验信息中归 纳出来,这个分布称为先验分布,其密度函数用π(θ) 表示。
又如某工程师根据自己多年积累的经验对正在设 计的某种彩电的平均寿命所提供的估计也是一种先验 信息。
由于这种信息是在“试验之前”就已有的,故称 为先验信息。
Machine Learning
Peng Kaixiang 2014. All rights reserved.
Date: File:
11.04.2021 ML6.8
Date: File:
11.04.2021 ML6.16
Machine Learning for
Control Engineering
举例:一个医疗诊断问题
• 有两个可选的假设:病人有癌症、病人无癌症 • 可用数据来自化验结果:正+和负• 有先验知识:在所有人口中,患病率是0.008 • 对确实有病的患者的化验准确率为98%,对确实无
Peng Kaixiang 2014. All rights reserved.
Date: File:
11.04.2021 ML6.15
Machine Learning for
Control Engineering
极大似然假设
• 在某些情况下,可假定H中每个假设有相同 的先验概率,这样式子6.2可以进一步简化, 只需考虑P(D|h)来寻找极大可能假设。
• 先验知识可以与观察数据一起决定假设的最终概率,
先验知识的形式是:1)每个候选假设的先验概率; 2)每个可能假设在可观察数据上的概率分布;
• 贝叶斯方法可允许假设做出不确定性的预测;
• 新的实例分类可由多个假设一起做出预测,用它们 的概率来加权;
• 即使在贝叶斯方法计算复杂度较高时,它们仍可作 为一个最优的决策标准衡量其它方法;
Machine Learning
Peng Kaixiang 2014. All rights reserved.
Date: File:
11.04.2021 ML6.4
Machine Learning for
Control Engineering
贝叶斯方法的难度
• 难度之一:需要概率的初始知识,当概率预 先未知时,可以基于背景知识、预先准备好 的数据以及基准分布的假定来估计这些概率;
Machine Learning
Peng Kaixiang 2014. All rights reserved.
Date: File:
11.04.2021 ML6.5
Machine Learning for
• 类似地,P(D)表示训练数据D的先验概率,P(D|h) 表示假设h成立时D的概率;
• 机器学习中,我们关心的是P(h|D),即给定D时h 的成立的概率,称为h的后验概率。
Machine Learning
Peng Kaixiang 2014. All rights reserved.
Date: File:
Peng Kaixiang 2014. All rights reserved.
Date: File:
11.04.2021 ML6.3
Machine Learning for
Control Engineering
贝叶斯学习方法的特性
• 观察到的每个训练样例可以增量地降低或升高某假
设的估计概率。而其它算法会在某个假设与任一样 例不一致时完全去掉该假设;(最大优点)
第6章 贝叶斯学习与EM算法 ( Bayesian Learning and EM Algorithm )
Machine Learning
Peng Kaixiang 2014. All rights reserved.
Date: File:
11.04.2021 ML6.1
Machine Learning for
Machine Learning
Peng Kaixiang 2014. All rights reserved.
Date: File:
11.04.2021 ML6.11
Machine Learning for
Control Engineering
贝叶斯法则
• 机器学习的任务:在给定训练数据D时,确 定假设空间H中的最佳假设。
Date: File:
11.04.2021 ML6.7
Machine Learning for
Control Engineering
3.先验信息,即在抽样之前有关统计推断的一些信 息。
譬如,在估计某产品的不合格率时,假如工厂保 存了过去抽检这种产品质量的资料,这些资料(包括 历史数据)有时估计该产品的不合格率是有好处的。 这些资料所提供的信息就是一种先验信息。
File:
ML6.10
Machine Learning for
Control Engineering
前面的分析总结如下:人们根据先验信息对参数θ 已有一个认识,这个认识就是先验分布π(θ)。 通过试验,获得样本。从而对θ的先验分布进行调 整,调整的方法就是使用上面的贝叶斯公式,调整 的结果就是后验分布 ( x1,, xn) 。后验分布是三 种信息的综合。获得后验分布使人们对θ的认识又 前进一步,可看出,获得样本的的效果是把我们对 θ的认识由π(θ)调整到 ( x1,, xn) 。所以对 θ的统计推断就应建立在后验分布 ( x1,, xn)的基 础上。
• 最佳假设:一种方法是把它定义为在给定数 据D以及H中不同假设的先验概率的有关知 识下的最可能假设。
• 贝叶斯理论提供了一种计算假设概率的方法, 基于假设的先验概率、给定假设下观察到不 同数据的概率以及观察到的数据本身。
Machine Learning
Peng Kaixiang 2014. All rights reserved.
Machine Learning
Peng Kaixiang 2014. All rights reserved.
Date: File:
11.04.2021 ML6.6
Machine Learning for
Control Engineering
统计推断中可用的三种信息
美籍波兰统计学家耐曼(E.L.Lehmann1894-1981) 高度概括了在统计推断中可用的三种信息:
Control Engineering
概述
• 贝叶斯推理提供了一种概率手段,基于如下的 假定:待考察的量遵循某概率分布,且可根据 这些概率及已观察到的数据进行推理,以作出 最优的决策。
• 贝叶斯推理为衡量多个假设的置信度提供了定 量的方法。
• 贝叶斯推理为直接操作概率的学习算法提供了 基础,也为其它算法的分析提供了理论框架。
病的患者的化验准确率为97% • 总结如下
P(cancer)=0.008, P(cancer)=0.992 P(+|cancer)=0.98, P(-|cancer)=0.02 P(+|cancer)=0.03, P(-|cancer)=0.97
11.04.2021 ML6.13
Machine Learning for
Control Engineering
贝叶斯公式
• 贝叶斯公式提供了从先验概率P(h)、P(D) 和P(D|h)计算后验概率P(h|D)的方法;
P(h | D) P(D | h)P(h) P(D)
(6.1)
• P(h|D)随着P(h)和P(D|h)的增长而增长,随 着P(D)的增长而减少,即如果D独立于h时 被观察到的可能性越大,那么D对h的支持 度越小。
Date: File:
11.04.2021 ML6.12
Machine Learning for
Control Engineering
先验概率和后验概率
• 用P(h)表示在没有训练数据前假设h拥有的初始概 率。P(h)被称为h的先验概率;
• 先验概率反映了关于h是一正确假设的机会的背景 知识;
• 如果没有这一先验知识,可以简单地将每一候选 假设赋予相同的先验概率;
• P(D|h)常被称为给定h时数据D的似然度,而 使P(D|h)最大的假设被称为极大似然假设:
hML argmax P(D | h)
hH
• 假设空间H可扩展为任意的互斥命题集合, 只要这些命题的概率之和为1。
Machine Learning
Peng Kaixiang 2014. All rights reserved.
• 确定MAP的方法是用贝叶斯公式计ห้องสมุดไป่ตู้每个候 选假设的后验概率,计算式如下:
hMAP
arg max
hH
P(h |
D)
arg max
hH
P(D | h)P(h) P(D)
arg max
hH
P(D | h)P(h)
(6.2)
最后一步,去掉了P(D),因为它是不依赖于 h的常量。
Machine Learning
p(x1,, xn, ) p(x1,, xn ) ( )
(
x1,, xn )
p(x1,, xn , )
p(x1,, xn )
p(x1,, xn ) ( )
p(x ,, x ) ( )d Machine Learning
1
n
Date: 11.04.2021
Peng Kaixiang 2014. All rights reserved.
1.总体信息,即总体分布或所属分布族给我们的信息。 譬如“总体视察指数分布”或“总体是正态分布”在 统计推断中都发挥重要作用,只要有总体信息,就要 想方设法在统计推断中使用 2.样本信息,即样本提供我们的信息,这是任一种统 计推断中都需要
Machine Learning
Peng Kaixiang 2014. All rights reserved.
Control Engineering
内容安排
• 介绍贝叶斯理论; • 定义极大似然假设(ML)和极大后验概率假设
(MAP); • 将此概率框架应用于分析前面章节的相关问题和学习
算法; • 介绍几种直接操作概率的学习算法;
– 贝叶斯最优分类器 – Gibbs算法 – 朴素贝叶斯分类器
• 讨论EM算法,一类参数估计的方法。
Machine Learning
Peng Kaixiang 2014. All rights reserved.
Date: File:
11.04.2021 ML6.14
Machine Learning for
Control Engineering
极大后验假设
• 学习器在候选假设集合H中寻找给定数据D 时可能性最大的假设h,h被称为极大后验假 设(MAP);
Machine Learning
Peng Kaixiang 2014. All rights reserved.
Date: File:
11.04.2021 ML6.2
Machine Learning for
Control Engineering
简介
• 贝叶斯学习算法与机器学习相关的两个原因:
– 贝叶斯学习算法能够计算显示的假设概率,比如朴素贝 叶斯分类器;
– 贝叶斯方法为理解多数学习算法提供了一种有效的手段, 而这些算法不一定直接操纵概率数据,比如:
• Find-S • 候选消除算法 • 神经网络学习:选择使误差平方和最小化的神经网络 • 推导出另一种误差函数:交叉熵 • 可分析决策树的归纳偏置 • 可考察最小描述长度原则
Machine Learning
假设Ⅱ 当给定θ后,从总体p(x│θ)中随机抽取一 个样本 X1,, X n,该样本中含有θ的有关信息。这种信 息就是样本信息。
Machine Learning
Peng Kaixiang 2014. All rights reserved.
Date: File:
11.04.2021 ML6.9
Machine Learning for
Machine Learning for
Control Engineering
贝叶斯公式的密度函数形式
假设Ⅰ 随机变量X有一个密度函数p(x;θ),其中 θ是一个参数,不同的θ对应不同的密度函数,故从 贝叶斯观点看,p(x;θ)是在给定后θ是个条件密 度函数,因此记为p(x│θ)更恰当一些。这个条件 密度能提供我们的有关的θ信息就是总体信息。
Control Engineering
假设Ⅲ 对参数θ已经积累了很多资料,经过分析、整理
和加工,可以获得一些有关θ的有用信息,这种信息就是 先验信息。参数θ不是永远固定在一个值上,而是一个事 先不能确定的量。从贝叶斯观点来看,未知参数θ是一个 随机变量。而描述这个随机变量的分布可从先验信息中归 纳出来,这个分布称为先验分布,其密度函数用π(θ) 表示。
又如某工程师根据自己多年积累的经验对正在设 计的某种彩电的平均寿命所提供的估计也是一种先验 信息。
由于这种信息是在“试验之前”就已有的,故称 为先验信息。
Machine Learning
Peng Kaixiang 2014. All rights reserved.
Date: File:
11.04.2021 ML6.8
Date: File:
11.04.2021 ML6.16
Machine Learning for
Control Engineering
举例:一个医疗诊断问题
• 有两个可选的假设:病人有癌症、病人无癌症 • 可用数据来自化验结果:正+和负• 有先验知识:在所有人口中,患病率是0.008 • 对确实有病的患者的化验准确率为98%,对确实无
Peng Kaixiang 2014. All rights reserved.
Date: File:
11.04.2021 ML6.15
Machine Learning for
Control Engineering
极大似然假设
• 在某些情况下,可假定H中每个假设有相同 的先验概率,这样式子6.2可以进一步简化, 只需考虑P(D|h)来寻找极大可能假设。
• 先验知识可以与观察数据一起决定假设的最终概率,
先验知识的形式是:1)每个候选假设的先验概率; 2)每个可能假设在可观察数据上的概率分布;
• 贝叶斯方法可允许假设做出不确定性的预测;
• 新的实例分类可由多个假设一起做出预测,用它们 的概率来加权;
• 即使在贝叶斯方法计算复杂度较高时,它们仍可作 为一个最优的决策标准衡量其它方法;
Machine Learning
Peng Kaixiang 2014. All rights reserved.
Date: File:
11.04.2021 ML6.4
Machine Learning for
Control Engineering
贝叶斯方法的难度
• 难度之一:需要概率的初始知识,当概率预 先未知时,可以基于背景知识、预先准备好 的数据以及基准分布的假定来估计这些概率;