chpt8-2
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
d1=lime时,α*P(d1|h1)*P(h1)=α*0*0.1=0 / α*P(d1|h2)*P(h2)=α*0.25*0.2=α*0.05 / α*P(d1|h3)*P(h3)=α*0.5*0.4=α*0.2 … …
8
第8章 机器学习方法
实例的后验概率表(1) 实例的后验概率表(1)
dj
d1=lime
P(dj|h1)P(h1) P(dj|h2)P(h2) P(dj|h3)P(h3) P(dj|h4)P(h4) P(dj|h5)P(h5) /α / α P(dj|h2) / α P(dj|h3) / α P(dj|h4) / α P(dj|h5) P(h2) P(h3) P(h4) P(h5) P(dj|h1)P(h1)
13
第8章 机器学习方法
8.6.2 离散模型的最大似然参数学习
最大似然参数学习就是最大似然估计(见 任一数理统计教科书),其典型步骤如下:
1.写出数据的似然表达式,这是待学习参数的 一个函数 2.对似然函数取对数并对每个参数求导,写出 似然方程 3.求解方程,求得对应参数值
这里举的2个例子都是按照最大似然估计 来求得相关参数(某个概率θ的值)
这里,假设看作是随机变量,数据是随机变 量的实例化
本节主要介绍参数学习方法
在完整数据下为结构固定的概率模型寻找数 值参数(相对于非参数学习)
4
第8章 机器学习方法
贝叶斯学习的特性(Mitchell) 贝叶斯学习的特性(Mitchell)
观察到的每个训练样例可以增量地降低或 升高某个假设的估计概率—更合理的学习 途径 先验知识可以和观察数据一起决定假设的 最终概率 允许假设给出不确定的预测(即概率的决定) 新的实例分类可以由多个假设经概率加权 而获得 即使计算复杂度较高时,仍可作为一个最 优决策的标准,用来衡量其他方法
α
2
0*0.1 / 0
0.25*0.2 / α*0.05 =0.1 0.252*0.2 / 0.038 0.253*0.2 / 0.01316 0.254*0.2 / 0.0042 0.255*0.2 / ≈0
0.5*0.4 / α*0.2 =0.4 0.52*0.4 / 0.308 0.53*0.4 / 0.2105 0.54*0.4 / 0.1322 0.55*0.4 / 0.0801
P( D | hθ ) = ∏ P(d j | hθ ) = θ c (1 θ ) N c
j =1 N
15
第8章 机器学习方法
最大似然概率求取
似然函数取对数并求导有 L( D | h ) = log P( D | h ) = ∑ log P(d | h )
N
θ
θ
j =1
j
θ
= c log θ + ( N c) log(1 θ )
P(F=cherry) θ
Flavor
F cherry lime P(Wrapper|F) θ1 θ2
Wrapper
17
第8章 机器学习方法
数据的似然(1) 数据的似然(1)
依然设剥开了N颗糖,c颗樱桃味/l=N-c颗 酸橙味 / 糖纸的分布是:樱桃糖—rc红色 糖纸/gc绿色糖纸/酸橙糖—rl红色/gl绿色 数据的似然函数为 g r g c N c r P( D | hθ ,θ ,θ ) = θ (1 θ ) θ1 (1 θ1 ) θ 2 (1 θ 2 )
14
第8章 机器学习方法
例子— 例子—预测糖果口味比例
问题—假设买了一包糖果,其中cherry和 lime的比例未知,即该包糖果属于哪个hi 未知 / 设樱桃糖比例记为θ∈[0,1] 假定所有的假设具有相同的先验概率,则 求最大似然概率是合理的 设已经剥开了N颗糖,其中c颗为樱桃味, 其余为酸橙味,则按照最大似然公式有
0.756*0.2 / 0.2509 0.757*0.2 / 0.2064 0.758*0.2 / 0.1645 0.759*0.2 / 0.1306 0.7510*0.2 / 0.1012
Байду номын сангаас
16*0.1 / 0.705 17*0.1 / 0.7703 18*0.1 / 0.8225 19*0.1 / 0.8694 110*0.1 / 0.8988
每次打开糖纸品尝口味,得到一个随机变量 D=cherry/lime
6
第8章 机器学习方法
贝叶斯法则(1) 贝叶斯法则(1)
问题:现在获得的数据为10次都是lime,问 这些糖取自何种包装?即学习的目标是根 据一定的观察序列,预测下一个出现的糖 果的口味 此时学习过程是一个概率推理过程,根据 贝叶斯法则,有:
8.6.3 朴素贝叶斯分类器
Nave Bayes Classifier是一种实用性很高的 贝叶斯学习器 / 某些应用中性能与神经 网络和决策树相当(Mitchell) 在其学习任务中,实例x由属性值的合取 表示,目标函数(分类)f(x)∈V(有限集合) 输入为关于目标函数的训练样例和新实例 的属性值z=<a1,a2,…an>,输出=z的分类 按照极大后验概率取值的原则,其输出目 标值应满足最大后验概率公式
dL(d | hθ ) c N c c = = 0 θ = dθ θ 1θ N
此结果表明—最大似然假设hML预测樱桃糖 的实际比例与到目前为止所观察的已剥开 糖果的比例相等 为了避免0概率问题,可以考虑给每个事件 初始化计数为1
16
第8章 机器学习方法
例子— 例子—贝叶斯网络中的预测
问题—不同口味比例的糖果包装不一样, 给出一个糖纸(wrapper)依赖于口味的贝叶 斯网 / 如图,这里有3个参数θ/θ1/θ2
如此,由该表格就可得出书中图20.1(a)的曲线
10
第8章 机器学习方法
贝叶斯预测
显然,如果一连给出10颗糖果都是lime口味 的话,其选自h5包装的可能性达到了90% / 曲线单调地趋向于1 例子表明—贝叶斯学习的特性是为真的假 设主导了贝叶斯预测过程 / 任何为假的假设 值的后验概率都会最终消退—因为生成不 典型数据的概率都会概率地逐渐减小 此外,贝叶斯预测是最优的—给定了假设 的先验概率,任何另外的预测不会比这个 预测更正确
人工智能原理
第8章 机器学习方法 (下)
第8章 机器学习方法
本章内容
参考文献 8.1 学习的一般形式 8.2 归纳学习 8.3 决策树 8.4 计算学习理论简介 8.5 集体学习—Boosting方法 8.6 贝叶斯学习 8.7 EM算法 附录 决策树算法的应用
第8章 机器学习方法
8.6 贝叶斯学习
数据的似然(2) 数据的似然(2)
求导后得到3个独立的方程,每个只有1个 参数—很容易得出结果
l L c = =0 θ θ 1 θ gc L rc = =0 θ1 θ1 1 θ1 rl gl L = =0 θ 2 θ 2 1 θ 2 c c θ = = c+l N rc rc θ1 = = rc + g c c rl rl θ2 = = rl + g l N c
21
第8章 机器学习方法
极大后验概率MAP 极大后验概率MAP分类 MAP分类
vMAP=arg max vj∈V P(vj|a1,a2,…an) =arg max [P(a1,a2,…an|vj)P(vj)/P(a1,a2,…an)] =arg max [P(a1,a2,…an|vj)P(vj)] 基于训练数据而估计其中两项的值—P(vj)= 计算训练数据中的频率 / 然而用于估计不 同P(a1,a2,…an|vj)存在困难,它要求非常大 的训练集合(以满足a1,a2,…an同时出现的要 求,每个实例必须出现多次) 能否化简?考虑属性的独立性
d2=lime d3=lime d4=lime d5=lime
0
3.077
0 0 0
1/0.2375= 4.2105 1/0.1891= 5.2882
1/0.15996 =6.2516
9
第8章 机器学习方法
实例的后验概率表(2) 实例的后验概率表(2)
dj
d6=lime d7=lime d8=lime d9=lime d10=lime
5
第8章 机器学习方法
8.6.1 贝叶斯学习实例
例子—预测糖果口味
两种口味(cherry/lime),相同包装 5种包装,比例如下且给定了先验概率:
h1: 100%=cherry h2: 75=cherry/25=lime h3: 50%=cherry/50%=lime h4: 25%=cherry/75%=lime h5: 100%=lime P(h1)=0.1 P(h2)=0.2 P(h3)=0.4 P(h4)=0.2 P(h5)=0.1
P(dj|h1)P(h1) P(dj|h2)P(h2) P(dj|h3)P(h3) P(dj|h4)P(h4) P(dj|h5)P(h5) /α / α P(dj|h2) / α P(dj|h3) / α P(dj|h4) / α P(dj|h5) P(h2) P(h3) P(h4) P(h5) P(dj|h1)P(h1)
P(hi|d)=αP(d|hi)P(hi)—d是所有的观察值 / α为归 一化因子,最终使得∑αP(d|hi)P(hi)=1 α值的获得很重要,是书中图20.1(a)概率曲线 生成的依据
7
第8章 机器学习方法
贝叶斯法则(2) 贝叶斯法则(2)
根据观察过程的独立同分布假设(i.i.d— independence & identical distribution)—即每 次取到某种糖果的概率都不依赖于其他次 的结果且都是按照统一分布进行的,有公 式:P(hi|d)=α∏jP(dj|hi)P(hi) (i=1~5, j=1~10) 由此,我们计算每次取到lime口味糖果的后 验概率(见下页表格)
8.6.1 贝叶斯学习实例 8.6.2 离散模型的最大似然参数学习 8.6.3 朴素贝叶斯分类器
第8章 机器学习方法
8.6 贝叶斯学习
统计学习有两类框架,一类是贝叶斯学 习,另一类是边缘学习(支持向量机等) 贝叶斯学习根据给定数据计算各种假设 的可能性,即根据概率为每个假设赋予 相应的权值,然后在此基础上进行预测
α
7.05 1/0.1298= 7.7029 1/0.1216= 8.2245 1/0.1150= 8.6942 1/0.11126 =8.9877
0 0 0 0 0
0 0 0 0 0
0.56*0.4 / 0.045 0.57*0.4 / 0.0241 0.58*0.4 / 0.01285 0.59*0.4 / ≈0 0/0
c c l 1 2
l
取对数以后得
L = log P ( D | hθ ,θ1 ,θ 2 ) = [c log θ + l log(1 θ )] + [rc log θ1 + g c log(1 θ1 )] + [rl log θ 2 + g l log(1 θ 2 )]
18
第8章 机器学习方法
11
第8章 机器学习方法
最大后验假设
贝叶斯最优预测的特性其代价也很高,假 设空间很大甚至无限 常见的近似方法—基于单一的最可能假设 进行预测—取使P(hi|D)最大化的hi(D为已经 观察到的数据集),这一方法称为最大(极大) 后验假设(maximum a posteriori, MAP) MAP假设随着数据量的增加,其与贝叶斯预 测就越接近
0.75*0.2 / 1*0.1 / α*0.15 α*0.1=0.2 =0.3 0.752*0.2 / 0.346 0.753*0.2 / 0.3553 0.754*0.2 / 0.3346 0.755*0.2 / 0.2967 12*0.1 / 0.308 13*0.1 / 0.42105 14*0.1 / 0.5288 15*0.1 / 0.625
12
第8章 机器学习方法
最大似然假设
假设先验P(hi)作用很重要,使复杂度高的 假设处于不利地位—体现了假设复杂度和 数据拟合度之间的一种折衷 因为hMAP=arg max P(h|D)=arg max P(D|h)P(h) 当P(h)相同时,MAP假设就退化为使得 P(D|h)最大的假设,此时就是最大(极大)似 然假设(maximum likelihood, ML) 当无法推断哪个假设更优先时,选择最大 似然是合理的,特别是当数据量大淹没先 验假设时 / 但该方法对于小数据集有问题
19
第8章 机器学习方法
有关结论
上述结果可以扩展到任何概率能够用表格 表示的贝叶斯网络 在完整数据条件下,一个贝叶斯网络的最 大似然参数学习问题被分解为几个单独的 问题,每个参数对应一个 已知一个变量的父变量,其参数值(条件概 率)就是在每种父变量取值设置下所观察的 该变量的频率
20
第8章 机器学习方法
8
第8章 机器学习方法
实例的后验概率表(1) 实例的后验概率表(1)
dj
d1=lime
P(dj|h1)P(h1) P(dj|h2)P(h2) P(dj|h3)P(h3) P(dj|h4)P(h4) P(dj|h5)P(h5) /α / α P(dj|h2) / α P(dj|h3) / α P(dj|h4) / α P(dj|h5) P(h2) P(h3) P(h4) P(h5) P(dj|h1)P(h1)
13
第8章 机器学习方法
8.6.2 离散模型的最大似然参数学习
最大似然参数学习就是最大似然估计(见 任一数理统计教科书),其典型步骤如下:
1.写出数据的似然表达式,这是待学习参数的 一个函数 2.对似然函数取对数并对每个参数求导,写出 似然方程 3.求解方程,求得对应参数值
这里举的2个例子都是按照最大似然估计 来求得相关参数(某个概率θ的值)
这里,假设看作是随机变量,数据是随机变 量的实例化
本节主要介绍参数学习方法
在完整数据下为结构固定的概率模型寻找数 值参数(相对于非参数学习)
4
第8章 机器学习方法
贝叶斯学习的特性(Mitchell) 贝叶斯学习的特性(Mitchell)
观察到的每个训练样例可以增量地降低或 升高某个假设的估计概率—更合理的学习 途径 先验知识可以和观察数据一起决定假设的 最终概率 允许假设给出不确定的预测(即概率的决定) 新的实例分类可以由多个假设经概率加权 而获得 即使计算复杂度较高时,仍可作为一个最 优决策的标准,用来衡量其他方法
α
2
0*0.1 / 0
0.25*0.2 / α*0.05 =0.1 0.252*0.2 / 0.038 0.253*0.2 / 0.01316 0.254*0.2 / 0.0042 0.255*0.2 / ≈0
0.5*0.4 / α*0.2 =0.4 0.52*0.4 / 0.308 0.53*0.4 / 0.2105 0.54*0.4 / 0.1322 0.55*0.4 / 0.0801
P( D | hθ ) = ∏ P(d j | hθ ) = θ c (1 θ ) N c
j =1 N
15
第8章 机器学习方法
最大似然概率求取
似然函数取对数并求导有 L( D | h ) = log P( D | h ) = ∑ log P(d | h )
N
θ
θ
j =1
j
θ
= c log θ + ( N c) log(1 θ )
P(F=cherry) θ
Flavor
F cherry lime P(Wrapper|F) θ1 θ2
Wrapper
17
第8章 机器学习方法
数据的似然(1) 数据的似然(1)
依然设剥开了N颗糖,c颗樱桃味/l=N-c颗 酸橙味 / 糖纸的分布是:樱桃糖—rc红色 糖纸/gc绿色糖纸/酸橙糖—rl红色/gl绿色 数据的似然函数为 g r g c N c r P( D | hθ ,θ ,θ ) = θ (1 θ ) θ1 (1 θ1 ) θ 2 (1 θ 2 )
14
第8章 机器学习方法
例子— 例子—预测糖果口味比例
问题—假设买了一包糖果,其中cherry和 lime的比例未知,即该包糖果属于哪个hi 未知 / 设樱桃糖比例记为θ∈[0,1] 假定所有的假设具有相同的先验概率,则 求最大似然概率是合理的 设已经剥开了N颗糖,其中c颗为樱桃味, 其余为酸橙味,则按照最大似然公式有
0.756*0.2 / 0.2509 0.757*0.2 / 0.2064 0.758*0.2 / 0.1645 0.759*0.2 / 0.1306 0.7510*0.2 / 0.1012
Байду номын сангаас
16*0.1 / 0.705 17*0.1 / 0.7703 18*0.1 / 0.8225 19*0.1 / 0.8694 110*0.1 / 0.8988
每次打开糖纸品尝口味,得到一个随机变量 D=cherry/lime
6
第8章 机器学习方法
贝叶斯法则(1) 贝叶斯法则(1)
问题:现在获得的数据为10次都是lime,问 这些糖取自何种包装?即学习的目标是根 据一定的观察序列,预测下一个出现的糖 果的口味 此时学习过程是一个概率推理过程,根据 贝叶斯法则,有:
8.6.3 朴素贝叶斯分类器
Nave Bayes Classifier是一种实用性很高的 贝叶斯学习器 / 某些应用中性能与神经 网络和决策树相当(Mitchell) 在其学习任务中,实例x由属性值的合取 表示,目标函数(分类)f(x)∈V(有限集合) 输入为关于目标函数的训练样例和新实例 的属性值z=<a1,a2,…an>,输出=z的分类 按照极大后验概率取值的原则,其输出目 标值应满足最大后验概率公式
dL(d | hθ ) c N c c = = 0 θ = dθ θ 1θ N
此结果表明—最大似然假设hML预测樱桃糖 的实际比例与到目前为止所观察的已剥开 糖果的比例相等 为了避免0概率问题,可以考虑给每个事件 初始化计数为1
16
第8章 机器学习方法
例子— 例子—贝叶斯网络中的预测
问题—不同口味比例的糖果包装不一样, 给出一个糖纸(wrapper)依赖于口味的贝叶 斯网 / 如图,这里有3个参数θ/θ1/θ2
如此,由该表格就可得出书中图20.1(a)的曲线
10
第8章 机器学习方法
贝叶斯预测
显然,如果一连给出10颗糖果都是lime口味 的话,其选自h5包装的可能性达到了90% / 曲线单调地趋向于1 例子表明—贝叶斯学习的特性是为真的假 设主导了贝叶斯预测过程 / 任何为假的假设 值的后验概率都会最终消退—因为生成不 典型数据的概率都会概率地逐渐减小 此外,贝叶斯预测是最优的—给定了假设 的先验概率,任何另外的预测不会比这个 预测更正确
人工智能原理
第8章 机器学习方法 (下)
第8章 机器学习方法
本章内容
参考文献 8.1 学习的一般形式 8.2 归纳学习 8.3 决策树 8.4 计算学习理论简介 8.5 集体学习—Boosting方法 8.6 贝叶斯学习 8.7 EM算法 附录 决策树算法的应用
第8章 机器学习方法
8.6 贝叶斯学习
数据的似然(2) 数据的似然(2)
求导后得到3个独立的方程,每个只有1个 参数—很容易得出结果
l L c = =0 θ θ 1 θ gc L rc = =0 θ1 θ1 1 θ1 rl gl L = =0 θ 2 θ 2 1 θ 2 c c θ = = c+l N rc rc θ1 = = rc + g c c rl rl θ2 = = rl + g l N c
21
第8章 机器学习方法
极大后验概率MAP 极大后验概率MAP分类 MAP分类
vMAP=arg max vj∈V P(vj|a1,a2,…an) =arg max [P(a1,a2,…an|vj)P(vj)/P(a1,a2,…an)] =arg max [P(a1,a2,…an|vj)P(vj)] 基于训练数据而估计其中两项的值—P(vj)= 计算训练数据中的频率 / 然而用于估计不 同P(a1,a2,…an|vj)存在困难,它要求非常大 的训练集合(以满足a1,a2,…an同时出现的要 求,每个实例必须出现多次) 能否化简?考虑属性的独立性
d2=lime d3=lime d4=lime d5=lime
0
3.077
0 0 0
1/0.2375= 4.2105 1/0.1891= 5.2882
1/0.15996 =6.2516
9
第8章 机器学习方法
实例的后验概率表(2) 实例的后验概率表(2)
dj
d6=lime d7=lime d8=lime d9=lime d10=lime
5
第8章 机器学习方法
8.6.1 贝叶斯学习实例
例子—预测糖果口味
两种口味(cherry/lime),相同包装 5种包装,比例如下且给定了先验概率:
h1: 100%=cherry h2: 75=cherry/25=lime h3: 50%=cherry/50%=lime h4: 25%=cherry/75%=lime h5: 100%=lime P(h1)=0.1 P(h2)=0.2 P(h3)=0.4 P(h4)=0.2 P(h5)=0.1
P(dj|h1)P(h1) P(dj|h2)P(h2) P(dj|h3)P(h3) P(dj|h4)P(h4) P(dj|h5)P(h5) /α / α P(dj|h2) / α P(dj|h3) / α P(dj|h4) / α P(dj|h5) P(h2) P(h3) P(h4) P(h5) P(dj|h1)P(h1)
P(hi|d)=αP(d|hi)P(hi)—d是所有的观察值 / α为归 一化因子,最终使得∑αP(d|hi)P(hi)=1 α值的获得很重要,是书中图20.1(a)概率曲线 生成的依据
7
第8章 机器学习方法
贝叶斯法则(2) 贝叶斯法则(2)
根据观察过程的独立同分布假设(i.i.d— independence & identical distribution)—即每 次取到某种糖果的概率都不依赖于其他次 的结果且都是按照统一分布进行的,有公 式:P(hi|d)=α∏jP(dj|hi)P(hi) (i=1~5, j=1~10) 由此,我们计算每次取到lime口味糖果的后 验概率(见下页表格)
8.6.1 贝叶斯学习实例 8.6.2 离散模型的最大似然参数学习 8.6.3 朴素贝叶斯分类器
第8章 机器学习方法
8.6 贝叶斯学习
统计学习有两类框架,一类是贝叶斯学 习,另一类是边缘学习(支持向量机等) 贝叶斯学习根据给定数据计算各种假设 的可能性,即根据概率为每个假设赋予 相应的权值,然后在此基础上进行预测
α
7.05 1/0.1298= 7.7029 1/0.1216= 8.2245 1/0.1150= 8.6942 1/0.11126 =8.9877
0 0 0 0 0
0 0 0 0 0
0.56*0.4 / 0.045 0.57*0.4 / 0.0241 0.58*0.4 / 0.01285 0.59*0.4 / ≈0 0/0
c c l 1 2
l
取对数以后得
L = log P ( D | hθ ,θ1 ,θ 2 ) = [c log θ + l log(1 θ )] + [rc log θ1 + g c log(1 θ1 )] + [rl log θ 2 + g l log(1 θ 2 )]
18
第8章 机器学习方法
11
第8章 机器学习方法
最大后验假设
贝叶斯最优预测的特性其代价也很高,假 设空间很大甚至无限 常见的近似方法—基于单一的最可能假设 进行预测—取使P(hi|D)最大化的hi(D为已经 观察到的数据集),这一方法称为最大(极大) 后验假设(maximum a posteriori, MAP) MAP假设随着数据量的增加,其与贝叶斯预 测就越接近
0.75*0.2 / 1*0.1 / α*0.15 α*0.1=0.2 =0.3 0.752*0.2 / 0.346 0.753*0.2 / 0.3553 0.754*0.2 / 0.3346 0.755*0.2 / 0.2967 12*0.1 / 0.308 13*0.1 / 0.42105 14*0.1 / 0.5288 15*0.1 / 0.625
12
第8章 机器学习方法
最大似然假设
假设先验P(hi)作用很重要,使复杂度高的 假设处于不利地位—体现了假设复杂度和 数据拟合度之间的一种折衷 因为hMAP=arg max P(h|D)=arg max P(D|h)P(h) 当P(h)相同时,MAP假设就退化为使得 P(D|h)最大的假设,此时就是最大(极大)似 然假设(maximum likelihood, ML) 当无法推断哪个假设更优先时,选择最大 似然是合理的,特别是当数据量大淹没先 验假设时 / 但该方法对于小数据集有问题
19
第8章 机器学习方法
有关结论
上述结果可以扩展到任何概率能够用表格 表示的贝叶斯网络 在完整数据条件下,一个贝叶斯网络的最 大似然参数学习问题被分解为几个单独的 问题,每个参数对应一个 已知一个变量的父变量,其参数值(条件概 率)就是在每种父变量取值设置下所观察的 该变量的频率
20
第8章 机器学习方法