第三章统计决策方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2020/5/25
• 理解本软件章工的程关专业键
– 要正确理解先验概率,类概率密度函数,后验 概率这三种概率
– 对这三种概率的定义,相互关系要搞得清清楚 楚
– Bayes公式正是体现这三者关系的式子,要透彻 掌握。
2020/5/25
软件工程专业
• 统计决策理论
– 是模式分类问题的基本理论之一
• 贝叶斯决策理论
– 是统计决策理论中的一个基本方法
第二章 统计决策理论
软件工程专业
1
最小错误率贝叶斯决策
2
最小风险贝叶斯决策
3
聂曼-皮尔逊判决
4
正态分布决策理论
2020/5/25
6
软件工程专业
1 最小错误率贝叶斯Biblioteka Baidu策
2020/5/25
7
• 模式识软别件系工统程的专基业本构成 信息获取 预处理 特征提取 分类决策
13
判别函数的几种等价形式
(1)g(x )软件P工(程1 专x )业 P(2 x ),(后验概率) (2)g(x ) P(x 1)P(1) P(x 2 )P(2 ),(类条件概率密度)
等价
(3)g(x )
P(x P(x
1 ) 2 )
P(2 ) ,(似然比形式) P(1 )
(4)g(x )
ln
➢ 另一个区R2中的x,条件错误概率为p(w1|x)
因此平均错误率P(e)可表示成
P(e) R1 P(2 | x) p(x)dx R2 P(1 | x) p(x)dx
2020/5/25
19
软件工程专业
p( x 1)P(1) A
p( x 2 )P(2 )
R1
H
p( x 2 )P(2 ) dx
P(x P(x
1 ) 2 )
ln
P(2 ) ,(取对数方法) P(1 )
决策规则:
2020/5/25
(1)P(1
x)
P(2
x)
x
1 2
(2)P(x
1)P(1)
P(x
2)P(2)
x 1 2
(3)
P(x
1)
P(x
2)
P(2) P(1)
x
1 2
(4)g(x)
ln
P(x 1)
ln
P(2)
x 1
P(x 2) P(1)
• 同一条件x下,比较ω1与ω2出现的概率 • 两类ω1和ω2,则有P(ω1|x)+P(ω2|x)=1 • 如P(ω1|x)> P(ω2|x)则可以下结论,在x条件下,
事件ω1出现的可能性大
– 类条件概率: P(x|ω1)和P(x|ω2)
• 是在不同条件下讨论的问题 • 即使只有两类ω1与ω2,P(x|ω1)+P(x|ω1)≠1 • P(x|ω1)与P(x|ω2)两者没有联系
• 分类决策:把样本分到哪一类最合理
– 样本空间到决策空间的一个映射
– 采用不同的标准会得到不同意义下的 “最优”的决策 最小错误率贝叶斯决策
样本1 样本2
样本3
类别空间
2020/5/25
8
基于最小软错件工误程率专的业 贝叶斯决策
• 基本思想
– 使错误率为最小的分类规则 – 称之为基于最小错误率的贝叶斯决策
2
讨论
• 类条件软概件率工程密专度业函数直接用来分类是否合理?
P( X | 1) P( X | 2 ) : 1 P( X | 1) P( X | 2 ) : 2
具有一定的合理性 但是没有考虑先验概率 不满足最小错误率要求
2020/5/25
问题
• 类条软件件工概程率专业和后验概率区别?
– 后验概率: P(ω1|x)和P(ω2|x)
挑选西瓜
只根据软先件验工知程识专挑业选西瓜
• 这种决策信息没有意义 • 如何根据敲声挑选出好的西瓜?
• 根据贝叶斯公式
2020/5/25
12
• 如果有软:件工程专业
• 则为好瓜,反之亦然 • 分母相同,实际只需要比较分子
• 这种根据后验概率进行决策的方法称为最小错误 率贝叶斯决策
2020/5/25
问题
• 为什么软先件验工程概专率业和类条件概率密度函数可以作为 已知,而后验概率需要通过计算获得? – 计算概率都要拥有大量数据 – 估计先验概率与类条件概率密度函数时都可搜 集到大量样本 – 对某一特定事件要搜集大量样本是不太容易 – 只能借助Bayes公式来计算得到
2020/5/25
错误率分析
模式识别
计软算件机工与程计通专算信业机工与程通学信院工程学院
第二章 统计决策方法
课前思考
• 机器自软件动工识程别专业分类,能不能避免错分类 ? • 怎样才能减少错误? • 不同错误造成的损失一样吗? • 先验概率,后验概率,概率密度函数? • 什么是贝叶斯公式? • 正态分布?期望值、方差? • 正态分布为什么是最重要的分布之一?
软件工程专业
• 对待分类模式的特征我们得到一个观察值 x , 合 理的决策规则:
• 决策错误的条件概率(随机变量x 的函数):
2020/5/25
18
平均错误率
软件工程专业
(连续情况) (离散情况)
➢ 如果我们把作出w1决策的所有观测值区域称为R1, 则在R1区内的每个x值,条件错误概率为p(w2|x)。
例子:挑选西瓜
软件工程专业
编号 1 2 3 4 5 6 7 8 9
敲声 沉闷 沉闷 沉闷 沉闷 清脆 清脆 清脆 浊响 浊响
好瓜 是 否 否 否 是 是 否 是 否
2020/5/25
10
贝叶斯公式
软件工程专业
• 先验
• 似然
• 后验
2020/5/25
当敲击声音为清脆时, 该西瓜是好瓜的概率 11
R1
R2
p( x 1)P(1) dx
R2
2020/5/25
小结
• 优点:软件工程专业
– 基于后验概率决策的贝叶斯分类器具有最小错 误率
• 缺点:
─ 只是在最小错误率下的最优
癌细胞筛查:是癌细胞但是判断为正常细胞的风险应该比正 常细胞判断为癌细胞的风险大得多
最小误差
决策规则
最小风险 限定一类错误率
2020/5/25
21
软件工程专业
2 最小风险贝叶斯决策
2020/5/25
22
基本思想
• 使错误软率件最工小程并专不业一定是一个普遍适用的最佳选择。
例如:癌细胞分类,两种错误的代价(损失)不同 • 两种错误:
2020/5/25
学习指南
• 本章要软件说工明程分专业类识别中为什么会有错分类, 在何种情况下会出现错分类?错分类的可 能性会有多大?怎样才能使错分类最少?
• 不同的错分类造成的危害是不同的,有的 错分类种类造成的危害更大,因此控制这 种错分类则是更重要的。为此引入了一种 “风险”与“损失”概念,希望做到使风 险最小。要着重理解“风险”与“损失” 的概念,以及在引入“风险”概念后的处 理方法。
• 理解本软件章工的程关专业键
– 要正确理解先验概率,类概率密度函数,后验 概率这三种概率
– 对这三种概率的定义,相互关系要搞得清清楚 楚
– Bayes公式正是体现这三者关系的式子,要透彻 掌握。
2020/5/25
软件工程专业
• 统计决策理论
– 是模式分类问题的基本理论之一
• 贝叶斯决策理论
– 是统计决策理论中的一个基本方法
第二章 统计决策理论
软件工程专业
1
最小错误率贝叶斯决策
2
最小风险贝叶斯决策
3
聂曼-皮尔逊判决
4
正态分布决策理论
2020/5/25
6
软件工程专业
1 最小错误率贝叶斯Biblioteka Baidu策
2020/5/25
7
• 模式识软别件系工统程的专基业本构成 信息获取 预处理 特征提取 分类决策
13
判别函数的几种等价形式
(1)g(x )软件P工(程1 专x )业 P(2 x ),(后验概率) (2)g(x ) P(x 1)P(1) P(x 2 )P(2 ),(类条件概率密度)
等价
(3)g(x )
P(x P(x
1 ) 2 )
P(2 ) ,(似然比形式) P(1 )
(4)g(x )
ln
➢ 另一个区R2中的x,条件错误概率为p(w1|x)
因此平均错误率P(e)可表示成
P(e) R1 P(2 | x) p(x)dx R2 P(1 | x) p(x)dx
2020/5/25
19
软件工程专业
p( x 1)P(1) A
p( x 2 )P(2 )
R1
H
p( x 2 )P(2 ) dx
P(x P(x
1 ) 2 )
ln
P(2 ) ,(取对数方法) P(1 )
决策规则:
2020/5/25
(1)P(1
x)
P(2
x)
x
1 2
(2)P(x
1)P(1)
P(x
2)P(2)
x 1 2
(3)
P(x
1)
P(x
2)
P(2) P(1)
x
1 2
(4)g(x)
ln
P(x 1)
ln
P(2)
x 1
P(x 2) P(1)
• 同一条件x下,比较ω1与ω2出现的概率 • 两类ω1和ω2,则有P(ω1|x)+P(ω2|x)=1 • 如P(ω1|x)> P(ω2|x)则可以下结论,在x条件下,
事件ω1出现的可能性大
– 类条件概率: P(x|ω1)和P(x|ω2)
• 是在不同条件下讨论的问题 • 即使只有两类ω1与ω2,P(x|ω1)+P(x|ω1)≠1 • P(x|ω1)与P(x|ω2)两者没有联系
• 分类决策:把样本分到哪一类最合理
– 样本空间到决策空间的一个映射
– 采用不同的标准会得到不同意义下的 “最优”的决策 最小错误率贝叶斯决策
样本1 样本2
样本3
类别空间
2020/5/25
8
基于最小软错件工误程率专的业 贝叶斯决策
• 基本思想
– 使错误率为最小的分类规则 – 称之为基于最小错误率的贝叶斯决策
2
讨论
• 类条件软概件率工程密专度业函数直接用来分类是否合理?
P( X | 1) P( X | 2 ) : 1 P( X | 1) P( X | 2 ) : 2
具有一定的合理性 但是没有考虑先验概率 不满足最小错误率要求
2020/5/25
问题
• 类条软件件工概程率专业和后验概率区别?
– 后验概率: P(ω1|x)和P(ω2|x)
挑选西瓜
只根据软先件验工知程识专挑业选西瓜
• 这种决策信息没有意义 • 如何根据敲声挑选出好的西瓜?
• 根据贝叶斯公式
2020/5/25
12
• 如果有软:件工程专业
• 则为好瓜,反之亦然 • 分母相同,实际只需要比较分子
• 这种根据后验概率进行决策的方法称为最小错误 率贝叶斯决策
2020/5/25
问题
• 为什么软先件验工程概专率业和类条件概率密度函数可以作为 已知,而后验概率需要通过计算获得? – 计算概率都要拥有大量数据 – 估计先验概率与类条件概率密度函数时都可搜 集到大量样本 – 对某一特定事件要搜集大量样本是不太容易 – 只能借助Bayes公式来计算得到
2020/5/25
错误率分析
模式识别
计软算件机工与程计通专算信业机工与程通学信院工程学院
第二章 统计决策方法
课前思考
• 机器自软件动工识程别专业分类,能不能避免错分类 ? • 怎样才能减少错误? • 不同错误造成的损失一样吗? • 先验概率,后验概率,概率密度函数? • 什么是贝叶斯公式? • 正态分布?期望值、方差? • 正态分布为什么是最重要的分布之一?
软件工程专业
• 对待分类模式的特征我们得到一个观察值 x , 合 理的决策规则:
• 决策错误的条件概率(随机变量x 的函数):
2020/5/25
18
平均错误率
软件工程专业
(连续情况) (离散情况)
➢ 如果我们把作出w1决策的所有观测值区域称为R1, 则在R1区内的每个x值,条件错误概率为p(w2|x)。
例子:挑选西瓜
软件工程专业
编号 1 2 3 4 5 6 7 8 9
敲声 沉闷 沉闷 沉闷 沉闷 清脆 清脆 清脆 浊响 浊响
好瓜 是 否 否 否 是 是 否 是 否
2020/5/25
10
贝叶斯公式
软件工程专业
• 先验
• 似然
• 后验
2020/5/25
当敲击声音为清脆时, 该西瓜是好瓜的概率 11
R1
R2
p( x 1)P(1) dx
R2
2020/5/25
小结
• 优点:软件工程专业
– 基于后验概率决策的贝叶斯分类器具有最小错 误率
• 缺点:
─ 只是在最小错误率下的最优
癌细胞筛查:是癌细胞但是判断为正常细胞的风险应该比正 常细胞判断为癌细胞的风险大得多
最小误差
决策规则
最小风险 限定一类错误率
2020/5/25
21
软件工程专业
2 最小风险贝叶斯决策
2020/5/25
22
基本思想
• 使错误软率件最工小程并专不业一定是一个普遍适用的最佳选择。
例如:癌细胞分类,两种错误的代价(损失)不同 • 两种错误:
2020/5/25
学习指南
• 本章要软件说工明程分专业类识别中为什么会有错分类, 在何种情况下会出现错分类?错分类的可 能性会有多大?怎样才能使错分类最少?
• 不同的错分类造成的危害是不同的,有的 错分类种类造成的危害更大,因此控制这 种错分类则是更重要的。为此引入了一种 “风险”与“损失”概念,希望做到使风 险最小。要着重理解“风险”与“损失” 的概念,以及在引入“风险”概念后的处 理方法。