第三章贝叶斯决策

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
这时需要采用统计方法,对模式样本的统计特 性进行观测,分析属于哪一类的概率最大。此 时要按照某种判据分类,如,分类错误发生的 概率最小,或在最小风险下进行分类决策等。
贝叶斯决策理论
❖ 引言
❖ 贝叶斯决策常用的准则 ❖ 分类器,判别函数,决策面 ❖ 正态分布的判别函数
引言
❖ 机器自动识别分类,能不能避免错分类,做到百分 之百正确?怎样才能减少错误?
先验概率分布:未获得观测数据(病人白 细胞浓度)之前类别的分布。
最小错误率准则
❖ 观测数据白细胞浓度分别在两种情况下的类 条件概率分布:
❖ 已知先验分布和观测值的类条件概率分布,
就可以用贝叶斯理论求得x属于哪一类的后
验概率:
和 P 2 x
最小错误率准则
❖ 最小错误率准则
以先验概率、类条 件概率密度、特征 值(向量)为输入
第2章 贝叶斯决策理论
Bayesian Decision Theory
❖ 模式识别是根据对象特征值将其分类。 d个特征组成特征向量x=[x1,···,xd]T,生成d 维特征 空间,在特征空间一个 x 称为一个模式样本。
❖ Bayes决策理论是用概率统计方法研究决策问题。 ⒈ 为什么可用Bayes决策理论分类? ⑴样本的不确定性:
最小错误率准则
❖ 先验概率: P i 未获得观测数据之前类别的分布
❖ 类条件概率:P x i 观测数据在各类别种情况下的分布
❖ 后验概率: Pi x X属于哪一类的概率
❖ 贝叶斯公式
P i
x
Px
i P i
Px
c
其中: P x P x i P i i1
最小错误率准则
例:医生要根据病人血液中白细胞的浓度来判断病 人是否患血液病。
①样本从总体中抽取,特征值都是随机变量,在相 同条件下重复观测取值不同,故x为随机向量。 ②特征选择的不完善引起的不确定性; ③测量中有随机噪声存在。
⑵另一方面从样本的可分性来看: ❖ 当各类模式特征之间有明显的可分性时,可用
直线或曲线(面)设计分类器,有较好的效果。 ❖ 当各类别之间出现混淆现象时,则分类困难。
p 2 p 1
似然比公式
最小错误率准则
❖ 特例1:
最小错误率准则
❖ 特例2:
最小错误率准则
❖ 形式逻辑(经典确定性推理)
以鲈鱼和鲑鱼分类为例:
假言:如果鱼的长度 x 大于45cm,则该鱼为
鲈鱼 1,否则该鱼为鲑鱼 2
前提:现在某条鱼 x 38cm
结论:该鱼为鲑鱼 2
❖ 概率推理(不确定性推理)
❖ 假设要研究的分类问题有c个类别,类型空间表示
为:
1,2 ,L ,i L ,c
引言
❖ 评价决策有多种标准,对于同一个问题,采用不同 的标准会得到不同意义下“最优”的决策。
❖ 贝叶斯决策常用的准则:
最小错误率准则 最小风险准则 Neyman-Pearson准则 最小最大决策准则
贝叶斯决策理论
❖ 引言
❖ 贝叶斯决策常用的准则
❖ 分类器,判别函数,决策面 ❖ 正态分布的判别函数
Bayes决策准则
❖ 最小错误率准则
❖ 最小风险准则 ❖ Neyman-Pearson准则 ❖ 最小最大决策准则
最小错误率准则
黑色:第一类
粉色:第二类
绿色:哪一类?
统计决策理论就是 根据每一类总体的 概率分布决定未知 类别的样本属于哪 一类!
最小错误率准则
❖ 最小错误率准则的平均错误率: 记平均错误率为P(e),令 t = x2=x3,则
最小错误率准则
❖ 平均错误率是否最小?
最小错误率准则
❖ 似然比公式
P i
x
Px
i P i
Px
则: P 1 x P 2 x
等价于:
p x 1 P 1 p x 2 P 2
p x 1 p x 2
故判决: y 1
Bayes决策准则
❖ 最小错误率准则
以后验概率作为类 别判断的依据
贝叶斯公式保证了 错误率最小
最小错误率准则
❖ 最小错误率的贝叶斯决策 规则为: 如果 P 1 x 大于P 2 x , 则把x归于患病状态,反之 则归于未患病状态。(最 大后验概率决策)
x1=x2 ?
最小错误率准则
❖ 最小错误率准则的平均错误率:
x =x x2和x3 都是 p(x, ω1)= p(x, ω2) 的根 ,因此 2 3 是两类分界
P i x
ห้องสมุดไป่ตู้
最小错误率准则
❖ 例子:
给定
P
y
1
P
y
2
1 2
,类条件概率密度如图。
现有一条鱼 x=38cm, 若采用最小错误率决策,该鱼应该为哪一类?
Py
1
x
38
px
38 y 1 P y
p x 38
1
0.16 0.5 0.16 0.5 0.04 0.5
0.8
P y 2 x 38 0.2
两类识别问题:患病,未患病
根据医学知识和以往的经验,医生知道:
❖患病的人,白细胞的浓度服从均值2000方差1000的正 态分布;未患病的人,白细胞的浓度服从均值7000, 方差3000的正态分布;(类条件概率)
❖一般人群中,患病的人数比例为0.5%;(先验概率) ❖一个人的白细胞浓度时3100,医生应该做出怎样的判
❖ 贝叶斯决策的两个要求
各个类别的总体概率分布 (先验概率和类条件概 率密度) 是已知的
要决策分类的类别数是一定的
引言
❖ 在连续情况下,假设对要识别的物理对象有d种特征
观察量x1,x2,…xd,这些特征的所有可能的取值范围 构成了d维特征空间。
❖ 称向量 x x1, x2,L , xd T x Rd 为d维特征向量。
断?(后验概率?)
最小错误率准则
❖ 数学表示:
Ω:表示类别这一随机变量 ω1:表示患病 ω2:表示不患病
X:表示白细胞浓度这一随机变量 x: 表示白细胞浓度值
最小错误率准则
❖ 医生根据已经掌握的知识知道类别的先验 分布:
P 1 P 1 0.5% P 2 P 2 99.5%
❖ 错分类往往难以避免,因此就要考虑减小因错分类 造成的危害损失,那么有没有可能对危害大的错误 严格控制?
❖ 什么是先验概率、类概率密度函数和后验概率?它 们的定义和相互关系如何?贝叶斯公式正是体现三 者关系的式子。
引言
❖ 贝叶斯决策理论
贝叶斯统计决策理论是处理模式分类问题的基本理 论之一,对模式分析和分类器(Classifier)的设 计起指导作用。
相关文档
最新文档