第3章Bayes决策理论.pptx
合集下载
统计决策理论-bayes定理
于是由先验概率 P( j ) 转化为后验概率 P(ωj|x) 。
如果对待分类模式的特征我们得到一个观察值x,经上式计
算出结果 P(1 x)>P(2 x),则判决X属于 1,反之,属 于 2 。
13
2.2 Bayes决策
14
2.2 Bayes决策
例1:在细胞的化验中,要区分正常和异常的两 种类型,分别用w1和w2表示,已知p(w1)=0.85, p(w2)=0.15,现有一待测细胞,其观测值为X,从 类条件概率密度分析曲线上查得p(x/w1)=0.15, p(x/w2)=0.45,试对该细胞进行分类。
2
• 统计学以数据为研究内容,但仅仅收集数据, 决不构成统计学研究的全部。
• 下面介绍几种最常用、也是最基本的统计决策 方法。这些方法是以后各种模式识别方法的基 础。
3
2.1 Bayes定理
贝叶斯决策理论方法是统计模式识别中的一个基本方 法,用这种方法进行分类时要求满足以下两个条件:
(1)各类别总体的概率分布是已知的; (2)要决策的类别数是一定的。
15
所以这次化验的细胞被判断为正常类型细胞。 16
2.2 Bayes决策
2.2.2 最小风险Bayes决策
最小风险Bayes决策是考虑各种错误造成损失不同 而提出的一种决策规则。
例如,通过化验判断细胞是不是癌细胞,可能做 出两种错误判决:一是把癌细胞错判为正常细胞; 一种是把正常细胞错判为癌细胞。这两种错误判 决带来的风险显然是不同的。
5
先验概率 预先已知的或者可以估计的模式识别系统位于某
种类型的概率,即根据大量统计确定某类事物出 现的比例。 如我国理工科大学男女生比例大约为8:2,则在这 类学校一个学生是男生的先验概率为0.8,而为女 生的概率是0.2,两个概率之和为1。
贝叶斯决策理论
P(1 | x) if we decide 2 P(error | x) P( 2 | x) if we decide1
显然,对于某个给定的x,采用上述规则可以使错误概率最
小。 问题是,这一规则能够使得平均错误概率最小吗?
2最小错误率的贝叶斯决策
平均错误概率:
P(error) P(error, x)dx P(error | x) p( x)dx
1 引言
后验概率:一个具体事物属于某种类别的概率, 例如一个学生用特征向量x表示,它是男性或女 性的概率表示成P(男生|x)和P(女生|x),这就是 后验概率。由于一个学生只可能为两个性别之一, 因此有P(男生|x)+P(女生|x)=1的约束,这一点是 与类分布密度函数不同的。后验概率与先验概率 也不同,后验概率涉及一个具体事物,而先验概 率是泛指一类事物,因此P(男生|x)和P(男生)是 两个不同的概念。
4贝叶斯决策的评价
局限性:
(1)它需要的数据多,分析计算比较复杂,特别在解决 复杂问题时,这个矛盾就更为突出。 (2)有些数据必须使用主观概率,有些人不太相信,这 也妨碍了贝叶斯决策方法的推广使用。
R R( (x) | x) p (x)dx
显然,如果对于每个x 我们都选择 小,则总风险将被最小化
(x) 使得
R(i | x)
最
3最小风险的贝叶斯决策
相关数学表达
3最小风险的贝叶斯决策
一般损失函数可由决策表给出:
3最小风险的贝叶斯决策
步骤
• 计算后验概率: P(i | x)
贝叶斯决策理论
2014年12月15日
1 引言
把x分到哪一类最合理?理论基础之一是统 计决策理论。 决策:是从样本空间S,到决策空间Θ的一 个映射 贝叶斯决策就是在不完全情报下,对部分 未知的状态用主观概率估计,然后用贝叶 斯公式对发生概率进行修Байду номын сангаас,最后再利用 期望值和修正概率做出最优决策。
第3章Bayes决策理论2
第3章Bayes决策•返理论回2 本章首页
•(2)各类的协方差矩阵不相等
第3章Bayes决策•返理论回2 本章首页
第3章Bayes决策•返理论回2 本章首页
3.7 离散情况的Bayes决策
•前面我们我们介绍都是连续情况的Bayes决策理论,这 里我们看一下的离散情况。设 是离散型随机变量,从 而Bayes决策法则就是:
•(1)先验概率
;
•(2)条件概率密度函数
。
•先验概率的估计并不困难,关键是条件概率密度函数。
•这里我们以正态分布概率密度函数为主进行讨论,因为
•Ⅰ 在实际问题中,大量的随机变量都服从或近似地服 从正态分布;
•Ⅱ 即使统计总体不服从正态分布,但是它的许多重要 的样本特征可能是渐进正态分布的;
•Ⅲ 正态分布分析起来比较方便。
第3章Bayes决策•返理论回2 本章首页
第3章Bayes决策•返理论回2 本章首页
3.3 Neyman—Pearson决策
Neyman—Pearson决策即限定一类错误率条件下使另一 类错误率为最小的两类别决策。
第3章Bayes决策•返理论回2 本章首页
•用Lagrange乘子法建立其数学模型
• ,它对应于下式
•然后确定
第3章Bayes决策•返理论回2 本章首页
3.5 Bayes分类器和判别函数
•前面我们介绍了四种决策规则,这里结合第二章中介绍 的判别函数和决策面的概念来设计分类器。
•对于n 维空间中的 c 个模式类别各给出一个由 n 个特征组成的单 值函数,这叫做判别函数。在 c 类的情况下,我们共有 c个判别函 数,记为
第3章Bayes决策理论2
2020/11/26
第3章Bayes决策理论2
•(2)各类的协方差矩阵不相等
第3章Bayes决策•返理论回2 本章首页
第3章Bayes决策•返理论回2 本章首页
3.7 离散情况的Bayes决策
•前面我们我们介绍都是连续情况的Bayes决策理论,这 里我们看一下的离散情况。设 是离散型随机变量,从 而Bayes决策法则就是:
•(1)先验概率
;
•(2)条件概率密度函数
。
•先验概率的估计并不困难,关键是条件概率密度函数。
•这里我们以正态分布概率密度函数为主进行讨论,因为
•Ⅰ 在实际问题中,大量的随机变量都服从或近似地服 从正态分布;
•Ⅱ 即使统计总体不服从正态分布,但是它的许多重要 的样本特征可能是渐进正态分布的;
•Ⅲ 正态分布分析起来比较方便。
第3章Bayes决策•返理论回2 本章首页
第3章Bayes决策•返理论回2 本章首页
3.3 Neyman—Pearson决策
Neyman—Pearson决策即限定一类错误率条件下使另一 类错误率为最小的两类别决策。
第3章Bayes决策•返理论回2 本章首页
•用Lagrange乘子法建立其数学模型
• ,它对应于下式
•然后确定
第3章Bayes决策•返理论回2 本章首页
3.5 Bayes分类器和判别函数
•前面我们介绍了四种决策规则,这里结合第二章中介绍 的判别函数和决策面的概念来设计分类器。
•对于n 维空间中的 c 个模式类别各给出一个由 n 个特征组成的单 值函数,这叫做判别函数。在 c 类的情况下,我们共有 c个判别函 数,记为
第3章Bayes决策理论2
2020/11/26
第3章Bayes决策理论2
Bayes决策理论课件(PPT 67页)
损失。 根据Bayes公式,后验概率为:
P( j
x)
p( x j )P( j )
5
p( x i )P(i )
i1
j 1, 2, ,5
返回本章首页
第3章 Bayes决策理论
对于刚才的决策表考虑如下的一个条件期望损失,即给
定x ,我们采取决策 i 情况下的条件期望损失(条件风
险) :
5
R(i x) (i , j )P( j x) E (i , j ) i1,2, ,5
R2
R1
P(1)P1(e) P(2 )P2 (e)
返回本章首页
第3章 Bayes决策理论
结 束放映 返回本章首页
第3章 Bayes决策理论
3.2 最小风险的Bayes决策
在上一节我们介绍了最小错误率的Bayes决策, 并且证明了应用这种决策法则时,平均错误概率 是最小的。但实际上有时需要考虑一个比错误率 更为广泛的概念——风险,举例说明。毋庸置疑, 任何风险都会带来一定损失。看一个一般的决策 表。
0
p(x 2 )dx 0
R1
R1 ( t) R2 (t )
与最小错误率的Bayes决策的比较
P(1 x) P(2 x) 1
P(1 x) P(2 x)
2
p(x p(x
1 ) 2 )
p(x p(x
1 ) 2 )
x2 x1
返回本章首页
第3章 Bayes决策理论
3.4 最小最大决策
有时我们必须设计在整个先验概率范围上都能很 好的进行操作的分类器。比如,在我们的有些分 类问题中可能设想尽管模式的有些物理属性恒定 不变,然而先验概率可能变化范围很大,并且以 一种不确定的 方式出现。或者,我们希望在先 验概率不知道的情况下使用此分类器,那么一种 合理的设计分类器的方法就是使先验概率取任何 一种值时所引起的总风险的最坏的情况尽可能小, 也就是说,最小化最大可能的总风险。以二类模 式识别问题为例,进行讨论。
P( j
x)
p( x j )P( j )
5
p( x i )P(i )
i1
j 1, 2, ,5
返回本章首页
第3章 Bayes决策理论
对于刚才的决策表考虑如下的一个条件期望损失,即给
定x ,我们采取决策 i 情况下的条件期望损失(条件风
险) :
5
R(i x) (i , j )P( j x) E (i , j ) i1,2, ,5
R2
R1
P(1)P1(e) P(2 )P2 (e)
返回本章首页
第3章 Bayes决策理论
结 束放映 返回本章首页
第3章 Bayes决策理论
3.2 最小风险的Bayes决策
在上一节我们介绍了最小错误率的Bayes决策, 并且证明了应用这种决策法则时,平均错误概率 是最小的。但实际上有时需要考虑一个比错误率 更为广泛的概念——风险,举例说明。毋庸置疑, 任何风险都会带来一定损失。看一个一般的决策 表。
0
p(x 2 )dx 0
R1
R1 ( t) R2 (t )
与最小错误率的Bayes决策的比较
P(1 x) P(2 x) 1
P(1 x) P(2 x)
2
p(x p(x
1 ) 2 )
p(x p(x
1 ) 2 )
x2 x1
返回本章首页
第3章 Bayes决策理论
3.4 最小最大决策
有时我们必须设计在整个先验概率范围上都能很 好的进行操作的分类器。比如,在我们的有些分 类问题中可能设想尽管模式的有些物理属性恒定 不变,然而先验概率可能变化范围很大,并且以 一种不确定的 方式出现。或者,我们希望在先 验概率不知道的情况下使用此分类器,那么一种 合理的设计分类器的方法就是使先验概率取任何 一种值时所引起的总风险的最坏的情况尽可能小, 也就是说,最小化最大可能的总风险。以二类模 式识别问题为例,进行讨论。
贝叶斯决策理论
两类分类器的功能:计算判别函数,再根据计算 结果的符号将 x 分类
g(x)
判别计算
阈值单元
决策
贝叶斯决策理论
2.3 正态分布时的统计决策
重点分析正态分布情况下统计决策的原因是: ①正态分布在物理上是合理的、广泛的 ②正态分布 数学表达上简捷,如一维情况下只
有均值和方差两个参数,因而易于分析
贝叶斯决策理论
贝叶斯决策理论
目标:所采取的一系列决策行动应该使期 望风险达到最小
手段:如果在采取每一个决策时,都使其 条件风险最小,则对所有的 x 作决策时, 其期望风险也必然达到最小
决策:最小风险Bayes决策
贝叶斯决策理论
最小风险Bayes决策规则:
其中
采取决策
贝叶斯决策理论
最小风险Bayes决策的步骤
2.2.6 分类器设计
要点: • 判别函数 • 决策面(分类面) • 分类器设计
贝叶斯决策理论
决策面(分类面)
对于 c 类分类问题,按照决策规则可以把 d 维特 征空间分成 c 个决策域,我们将划分决策域的 边界面称为决策面(分类面)
贝叶斯决策理论
判别函数
用于表达决策规则的某些函数,则称为判别 函数
E{ xi xj } = E{ xi } E{ xj }
贝叶斯决策理论
相互独立
成立
成立?? 多元正态分布的任
不相关
意两个分量成立!
贝叶斯决策理论
说明:正态分布中不相关意味着协方差矩阵
是对角矩阵
并且有
贝叶斯决策理论
④边缘分布(对变量进行积分)和条件分布(固定变 量)的正态性
⑤线性变换的正态性
y=Ax A为线性变换的非奇异矩阵。若 x 为正态分布,
g(x)
判别计算
阈值单元
决策
贝叶斯决策理论
2.3 正态分布时的统计决策
重点分析正态分布情况下统计决策的原因是: ①正态分布在物理上是合理的、广泛的 ②正态分布 数学表达上简捷,如一维情况下只
有均值和方差两个参数,因而易于分析
贝叶斯决策理论
贝叶斯决策理论
目标:所采取的一系列决策行动应该使期 望风险达到最小
手段:如果在采取每一个决策时,都使其 条件风险最小,则对所有的 x 作决策时, 其期望风险也必然达到最小
决策:最小风险Bayes决策
贝叶斯决策理论
最小风险Bayes决策规则:
其中
采取决策
贝叶斯决策理论
最小风险Bayes决策的步骤
2.2.6 分类器设计
要点: • 判别函数 • 决策面(分类面) • 分类器设计
贝叶斯决策理论
决策面(分类面)
对于 c 类分类问题,按照决策规则可以把 d 维特 征空间分成 c 个决策域,我们将划分决策域的 边界面称为决策面(分类面)
贝叶斯决策理论
判别函数
用于表达决策规则的某些函数,则称为判别 函数
E{ xi xj } = E{ xi } E{ xj }
贝叶斯决策理论
相互独立
成立
成立?? 多元正态分布的任
不相关
意两个分量成立!
贝叶斯决策理论
说明:正态分布中不相关意味着协方差矩阵
是对角矩阵
并且有
贝叶斯决策理论
④边缘分布(对变量进行积分)和条件分布(固定变 量)的正态性
⑤线性变换的正态性
y=Ax A为线性变换的非奇异矩阵。若 x 为正态分布,
决策分析贝叶斯决策
天数
3 9 15 3
频率
0.1 0.3 0.5 0.1
由这些资料可以确定未来任何一天的销售量(即自 然状态)的概率分布。
2
先验分布例子: 用某一段时间内每批产品所包含的不合格品数目,来估
计该产品不合格品率的概率分布; 用过去历年秋季广州市火灾的次数,来估计明年秋季火
灾次数的概率分布。
3.主观的先验分布
=2000×0.3+0×0.7=600(元)
故决策方案δ 1(x)的贝叶斯风险为 B(δ 1)= P(θ 1, δ 1) P(θ =θ 1)+ P(θ 2, δ 1) P(θ =θ 2) =300×1/2+600×1/2=450(元)
决策方案δ 2(x)的贝叶斯风险 R(θ1, δ 2(合)) =R(θ1, a2) =1500 R(θ1, δ 2(不)) =R(θ1, a1) =0 R(θ2, δ 2(合)) =R(θ2, a2) =0 R(θ2, δ 2(不)) =R(θ2, a1) =2000
P2
0.160.5
0.432
0.160.5 0.210.5
P2
|
合.不
P合.不|
P合.不|2 P2 1P1 P合.不|
2
P2
0.210.5
0.568
0.160.5 0.210.5
因此,应判断此时设备不正常
11
情况5:可以抽出的两件产品皆为不合格品,即X=“不·不”,
21
若抽取两件产品来补充情报信息,这时决策方案共有 八个,分别记为δ1,δ2,δ3,δ4,δ5,δ6,δ7,δ8,各个决 策方案的风险值和贝叶斯风险见表5-4:
表5-4 状态θ
第三章 风险型决策分析 (《决策理论与方法》PPT课件)
建小型店经营好再扩建400150再投2101006010150601501010表37年投资收益表三多阶决策分析第三节贝叶斯决策分析一贝叶斯决策的基本方法二贝叶斯决策的基本方法贝叶斯决策的基本方法是首先利用市场调查获取的补充信息去修正状态变量的先验分布即依据似然分布矩阵所提供的充分信息用贝叶斯公式求出在信息值贝叶斯决策的基本步骤如下
大型扩建:E(d1) 0.7 200 0.3 (60) 122(万元) 中型扩建:E(d2 ) 0.7 150 0.3 20 111(万元)
小型扩建:E(d3 ) 0.7 100 0.3 60 88(万元)
(2)选择决策方案。根据计算结果,大型扩建方案获利期望值是122万,中型扩建方案获利期 望值是111万元、小型扩建方案获利期望值是88万元。因此,选择大型扩建方案是最优方案。
险情况,我们把这种情报称为完全情报,掌握了完全情报,风险决策就转化为确定型决策。 1.信息价值的意义
设 H为i 补充信息值,若存在状态值 ,0 使得条件概率 P(0 / H i ),或1 者当状态值 时,0总有
P( / H i ) 0
则称信息值
H
为完全信息值。
i
如果补充信息值 Hi 对每一个状态值 都是完全信息值,则完全信息值 Hi 对状态 的期望收益值称为 完全信息价值的期望值(expected value of perfect information),简称完全信息价值,记做EVPI。
第三节 贝叶斯决策分析
二、贝叶斯决策分析的信息价值
信息本身是有价值的。在抽样调查中,通常调查的样本越多,获得的情报也越多,但是花费也更多。 因此有一个是否应该进行调查和抽样多少次更为合适的问题。
(一)完全情报的价值
大型扩建:E(d1) 0.7 200 0.3 (60) 122(万元) 中型扩建:E(d2 ) 0.7 150 0.3 20 111(万元)
小型扩建:E(d3 ) 0.7 100 0.3 60 88(万元)
(2)选择决策方案。根据计算结果,大型扩建方案获利期望值是122万,中型扩建方案获利期 望值是111万元、小型扩建方案获利期望值是88万元。因此,选择大型扩建方案是最优方案。
险情况,我们把这种情报称为完全情报,掌握了完全情报,风险决策就转化为确定型决策。 1.信息价值的意义
设 H为i 补充信息值,若存在状态值 ,0 使得条件概率 P(0 / H i ),或1 者当状态值 时,0总有
P( / H i ) 0
则称信息值
H
为完全信息值。
i
如果补充信息值 Hi 对每一个状态值 都是完全信息值,则完全信息值 Hi 对状态 的期望收益值称为 完全信息价值的期望值(expected value of perfect information),简称完全信息价值,记做EVPI。
第三节 贝叶斯决策分析
二、贝叶斯决策分析的信息价值
信息本身是有价值的。在抽样调查中,通常调查的样本越多,获得的情报也越多,但是花费也更多。 因此有一个是否应该进行调查和抽样多少次更为合适的问题。
(一)完全情报的价值
贝叶斯决策分析课件
02 先验概率与似然函数
先验概率
先验概率
在贝叶斯决策分析中,先验概率是指根据历史数据或其他 信息,对某个事件或状态发生的可能性进行的估计。
确定先验概率的方法
确定先验概率的方法包括主观概率法、历史数据法、专家 评估法等。这些方法根据不同的情况和数据来源,对事件 或状态的可能性进行评估。
先验概率的特点
降维与特征选择
通过贝叶斯方法进行特征选择和降维,提高机器 学习模型的性能。
贝叶斯决策分析在金融风险管理中的应用
风险评估
利用贝叶斯方法评估金融风险,如市场风险、信用风险等。
信贷风险评估
通过构建贝叶斯网络模型,对信贷申请人的风险进行评估。
投资组合优化
利用贝叶斯方法优化投资组合,实现风险与收益的平衡。
贝叶斯决策分析在医疗诊断中的应用
率。
后验概率的应用场景
01
02
03
04
后验概率在决策分析中有着广 泛的应用,尤其是在处理不确 定性和主观概率的情况下。
在预测模型中,后验概率可以 用于预测未来的事件或结果。
在分类问题中,后验概率可以 用于确定某个样本属于某个类
别的概率。
在机器学习中,后验概率可以 用于确定某个模型或算法的准
确性和可靠性。
赖关系。
贝叶斯网络构建
根据领域知识和数据,构建贝叶 斯网络结构,确定节点和有向边
。
贝叶斯网络推理
利用贝叶斯网络进行概率推理, 计算特定条件下某变量的概率值
。
贝叶斯决策分析在机器学习中的应用
分类问题
利用贝叶斯分类器对数据进行分类,如朴素贝叶 斯分类器。
聚类问题
将贝叶斯方法应用于聚类分析,如高斯混合模型 。
《贝叶斯决策理论》PPT课件
常表示为
p (x )~ N (, )
多元正态分布的性质
等密度点的轨迹是超椭球面
R 1
R 2
R 22 (12 22) p(x2)dx
R 1
P ( 1)(11 22) (21 11) p(x 1)dx (12 22) p(x2)dx
R 2
R 1
一旦R 1 和 R 2 确定,风险 R 就是先验概率 P (1 ) 的线性函数,可表
示为
RabP(1)
a22(1222) p(x2)dx
R 11P(1x)12P(2 x)p(x)dx
R1
21P(1x)22P(2 x)p(x)dx
R2
R11P(1)p(x1)12P(2)p(x2)dx
R 1
21P(1)p(x1)22P(2)p(x2)dx
R2
P (2 ) 1 P (1 ) p ( x 1 ) d x p ( x 1 ) d x 1
2.3 正态分布时的统计决策
贝叶斯分类器的结构可由条件概率密度 和先验概率来决定
最受青睐的密度函数——正态分布,也称 高斯分布
合理性:中心极限定理表明,在相当一般的 条件下,当独立随机变量的个数增加时,其 和的分布趋于正态分布
简易性
2.3.1 正态分布的定义及性质
单变量正态分布由两个参数完全确定,即 均值和方差
模式识别的目的就是要确定某一个给定 的模式样本属于哪一类
可以通过对被识别对象的多次观察和测
量,构成特征向量,并将其作为某一个
判决规则的输入,按此规则来对样本进 行分类
作为统计判别问题的模式分类
在获取模式的观测值时,有些事物具有 确定的因果关系,即在一定的条件下, 它必然会发生或必然不发生
例如识别一块模板是不是直角三角形,只要 凭“三条直线边闭合连线和一个直角”这个 特征,测量它是否有三条直线边的闭合连线 并有一个直角,就完全可以确定它是不是直 角三角形
p (x )~ N (, )
多元正态分布的性质
等密度点的轨迹是超椭球面
R 1
R 2
R 22 (12 22) p(x2)dx
R 1
P ( 1)(11 22) (21 11) p(x 1)dx (12 22) p(x2)dx
R 2
R 1
一旦R 1 和 R 2 确定,风险 R 就是先验概率 P (1 ) 的线性函数,可表
示为
RabP(1)
a22(1222) p(x2)dx
R 11P(1x)12P(2 x)p(x)dx
R1
21P(1x)22P(2 x)p(x)dx
R2
R11P(1)p(x1)12P(2)p(x2)dx
R 1
21P(1)p(x1)22P(2)p(x2)dx
R2
P (2 ) 1 P (1 ) p ( x 1 ) d x p ( x 1 ) d x 1
2.3 正态分布时的统计决策
贝叶斯分类器的结构可由条件概率密度 和先验概率来决定
最受青睐的密度函数——正态分布,也称 高斯分布
合理性:中心极限定理表明,在相当一般的 条件下,当独立随机变量的个数增加时,其 和的分布趋于正态分布
简易性
2.3.1 正态分布的定义及性质
单变量正态分布由两个参数完全确定,即 均值和方差
模式识别的目的就是要确定某一个给定 的模式样本属于哪一类
可以通过对被识别对象的多次观察和测
量,构成特征向量,并将其作为某一个
判决规则的输入,按此规则来对样本进 行分类
作为统计判别问题的模式分类
在获取模式的观测值时,有些事物具有 确定的因果关系,即在一定的条件下, 它必然会发生或必然不发生
例如识别一块模板是不是直角三角形,只要 凭“三条直线边闭合连线和一个直角”这个 特征,测量它是否有三条直线边的闭合连线 并有一个直角,就完全可以确定它是不是直 角三角形
第三章贝叶斯决策
断?(后验概率?)
最小错误率准则
❖ 数学表示:
Ω:表示类别这一随机变量 ω1:表示患病 ω2:表示不患病
X:表示白细胞浓度这一随机变量 x: 表示白细胞浓度值
最小错误率准则
❖ 医生根据已经掌握的知识知道类别的先验 分布:
P 1 P 1 0.5% P 2 P 2 99.5%
①样本从总体中抽取,特征值都是随机变量,在相 同条件下重复观测取值不同,故x为随机向量。 ②特征选择的不完善引起的不确定性; ③测量中有随机噪声存在。
⑵另一方面从样本的可分性来看: ❖ 当各类模式特征之间有明显的可分性时,可用
直线或曲线(面)设计分类器,有较好的效果。 ❖ 当各类别之间出现混淆现象时,则分类困难。
故判决: y 1
Bayes决策准则
❖ 最小错误率准则
最小错误率准则
❖ 先验概率: P i 未获得观测数据之前类别的分布
❖ 类条件概率:P x i 观测数据在各类别种情况下的分布
❖ 后验概率: Pi x X属于哪一类的概率
❖ 贝叶斯公式
P i
x
Px
i P i
Px
c
其中: P x P x i P i i1
最小错误率准则
例:医生要根据病人血液中白细胞的浓度来判断病 人是否患血液病。
这时需要采用统计方法,对模式样本的统计特 性进行观测,分析属于哪一类的概率最大。此 时要按照某种判据分类,如,分类错误发生的 概率最小,或在最小风险下进行分类决策等。
贝叶斯决策理论
❖ 引言
❖ 贝叶斯决策常用的准则 ❖ 分类器,判别函数,决策面 ❖ 正态分布的判别函数
引言
❖ 机器自动识别分类,能不能避免错分类,做到百分 之百正确?怎样才能减少错误?
最小错误率准则
❖ 数学表示:
Ω:表示类别这一随机变量 ω1:表示患病 ω2:表示不患病
X:表示白细胞浓度这一随机变量 x: 表示白细胞浓度值
最小错误率准则
❖ 医生根据已经掌握的知识知道类别的先验 分布:
P 1 P 1 0.5% P 2 P 2 99.5%
①样本从总体中抽取,特征值都是随机变量,在相 同条件下重复观测取值不同,故x为随机向量。 ②特征选择的不完善引起的不确定性; ③测量中有随机噪声存在。
⑵另一方面从样本的可分性来看: ❖ 当各类模式特征之间有明显的可分性时,可用
直线或曲线(面)设计分类器,有较好的效果。 ❖ 当各类别之间出现混淆现象时,则分类困难。
故判决: y 1
Bayes决策准则
❖ 最小错误率准则
最小错误率准则
❖ 先验概率: P i 未获得观测数据之前类别的分布
❖ 类条件概率:P x i 观测数据在各类别种情况下的分布
❖ 后验概率: Pi x X属于哪一类的概率
❖ 贝叶斯公式
P i
x
Px
i P i
Px
c
其中: P x P x i P i i1
最小错误率准则
例:医生要根据病人血液中白细胞的浓度来判断病 人是否患血液病。
这时需要采用统计方法,对模式样本的统计特 性进行观测,分析属于哪一类的概率最大。此 时要按照某种判据分类,如,分类错误发生的 概率最小,或在最小风险下进行分类决策等。
贝叶斯决策理论
❖ 引言
❖ 贝叶斯决策常用的准则 ❖ 分类器,判别函数,决策面 ❖ 正态分布的判别函数
引言
❖ 机器自动识别分类,能不能避免错分类,做到百分 之百正确?怎样才能减少错误?
贝叶斯决策论讲义(PPT 79页)
c
那么,特征x与行动i 相关联的损失为: R(i|x)(i|j)P(j|x) j1
因此,R(i | x) 称为条件风险。
借助 R(i | x) 可以提供一个总风险的优化过程,即遇到特征x, 我们可以选择最小化风险的行为来使预期的损失达到最小。 假设对于特征x,决策的行为是 (x) ,则总风险可表示为:
如果
P P((xx|| 1 2))((12,2 ,1 2 1,,12))P P(( 1 2))
则判为 1 ; 否则,判决为 2
(18)
注意公式(18)的右边是与x无关的常数,因此可以视为左边
的似然比超过某个阈值,则判为 1
16
左图说明,如果
b
引入一个0-1损失
或分类损失,那么
6
在先验概率 P (w 1 ) 2 /3 ,P (w 2 ) 1 /3及图2-1给出的后验概率图.此情况下,假定一
个模式具有特征值 x14 , 那么它属于 2 类的概率约为0.08, 属于 1 的概率
约为0.92.在每个x 处的后验概率之和为1.0
7
• 基于后验概率的决策准则
(x 表示观察值)
R 1,1P(1)p(x|1)1,2P(2)p(x|2))dx R1
2,1P(1)p(x|1)2,2P(2)p(x|2))dx R2
判为1 判为2
20
结合公式 P(2)1P(1)与 p(x|1)d x1p(x|1)dx
R1
R2
可以得到
概述
1. 允许利用多于一个的特征 2. 允许多于两种类别状态的情形 3. 允许有其它行为而不仅是判定类别。 4. 引入损失函数代替误差概率。
11
考察损失函数对判定准则的影响
那么,特征x与行动i 相关联的损失为: R(i|x)(i|j)P(j|x) j1
因此,R(i | x) 称为条件风险。
借助 R(i | x) 可以提供一个总风险的优化过程,即遇到特征x, 我们可以选择最小化风险的行为来使预期的损失达到最小。 假设对于特征x,决策的行为是 (x) ,则总风险可表示为:
如果
P P((xx|| 1 2))((12,2 ,1 2 1,,12))P P(( 1 2))
则判为 1 ; 否则,判决为 2
(18)
注意公式(18)的右边是与x无关的常数,因此可以视为左边
的似然比超过某个阈值,则判为 1
16
左图说明,如果
b
引入一个0-1损失
或分类损失,那么
6
在先验概率 P (w 1 ) 2 /3 ,P (w 2 ) 1 /3及图2-1给出的后验概率图.此情况下,假定一
个模式具有特征值 x14 , 那么它属于 2 类的概率约为0.08, 属于 1 的概率
约为0.92.在每个x 处的后验概率之和为1.0
7
• 基于后验概率的决策准则
(x 表示观察值)
R 1,1P(1)p(x|1)1,2P(2)p(x|2))dx R1
2,1P(1)p(x|1)2,2P(2)p(x|2))dx R2
判为1 判为2
20
结合公式 P(2)1P(1)与 p(x|1)d x1p(x|1)dx
R1
R2
可以得到
概述
1. 允许利用多于一个的特征 2. 允许多于两种类别状态的情形 3. 允许有其它行为而不仅是判定类别。 4. 引入损失函数代替误差概率。
11
考察损失函数对判定准则的影响
贝叶斯决策理论
• 如果 p(x | 1)P(1) > p(x | 2 ) P(2) ,则决 策为1 ,否则决策为2 。
– 如果p(x | 1)=p(x | 2 ) ,则x不提供任何信息, 决策结果完全取决于先验概率
– 如果P(1) =P(2) ,两种类别等概率出现,决策 规则取决于似然度p(x | j)。
贝叶斯决策规则及等价形式
Neyman-Pearson决策
• 在某些应用中,我们希望保证某个错误率不超过 平,在此前提下再考虑另一类错误率尽可能低。
– 比如,在鲈鱼和鲑鱼的例子中,可能政府会强制性规 为鲈鱼的比例不得超过1%
– 对某些重要疾病的诊断,我们希望确保漏诊率低于一 如0.1%).
• 这种限定一类错误率而使另一类错误率最小的决 Neyman-Pearson决策规则。
P(error | x) = min [P(1 | x), P(2 | x)]。
思考:相比于直接利用先验概率的决策,贝 叶斯决策的错误率是否减小了?
分类器,判别函数和决策面
• 特征分类器有多种表示形式,最常用的是判别函 数。给定一个判别函数集合 gi (x),i 1, , c. 如果特征x满足 gi (x) g j (x),j i
• 贝叶斯公式表明通过观测x的值可以将先验 概率转变成后验概率,也就是当观测值x给 定后样本属于各个类别的概率
• p(x|ωj)也称为似然度,也就是在其他条件都 相同的情况下,使p(x|ωj)越大的ωj越可能是 样本所在的真实类别
后验概率
贝叶斯决策规则
• 如果对于观测到的x满足 P(1 | x) P(2 | x), 则我 们自然地决策为ω1,否则决策为ω2 。
t
= P(2 | x) p(x)dx t P(1 | x) p(x)dx
– 如果p(x | 1)=p(x | 2 ) ,则x不提供任何信息, 决策结果完全取决于先验概率
– 如果P(1) =P(2) ,两种类别等概率出现,决策 规则取决于似然度p(x | j)。
贝叶斯决策规则及等价形式
Neyman-Pearson决策
• 在某些应用中,我们希望保证某个错误率不超过 平,在此前提下再考虑另一类错误率尽可能低。
– 比如,在鲈鱼和鲑鱼的例子中,可能政府会强制性规 为鲈鱼的比例不得超过1%
– 对某些重要疾病的诊断,我们希望确保漏诊率低于一 如0.1%).
• 这种限定一类错误率而使另一类错误率最小的决 Neyman-Pearson决策规则。
P(error | x) = min [P(1 | x), P(2 | x)]。
思考:相比于直接利用先验概率的决策,贝 叶斯决策的错误率是否减小了?
分类器,判别函数和决策面
• 特征分类器有多种表示形式,最常用的是判别函 数。给定一个判别函数集合 gi (x),i 1, , c. 如果特征x满足 gi (x) g j (x),j i
• 贝叶斯公式表明通过观测x的值可以将先验 概率转变成后验概率,也就是当观测值x给 定后样本属于各个类别的概率
• p(x|ωj)也称为似然度,也就是在其他条件都 相同的情况下,使p(x|ωj)越大的ωj越可能是 样本所在的真实类别
后验概率
贝叶斯决策规则
• 如果对于观测到的x满足 P(1 | x) P(2 | x), 则我 们自然地决策为ω1,否则决策为ω2 。
t
= P(2 | x) p(x)dx t P(1 | x) p(x)dx
贝叶斯决策理论课件(PPT90页)
Some about Bayes(2)
一所学校里面有 60% 的男生,40% 的女生。男生总是穿长 裤,女生则一半穿长裤一半穿裙子。假设你走在校园中, 迎面走来一个穿长裤的学生(很不幸的是你高度近似,你 只看得见他(她)穿的是否长裤,而无法确定他(她)的 性别),你能够推断出他(她)是女生的概率是多大吗?
要决策分类的类别数是一定的
引言
在连续情况下,假设对要识别的物理对象有d种特征
观察量x1,x2,…xd,这些特征的所有可能的取值范围构 成了d维特征空间。
称向量 x x1, x2, , xd T x Rd 为d维特征向量。
假设要研究的分类问题有c个类别,类型空间表示
为:
1,2 , ,i ,c
P(B|LB)∝P(LB|B)P(B)∝0.75P(B) P(~B|LB)∝P(LB|~B)P(~B)∝0.25(1-P(B)) 而西安的出租车10辆中有9辆是绿色的,则给出了先验概率P(B)=0.1,于 是有 P(B|LB)∝0.75×0.1=0.075 P(~B|LB)∝0.25(1-P(B))=0.25×0.9=0.225 P(B|LB)=0.075/0.072+0.225=0.25 P(~B|LB)=0.225/0.072+0.225=0.75 因此肇事车辆为绿色。
Neyman-Pearson准则
问题:先验概率和损失未知
通常情况下,无法确定损失。 先验概率未知,是一个确定的值 某一种错误较另一种错误更为重要。
基本思想:
要求一类错误率控制在很小,在满足此条件的 前提下再使另一类错误率尽可能小。
用lagrange乘子法求条件极值
Neyman-Pearson准则
和绿色的区分的可靠度是75%; 假设随后你又了解到第3条信息:(3)西安的出租车10辆
关于贝叶斯决策理论课件.pptx
这组成一个d维的特征向量,而这d维待征所 有可能的取值范围则组成了一个d维的特征 空间。
贝叶斯决策理论方法讨论的问题
讨论的问题
总共有c类物体 已知各类在这d维特征空间的统计分布,
各类别ωi=1,2,…,c的先验概率P(ωi) 类条件概率密度函数p(x|ωi)
问题: 如何对某一样本按其特征向量分类
基于最小错误率的贝叶斯决策
贝叶斯公式
先验概率,后验概率,概率密度函数之间关 系
根据先验概率和概率密度函数可以计算出后 验概率
基于最小错误率的贝叶斯决策
问题
为什么先验概率和类条件概率密度函数可以 作为已知?
而后验概率需要通过计算获得?
基于最小错误率的贝叶斯决策
为什么后验概率要利用Bayes公式从先验 概率和类条件概率密度函数计算获得 ?
贝叶斯决策理论前提
各类别总体的概率分布是已知的; 要决策分类的概率分布是已知的。
课前思考
机器自动识别分类,能不能避免错分类 ? 怎样才能减少错误? 不同错误造成的损失一样吗? 先验概率,后验概率,概率密度函数? 什么是贝叶斯公式? 正态分布?期望值、方差? 正态分布为什么是最重要的分布之一?
学习指南
理解本章的关键
要正确理解先验概率,类概率密度函数,后 验概率这三种概率
P(*|#)与P(*)不同
例:*表示中国人,#表示在中国大陆的人 则P(*|#)与P(*)不同含义不同
几个重要概念
先验概率
P(ω1)及P(ω2)
概率密度函数
P(x|ωi)
后验概率
P(ωi|X)
贝叶斯决策理论
先验概率,后验概率,概率密度函数
假设总共有c类物体,用ωi (i=1,2,…,c)标记
贝叶斯决策理论方法讨论的问题
讨论的问题
总共有c类物体 已知各类在这d维特征空间的统计分布,
各类别ωi=1,2,…,c的先验概率P(ωi) 类条件概率密度函数p(x|ωi)
问题: 如何对某一样本按其特征向量分类
基于最小错误率的贝叶斯决策
贝叶斯公式
先验概率,后验概率,概率密度函数之间关 系
根据先验概率和概率密度函数可以计算出后 验概率
基于最小错误率的贝叶斯决策
问题
为什么先验概率和类条件概率密度函数可以 作为已知?
而后验概率需要通过计算获得?
基于最小错误率的贝叶斯决策
为什么后验概率要利用Bayes公式从先验 概率和类条件概率密度函数计算获得 ?
贝叶斯决策理论前提
各类别总体的概率分布是已知的; 要决策分类的概率分布是已知的。
课前思考
机器自动识别分类,能不能避免错分类 ? 怎样才能减少错误? 不同错误造成的损失一样吗? 先验概率,后验概率,概率密度函数? 什么是贝叶斯公式? 正态分布?期望值、方差? 正态分布为什么是最重要的分布之一?
学习指南
理解本章的关键
要正确理解先验概率,类概率密度函数,后 验概率这三种概率
P(*|#)与P(*)不同
例:*表示中国人,#表示在中国大陆的人 则P(*|#)与P(*)不同含义不同
几个重要概念
先验概率
P(ω1)及P(ω2)
概率密度函数
P(x|ωi)
后验概率
P(ωi|X)
贝叶斯决策理论
先验概率,后验概率,概率密度函数
假设总共有c类物体,用ωi (i=1,2,…,c)标记
模式识别-3-贝叶斯决策理论
(
)
确定性特征向量与随机特征向量
确定性特征向量 在获取模式的观测值时,有些事物具有确定的 因果关系,即在一定条件下,存在必然会发生 或必然不发生的确定性,这样获得的特征向量 称为确定性特征向量。 例如识别一块模板是不是直角三角形,只要 凭“三条直线边闭合连线和一个直角”这个 特征,测量它是否有三条直线边的闭合连线 并有一个直角,就完全可以确定它是不是直 角三角形。 这种现象是确定性的现象,比如上一讲的线 性模式判别就是基于这种现象进行的。
x1 x X = 2 ... xn
特征向量
g1(x) g2(x)
...
Max(g(x))
最大值选择器
x ∈ ωi
gn(x)
判别计算
决策
§3-3 正态分布决策理论
一、正态分布判别函数
1、为什么采用正态分布:
a、正态分布在物理上是合理的、广泛的。 b、正态分布数学上简单,N(µ, σ ²) 只有均值和方差两个参数。
)
2
=
∫ (x − µ )
−∞
∞
2
P ( x)
P ( x ) d x,方 差 ) (
1
概率密度函数应满足下 列关系: P ( x ) ≥ 0, ( −∞ < x < ∞ ) ∞ ∫−∞ P ( x )dx = 1
0 . 95
µ − 2σ
µ
X
µ + 2σ
3、(多变量)多维正态分布 (1)函数形式:
µ i = E ( xi ) =
∑
= E
= E = E
(x 1 − ...... (x n − µ
[(x
第3章Bayes决策理论-PPT精品文档58页
式可求得后验概率 P( j | X )
由Bayes公式,后验概率是:
Pj |XpX|pjX P j
c
式中 pXpX|iPi i1 假定观察到一个 X ,同时决定采取决策 i ,如 果真正的状态为 j ,就会导致产生损失 i |j 。 因为 Pj | X是自然状态为 j 的概率,所以与 采取的决策 i 有关的损失的数学期望就是:
P(1)1P(2)2
所以总的错误概率是两种分类错误概率的加权和。
由于 R 1 和 R 2 是任意取的,所以错误概率 不一定是最小的。当把决策面 H 左移时,我 们可以减小代表误分类的三角形区域A 的面 积,从而减小分类错误概率。
若选取决策面H使得:p x | 1 P 1 p x | 2 P 2
在整个特征空间,有
R 1 P (1 |x )p ( x ) d x R 2 P (1 |x )p ( x ) d x P (1 ) R 2 P (1 |x )p ( x ) d x P (1 ) R 1 P (1 |x )p ( x ) d x
所以, P ( e ) P (1 ) R 1 P (1 |x ) p ( x ) d x R 1 P (2 |x ) p ( x ) d x
比如,以癌变细胞的分类识别为例,
把正常细胞识别成癌变细胞 神负担;
给正常人带来精
把癌变细胞识别成正常细胞
使早期患者失去
治疗机会,延误治疗,缩短生命。
因此,在决策时就要把由分类错误而引起的损失考 虑进去。
一般情况,设
A0,1,...,a是 a 个可能的决策集合
1,2,...,s是 s 个自然状态集合
假设H为两类的分界面,相应于 1 和 2 , 将x轴分 为两个区域 R 1 , R 2
由Bayes公式,后验概率是:
Pj |XpX|pjX P j
c
式中 pXpX|iPi i1 假定观察到一个 X ,同时决定采取决策 i ,如 果真正的状态为 j ,就会导致产生损失 i |j 。 因为 Pj | X是自然状态为 j 的概率,所以与 采取的决策 i 有关的损失的数学期望就是:
P(1)1P(2)2
所以总的错误概率是两种分类错误概率的加权和。
由于 R 1 和 R 2 是任意取的,所以错误概率 不一定是最小的。当把决策面 H 左移时,我 们可以减小代表误分类的三角形区域A 的面 积,从而减小分类错误概率。
若选取决策面H使得:p x | 1 P 1 p x | 2 P 2
在整个特征空间,有
R 1 P (1 |x )p ( x ) d x R 2 P (1 |x )p ( x ) d x P (1 ) R 2 P (1 |x )p ( x ) d x P (1 ) R 1 P (1 |x )p ( x ) d x
所以, P ( e ) P (1 ) R 1 P (1 |x ) p ( x ) d x R 1 P (2 |x ) p ( x ) d x
比如,以癌变细胞的分类识别为例,
把正常细胞识别成癌变细胞 神负担;
给正常人带来精
把癌变细胞识别成正常细胞
使早期患者失去
治疗机会,延误治疗,缩短生命。
因此,在决策时就要把由分类错误而引起的损失考 虑进去。
一般情况,设
A0,1,...,a是 a 个可能的决策集合
1,2,...,s是 s 个自然状态集合
假设H为两类的分界面,相应于 1 和 2 , 将x轴分 为两个区域 R 1 , R 2
贝叶斯决策理论与统计判别方法PPT课件
• P(ωi)=P(ωj)时决策面方程
WT(X-X1)=0
第32页/共55页
W=μi-μj W=μi-μj
正态分布概率模型下的最小错误率贝叶斯决策
一维特征
第33页/共55页
正态分布概率模型下的最小错误率贝叶斯决策
二维特征
第34页/共55页
正态分布概率模型下的最小错误率贝叶斯决策
三维特征
第35页/共55页
第14页/共55页
二维向量的协方差矩阵
第15页/共55页
多元正态分布
• 协方差矩阵 • 协方差矩阵并不只对正态分布有用 • 特性: 协方差矩阵是一个对称矩阵 • 特性: 协方差矩是正定的
第16页/共55页
多元正态分布的性质
• (1)参数μ与Σ对分布具有决定性
• 与单变量相似,记作p(X)~N(μ,Σ)
The action of a linear transformation on the feature space will convert an arbitrary normal distribution into another normal distribution.
第20页/共55页
正态分布概率模型下的最小错误率贝叶斯决策
第46页/共55页
正态分布概率模型下的最小错误率贝叶斯决策
• 最小距离分类器与线性分类器
• 两者都是线性分类器 • 最小距离分类器是线性分类器的一个特例 • 最小距离分类器在正态分布情况下,是按超球体分布以及先验概率相
等的前提下,才体现最小错误率的 • 只有在一定条件下,最小距离分类器同时又是最小错误率分类器 • 最小距离分类器的概念是分类器中是最常用的,因为它体现了基于最
• 前者是一个椭圆,而后者则是圆
决策理论课件第3章(2)
3.3
贝叶斯决策分析
四、贝叶斯决策分I E {E | [Q(a( ), ) Q(aopt , )]}
EVAI E {E [Q(a( ), )]} E (aopt , )
EVAI E[ R(aopt , )] E {E / [ R(a( ), )]}
3.3
贝叶斯决策分析
五、抽样贝叶斯决策
(二)抽样信息的价值
当补充情报是采用抽样的方法获得时,这种补充情报价 值习惯上称为抽样情报价值(Expected Value of Sampling Information),记做EVSI。
3.3
贝叶斯决策分析
五、抽样贝叶斯决策
(三)最佳样本容量
在抽样贝叶斯决策中,抽样所支付的费用叫抽样成本。 样本容量为N时的抽样成本记为C(N)。 当样本容量N确定以后,抽样情报价值也随之而确定。 抽样情报价值也是N的函数,记为EVSI(N)。对不同的 N,抽样情报价值可以不同。
3.3
贝叶斯决策分析
四、贝叶斯决策分析的信息价值
(一)完全情报的价值
2.完全信息价值的计算:
EVPI E[max(a, ) Q(aopt , )]
a
= E[max(a, )] E[Q(aopt , )]
a
3.3
贝叶斯决策分析
四、贝叶斯决策分析的信息价值
(一)完全情报的价值
3.3
贝叶斯决策分析
三、贝叶斯决策的基本方法
贝叶斯决策的基本步骤如下:
1.验前分析; 2.预验分析; 3.验后分析; 4.序贯分析。
3.3
贝叶斯决策分析
三、贝叶斯决策的基本方法
例3-9 某工厂计划生产一种新产品,其销售情况有好 (1)、中( 2)和差( 3)三种,根据以往的经验,估 计三种情况的概率分布和利润如下表所示。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
决策面方程 和判别函数 由相应的决 策规则所决 定!
10
判别函数和决策面方程
对于多类:通常定义一组判别函数 gi (x), i 1, 2..., c
c 类的情况下,i 对应的判别函数为 gi (x)
若 gi (x) g j (x), j 1,..., c, j i.
则 x 属于第 i 类
(i , j ) : 真实状态为 j而判断为i的损失(ij )
期望损失(条件风险)
c
R(i | X ) E[(i , j )] (i , j )P( j | X ) j 1
(A)
3
最小风险的Bayes决策规则
最小风险的Bayes决策规则:使期望损失 R(i | X ) 最 小的决策状态 i 即为最小风险的Bayes决策
最小风险的Bayes决策为2!
7
决策规则的进一步探讨
二类问题的决策规则:
R(1 | X ) R(2 | X )
另一种决策规则:
(12 22 )P(2 | X ) (21 11)P(1 | X )
先验概率的决策规则:
(12 22 ) p( X 2 )P(2 )>(21 11) p( X 1)P(1)
R( k
|
X)
min
i 1...a
R(i
|
X
)
5
例
在例1条件的基础上,并且已知λ11=0,(λ11表示λ(1,ω1)的简 写),λ12=6,λ21=1,λ22=0,按最小风险贝叶斯决策进行分类。
P(ω1)=0.9, P(ω2)=0.1 p(X|ω1)=0.2, p(X|ω2)=0.4
决策表
损 失 状态
定义期望风险:R(X ) R( (X ) | X ) p( X )dX
期望风险R反映对整个特征 空间上所有的X的取值采用 相应的决策α(x)所带来的 平均风险
最小风险的Bayes决 策使平均风险最小!
4
最小风险的Bayes决策规则步骤
(1)在已知P(ωj),P(X|ωj),j=1,…,c及给出待识别的X的情况下,根据贝 叶斯公式计算出后验概率:
c
P( j X ) j1, ji
所有错误代 价相同!
0-1·损失函数
两种判决方式等价! 9
3.3 Bayes分类器和判别函数
分类器设计:利用决策规则对观察向量 X 进行分类
d 维特征空间
决策规则
c 个决策域
决策面:划分决策域的边界面 决策面方程:决策面的数学解析形式 判别函数:表达决策规则的函数
p( X 1) < (12 22 )P(2 ) p( X 2 ) (21 11)P(1)
似然比
8
最小错误决策和最小风险决策
二类问题中,若 12 22 21 11 ,则两种判决方式等价
多类问题中,若
(i
,
j
)
0, 1,
i
i j j,i, j 1, 2,
,c
则有
c
R(i | X ) (i , j )P( j X ) j 1
决策
ω1
ω2
α1
0
6
α2
1
0
6
计算后验概率: P(ω1|X)=0.818, P(ω2|X)=0.182
计算条件风险:
2
R(1 | X ) 1 j P( j | X ) 1.092 j 1 2
R(2 | X ) 2 j P( j | X ) 0.818 j 1
找最小的条件风险:
R(1 | X ) R(2 | X )
分割它们的决策面方程应满足:
gi (x) g j (x)
11
最小错误概率决策
判别函数的不同形式:
gi (x) P(i | x)
gi (x) P(x i )P(i )
gi (x) log P(x i ) log P(i )
1 R(i | x)
判别函数不唯一,更一般地,f (gi (x))(其中 f (x) 为 单调增函数)均可作为判别函数
最小风险的Bayes决策
• 让错误率最小的Bayes决策是重要的 • 但,错误率最小的Bayes决策是否最佳?
– 正常细胞误判为癌细胞 – 癌细胞误判为正常细胞 不同性质的错误会引起不同程度的损失(后果) 评价决策的优劣:总损失比总错误率更恰当
最小风险的Bayes决策就是把各种 分类错误而引起的损失考虑进去 的Bayes决策法则
1
风险的表示
• 例:
– 病理切片X,要确定其中有没有癌细胞 (用ω1表示正常,ω2表示异常)
– P(ω1|X)与P(ω2|X)分别表示了两种可能性的大小 – 若X为正常细胞,判断为ω2,损失为21 – 若X为癌细胞,判断为ω1,损失为12 – X判断为ω1,其风险 R1(X)= 12 P(ω2|X) – X判断为ω2,其风险 R2(X)= 21 P(ω1|X)
P( j | X )
p( X | j )P( j )
c
,
p( X | j )P( j )
j 1
j 1,..., c
(2)利用计算出的后验概率及决策表,计算出采取αi,i=1,…,a的条件风险
c
R(i | X ) (i , j )P( j | X ), i 1,..., a
j 1
(3)对(2)中得到的a个条件风险值R(αi|X),i=1,…,a进行比较,找出使条 件风险最小的决策αk,则αk就是最小风险贝叶斯决策
损失和误判概率的加权和可 以有效的表示决策风险
2
决策空间的相关符号
观察向量
x [x1,..., xd ]T , x1,..., xd 为一随机向量
状态空间
[1,...,c ]T ,1,...,c 为c个自然状态
决策空间
[1,...,a ]T ,1,...,a 为a个决策状态
损失函数
13
Bayes分类器
14
gi (x) g j (x)
决策界
同一决策 规则下判 别函数形 式可以不 同,但决
策界相同!
15
gi (x) g j (x)
决策界
同一决策 规则下判 别函数形 式可以不 同,但决
策界相同!
16
二类分类器
g(x) P(1 | x) P(2 | x)
g(x) log p(x 1) log P(1)
p(x 2 )
P(2 )
17
例
有一家医院为了研究癌症的诊断,对一大批人作了一次普查,给 每人打了试验针,然后进行统计,得到统计数字:
(1)这批人中,每1000人有5个癌症病人; (2)这批人中,每100个正常人有1人对试验的反应为阳性; (3)这批人中,每100个癌症病人有95人对试验的反应为阳性。