第2章贝叶斯决策理论

合集下载

第2章 贝叶斯决策理论

第2章 贝叶斯决策理论
P e

p e x P x dx
t
p 2 x pe x p 1 x

x 1 x 2
P e
全概率公式

p p(x 1|x) x dx p x P x dx P
p(X|1)、p(X|2)分别表示男女生身高分布情况。

由于男女生身高分布之间没有任何关系,一般情况下对某个学
生的特征向量X:p(X|1)+p(X|2)1
主要内容


2.1 几种常用的决策规则
2.2 分类器的设计


2.3 正态分布时的统计决策
2.4 概率密度函数估计 2.5 应用实例
t
t
多类问题的错误率

特征空间被分割成 1, …, c 个区域,每个区域有c-1个
p(e|X),则P(e)由c(c-1)项构成,计算量很大。

常通过计算平均正确分类概率来求解错误率: P(e)=1P(c)
两类错误率
两类决策问题中,(可以是一维或多维)
错误率 采取决策1时,实际自 然状态是2 采取决策2时,实际自 然状态是1
p(x|1) 自然状态下观察的类条件概率密度函数
p(x|2)
x0
x
现有一待识别细胞,其观察值为x0,从类条件概率曲线上查得: p(x0|1)=0.2 p(x0|2)=0.4
试对该细胞进行分类。(以下x0简记为x)
例2.1 癌细胞识别
贝叶斯公式: p i X
p X i P i
1 X 2
错误率P(e)
分类错误率的简称。在最小错误率贝叶斯决策规则中,
─ 错误率是针对特征空间中所有的特征向量x,根据决策规则 分类的平均错误率。 ─ 不是指已知某一个具体的特征向量x,根据该规则分类后的 错误率。

第二章 贝叶斯决策理论—第三次课

第二章 贝叶斯决策理论—第三次课
第2章 贝叶斯决策理论
第2章 贝叶斯决策理论
第2章 贝叶斯决策理论
本章内容
2.1 分类器的描述方法 2.2 最大后验概率判决准则 2.3 最小风险贝叶斯判决准则 2.4 Neyman-Person判决准则 2.5 最小最大风险判决准则 2.6 本章小结
第2章 贝叶斯决策理论
2.2 最大后验概率判决准则 (基于最小错误率的贝叶斯决策准则)
第2章 贝叶斯决策理论
2.5
第2章 贝叶斯决策理论
最小风险贝叶斯判决受三种因素的影响: 类条件概率密度函数p(x|ωi) ; 先验概率P(ωi) ; 损失(代价)函数λ(αj, ωi) 。 在实际应用中遇到的情况: – 各类先验概率不能精确知道; – 在分析过程中发生变动。 这种情况使判决结果不能达到最佳,实际分类器的平均损 失要变大,甚至变得很大。
第2章 贝叶斯决策理论
2.4 Neyman-Person
第2章 贝叶斯决策理论
最小风险贝叶斯判决准则使分类的平均风险最小, 该准则需要什么条件?
最大后验概率判决准则使分类的平均错误率最小, 该准则需要什么条件?
N-P准则在实施时既不需要知道风险函数,也不需 要知道先验概率。
第2章 贝叶斯决策理论
最大后验概率判决准则使分类的平均错误概率最小。 最小风险贝叶斯判决准则使分类的平均风险最小。 可是, 在实际遇到的模式识别问题中有可能出现这样 的问题: 对于两类情形, 不考虑总体的情况, 而只关注某 一类的错误概率, 要求在其中一类错误概率小于给定阈 值的条件下, 使另一类错误概率尽可能小。
因为两类情况下, 先验概率满足:
P(1) P(2 ) 1
第2章 贝叶斯决策理论
R R1 [(1,1)P(1) p(x | 1) (1,2 )P(2 ) p(x | 2 )]dx R2 {(2 ,1)P(1) p(x | 1) (2,2 )P(2 ) p(x | 2 )}dx

第二章 贝叶斯决策理论

第二章 贝叶斯决策理论

第二章 贝叶斯决策理论● 引言♦ 统计模式识别方法以样本特征值的统计概率为基础:(1) 先验概率()i P ω、类(条件)概率密度函数(/)i p ωx 和后验概率(/)i P ωx 。

(2) Bayes 公式体现这三者关系的公式。

♦ 本章讨论的内容在理论上有指导意义,代表了基于统计参数这一类的分类器设计方法,结合正态分布使分类器设计更加具体化。

♦ 模式识别算法的设计都是强调“最优”,即希望所设计的系统在性能上最优。

是指对某一种设计原则讲的,这种原则称为准则。

使这些准则达到最优,如最小错误率准则,基于最小风险准则等,讨论几种常用的决策规则。

设计准则,并使该准则达到最优的条件是设计模式识别系统最基本的方法。

● 思考?♦ 机器自动识别分类,能不能避免错分类,如汉字识别能不能做到百分之百正确?怎样才能减少错误?♦ 错分类往往难以避免,因此就要考虑减小因错分类造成的危害损失,有没有可能对一种错分类严格控制?● 贝叶斯决策理论与方法基本概念给定一个m 模式类(,,....,)m ωωω12的分类任务以及各类在这n 维特征空间的统计分布, 要区分出待识别样本x 属于这m 类样本中的哪一类问题。

假设一个待识别的样本用n 个属性观察值描述,称之为n 个特征,从而组成一个n 维的特征向量,而这n 维征向量所有可能的取值范围则组成了一个n 维的特征空间。

特征空间的统计分布 (1) i ω, i =1,2,…,m 的先验概率:()i P ω(2)类条件概率密度函数:(|)i p ωx (可解释为当类别i ω已知的情况下, 样本x 的概率 分布密度函数)(3)后验概率:生成m 个条件后验概率(|)i P ωx ,i =1,2,…,m 。

也就是对于一个特征 向量x ,每一个条件后验概率(|)iP ωx 都代表未知样本属于某一特定类i ω的概率。

第一节 基于最小错误率的贝叶斯判别方法 (一).两类情况两类情况是多类情况的基础,多类情况往往是用多个两类情况解决的。

第2章贝叶斯决策理论

第2章贝叶斯决策理论
R1 | x R2 | x 所以 x w2
损 失状态(正常类)(异常类)
决策
ω1
ω2
α1(正常)0
6
α(2 异常)1
0
这意味着: 把异常类血细胞判别为正常类细胞所冒风险太大,所以 宁肯将之判别为异常类血细胞。
2.2.3 基于最小风险的贝叶斯决策应用实例
例:细胞识别
w1类
w2类
x
假设在某个局部地区细胞识别中, 率分别为
则 x wi
w1类 w3 类
w2 类
x
2.2 基于最小风险的贝叶斯决策
2.2.1 为什么要引入基于风险的决策
基于最小错误率的贝叶斯决策
错误率
如果 P w1 | x P w2 | x 则 x w1 如果 P w2 | x P w1 | x 则 x w2
误判为:x w2 误判为:x w1
正常(1)和异常(
2)两类的先验概
正常状态: 异常状态:
P P
((21))
=0.9; =0.1.
现有一待识别的细胞,其观察值为x ,从类条件概率密度分布曲线上
查得
P(x | 1 )=0.2, P(x | 2)=0.4.
且因误判而带来的风险如下页表所表示,试对该细胞x进行分类。
解: (1)利用贝叶斯公式,分别计算出 1及 2的后验概率。
wi
PD | wi Pwi
n
PD | wi Pwi
i 1
2.1.1 预备知识(续)
贝叶斯公式:
Pwi | D
PD | wi Pwi PD
(1763年提出)
贝叶斯公式由于其权威性、一致性和典雅性而被列入最优美的数 学公式之一 ;
由贝叶斯公式衍生出贝叶斯决策、贝叶斯估计、贝叶斯学习等 诸多理论体系,进而形成一个贝叶斯学派;

模式识别课件 第二章 贝叶斯决策论

模式识别课件 第二章 贝叶斯决策论

• 2.3 最小误差率分类
• 当损失函数简化到所谓的“对称损失”或“0-1损失” 函数
i, j 1,2,c
0 ( i | j ) 1
i j i j
• 这个损失函数将0损失赋给一个正确的判决,而将一 个单位损失赋给任何一种错误判决,因此所有误判都是 等价的。与这个损失函数对应的风险就是平均误差概率。
i ;
b
左图说明,如果 引入一个0-1损失 或分类损失,那么 判别边界将由阈值 a 决定;而如果 损失函数将模式 2 判为 1 的惩罚大于 反过来情况,将得 到较大的阈值 使 b 得R1变小
2.3.1 极小极大化准则(先验概率未知情形) • 有时我们需要设计在整个先验概率范围内都能很好操作的 分类器。一种合理的设计方法就是使先验概率取任何一种
2

通常: (2,1 1,1 ) 0 (1,2 2,2 ) 0
结合贝叶斯公式,用先验概率与条件密度来表示 后验概率,等价规则为 如果 (2,1 1,1 ) P( x | 1 ) P(1 ) (1, 2 2,2 ) P( x | 2 ) P(2 )
p( x | i ) P(i ) p( x | j ) P( j )
j
g i ( x) P(i | x)
gi ( x) ln p( x | i ) ln P(i )
• 尽管判别函数可写成各种不同的形式,但是判决规则是相同的。 每种判决规则都是将特征空间划分c个判决区域, R1 , Rc 如果对于所有的 j i ,有 gi ( x) g j ( x) 那么x属于 Ri 。 要求我 们将x分给 i 。此区域由判决边界来分割,其判决边界即判决
注 : 假定的类条件概率密度函数图,显示了模式处于类别 i 时观察某 个特定特征值 x 的概率密度.如果 x 代表了鱼的长度,那么这两条曲线可 描述两种鱼的长度区别.概率函数已归一化,因此每条曲线下的面积为1

模式识别课件-第二章 贝叶斯决策理论

模式识别课件-第二章 贝叶斯决策理论
如果使得 > 对于一切的 ≠ 均成
立,则将x归于 类。
几种常见的决策规则
判别函数
相对应于贝叶斯决策的判别函数
(1) = |
(2) = (│ )( )
(3) = ln + ln ( )
= , =
= , =
几种常见的决策规则
基于最小风险的贝叶斯决策
利用贝叶斯公式,分别计算后验概率
(│ )( )
=
σ= (│ )( )
. ∗ .
=
= .
. ∗ . + . 4 ∗ . 1
且对应于各类别的 i 出现的先验概率 P(i )
及类条件概率密度 p ( x | i )已知
如果在特征空间已经观察到某一个向量x, 应
该把x分到哪一类?
引言
基本符号与定义
例:医生要根据病人血液中白细胞的浓度来
判断病人是否患血液病。(两分类问题)
根据以往医生的经验知道:
患病的人,白细胞的浓度与正常人不同
正态分布函数定义及性质
概率密度函数应满足下面关系:
≥ 0 −∞ < < +∞
+∞

−∞
() = 1
正态分布时的统计决策
正态分布函数定义及性质
多元正态分布

1
−1
−1
=
exp{
(

)
Σ ( − )}
/2
1/2
2
(2) |Σ|
其中
= [ , , … , ] 是d维列向量,
= [ , , … , ] 是d维均值向量,

第二章 贝叶斯决策理论

第二章 贝叶斯决策理论

ωc } αa}

对x可能采取的决策: Α = {α1 α 2

决策表
损失 状态 决策
ω1
ω2

ωj
λ (α 2 , ω j ) λ (α i , ω j ) λ (α a , ω j ) λ (α1 , ω j )

ωc
λ (α1 , ωc ) λ (α 2 , ωc ) λ (α i , ωc ) λ (α a , ωc )
⎧0 i = j 假设损失函数为0 - 1函数 : λ (α i , ω j ) = ⎨ ⎩1 i ≠ j
条件风险为 :R(α i | x ) = ∑ λ (α i , ω j )P (ω j | x ) =
c j =1 j =1, j ≠ i
∑ P(ω
c
j
| x)
等式右边的求和过程表示对x采取决策 ωi 的条件错 误概率。


贝叶斯公式 设试验E的样本空间为S,A为E的事件, B1,B2,…,Bn为S的一个划分
且 P ( A ) > 0 , P (B i ) > 0 , 则 P (B i | A ) =
n
P ( A | B i ) ⋅ P (B i )
j j
∑ P (A | B )⋅ P (B )
j =1
, j = 1, 2 ,..., n
分析 根据后验概率,发现这个细胞不正常的可能性
利用Bayes公式求后验概率 P(ωi | x )
增大了。 ∵ P (ω1 | x ) > P (ω 2 | x ) 所以判断该细胞为正常的。 实际中仅这个结论不能确诊的,需要更有效的化验。
(2)最小错误率的贝叶斯决策规则
⎧ω1 > 若P(ω1 | x ) < P(ω2 | x ),则x ∈ ⎨ ⎩ω2 ⎧ω1 > 若P(ω1 ) ⋅ p (x | ω1 ) < P(ω2 ) ⋅ p( x | ω2 ),则x ∈ ⎨ ⎩ω2 ⎧ω1 p( x | ω1 ) > P(ω2 ) ∈ x 若l ( x ) = ,则 ⎨ < p( x | ω2 ) P(ω1 ) ⎩ω2

第2章_贝叶斯决策理论

第2章_贝叶斯决策理论

模式识别 – 贝叶斯分类器
2.3 贝叶斯分类器的其它版本
• 先验概率P(ωi)未知:极小化极大准则; • 约束一定错误率(风险):Neyman-
Pearson准则;
• 某些特征缺失的决策:
• 连续出现的模式之间统计相关的决策:
模式识别 – 贝叶斯分类器
2.4 正态分布的贝叶斯分类器
• 单变量正态分布密度函数(高斯分布):
px
1
2
exp
1 2
x
2
模式识别 – 贝叶斯分类器
多元正态分布函数
p x i
1
2 d 2
Σi
12
exp
1 2
x
μi
t
Σi1 x μi
模式识别 – 贝叶斯分类器
正态分布的判别函数
• 贝叶斯判别函数可以写成对数形式:
gi x ln px i ln Pi
• 类条件概率密度函数为正态分布时:
gi x d x,μi
模式识别 – 贝叶斯分类器
情况二:Σi Σ
• 判别函数可以写成:
gi
x
1 2
x
μi
t
Σ1
x
μi
ln
P
i
• 可以简化为:
gi
x
μit
Σ1x
1 2
μit
Σ1μi
ln
P
i
w
t i
x
wi 0
称为线性分类器
模式识别 – 贝叶斯分类器
线性分类器
• 两类问题,1维特征,先验概率相同时:
模式识别 – 贝叶斯分类器
线性分类器
• 两类问题,高维特征,先验概率相同时:

第2章 贝叶斯决策理论

第2章 贝叶斯决策理论
j =1 c
针对所有x的期望风险定义为 R = ∫ R (α | x ) p ( x)dx 欲令R最小,须令针对每一x的条件风险最小。
基于最小风险的贝叶斯决策
最小风险贝叶斯决策规则
R(α k | x) = min R(α i | x)
i =1,L, a
α = αk
步骤: (1)计算后验概率 (2)利用后验概率及决策表计算针对某一x采取a种决策 的a个条件期望损失
∞ ∞
P (e | x ) = P (ω 2 | x ) P (e) = =
P (ω 1 | x ) > P (ω 2 | x )
结论可推广至多类

t
t −∞
P (ω 2 | x ) p ( x ) dx +
∫ ∫
∞ t ∞
P (ω 1 | x ) p ( x ) d x p ( x | ω 1 ) P (ω 1 ) d x
i , j = 1, 2, L , c
0-1损失下,最小 风险决策等价于最 小错误率决策
Q R (α k | x ) = min R (α i | x )
i =1,L, c
∴ ∑ P (ω j | x ) = min
j =1 j≠k
c
i =1,L, c
∑ P (ω
j =1 j ≠i
c
j
| x ) ⇔ P (ω k | x ) = max P (ω j | x )

∞ t
p ( x | ω 2 ) P (ω 2 ) d x
P (ω 2 ) =

t −∞
p ( x | ω 2 ) P (ω 2 ) dx +

∞ t
p ( x | ω 2 ) P (ω 2 ) dx

第二章贝叶斯决策理论

第二章贝叶斯决策理论
1
第二章 贝叶斯决策理论
2.2 几种 常用旳决策规则
• 基于最小错误率旳贝叶斯决策 • 基于最小风险旳贝叶斯决策 • 分类器设计
2
2.2.1 基于最小错误率旳贝叶斯决策
在模式分类问题中,基于尽量降低分类旳错 误旳要求,利用概率论中旳贝叶斯公式,可得出 使错误率为最小旳分类规则,称之为基于最小错 误率旳贝叶斯决策。
11 0,
12 6
21 1,
22 0
根据例2.1旳计算成果可知后验概率为
P(1 | x) 0.818,
P(2 | x) 0.182
再按式(2-15)计算出条件风险 2 R(1 | x) 1 j P( j | x) 12P(2 | x) 1.092 j 1
R(2 | x) 21P(1 | x) 0.818 由于R(1 | x) R(2 | x)
c
c
R(i | x) (i , j )P( j | x) P( j | x)
(2 19)
j 1
j 1
ji
c
P( j
j 1
| x)
表达对x采用决策 i旳条件错误概率。
ji
26
• 所以在0-1损失函数时,使
R( k
|
x)
min
i 1,,c
R(i
|
x)
旳最小风险贝叶斯决策就等价于
c
c
j1
P( j
(i ,
j
)
10,,ii
j, j,
i, j 1,2,, c
(2 18)
25
• 式中假定对于c类只有c个决策,即不考虑“拒绝”旳
情况。式(2-18)中(i , j ) 是对于正确决策(即i=j)
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
贝叶斯公式的两个创新点:
(1)用概率表示所有形式的不确定性; 例如天气预报时,“今天下雨的概率是85%”比直接预测 “今天下雨”要更科学 ;
(2) 引入了“先验”与“后验”的概念 ;
2.1.1 预备知识(续)
先验与后验
贝叶斯公式:
后验
先验
P
w
|
D
P
D | w P PD
w
先验概率:是指根据历史资料或主观判断所确定的事件发生的 概率,该类概率没有经过实验证实,属检验前的概率。(争议点)
f x, y fX|Y (x | y) f (x | y) fY y
2.1.1 预备知识(续)
分类错误率
x
分类方案一
分类方案二
分类错误率 = 被错分的样本数 / 样本总数 在分类中,希望分类错误率尽可能地小。
2.1.2 最小错误率贝叶斯决策的前提
前提:
(1)要决策分类的类别数是一定的;
(2)每一类出现的“先验概率”已知 ;
P xdx
推广
P xdx

x
x1 x2
x1,
x2
T
P x1, x2 dx1x2
2.1.1 预备知识(续)
贝叶斯公式
贝叶斯 公式
Pw

|
D
PD | w P PD
w
贝叶斯 推理
后验
Pw | D
似然 (样本信息)
先验
PD | w
Pw
贝叶斯公式的另一种形式:
P
wi
|
D
P
D
| wi P PD
第2章 贝叶斯决策理论
Chapter 2: Bayesian decision theory
本章主要内容
2.1 基于最小错误率的贝叶斯决策 (重点) 2.2 基于最小风险的贝叶斯决策 (重点) 2.3 正态分布时的贝叶斯统计决策 (熟悉) 2.4 分类器的错误率问题 (了解)
2.1 基于最小错误率的贝叶斯决策
x
2.1.4 最小错误率贝叶斯决策规则应用实例(续)
为什么类条件概率密度是已知的
“类条件概率密度”是指系统位于
某种类型条件下,模式样本的概率密
度函数。一般而言,同一类事物的某
个属性都有一定的变化范围,在这个
变化范围内的分布密度可用一种函数 形式表示。
x
例如对于细胞识别而言,假设 x
是血红素浓度,则 P x | w1 表示正常血
细胞的血红素浓度的分布情况。该分 布可以事先测定,因此是已知的。
正常血细胞 异常血细胞
w1类
w2类
2.1.4 最小错误率贝叶斯决策规则应用实例(续)
为什么先验概率是已知的
例如在某个局部地区(比如一个县)细胞识别中,要根据血红素浓度的测 量值 x 判定其为正常血细胞或者是异常血细胞(例如白血病血细胞)。
2)两类的先验概
正常状态: 异常状态:
P P
((21))
=0.9; =0.1.
现有一待识别的细胞,其观察值为x ,从类条件概率密度分布曲线上
查得
P(x | 1 )=0.2, P(x | 2)=0.4.
试对该细胞x进行分类。
解:利用贝叶斯公式,分别计算出 1 及 2的后验概率。
P(
1| x)=
2
p(x | 1)P(1) p(x | j )P( j
即 P w1 P w2 已知
(3)每一类的“类条件概率密度”已
知;
即 P x | w1 与 P x | w2 已知
待解决的分类问题:
w1类
w2 类
x
2.1.3 最小错误率贝叶斯决策规则
决策规则(样本只有两类时):
如果 P w1 | x P w2 | x 如果 P w2 | x P w1 | x
前面给出了最小错误率贝叶斯决策规则,但尚未证明按这种决策规 则进行分类确实能使分类错误概率最小。下面以一维情况完成证明, 其结果不难推广到多维。
平均错误率:
P(e) P(e x) p(x)dx
(是 P(e x) 的期望)
x 的概率密度
(2-6)
决策规则(两类时):
如果 Pw2 | x Pw1 | x 则 x w2 如果 Pw1 | x Pw2 | x 则 x w1
后验概率:进行实验后,事件发生的概率。
贝叶斯公式在推理中融入了先验,即融入了对事物既有的一些认识:
例:利用贝叶斯公
式求 x 的最大值:
pw D
pw
w MP
w
2.1.1 预备知识(续)
条件概率密度
若有两个随机变量X和Y,它们的联合概率密度为 f (x, y), 变量X和Y各自的边缘概率密度为 fX (x) 和 fY ( y) ,则在条件 Y=y下,X的条件概率密度为
则 x w1 则 x w2
待解决的分类问题:
w1类
w2 类
类条件概率密度已知
P
wi
|
x
P
x
| wi P Px
wi
先验概率已知
i 1, 2
x
x 可能属于w1
类也可能属
于w2类。
2.1.4 最小错误率贝叶斯决策规则应用实例
例:细胞识别
w1类
w2类
x
假设在某个局部地区细胞识别中, 率分别为
正常(1)和异常(
)
0.2 0.9 0.2 0.9 0.4 0.1
0.818
j 1
P(2 |x)=1- P(1 |x)=0.182
2.1.4 最小错误率贝叶斯决策规则应用实例(续)
类条件概率密度(已知)
后验概率密度(待求)
P x | w1 P x | w2
P w1 | x P w2 | x
x
w1类
x
w2 类
根据上图决策
对 x 进行分类(决策)时的错误
Pe
Pe,
wi
PD | wi Pwi
n
PD | wi Pwi
i 1
2.1.1 预备知识(续)
贝叶斯公式:
Pwi | D
PD | wi Pwi PD
(1763年提出)
贝叶斯公式由于其权威性、一致性和典雅性而被列入最优美的数 学公式之一 ;
由贝叶斯公式衍生出贝叶斯决策、贝叶斯估计、贝叶斯学习等 诸多理论体系,进而形成一个贝叶斯学派;
2.1.1 预备知识
用向量来表示模式
模式: 一些供比对用的、“标准”的样本。
123 45
0 0 11
01 02 13
x
x1 x2
x1
,
x2
T
转化成列向量
特征提取
“1”
1 0 0 35
1 33 0 34 0 35
模式“1”的图片
高维积分
已知模式(样本):x
一维积分: 高维积分: 二重积分:
P w1 P w2
该县正常人的比例; 该县白血病患者的比例;
上述比例关系可根据往年病历 资料统计大致得到,因此可以看 作是已知的。
正常血细胞 异常血细胞
w1类
w2类
上述比例关系尽管可能是近似的, 但对决策准确程度的影响并不是直接 的,这也是贝叶斯决策的一个优点。
2.1.5 决策规则使错误率最小的理论证明
相关文档
最新文档