模式识别原理-贝叶斯决策
模式识别-第2讲-贝叶斯决策理论1
随机变量:随机事件的数量表示; 离散随机变量:取值为离散的随机变量 ;
连续随机变量:取值为连续的随机变量 ;
9
频率和概率
频率:试验在相同的条件下重复N次,其 中M次事件A发生,则A发生的频率为: fN(A) = M / N;
概率:当N很大时,频率会趋向一个稳定 值,称为A的概率:
P A lim f N A
j 1 2
得到的条件概率P ωi | x 称为状态的后验概率。 20
似然 先验 后验(分布或密度) 全概率
类条件概率密度=似然 21
基于后验分布的判别规则
存在一个观察值x(特征) 如果P(1 | x) > P(2 | x) 如果P(1 | x) < P(2 | x) 类别状态= 1 类别状态 = 2
全概率公式
互不相容事件:如果试验时,若干个随机 事件中任何两个事件都不可能同时发生, 则称它们是互不相容的。 全概率公式:若事件只能与两两不相容的 事件A1, A2,…, AN之一同时发生,则有:
P B P Ai P B Ai
i 1
N
15
贝叶斯公式
离散形式:A, B为离散随机变量:
j 1 c
观察值 x 是随机向量,不同的观察值 x ,采取 决策i时,其条件风险的大小是不同的。所以, 究竟采取哪一种决策将随x的取值而定。 决策 看成随机向量 x 的函数,因此,它也是 一个随机变量。条件风险R(i|x)反映给定的观 察值 x ,采取决策 i时,所有类别状态下带来 风险的平均值。 34
问该细胞属于正常细胞还是异常细胞。
解:先计算后验概率: P( x 1 ) P(1 ) 0.2 0.9 P(1 x) 2 0.818 0.2 0.9 0.4 0.1 P ( x ) P ( ) j j
第2章_贝叶斯决策
R1
R1
21 p 1 p x 1 dx 22 p 2 p x 2 dx
R2
R2
11 p 1 (1 p x 1 dx) 21 p 1 p x 1 dx 12 (1 p 1 ) p x 2 dx
R2
R2
R1
22(1 p 1 )(1 p x 2 dx)
R1
最小最大决策准则
Neyman-Pearson准则
❖ 对两分类问题,错误率可以写为:
Pe p x R1, x 2 p x R2, x 1
p x | 2 p2 dx p x | 1 p1 dx
R1
R2
p x | 2 dx p2 p x | 1 dx p1
R1
R2
p2 e p2 p1 e p1
策即为最小风险贝叶斯决策
最小风险准则
最小风险准则
❖ 对于贝叶斯最小风险决策,如果损失函数为“01损失”,即取如下的形式:
i wj
0, 1,
for i j ; i, j 1,
for i j
,c
那么,条件风险为:
c
R i x i j P j x P j x 1 P i x
❖ 贝叶斯决策的两个要求
各个类别的总体概率分布 (先验概率和类条件概 率密度) 是已知的
要决策分类的类别数是一定的
引言
❖ 在连续情况下,假设对要识别的物理对象有d种特征
观察量x1,x2,…xd,这些特征的所有可能的取值范围 构成了d维特征空间。
❖ 称向量 x x1, x2, , xd T x Rd 为d维特征向量。
p 2 p 1
似然比公式
最小错误率准则
❖ 特例1:
最小错误率准则
模式识别课件 第二章 贝叶斯决策论
• 2.3 最小误差率分类
• 当损失函数简化到所谓的“对称损失”或“0-1损失” 函数
i, j 1,2,c
0 ( i | j ) 1
i j i j
• 这个损失函数将0损失赋给一个正确的判决,而将一 个单位损失赋给任何一种错误判决,因此所有误判都是 等价的。与这个损失函数对应的风险就是平均误差概率。
i ;
b
左图说明,如果 引入一个0-1损失 或分类损失,那么 判别边界将由阈值 a 决定;而如果 损失函数将模式 2 判为 1 的惩罚大于 反过来情况,将得 到较大的阈值 使 b 得R1变小
2.3.1 极小极大化准则(先验概率未知情形) • 有时我们需要设计在整个先验概率范围内都能很好操作的 分类器。一种合理的设计方法就是使先验概率取任何一种
2
?
通常: (2,1 1,1 ) 0 (1,2 2,2 ) 0
结合贝叶斯公式,用先验概率与条件密度来表示 后验概率,等价规则为 如果 (2,1 1,1 ) P( x | 1 ) P(1 ) (1, 2 2,2 ) P( x | 2 ) P(2 )
p( x | i ) P(i ) p( x | j ) P( j )
j
g i ( x) P(i | x)
gi ( x) ln p( x | i ) ln P(i )
• 尽管判别函数可写成各种不同的形式,但是判决规则是相同的。 每种判决规则都是将特征空间划分c个判决区域, R1 , Rc 如果对于所有的 j i ,有 gi ( x) g j ( x) 那么x属于 Ri 。 要求我 们将x分给 i 。此区域由判决边界来分割,其判决边界即判决
注 : 假定的类条件概率密度函数图,显示了模式处于类别 i 时观察某 个特定特征值 x 的概率密度.如果 x 代表了鱼的长度,那么这两条曲线可 描述两种鱼的长度区别.概率函数已归一化,因此每条曲线下的面积为1
模式识别--第三讲贝叶斯分类器(PDF)
第三讲贝叶斯分类器线性分类器可以实现线性可分的类别之间的分类决策,其形式简单,分类决策快速。
但在许多模式识别的实际问题中,两个类的样本之间并没有明确的分类决策边界,线性分类器(包括广义线性分类器)无法完成分类任务,此时需要采用其它有效的分类方法。
贝叶斯分类器就是另一种非常常见和实用的统计模式识别方法。
一、 贝叶斯分类1、逆概率推理Inverse Probabilistic Reasoning推理是从已知的条件(Conditions),得出某个结论(Conclusions)的过程。
推理可分为确定性(Certainty)推理和概率推理。
所谓确定性推理是指类似如下的推理过程:如条件B存在,就一定会有结果A。
现在已知条件B存在,可以得出结论是结果A一定也存在。
“如果考试作弊,该科成绩就一定是0分。
”这就是一条确定性推理。
而概率推理(Probabilistic Reasoning)是不确定性推理,它的推理形式可以表示为:如条件B存在,则结果A发生的概率为P(A|B)。
P(A|B)也称为结果A 发生的条件概率(Conditional Probability)。
“如果考前未复习,该科成绩有50%的可能性不及格。
”这就是一条概率推理。
需要说明的是:真正的确定性推理在真实世界中并不存在。
即使条件概率P(A|B)为1,条件B存在,也不意味着结果A就确定一定会发生。
通常情况下,条件概率从大量实践中得来,它是一种经验数据的总结,但对于我们判别事物和预测未来没有太大的直接作用。
我们更关注的是如果我们发现了某个结果(或者某种现象),那么造成这种结果的原因有多大可能存在?这就是逆概率推理的含义。
即:如条件B存在,则结果A存在的概率为P(A|B)。
现在发现结果A出现了,求结果B存在的概率P(B|A)是多少?例如:如果已知地震前出现“地震云”的概率,现在发现了地震云,那么会发生地震的概率是多少?再如:如果已知脑瘤病人出现头痛的概率,有一位患者头痛,他得脑瘤的概率是多少?解决这种逆概率推理问题的理论就是以贝叶斯公式为基础的贝叶斯理论。
模式识别课件-第二章 贝叶斯决策理论
立,则将x归于 类。
几种常见的决策规则
判别函数
相对应于贝叶斯决策的判别函数
(1) = |
(2) = (│ )( )
(3) = ln + ln ( )
= , =
= , =
几种常见的决策规则
基于最小风险的贝叶斯决策
利用贝叶斯公式,分别计算后验概率
(│ )( )
=
σ= (│ )( )
. ∗ .
=
= .
. ∗ . + . 4 ∗ . 1
且对应于各类别的 i 出现的先验概率 P(i )
及类条件概率密度 p ( x | i )已知
如果在特征空间已经观察到某一个向量x, 应
该把x分到哪一类?
引言
基本符号与定义
例:医生要根据病人血液中白细胞的浓度来
判断病人是否患血液病。(两分类问题)
根据以往医生的经验知道:
患病的人,白细胞的浓度与正常人不同
正态分布函数定义及性质
概率密度函数应满足下面关系:
≥ 0 −∞ < < +∞
+∞
න
−∞
() = 1
正态分布时的统计决策
正态分布函数定义及性质
多元正态分布
1
−1
−1
=
exp{
(
−
)
Σ ( − )}
/2
1/2
2
(2) |Σ|
其中
= [ , , … , ] 是d维列向量,
= [ , , … , ] 是d维均值向量,
模式识别-3-贝叶斯决策理论
(
)
确定性特征向量与随机特征向量
确定性特征向量 在获取模式的观测值时,有些事物具有确定的 因果关系,即在一定条件下,存在必然会发生 或必然不发生的确定性,这样获得的特征向量 称为确定性特征向量。 例如识别一块模板是不是直角三角形,只要 凭“三条直线边闭合连线和一个直角”这个 特征,测量它是否有三条直线边的闭合连线 并有一个直角,就完全可以确定它是不是直 角三角形。 这种现象是确定性的现象,比如上一讲的线 性模式判别就是基于这种现象进行的。
x1 x X = 2 ... xn
特征向量
g1(x) g2(x)
...
Max(g(x))
最大值选择器
x ∈ ωi
gn(x)
判别计算
决策
§3-3 正态分布决策理论
一、正态分布判别函数
1、为什么采用正态分布:
a、正态分布在物理上是合理的、广泛的。 b、正态分布数学上简单,N(µ, σ ²) 只有均值和方差两个参数。
)
2
=
∫ (x − µ )
−∞
∞
2
P ( x)
P ( x ) d x,方 差 ) (
1
概率密度函数应满足下 列关系: P ( x ) ≥ 0, ( −∞ < x < ∞ ) ∞ ∫−∞ P ( x )dx = 1
0 . 95
µ − 2σ
µ
X
µ + 2σ
3、(多变量)多维正态分布 (1)函数形式:
µ i = E ( xi ) =
∑
= E
= E = E
(x 1 − ...... (x n − µ
[(x
哈工大模式识别课件—第2章_贝叶斯决策理论
模式识别 – 贝叶斯分类器
正态分布的判别函数
• 贝叶斯判别函数可以写成对数形式:
g ix l n p xi l n P i
• 类条件概率密度函数为正态分布时:
g ix 1 2 x μ itΣ i 1 x μ i d 2 l n 2 1 2 l n Σ i l n P i
模式识别 – 贝叶斯分类器
贝叶斯分类器的错误率估计
p 2 x
p 1 x
c
Perror1pi xdx i1Ri
模式识别 – 贝叶斯分类器
例2.1
• ω对2一类大代批表人正进常行人癌。症已普知查先,验设概ω率1:类代表患癌症,
P 1 0 . 0 0 5 ,P 2 0 . 9 9 5
以一个化验结果作为特征x: {阳性,阴性},患癌症 的人和正常人化验结果为阳性的概率分别为:
模式识别 – 贝叶斯分类器
线性分类器
• 两类问题,1维特征,先验概率不同时:
模式识别 – 贝叶斯分类器
线性分类器
• 两类问题,高维特征,先验概率不同时:
模式识别 – 贝叶斯分类器
情况三: Σ i 任意
• 判别函数可以写成:
g ix 1 2 x tΣ i 1 x μ t iΣ i 1 x 1 2 μ i tΣ i 1 μ i 1 2 ln Σ i ln P i
•将未知模式x判别为ωj类的平均风险为:
c
j x ijP i x i1
模式识别 – 贝叶斯分类器
最小平均风险判别准则
• 利用Bayes公式,构造判别函数:
gj xj x
c
jxijPxiPi i1
模式识别 – 贝叶斯分类器
贝叶斯分类器
行动(分类)
代价
决策管理-模式识别之贝叶斯决策
②变型1(消去相同的分母)
如果
P(i
| x)
max j 1,2
P
(
j
| x),
则
x i
P(i | x)
p(x | i )P(i )
c
p(x | j )P( j )
j 1
如果
p(x | i )P(i )
max j 1,2
p(x | j )P( j ),
①已知决策分类的类别数为c,各类别的状态为:
i , i 1, ..., c
②已知各类别总体的概率分布(各个类别出现 的先验概率和类条件概率密度函数)
P(i ), p(x | i ), i 1, ..., c
Bayes决策理论欲解决的问题
如果在特征空间中观察到某一个(随机) 向量 x = ( x1 , x2 ,…, xd )T
2
p( x | j )P( j
)
0.2
0.2 0.9 0.9 0.4
0.1
0.818
j1
P(2 | x) 1 P(1 | x) 0.182
属于正常细胞,注意:先验概率起主导作用
如果先验概率相等,则属于异常细胞
正确分类与错误分类
• 正确分类:将样本归属到样本本身所属的 类别
红+黄
绿
只有当 t 取两类后验概率相等的点时,错误率才是最 小的(黄颜色区域变成零)
P(e) P(2 ) 1 p( x | 2 )dx P(1 ) 2 p( x | 1 )dx
P(2 )P2 (e) P(1 )P1 (e)
2.2.2 基于最小风险的Bayes决策
• 错误分类:将样本归属到非样本本身所属
模式识别-贝叶斯决策 笔记
最 小 错 误 率 分 类 分类问题中, 行动i 通常可以解释为判定类别为i , 如果采取了行动 i 而真实类别 是 j,则当 i=j 时分类正确;否则,分类错误。要避免错误发生,我们自然要寻 找一种使得错误率最小的规则。 定义“0-1”损失函数(或称对称损失函数) :
(i | j )
P(ω1|x=1)=(P(ω1)×p(x=1|ω1))/(P(ω1)×p(x=1|ω1)+P(ω2)×p(x=1|ω2) )
=(0.2×0.5)/(0.2×0.5+0.8*0.1) =5/9 而不发生地震的概率为:
p(ω2|x = 1)= ( P(ω2)×p(x = 1|ω2)) / ( P(ω1)×p(x = 1|ω1)+ P(ω2)×p(x = 1|ω2))=
式中 p(x)仅为一比例因子,略去后,得到如下完全等价的判决规则: • • Decide 1
if p(x|1)P(1) > p(x|2)P(2)(贝叶斯公式令 p(x)=1)
Otherwise decide 2
考察一些特殊情况以获得对问题更为深入的了解 • 如果对某个 x 有 p(x |1 )=p(x |2) ,表明本次观测没有获得新信息,判 决完全取决于先验概率 • 如果 P(1 ) = P(2) ,表明两类等可能出现,判决完全取决于似然函数
即核心问题是:样本为特征向量 X 时,它属于哪一类可能性有多大,如能确定属于各 个类别的百分比(概率)分类决策就有了依据。例如某个样本的特征向量为 X,X 属于第一类 样本的可能性为 60%,而第二类的可能性为 40%。在没有任何样本信息的情况下,则应将 样本决策为第一类以使错分类可能性小(40%),这就是这一章考虑分类问题的出发点。
假设一个待识别的物理对象用其 d 个属性观察值描述,称之为 d 个特征,这组成一个 d 维的特征向量; 而这 d 维待征所有可能的取值范围则组成了一个 d 维的特征空间。 • 假设苹果的直径尺寸限定在 7 厘米到 15 厘米之间,它们的重量在 3 两到 8 两之间变化。如果直径长度 x 用厘米为单位,重量 y 以两为单位。那么,由 x 值从 7 到 15, y 值从 3 到 8 包围的二维空间就是对苹果进行度量的特征空 间。 • 问题:已知总共有 c 类物体,各类在这 d 维特征空间的统计分布?具体说来是各类 别 ωi=1,2,…,c 的先验概率 P(ωi)及类条件概率密度函数 p(x|ωi)已知的条件下,如何 对某一样本按其特征向量进行分类的问题。 (这里的 x 是一种特征,p(x|ωi)表示类别 ωi 具有特征 x 的概率(类条件概率密度函数) ,P(ωi|X)表示具有 X 特征已知条件下 属于 ωi 类别的概率(后验概率) ) • 观察到的某一样本的特征向量为 X, 而在 c 类中又有不止一类可能呈现这一 X 值,这种可能性可用 P(ωi|X)表示。如何作出合理的判决就是贝叶斯决策 理论所要讨论的问题。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2013-7-30
23
多类情况
p( x | i ) 若c个类,lij (x) , i, j 1,2,...c, i j p( x | j )
2013-7-30 14
* 任意另一判决规则,使判决域变化为1和*, 2 * 则1可表示为(1 11 ) 12,11 1,12 2 * P (c) P(2 ) P(1 ) p( x | 1 ) P(2 ) p( x | 2 )dx
(
2013-7-30
p ( x ) P ( j | x ) p ( x | j ) P ( j )
1
)
13
P(error) min
P(c) max
P (c ) P (1 ) p ( x | 1 ) dx P ( 2 ) p ( x | 2 ) dx P (1 ) p ( x | 1 ) dx P ( 2 )(1
c R ( i | x ) ( i | j ) P ( j | x ) j 1 c
(1 ij ) P ( j | x )
j 1 c
P ( j | x ) P (i | x ) R ( i | x ) 最小
2013-7-30
2
P (1 | x ) p ( x ) dx P ( 2 | x ) p ( x ) dx P (1 ) p ( x | 1 ) dx P ( 2 ) p ( x | 2 )dx
2 1
P (error | x ) p ( x ) dx
即拒判条件 :
Z R ( i | x ), i 1,2, c,
27
正确判决损失为0 0 i j 1,2, c 若: ( i | j ) s i, j 1,2, c, j i, 错误判决损失 i c 1, j 1,2, c, 拒判损失 Z c R ( i | x ) ( i | j ) p ( j | x )
基于最小风险的贝叶斯决策
令{1, 2,…, c}表示有限的c个类别, {1, 2,…, a} 表示为有限的a种可能的判决行为, 风险函数(i|j) 表 示类别状态为 ωj 时采取的判决i 所引起的风险. 决策-损失矩阵:
1 2
1 2 c (1 | 1 ) (1 | 2 ) (1 | c ) ( 2 | 1 ) ( 2 | 2 ) ( 2 | c )
P (2 ) P (1 ) p( x | 1 ) P(2 ) p ( x | 2 ) dx P(1 ) p ( x | 1 ) P(2 ) p ( x | 2 ) dx P(1 ) p ( x | 1 ) P(2 ) p( x | 2 ) dx
模式识别原理
贝叶斯决策
华中科技大学图像识别与人工智能研究所
课程内容
连续特征的贝叶斯决策 分类器设计 正态分布的贝叶斯决策 分类器的错误率问题 离散特征的贝叶斯决策 贝叶斯置信网
2013-7-30
2
4.1 连续特征的贝叶斯决策
贝叶斯决策理论是统计模式识别的一个基 本方法,其应用前提: 决策问题可用概率的形式来描述,且有 关的概率结构已知 分类的类别数是一定的
信息太少
2013-7-30 5
class-conditional information
类条件概率密度p(x | 1) and p(x | 2)
p(x | 1) and p(x | 2) 描述了同一特征
在不同类别上的分布差异
2013-7-30
6
2013-7-30
7
贝叶斯公式:
P(j | x) = p(x | j) . P (j) / p(x) 两类情况
若lij (x) ij , j i, j 1,2,...c, 则x i
其中
ij
[ ( i | j ) ( j | j )]P( j ) [ ( j | i ) ( i | i )]P(i ) , j 1,2,...c, j i
P (1 ) 1 若h(x) ln p ( x | 1 ) ln p ( x | 2 ) ln P ( ) ,则x 2 2
2013-7-30 11
多类情况下的决策规则:
若
若
若
P(i | x) P( j | x), j i,
p( x) p( x | j ) P( j )
j 1 j 2
2013-7-30
8
2013-7-30
9
已知后验概率下的判决准则: 若 P(1 | x) > P(2 | x) 否则: x € 2 则
x € 1
2013-7-30
10
基于最小错误率的贝叶斯决策
决策规则
j 1, 2
2013-7-30
24
损失函数对决策阈值的影响
例子
输入信号0,1在信道传递过程中叠加上均 值为零的正态分布噪声,试用最大似然 比判定规则设计分类器
2013-7-30
26
拒绝判决
在C类问题中, a=c+1时,
c R ( i | x ) ( i | j ) p ( j | x ) j 1
2013-7-30
3
鲈鱼和鲑鱼的分类
鲈鱼的先验概率: P(1) 鲑鱼的先验概率: P(2) P(1) + P( 2) = 1
2013-7-30
4
只有先验信息下的决策:
Decide 1 if P(1) > P(2) otherwise decide 2
若P(1) > P(2) ,决策结果总是1
j
则 x i
则 x i
则 x i
P (i | x) max P ( j | x),
p( x | i ) P(i ) p( x | j ) P( j ), j i,
若
若
p( x | i ) P(i ) max[ p ( x | j ) P( j )],
a
2013-7-30
( a | 1 ) ( a | 2 ) ( c | c )
17
基于最小风险的贝叶斯决策
假定对于模式x,采取判决i ,若真实类别状态为ωj ,则有 损失(i|j) ,而P(j |x)为实际类别为j时的概率,则 判决i的期望损失(条件风险)为:
j c
R( i | x ) ( i | j ) P ( j | x )
j 1
for i = 1,…,a
2013-7-30
18
最小风险贝叶斯决策规则:
若R( j | x) min R( i | x), 则= j
i 1,...,a
算法步骤:
根据已知的先验概率和类条件概率密度计 算各类的后验概率 根据决策-损失矩阵(决策表)计算各种判 决的条件风险 按照判决规则进行判决
12 11 1
( 1 11 ) 12
P (c )
2013-7-30 15
例子
设正常细胞为1 类,异常细胞为2类, P(1 )
=0.85, P(2 )=0.15, 由一次化验的观测值x在类 概率密度分布曲线上查得 p(x|1)=0.15, p(x|2)=0.45,判断x属于哪一类?
2013-7-30 12
对于特定观测值 x, 判决时的错误概率为:
P(error | x) = P(1 | x) 若 P(1 | x) < P(2 | x)
或
P(2 | x) 若 P(2 | x) < P(1 | x)
总错误率
P (error) P (error, x ) dx
1 1 2
P ( 2 ) P (1 ) p ( x | 1 ) P ( 2 ) p ( x | 2 ) dx
1
1
p ( x | 2 ) dx )
根据判决规则有:
判决域1:P (1 ) p ( x | 1 ) P ( 2 ) p ( x | 2 ) 判决域 2:P (1 ) p ( x | 1 ) P ( 2 ) p ( x | 2 )
a
表示拒绝判决
i 1,2, c 1
当i c 1时, 若
c R ( c 1 | x ) ( c 1 | j ) p ( j | x ) j 1
a
R ( c 1 | x ) R ( i | x ), i 1,2, c,
j
则 x i
p(x | i ) P( j ) lij ij , j i, p(x | j ) P(i )
则 x i
若 ln p(x | i ) ln P(i ) ln p(x | j ) ln P( j ), j i, 则x i
若P(i | x) max P( j | x),则x i
等价形式:
j 1, 2
若p (x |i ) P (i ) max p ( x | j ) P ( j ),则x i
1 p (x | 1 ) P (2 ) 若l (x) 12,则x p(x | 2 ) P(1 ) 2