第二章 贝叶斯决策理论与统计判别方法汇总
第2章 贝叶斯决策完整版.ppt
最小风险准则
❖ 最小风险贝叶斯决策:考虑各种错误造成损失不
同而提出的一种决策规则。
❖ 条件风险:
精选
最小风险准则
❖ 期望风险:对于x的不同观察值,采取决策αi时,
其条件风险大小是不同的。所以究竟采取哪一种决 策将随x的取值而定。这样,决策α可以看成随机向 量x的函数,记为α(x)。可以定义期望风险Rexp为:
假言:如果鱼的长度 x 大于45cm,则该鱼为 鲈鱼 1,否则该鱼为鲑鱼 2
前提:现在某条鱼 x 38cm
结论:该鱼为鲑鱼 2
❖ 概率推理(不确定性推理)
P i x 精选
最小错误率准则
❖ 例子:
给定
P
y
1
P
y
2
1 2
,类条件概率密度如图。
现有一条鱼 x=38cm, 若采用最小错误率决策,该鱼应该为哪一类?
R2
R1
a p 1 b
❖ 一旦 R1 和 R2 确定,a和b为常数
❖ 一旦 R1 和 R2 确定, R 与 P(ω1) 成线性关系
❖ 选择使 b=0 的R1 和 R2 ,期望风险与P(ω1) 无关!
精选
R* C’ C
最小最大决策准则
D
R1 ,R2不变
A
R*B
D’
B
R1 ,R2改变
b=0
此时最大 风险最小,
P i
x
Px
i P i
Px
则: P1 x P2 x
等价于:
p x 1 P 1 p x 2 P 2
p x 1 p x 2
p 2 p 1
精选
似然比公式
最小错误率准则
❖ 特例1:
模式识别(统计决策方法)PPT课件
.
3
贝叶斯理论及应用
▪ 贝叶斯分类算法
(应用:统计分析、测绘学)
▪ 贝叶斯风险
(应用:统计决策论)
数 ▪ 贝叶斯公式 学 ▪ 贝叶斯估计 领 ▪ 贝叶斯区间估计 域 ▪ 贝叶斯统计
(应用:概率空间) (应用:参数估计) (应用:数学中的区间估计) (应用:统计决策论)
▪ 贝叶斯序贯决策函数 (应用:统计决策论)
x) x)
if x is assigned to 1 if x is assigned to 2
平均错误率(average probablity of error):
P(e) P(e | x) p(x)dx
正确率(proabality of correctness):
P(c) 1 P(e)
自动化学院
.
7
2.1 引言
贝叶斯决策(统计决策理论) 是统计模式识别的基本方法和基础。 是“最优分类器”:使平均错误率最小
条件:
贝叶斯决策的前提条件, 不是条件概率的条件
类别数一定,1, i 1,, c (决策论中把类别称作状态)
已知类先验概率和类条件概率密度
P(i ), P(x | i ), i 1,,c
自动化学院
模式识别
统计决策方法
胡静
.
第二章 贝叶斯决策理论
2.1 引言 2.2 最小错误率贝叶斯决策 2.3 最小风险贝叶斯决策 2.4 两类错误率、Neyman-Pearson决策与ROC曲线 2.5 正态分布时的统计决策 2.6 关于分类器的错误率 2.7 离散概率模型下的统计决策举例
自动化学院
所以有 P(A|B)=P(AB)/P(B) P(B)>0
第二章 贝叶斯决策理论—第三次课
第2章 贝叶斯决策理论
第2章 贝叶斯决策理论
本章内容
2.1 分类器的描述方法 2.2 最大后验概率判决准则 2.3 最小风险贝叶斯判决准则 2.4 Neyman-Person判决准则 2.5 最小最大风险判决准则 2.6 本章小结
第2章 贝叶斯决策理论
2.2 最大后验概率判决准则 (基于最小错误率的贝叶斯决策准则)
第2章 贝叶斯决策理论
2.5
第2章 贝叶斯决策理论
最小风险贝叶斯判决受三种因素的影响: 类条件概率密度函数p(x|ωi) ; 先验概率P(ωi) ; 损失(代价)函数λ(αj, ωi) 。 在实际应用中遇到的情况: – 各类先验概率不能精确知道; – 在分析过程中发生变动。 这种情况使判决结果不能达到最佳,实际分类器的平均损 失要变大,甚至变得很大。
第2章 贝叶斯决策理论
2.4 Neyman-Person
第2章 贝叶斯决策理论
最小风险贝叶斯判决准则使分类的平均风险最小, 该准则需要什么条件?
最大后验概率判决准则使分类的平均错误率最小, 该准则需要什么条件?
N-P准则在实施时既不需要知道风险函数,也不需 要知道先验概率。
第2章 贝叶斯决策理论
最大后验概率判决准则使分类的平均错误概率最小。 最小风险贝叶斯判决准则使分类的平均风险最小。 可是, 在实际遇到的模式识别问题中有可能出现这样 的问题: 对于两类情形, 不考虑总体的情况, 而只关注某 一类的错误概率, 要求在其中一类错误概率小于给定阈 值的条件下, 使另一类错误概率尽可能小。
因为两类情况下, 先验概率满足:
P(1) P(2 ) 1
第2章 贝叶斯决策理论
R R1 [(1,1)P(1) p(x | 1) (1,2 )P(2 ) p(x | 2 )]dx R2 {(2 ,1)P(1) p(x | 1) (2,2 )P(2 ) p(x | 2 )}dx
模式识别第二章贝叶斯理论
4、分类器设计:
x1 x X 2 ... xn
g1(x) g2(x)
...
Max g(x)
x i
gn(x)
判别计算
最大值选择器
决策
特征向量
贝叶斯公式可以有几种形式的判别法则,针对具体问 题可以选取合适的形式。不管选取何种形式,其基本思想均 是要求判别归属时依概率最大作出决策,这样的结果就是分 类的错误率最小。
由上例中计算出的后验 概率:P (1 x) 0.818, P ( 2 x) 0.182 条件风险:R (1 x) 1 j P ( j x) 12 P( 2 x) 1.092
j 1 2
R ( 2 x) 21 P (1 x) 0.818 因为R (1 x) R ( 2 x) x 异常细胞,因决策1类风险大。 因12=6较大,决策损失起决定 作用。
31
N-P决策规则 如果:
Px | 2
当
P x | 1
则:
N-P决策规则归结为找阈值
1 x 2
。
P ( x 1 ) 时, 作1 2的分界线. P( x 2 )
t
2 P ( x 2 ) dx, 为 2的函数在取 2为常数时, 可确定, 这时 2一定 1最小
1 j M
另一种形式: g i ( x ) ln P ( x i ) ln P ( i ) max ln P ( x j ) ln P ( i ) x i
1 j M
3、决策面方程: g i ( x )
g j ( x ), 即 g i ( x ) g j ( x ) 0
i , 1 i , 2
第2章 贝叶斯决策理论PPT课件
令每一个x都取使P( P (e | x) p ( x)dx
P(e
|
x)
P P
(1 ( 2
| |
x) x)
P ( 2 | x) P (1 | x) P (1 | x) P ( 2 | x)
最小的值,则所有x产生
的平均错误率最小。
结论可推广至多类
t
P (e) P ( 2 | x) p ( x)dx t P (1 | x) p ( x)dx
t
p ( x | 2 ) P ( 2 )dx t p ( x | 1 ) P (1 )dx
P ( 2 ) P2 (e) P (1 ) P1 (e)
12
基于最小错误率的贝叶斯决策
使误判概率 P (最e ) 小,等价于使正确分类识别的概率 P ( c ) 最大。
贝叶斯决策理论研究了模式类的概率结构完全知道的 理想情况。这种情况实际中极少出现,但提供了一个对 比其它分类器的依据,即“最优”分类器。
5
2.1 引言
符号规定
分类类别数:c
类别状态: i,i1,2, ,c
特征空间维数:d
d维特征空间中的特征向量:x[x1,x2, ,xd]T
先验概率:P (表i ) 示 类出i 现的先验概率,简称为 类的 概i 率
P(1| x)
p(x|1)P(1)
2
p(x|j)P(j)
0.20.9 0.818 0.20.90.40.1
j1
P(2 | x)1P(1| x)0.182 P(1|x)0.818P(2| x)0.182 x1
11
基于最小错误率的贝叶斯决策
关于错误率最小的讨论(一维情况)
错误率是指平均错误率P(e)
2.1 引言
模式识别课件 第二章 贝叶斯决策论
• 2.3 最小误差率分类
• 当损失函数简化到所谓的“对称损失”或“0-1损失” 函数
i, j 1,2,c
0 ( i | j ) 1
i j i j
• 这个损失函数将0损失赋给一个正确的判决,而将一 个单位损失赋给任何一种错误判决,因此所有误判都是 等价的。与这个损失函数对应的风险就是平均误差概率。
i ;
b
左图说明,如果 引入一个0-1损失 或分类损失,那么 判别边界将由阈值 a 决定;而如果 损失函数将模式 2 判为 1 的惩罚大于 反过来情况,将得 到较大的阈值 使 b 得R1变小
2.3.1 极小极大化准则(先验概率未知情形) • 有时我们需要设计在整个先验概率范围内都能很好操作的 分类器。一种合理的设计方法就是使先验概率取任何一种
2
?
通常: (2,1 1,1 ) 0 (1,2 2,2 ) 0
结合贝叶斯公式,用先验概率与条件密度来表示 后验概率,等价规则为 如果 (2,1 1,1 ) P( x | 1 ) P(1 ) (1, 2 2,2 ) P( x | 2 ) P(2 )
p( x | i ) P(i ) p( x | j ) P( j )
j
g i ( x) P(i | x)
gi ( x) ln p( x | i ) ln P(i )
• 尽管判别函数可写成各种不同的形式,但是判决规则是相同的。 每种判决规则都是将特征空间划分c个判决区域, R1 , Rc 如果对于所有的 j i ,有 gi ( x) g j ( x) 那么x属于 Ri 。 要求我 们将x分给 i 。此区域由判决边界来分割,其判决边界即判决
注 : 假定的类条件概率密度函数图,显示了模式处于类别 i 时观察某 个特定特征值 x 的概率密度.如果 x 代表了鱼的长度,那么这两条曲线可 描述两种鱼的长度区别.概率函数已归一化,因此每条曲线下的面积为1
第2章贝叶斯决策理论与统计判别方法2
徐蔚然 北京邮电大学信息工程学院
本节和前节的关系
? 上节: 基本概念
? 阶段性的总结
? 本节: 概念具体化
? 结合一种比较典型的概率分布来进一步基于 最小错误贝叶斯决策分类器的种种情况
本节重点
? 什么叫正态分布 ? 高斯分布的表达式 ? 如何将正态分布与基于最小错误率的贝
叶斯决策结合起来 ? 如何简化方式表示正态分布
是表示超椭球 ? (X-μ)TΣ -1(X-μ)称为向量X到向量μ的Mahalanobis
距离的平方,即
r2=(x-μ)TΣ -1(x-μ)
? 可将mahalanolbis距离与欧氏距离作比较
? 前者是一个椭圆,而后者则是圆
多元正态分布的性质
? (3)多元正态分布的离散程度由参数 |Σ|1/2决 定
正态分布时的统计决策
? 研究正态分布的原因
? 数学上比较简单 ? 物理上的合理性
单变量正态分布
? 单变量正态分布
? 单变量正态分布概率密度函数定义为
? μ表示随机变量x的数学期望
? σ2为其方差,而σ则称为标准差。
A univariate normal distribution has roughly 95% of its area in the range |x ? μ| ≤ 2σ, as shown. The peak of the distribution has value p (μ) = 1/√2πσ.
A, takes the source distribution into distribution N(At,AtA)
a projection P onto a line defined by vector a—leads to N(μ, σ2) measured along that line A whitening transform, Aw , leads to a circularly symmetric Gaussian
贝叶斯决策理论与统计判别方法
若 p( X | i ) P i max p( X | j ) P( j ) j 1, 2,
, c, 则 X i 类 (2-5)
(2-6)
对两类问题,(2-5)式相当于
X 1 p( X | 1 ) P 1 p( X | 2 ) P(2 ), p( X | 2 ) P 2 p( X | 1 ) P(1 ), X 2
2.类(条件)概率密度 它是指在某种确定类别条件下,模式样本 X 出现的概率密度分布函数,常用
p( X | i )(i 1, 2,
, c) 来表示。在本书中,我们采用 p( X | i ) 表示条件概率密度函数,
P( X | i ) 表示其对应的条件概率。 P (*|#)是条件概率的通用符号,在“|”后边出现的#为条
件,之前的*为某个事件,即在某条表示在 X 出现条件下,样本为 k 类的概率。
3. 后验概率 它是在某个具体的模式样本 X 条件下,某种类别出现的概率,常以
P(i | X )(i 1, 2,
分类判决的依据。
, c) 表示。后验概率可以根据贝叶斯公式(2-1)计算出来并直接用作
P (*))是不相同的。例如通过高血压患者家系调查发现,双亲血压正常者其子女患高血压的
概率仅为 3%,父母均患有高血压者,其子女患高血压概率高达 45%,那么父母均患有高血 压是指一种条件(#),在这种家族病史的条件下,子女患高血压的(*)的概率就要大得多。
2.2 几种常用的决策规则
针对具体对象,设计者从不同角度考虑,会采用不同的决策准则,从而对决策结果会产 生不同的影响。 其中基于最小错误率的贝叶斯决策与基于最小风险的贝叶斯决策是最基本的 两种方法,下面分别加以讨论。 问题的描述:已知总共有 c 类样本 i (i 1, 2, , c) ,其先验概率为 P(i ) ,条件概率 密度函数为 p( X | i ) ,样本分布在 n 维特征空间,则对于待识别样本,如何确定其所属类 别?由于属于不同类的待识别对象存在着呈现相同观察值的可能, 即所观察到的某一样本的 特征向量为 X,而在 c 类中又有不止一类可能呈现这一 X 值,这种可能性可用
第2章 贝叶斯决策
的条件风险; 3)比较各个条件风险的值,条件风险最小的决 策即为最小风险贝叶斯决策
最小风险准则
最小风险准则
对于贝叶斯最小风险决策,如果损失函数为“01损失”,即取如下的形式:
i w j
似然比公式
P i x P x i P i P x
则: P 1 x P 2 x
等价于:
p x 1 P 1 p x 2 P 2
p x 2
p x 1
p 2 p 1
似然比公式
带入上式:
最小最大决策准则
期望风险可写成:
R1
R 22 12 22 p x 2 dx p 1 11 22 21 11 p x 1 dx 12 22 p x 2 dx R2 R1 a p 1 b
i 1
c
最小错误率准则
例:医生要根据病人血液中白细胞的浓度来判断病 人是否患血液病。 两类识别问题:患病,未患病 根据医学知识和以往的经验,医生知道:
患病的人,白细胞的浓度服从均值2000方差1000的正
态分布;未患病的人,白细胞的浓度服从均值7000, 方差3000的正态分布;(类条件概率) 一般人群中,患病的人数比例为0.5%;(先验概率) 一个人的白细胞浓度时3100,医生应该做出怎样的判 断?(后验概率?)
期望风险反映对整个空间上所有x的取值采取相应的 决策α(x)所带来的平均风险。
最小风险准则
两分类问题的例子:
似然比公式
模式识别课件-第二章 贝叶斯决策理论
立,则将x归于 类。
几种常见的决策规则
判别函数
相对应于贝叶斯决策的判别函数
(1) = |
(2) = (│ )( )
(3) = ln + ln ( )
= , =
= , =
几种常见的决策规则
基于最小风险的贝叶斯决策
利用贝叶斯公式,分别计算后验概率
(│ )( )
=
σ= (│ )( )
. ∗ .
=
= .
. ∗ . + . 4 ∗ . 1
且对应于各类别的 i 出现的先验概率 P(i )
及类条件概率密度 p ( x | i )已知
如果在特征空间已经观察到某一个向量x, 应
该把x分到哪一类?
引言
基本符号与定义
例:医生要根据病人血液中白细胞的浓度来
判断病人是否患血液病。(两分类问题)
根据以往医生的经验知道:
患病的人,白细胞的浓度与正常人不同
正态分布函数定义及性质
概率密度函数应满足下面关系:
≥ 0 −∞ < < +∞
+∞
න
−∞
() = 1
正态分布时的统计决策
正态分布函数定义及性质
多元正态分布
1
−1
−1
=
exp{
(
−
)
Σ ( − )}
/2
1/2
2
(2) |Σ|
其中
= [ , , … , ] 是d维列向量,
= [ , , … , ] 是d维均值向量,
第二章 贝叶斯决策理论
ωc } αa}
对x可能采取的决策: Α = {α1 α 2
决策表
损失 状态 决策
ω1
ω2
…
ωj
λ (α 2 , ω j ) λ (α i , ω j ) λ (α a , ω j ) λ (α1 , ω j )
…
ωc
λ (α1 , ωc ) λ (α 2 , ωc ) λ (α i , ωc ) λ (α a , ωc )
⎧0 i = j 假设损失函数为0 - 1函数 : λ (α i , ω j ) = ⎨ ⎩1 i ≠ j
条件风险为 :R(α i | x ) = ∑ λ (α i , ω j )P (ω j | x ) =
c j =1 j =1, j ≠ i
∑ P(ω
c
j
| x)
等式右边的求和过程表示对x采取决策 ωi 的条件错 误概率。
贝叶斯公式 设试验E的样本空间为S,A为E的事件, B1,B2,…,Bn为S的一个划分
且 P ( A ) > 0 , P (B i ) > 0 , 则 P (B i | A ) =
n
P ( A | B i ) ⋅ P (B i )
j j
∑ P (A | B )⋅ P (B )
j =1
, j = 1, 2 ,..., n
分析 根据后验概率,发现这个细胞不正常的可能性
利用Bayes公式求后验概率 P(ωi | x )
增大了。 ∵ P (ω1 | x ) > P (ω 2 | x ) 所以判断该细胞为正常的。 实际中仅这个结论不能确诊的,需要更有效的化验。
(2)最小错误率的贝叶斯决策规则
⎧ω1 > 若P(ω1 | x ) < P(ω2 | x ),则x ∈ ⎨ ⎩ω2 ⎧ω1 > 若P(ω1 ) ⋅ p (x | ω1 ) < P(ω2 ) ⋅ p( x | ω2 ),则x ∈ ⎨ ⎩ω2 ⎧ω1 p( x | ω1 ) > P(ω2 ) ∈ x 若l ( x ) = ,则 ⎨ < p( x | ω2 ) P(ω1 ) ⎩ω2
第2章_贝叶斯决策理论
模式识别 – 贝叶斯分类器
2.3 贝叶斯分类器的其它版本
• 先验概率P(ωi)未知:极小化极大准则; • 约束一定错误率(风险):Neyman-
Pearson准则;
• 某些特征缺失的决策:
• 连续出现的模式之间统计相关的决策:
模式识别 – 贝叶斯分类器
2.4 正态分布的贝叶斯分类器
• 单变量正态分布密度函数(高斯分布):
px
1
2
exp
1 2
x
2
模式识别 – 贝叶斯分类器
多元正态分布函数
p x i
1
2 d 2
Σi
12
exp
1 2
x
μi
t
Σi1 x μi
模式识别 – 贝叶斯分类器
正态分布的判别函数
• 贝叶斯判别函数可以写成对数形式:
gi x ln px i ln Pi
• 类条件概率密度函数为正态分布时:
gi x d x,μi
模式识别 – 贝叶斯分类器
情况二:Σi Σ
• 判别函数可以写成:
gi
x
1 2
x
μi
t
Σ1
x
μi
ln
P
i
• 可以简化为:
gi
x
μit
Σ1x
1 2
μit
Σ1μi
ln
P
i
w
t i
x
wi 0
称为线性分类器
模式识别 – 贝叶斯分类器
线性分类器
• 两类问题,1维特征,先验概率相同时:
模式识别 – 贝叶斯分类器
线性分类器
• 两类问题,高维特征,先验概率相同时:
第2章 贝叶斯决策理论
针对所有x的期望风险定义为 R = ∫ R (α | x ) p ( x)dx 欲令R最小,须令针对每一x的条件风险最小。
基于最小风险的贝叶斯决策
最小风险贝叶斯决策规则
R(α k | x) = min R(α i | x)
i =1,L, a
α = αk
步骤: (1)计算后验概率 (2)利用后验概率及决策表计算针对某一x采取a种决策 的a个条件期望损失
∞ ∞
P (e | x ) = P (ω 2 | x ) P (e) = =
P (ω 1 | x ) > P (ω 2 | x )
结论可推广至多类
∫
t
t −∞
P (ω 2 | x ) p ( x ) dx +
∫ ∫
∞ t ∞
P (ω 1 | x ) p ( x ) d x p ( x | ω 1 ) P (ω 1 ) d x
i , j = 1, 2, L , c
0-1损失下,最小 风险决策等价于最 小错误率决策
Q R (α k | x ) = min R (α i | x )
i =1,L, c
∴ ∑ P (ω j | x ) = min
j =1 j≠k
c
i =1,L, c
∑ P (ω
j =1 j ≠i
c
j
| x ) ⇔ P (ω k | x ) = max P (ω j | x )
∫
∞ t
p ( x | ω 2 ) P (ω 2 ) d x
P (ω 2 ) =
∫
t −∞
p ( x | ω 2 ) P (ω 2 ) dx +
∫
∞ t
p ( x | ω 2 ) P (ω 2 ) dx
第二章贝叶斯决策理论
第二章 贝叶斯决策理论
2.2 几种 常用旳决策规则
• 基于最小错误率旳贝叶斯决策 • 基于最小风险旳贝叶斯决策 • 分类器设计
2
2.2.1 基于最小错误率旳贝叶斯决策
在模式分类问题中,基于尽量降低分类旳错 误旳要求,利用概率论中旳贝叶斯公式,可得出 使错误率为最小旳分类规则,称之为基于最小错 误率旳贝叶斯决策。
11 0,
12 6
21 1,
22 0
根据例2.1旳计算成果可知后验概率为
P(1 | x) 0.818,
P(2 | x) 0.182
再按式(2-15)计算出条件风险 2 R(1 | x) 1 j P( j | x) 12P(2 | x) 1.092 j 1
R(2 | x) 21P(1 | x) 0.818 由于R(1 | x) R(2 | x)
c
c
R(i | x) (i , j )P( j | x) P( j | x)
(2 19)
j 1
j 1
ji
c
P( j
j 1
| x)
表达对x采用决策 i旳条件错误概率。
ji
26
• 所以在0-1损失函数时,使
R( k
|
x)
min
i 1,,c
R(i
|
x)
旳最小风险贝叶斯决策就等价于
c
c
j1
P( j
(i ,
j
)
10,,ii
j, j,
i, j 1,2,, c
(2 18)
25
• 式中假定对于c类只有c个决策,即不考虑“拒绝”旳
情况。式(2-18)中(i , j ) 是对于正确决策(即i=j)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二章贝叶斯决策理论与统计判别方法课前思考1、机器自动识别分类,能不能避免错分类,如汉字识别能不能做到百分之百正确?怎样才能减少错误?2、错分类往往难以避免,因此就要考虑减小因错分类造成的危害损失,譬如对病理切片进行分析,有可能将正确切片误判为癌症切片,反过来也可能将癌症病人误判为正常人,这两种错误造成的损失一样吗?看来后一种错误更可怕,那么有没有可能对后一种错误严格控制?3、概率论中讲的先验概率,后验概率与概率密度函数等概念还记得吗?什么是贝叶斯公式?4、什么叫正态分布?什么叫期望值?什么叫方差?为什么说正态分布是最重要的分布之一?学习目标这一章是模式识别的重要理论基础,它用概率论的概念分析造成错分类和识别错误的根源,并说明与哪些量有关系。
在这个基础上指出了什么条件下能使错误率最小。
有时不同的错误分类造成的损失会不相同,因此如果错分类不可避免,那么有没有可能对危害大的错分类实行控制。
对于这两方面的概念要求理解透彻。
这一章会将分类与计算某种函数联系起来,并在此基础上定义了一些术语,如判别函数、决策面(分界面),决策域等,要正确掌握其含义。
这一章会涉及设计一个分类器的最基本方法——设计准则函数,并使所设计的分类器达到准则函数的极值,即最优解,要理解这一最基本的做法。
这一章会开始涉及一些具体的计算,公式推导、证明等,应通过学习提高这方面的理解能力,并通过习题、思考题提高自己这方面的能力。
本章要点1、机器自动识别出现错分类的条件,错分类的可能性如何计算,如何实现使错分类出现可能性最小——基于最小错误率的Bayes决策理论2、如何减小危害大的错分类情况——基于最小错误风险的Bayes决策理论3、模式识别的基本计算框架——制定准则函数,实现准则函数极值化的分类器设计方法4、正态分布条件下的分类器设计5、判别函数、决策面、决策方程等术语的概念6、Bayes决策理论的理论意义与在实践中所遇到的困难知识点§2.1 引言在前一章中已提到,模式识别是一种分类问题,即根据识别对象所呈现的观察值,将其分到某个类别中去。
统计决策理论是处理模式分类问题的基本理论之一,对模式分析和分类器的设计起指导作用。
贝叶斯决策理论是统计模式识别中的一个基本方法,我们先讨论这一决策理论,然后讨论涉及统计判别方法的一些基本问题。
在描述本章所要讨论的问题之前,再提一下对于待识别的物理对象的描述问题。
假设一个待识别的物理对象用其d个属性观察值描述,称之为d个特征,这组成一个d维的特征向量,而这d维待征所有可能的取值范围则组成了一个d维的特征空间。
为了说明这句话,我们讨论一个具体的例子。
假设苹果的直径尺寸限定在7厘米到15厘米之间,它们的重量在3两到8两之间变化。
如果直径长度x 用厘米为单位,重量y以两为单位。
那么,由x值从7到15,y值从3到8包围的二维空间就是对苹果进行度量的特征空间。
贝叶斯决策理论方法所讨论的问题是:已知总共有c类物体,也就是说待识别物体属于这c类中的一个类别,对这c类不同的物理对象,以及各类在这d维特征空间的统计分布,具体说来是各类别ωi=1,2,…,c的先验概率P(ωi)及类条件概率密度函数p(x|ωi)已知的条件下,如何对某一样本按其特征向量分类的问题。
由于属于不同类的待识别对象存在着呈现相同观察值的可能,即所观察到的某一样本的特征向量为X,而在c类中又有不止一类可能呈现这一X值,这种可能性可用P(ωi|X)表示。
如何作出合理的判决就是贝叶斯决策理论所要讨论的问题。
下一节讨论几种常用的决策规则,接着要分析正态分布时统计决策的问题以及错误概率等问题。
由于这种决策理论基于已知概率分布为前提,因此在本章还要讨论概率密度函数的估计问题。
上一章提到机器实现自动分类有两大类方法:一种是模板匹配方法,而另一种就是对特征空间划分为子空间(每类的势力范围)的方法。
本章是针对第二种方法的。
核心问题是:样本为特征向量X时,它属于哪一类可能性有多大,如能确定属于各个类别的百分比(概率),分类决策就有了依据。
例如某个样本的特征向量为X,X属于第一类样本的可能性为60%,而第二类的可能性为40%。
在没有任何样本信息的情况下,则应将样本决策为第一类以使错分类可能性小(40%),这就是这一章考虑分类问题的出发点。
§2.2 几种常用的决策规则本节将讨论几种常用的决策规则。
不同的决策规则反映了分类器设计者的不同考虑,对决策结果有不同的影响。
其中最有代表性的是基于最小错误率的贝叶斯决策与基于最小风险的贝叶斯决策,下面分别加以讨论。
2.2.1 基于最小错误率的贝叶斯决策一般说来,c类不同的物体应该具有各不相同的属性,在d维特征空间,各自有不同的分布。
当某一特征向量值X只为某一类物体所特有,即,对其作出决策是容易的,也不会出什么差错。
问题在于出现模棱两可的情况。
此时,任何决策都存在判错的可能性。
这一节讨论的是使错误率为最小的决策方法,称为基于最小错误率的贝叶斯决策理论。
最小错误率是在统计的意义上说的,请注意其含义。
在这里要弄清楚条件概率这个概念。
P(*|#)是条件概率的通用符号,在“|”后边出现的#为条件,之前的*为某个事件,即在某条件#下出现某个事件*的概率。
P(ωk|X)是表示在X出现条件下,样本为ωk类的概率。
一个事物在某条件下出现的概率P(*|#)与该事件在不带任何条件下出现的概率(写成P(*))是不相同的。
例如全世界人口有60亿。
因此你见到一个人在不带任何条件下,有20%的可能性是中国人P(*)=0.2,但是如果你在中国,或香港、台湾,那么中国、香港、台湾都是指一种条件(#),这种地理条件下,你所见到的某一个人是中国人(*)的概率就要大得多,此时P(*|#)就应该大于20%,甚至更多了。
下面先讨论一个例子——癌细胞的识别,以此说明解决问题的过程。
假设每个要识别的细胞已作过预处理,并抽取出了d个特征描述量,用一个d维的特征向量X表示,识别的目的是要依据该X向量将细胞划分为正常细胞或者异常细胞。
这里我们用ω1表示是正常细胞,而ω2则属于异常细胞。
类别的状态是一个随机变量,而某种状态出现的概率是可以估计的。
概率的估计包含两层含义,一是由统计资料表明,正常细胞与异常细胞在统计意义上的比例,这称为先验概率P(ω1)及P(ω2),另一种则分别表示所检查细胞呈现出不同属性的概率密度函数P(x|ω1)和P(x|ω2),显然在一般情况下正常细胞占比例大,即P(ω1)>P(ω2),因此如果我们不对具体的细胞化验值作仔细观察,我们作出该细胞是正常细胞的判决,在统计的意义上来说,也就是平均意义上说,错判可能性比判为异常细胞时小。
但是仅按先验概率来决策,就会把所有细胞都划归为正常细胞,并没有达到将正常细胞与异常细胞区分开的目的。
这表明由先验概率所提供的信息太少。
为此我们还必须利用对细胞作病理分析所观测到的信息,也就是所抽取到的d维观测向量。
为简单起见,假定只用其一个特征进行分类,即d=1,并已知这两类的类条件概率密度函数分布已知,如图2.1所示,其中P(x|ω1)是正常细胞的属性分布,P(x|ω2)是异常细胞的属性分布。
那末,当观测向量为X值时,它属于各类的概率又是多少呢?为此我们可以利用贝叶斯公式, 来计算这种条件概率,称之为状态的后验概率P(ωi|X)。
Bayes(贝叶斯)公式是根据联合概率这一概念推出的,同时出现两个事件X 及ωi的概率为P(x,ωi)。
它是某个条件出现的概率(如P(ωi)),以及在此条件下某事件出现概率(P(x|ωi))的乘积,在此写为:P(x,ωi)=P(x|ωi)P(ωi)=P(ωi|x)P(x) 。
先验概率是针对ωi,i=1,2,…,c,这c个事件出现的可能性而言的,不考虑其它任何条件。
例如世界上有60亿人口,而中国人口12亿,因此不管其它条件,应有20%的可能是中国人。
类条件概率密度函数P(x|ωi)是指ωi条件下在一个连续的函数空间出现X的概率密度,在我们这里指第ωi类样本,他的属性X是如何分布的。
(2-1)式表明,在得到一个待识别量的观测状态X后,我们可以通过先验概率P(ωi)及类别条件概率密度函数P(x|ωi),得到呈现状态X时,该样本分属各类别的概率,显然这个概率值可以作为我们识别对象判属的依据。
上例中图2.1表示的类条件概率可用式(2-1)换算成如图2.2所示的后验概率分布。
可以看出,在X值小时,细胞被判为正常是比较合理的,判断错误的可能性小。
基于最小错误概率的贝叶斯决策理论就是按后验概率的大小作判决的。
这个规则又可以写成如下几种等价形式:(1)如果,则(2-2)(2)如用先验概率及类条件概率密度函数表示,则有:如果, 则(2-3)(3)以比值的方式表示,如果,则,否则(2-4)(4) (2-4)式还可改写成为对数形式,若,则,否则(2-5)其中(2-4)式中的l(x)在统计学中称为似然比,而称为似然比阈值。
而式(2-5)中h(x)是似然比写成相应的负对数形式。
它的好处是,与利用(2-4)式本身相比较,进行计算更为方便。
下面举一数值例子。
例2.1。
假设在某地区切片细胞中正常(ω1)和异常(ω2)两类的先验概率分别为P(ω1)=0.9,P(ω2)=0.1。
现有一待识别细胞呈现出状态x,由其类条件概率密度分布曲线查得p(x|ω1)=0.2,p(x|ω2)=0.4,试对细胞x进行分类。
解:利用贝叶斯公式,分别计算出状态为x时ω1与ω2的后验概率而根据贝叶斯决策(2-2)则有P(ω1|x)=0.818>P(ω2|x)=0.0182因此判定该细胞为正常细胞比较合理。
请用公式(2-3)与(2-5)计算,检查一下结果是否一样?从这个例子可以看出,尽管类别ω2呈现出状态x的条件概率要高于ω1类呈现此状态的概率,但是考虑到P(ω1)远大于P(ω2),因此状态x属于类别ω1的可能性远比属于类别ω2的可能性大。
将该细胞判为正常在统计的意义上讲出错率要小得多。
为了帮助搞清楚一些基本概念,我们还要强调一下条件概率这个概念。
我们举出两对概率,一对是P(ω1|x)和P(ω2|x),另一对是P(x|ω1)和P(x|ω1)。
从表面上看,只是条件符号两边的项对换了位置,但实质上却有很大区别。
前一对是在同一条件x下,比较ω1与ω2出现的概率,如果我们只考虑两类ω1和ω2,则有P(ω1|x)+P(ω2|x)=1。
而对两者进行数值上的比较,如P(ω1|x)> P(ω2|x)则可以下结论,在x条件下,事件ω1出现的可能性大。
对后一对概率来说,与第一对完全不同,因为它们是在不同条件下讨论的问题。
因此比较两者没有意义,而且即使只有两类ω1与ω2,P(x|ω1)+P(x|ω2)≠1。
这里要特别强调一点是P(x|ω1)与P(x|ω2)两者没有联系,都是指各自条件下出现x的可能性,不能仅因为前者比后者大,就认为x是第一类事物的可能性较大,只有考虑先验概率这一因素,才能决定x条件下,ω1类还是ω2类的可能性比较大。