第2章 贝叶斯决策理论 - 西安电子科技大学
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第2章 贝叶斯决策理论
情形1:假设在没有看到一个具体的产品时就要确定它 到底属于哪一类。 如果唯一能够得到的信息就是先验概
率, 那么一个很自然的“合理”选择是将这一产品归入类
ω2。 可以想象, 这时可能造成40%的错误率。 如果我们仅仅需要做一次判断, 那么采用这种判决规 则还是合理的。 但是, 如果要求我们进行多次判断, 那么 重复使用这种规则就不合适了, 因为我们将一直得到相同 的结果。
第2章 贝叶斯决策理论
其中, L(x)称为似然比, lnL(x)称为对数似然比。
在最大后验概率判决准则中, x∈ωj的决策区域Rj为
p (x | j ) P (i ) R j x | , i 1, 2, , m, i p (x | i ) P( j )
误概率为
第2章 贝叶斯决策理论
P(e) P(x R2 | 1 ) P(1 ) P(x R1 | 2 ) P(2 ) P(1 ) p(x | 1 )dx P(2 ) p(x | 2 )dx
R2 R1
P(1 ) P (e) P(2 ) P2 (e) 1
(2) 若 L(x)
p(x | j ) p(x | i ) P(i ) , i 1, 2, , m, i j ,则x∈ω ; j P( j )
P(i ) , i 1, 2,, m, i j P( j )
(3) 若 ln L(x) ln p(x | j ) ln p(x | i ) ln 则x∈ωj。
i
x
p( y )dy
P(i ) p( y1 | i )2 = p( y2 )2
P(i ) p( y1 | i ) = p ( y2 )
第2章 贝叶斯决策理论
其中, y1, y2∈(x-ε, x+ε)。 当ε趋近于0时, y1与y2趋近于x,
从而有
P(i | x) p( x | i ) P(i ) p( x)
第2章 贝叶斯决策理论
如果P(ω1|x)>P(ω2|x), 则判决x属于ω1;
如果P(ω1|x)<P(ω2|x), 则判决x属于ω2;
如果P(ω1|x)=P(ω2|x), 则判决x属于ω1或属于ω2。 这种决策称为最大后验概率判决准则, 也称为贝叶斯 (Bayes)判决准则。 假设已知P(ωi)和p(x|ωi)(i=1, 2, „, m), 最大后验概率判 决准则就是把样本x归入后验概率最大的类别中, 也就是,
(1) Ri R j , i j i, j 1, 2,, m 这一条表明了分
类的确定性,一个样本只能属于某一类,不能同属两个或多
个类别。
第2章 贝叶斯决策理论
(2) 若特征向量x=(x1, x2, „, xd)落在区域Ri内, 即x∈Ri, 则将 样本x判属第i类, 记为x∈ωi; 此时, Ri称为x∈ωi的决策区域。 (3)
还是取极小值, 需要根据具体问题的物理意义确定。 不同的
判别函数对应不同的模式分类方法。
第2章 贝叶斯决策理论
模式分类实Βιβλιοθήκη Baidu上是将特征空间划分为不同的决策区域,
相邻决策区域被决策面所分割, 这些决策面是特征空间中
的超曲面, 其决策面方程满足相邻两个决策域的判别函数 相等, 即 gi(x)=gj(x) 分类器可被看做是一个计算m类个判别函数并选取最 大(或最小)判决值对应的类别的网络或机器。 一个分类器 的网络结构如图2-1所示。
为d维, 即x=(x1, x2, „, xd);
第2章 贝叶斯决策理论
(3) 特征向量x的取值范围构成特征空间, 记为Rd;
(4) 特征向量x的类条件概率密度函数为p(x|ωi), 表示当 样本x∈ωi时, 特征向量x的概率密度函数; (5) 特征向量x的后验概率为P(ωi|x), 表示在特征向量x出 现的条件下, 样本x来自类ωi的概率, 即类ωi出现的概率。 模式识别就是根据特征向量x的取值, 依据某个判决准则把样 本x划分到ω1,ω2, „, ωm中的一个。
第2章 贝叶斯决策理论
解
计算 p(x|ω1)P(ω1)=0.2×0.9=0.18 p(x|ω2)P(ω2)=0.4×0.1=0.04<0.18
根据 Bayes 判决准则将该细胞判为第一类, 即为正常 细胞。
第2章 贝叶斯决策理论
2.2.2 错误概率
最大后验概率判决准则的一个优良性质就是使平均错误
Pc P(x Ri | i ) P(i ) P(i ) p(x | i )dx
i 1 i 1 Ri m m
(2-1)
第2章 贝叶斯决策理论
平均错误概率Pe为 Pe=1-Pc (2-2)
以下不再刻意区分样本(或模式)和特征向量, 也就是说,
x∈ωi意指x是样本(或模式); x∈Ri或函数g(x)意指x是特征向
Rm 1 R d Ri 。
i 1 m
第2章 贝叶斯决策理论
当样本落在两类或多类的交界面上时, 可以任取交界 面所在的一类进行判决, 也可以拒绝判决。 从划分意义上 看, 模式识别就是对于一个具体分类问题, 在确定了需分类
的类别数m和所用的特征维数后, 实现对Rd空间的划分, 每
一种划分对应一种识别方法。
第2章 贝叶斯决策理论
第2章 贝叶斯决策理论
2.1 2.2 2.3 2.4 分类器的描述方法 最大后验概率判决准则 最小风险贝叶斯判决准则 Neyman-Person判决准则
2.5 最小最大风险判决准则
习题
第2章 贝叶斯决策理论
2.1 分类器的描述方法
2.1.1 基本假设
给定模式空间S,由m个互不相交的模式类集合1 , 2 ,, m 组成,即 S 1 2 m , i j , (i j, i, j 1, 2,, m) 。 几个基本假设如下: (1) 假定类ωi的先验概率为P(ωi); (2) 样本(或模式) x由特征向量来表示, 同样记为x, 假设
其中: (x1, x2, „, xd)为特征向量, 是特征空间Rd中的一个点; α 取值于集合{1, 2, „, m}, 表示模式的真实类别号, 是未知 的量, m为类别数。 模式分类的实质在于实现特征空间Rd到 类别号空间{1, 2, „, m}的一个映射, 即 Rd→{1, 2, „, m} 给定一个映射f, 就给出了一种模式识别方法, 不同的映射
R R 。 若 Ri Ri为Rd的真子集, 即 R Ri , i 1
d
m
m
m
d
i
i 1
i 1
当样本落在此区域中时, 样本对应的模式不是m类中的任何一种,
可以把它称为拒绝类,
R d Ri
i 1 m
为拒绝域, 相应的判决为
拒识。 此时, 引入一个新类ωm+1(拒绝类), 相应的决策区域为
第2章 贝叶斯决策理论
总的产品个数n=2 253 550;
属于类ω1产品的个数 n1=901 420;
属于类ω2产品的个数 n2=1 352 130;
由此可以估计出两类产品出现的概率, 即先验概率分别
P(1 ) n1 / n 0.4
P( 2 ) n2 / n 0.6
量。
第2章 贝叶斯决策理论
3. 判别函数法 把分类问题对应为Rd空间上的多元函数, 通常称为判别
函数(或称判决函数)gi(x), i=1, 2, „, m。 对于任给未知
类别的样本x, 计算各类判别函数的值gi(x), i=1, 2, „, m, 将样
本x判属有极大(或极小)函数值的那一类。 到底应取极大值
第2章 贝叶斯决策理论
情形2:假设可以对产品进行一些测量, 获得了它的观测 向量(或特征向量)x, 这时意味着对该产品所属类别的不确 定性减少了, 即观测向量(或特征向量)能够提供一些类别信 息。 具体地, 后验概率P(ωi|x)表示了x所代表的某个产品属
于第i类的概率, 那么现在“合理”的选择是:
概率达到最小。 因此, 最大后验概率判决准则又称为最小错
误概率判决准则。 这里以二分类情况为例进行分析。 此时, m=2, 任意一个 判决准则对应于特征空间Rd的一个划分: R=R1∪R2, R1∩R2= Ф。 错误分类为两种情况: ① 真实类别为ω1时, 而特征值x落
入R2; ② 真实类别为ω2时, 而特征值x落入R1。 因此, 平均错
(2-4)
类似地, 可得特征变量为多维时的结果
P(i | x) p(x | i ) P(i ) p ( x)
(2-5)
第2章 贝叶斯决策理论
根据式(2-5), 可以得到几种最大后验概率判决准则的等
价形式:
(1) 若 p(x | j ) P( j ) i{max,m} p(x | i ) P( i ) ,则x∈ωj; 1, 2 ,
第2章 贝叶斯决策理论
2.1.2
模式分类器的描述
模式分类器的描述方法有多种, 这里仅介绍以下三种描 述方法, 它们之间是统一的。 1. 映射描述法 由于我们获取的有关观察对象的数据总量是有限的, 因
此, 可用一个d+1维向量表示, 即
( x1 , x2 ,, xd ; )
第2章 贝叶斯决策理论
对应不同的分类方法, 这就是模式识别问题的映射描述法。
第2章 贝叶斯决策理论
2. 划分描述法 由于每个特征向量是Rd空间的一个点,且Rd→{1, 2, …, m}是一个多对一的映射,通过映射,本质上实现了对空间Rd 的一种划分,即把Rd划分成个不相重叠的区域,每一个区域 对应一个类别。设区域Ri对应第i类ωi,则以下条件成立:
(2-7)
其中, P (e) p(x | 1 )dx 1
R2
P2 (e) p(x | 2 )dx
R1
第2章 贝叶斯决策理论
考虑到
R2
p(x | 1 )dx = 1 p(x | 1 )dx R
第2章 贝叶斯决策理论
如果不考虑拒识, 此时,
R R
i i 1
m
d
, 那么, 正确分类包
括m种情形, 样本x来自类ωi, 特征向量x∈Ri(i=1, 2, …, m); 错
误分类包括m(m-1)种情形, 样本x来自类ωi, 但特征向量 x∈Rj(i=1, 2, …, m; j=1, 2, …, m; j≠i)。 因此, 平均正确概 率Pc为
0
由Bayes公式可知
第2章 贝叶斯决策理论
P i | X ( x , x ) P X ( x , x ) | i P(i ) P X (x , x )
x
P (i )
=
x x
p( y | )dy
P( j | x) max P ( i | x)
i{1, 2 ,, m}
2-3
则x∈ωj。
第2章 贝叶斯决策理论
由于已知P(ωi)和p(x|ωi), 因此我们希望找到P(ωi|x)与它 们之间的关系。 这里以一维为例进行讨论。 假设特征变量为X, 那么有
P (i | x) lim P i | X ( x , x )
j
(j=1, 2, …, m)
(2-6)
第2章 贝叶斯决策理论
【例 2.1】
假设在某个局部地区的细胞识别中, 第一
类表示正常, 第二类表示异常, 两类的先验概率分别为: 正 常P(ω1)=0.9, P(ω2)=0.1。 现有一个待识别样本细胞, 其观 察值为x, 从类条件概率密度函数曲线p(x|ωi)上可查得: p(x|ω1)=0.2, p(x|ω2)=0.4, 试判断该细胞是否正常。
第2章 贝叶斯决策理论
图 2-1
分类器的网络结构
第2章 贝叶斯决策理论
2.2 最大后验概率判决准则
2.2.1 判决准则
在讨论具体的判决准则之前, 让我们先来看一个分类
问题。 假设某工厂里所有的产品都只属于事先确定的两类,
分别表示为ω1=“高质量”, ω2=“平均质量”。 假设工厂对
于产品储量有一个合理的长期记录, 总结出来的结果如下: