第2章贝叶斯决策理论
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
其中 P dx 是把第一类样本决策为 第二类的错误率; 1 e p x 1 P2 e p x 2 dx 是把第二类样本决策为 第一类的错误率;
R1
两种错误率用相应类别 的先验概率加权就是总 的错误率, 如图所示。 由p ( x | w1 ) p ( w1 ) p ( x | w2 ) p ( w2 )可以解出p (e)是最小的t 值。
x w1
3、对 x 进行分类(决策)时的错误 见(2-7)式
2.1.5 决策规则确实使错误率最小的理论证明(续)
设t是两类的分界面,将( 2 7)代入( 2 6)得 Pe P 2 x px dx P1 x px dx
t t
px 2 P 2 dx p x 1 P1 dx
P w1 P w2
该县正常人的比例; 该县白血病患者的比例;
正常血细胞 异常血细胞
上述比例关系可根据往年病历 资料统计大致得到,因此可以看 作是已知的。 上述比例关系尽管可能是近似的, 但对决策准确程度的影响并不是直接 的,这也是贝叶斯决策的一个优点。
w1 类
w2 类
2.1.5 决策规则使错误率最小的理论证明
x2 X12 X22 „ XN2
„ „ „ „ „
xn X1n X2n „ XNn
3. 几何表示 一维表示
X1=0.5 X2=3
二维表示
X1=(x1,x2)T=(1,2)T X2=(x1,x2)T=(2,1)T
三维表示
X1=(x1,x2, x3)T=(1,1,0)T X2=(x1,x2 , x3)T=(1,0,1)T
P x | w1 P x | w2
后验概率密度(待求)
P w1 | x
P w2 | x
x
x
w1 类
x
w2 类
根据上图决策
2.1.4 最小错误率贝叶斯决策规则应用实例(续)
⑴为什么类条件概率密度是已知的
“类条件概率密度”是指系统位于 某种类型条件下,模式样本的概率密 度函数。一般而言,同一类事物的某 个属性都有一定的变化范围,在这个 变化范围内的分布密度可用一种函数 形式表示。
x2
2
二重积分:
P( x , x )dx dx
1 2 1
条件概率密度
若有两个随机变量X和Y,它们的联合概率密度为 f ( x, y) ,
变量X和Y各自的边缘概率密度为 f X ( x) 和 fY ( y) ,则在条件 Y=y下,X的条件概率密度为
f x, y f X |Y ( x | y) f ( x | y) fY y
t
为什么决策规则使 P(e)最小?书 12页
决策错误率 P(e x) 在每个x值处都取小者 ,因而平均错误率P(e)也必然达到最小 。
t
x
设t是两类的分界面, Pe P 2 x p x dx P 1 x p x dx
t t
p x 2 P2 dx p x 1 P1 dx
w1 类
w2 类
x 假设在某个局部地区细胞识别中, 正常(1)和异常( 2 )两类的先验概 率分别为 正常状态: P (1 ) =0.9; 异常状态: P ( 2) =0.1. 现有一待识别的细胞,其观察值为 x ,从类条件概率密度分布曲线上 查得 P(x | 1 )=0.2, P(x | 2)=0.4. 试对该细胞x进行分类。 解:利用贝叶斯公式,分别计算出 1 及 2的后验概率。
前面给出了最小错误率贝叶斯决策规则,但尚未证明按这种决策规 则进行分类确实能使分类错误概率最小。下面以一维情况完成证明, 其结果不难推广到多维。 1、平均错误率: P(e) (是 P(e x) 的期望) 见(2-6) 2、决策规则(两类时):
P(e x) p( x)dx
(2-6)
2.1.1 预备知识(续)
先验与后验 贝叶斯公式:
后验
P w | D
先验
P D | w P w P D
先验概率:是指根据历史资料或主观判断所确定的事件发生的 概率,该类概率没有经过实验证实,属检验前的概率。 后验概率:进行实验后,事件发生的概率。 贝叶斯公式在推理中融入了先验,即融入了对事物既有的一些认识:
决策边界把x轴分成两个区域 , 分别为第一个区域R1 和第二个区域 R2 , 样本在R1中, 但属于第二类的概率 加上 样本在R2中, 但属于第一类的概率 , 就是出现的错误概率 , 再考虑到样本自身的分 布后就是平均错误率 p (e)。 Px R1 2 P2 P x R2 1 P1 P2 p x 2 dx P1 p x 1 dx P2 P2 e P1 P 1 e
P( 1| x)=
p( x | 1 ) P(1 )
P( 2 |x)=1- P(1 |x)=0.182
p( x |
j 1
2
j
) P( j )
0.2 0.9 0.818 0.2 0.9 0.4 0.1
2.1.4 最小错误率贝叶斯决策规则应用实例(续)
类条件概率密度(已知)
例:利用贝叶斯公
式求 x 的最大值:
pw D
pw
w MP
w
2.1.1 预备知识(续)
6、分类错误率
x
分类方案一 分类方案二
分类错误率 = 被错分的样本数 / 样本总数
在分类中,希望分类错误率尽可能地小。
2.1.2 最小错误率贝叶斯决策的前提
前提:
(1)要决策分类的类别数是一定的; (2)每一类出现的“先验概率”已知; 即 P w1 P w2 已知
t t
可以写成: P x R1 2 P2 P x R2 1 P1 P2 p x 2 dx P1 p x 1 dx P2 P2 e P1 P 1 e
R2 R1 R2
Pe Px R1 , 2 P x R2 , 1
例如对于细胞识别而言,假设 x 是血红素浓度,则 P x | w1 表示正常血 细胞的血红素浓度的分布情况。该分 布可以事先测定,因此是已知的。
异常血细胞
x
正常血细胞
w1 类
w2 类
2.1.4 最小错误率贝叶斯决策规则应用实例(续)
⑵为什么先验概率是已知的
例如在某个局部地区(比如一个县)细胞识别中,要根据血红素浓度的测 量值 x 判定其为正常血细胞或者是异常血细胞(例如白血病血细胞)。
贝叶斯公式的两个创新点: (1)用概率表示所有形式的不确定性; 例如天气预报时,“今天下雨的概率是85%”比直接预测 “今天下雨”要更科学 ; (2) 引入了“先验”与“后验”的概念 ;
先验概率:预先已知的或者可以估计的模式识别系统位于 某种类型的概率。根据大量统计确定某类事物出现的比例 ,如我国理工科大学男女生比例大约为8:2,则在这类学校 一个学生是男生的先验概率为0.8,而为女生的概率是0.2 ,这两类概率是互相制约的,因为这两个概率之和应满足 总和为1的约束。 P(男生) 后验概率:一个具体事物属于某种类别的概率.例如一个学 生用特征向量X表示,它是男性或女性的概率表示成P(男 生|X)和P(女生|X)这就是后验概率。由于一个学生只可能 为两个性别之一,因此有P(男生|X)+P(女生|X)=1的约束, 这一点是与类分布密度函数不同的。 后验概率与先验概率也不同,后验概率涉及一个具体事物 ,而先验概率是泛指一类事物,因此 P(男生|X)和P(男生) 是两个不同的概念。
待解决的分类问题:
w1 类
w2 类
(3)每一类的“类条件概率密度”已知;
x
即 P x | w1 与 P x | w2 已知
2.1.3 最小错误率贝叶斯决策规则
决策规则(样本只有两类时):
如果 P w1 | x P w2 | x 如果 P w2 | x P w1 | x 则
2015/11/18
本章主要内容
2.1 基于最小错误率的贝叶斯决策
2.2 基于最小风险的贝叶斯决策 2.3 正态分布时的贝叶斯统计决策 2.4 分类器的错误率问题
2.1 基于最小错误率的贝叶斯决策
2.1.1 预备知识
1、用向量来表示模式
模式: 一些供比对用的、“标准”的样本。 1 2 3 4 5
t
Px R1 2 P 2 Px R2 1 P1 P 2 pLeabharlann Baidux 2 dx P1 px 1 dx P 2 P2 e P1 P 1 e
R1 R2
Pe Px R1 , 2 P x R2 , 1
待解决的分类问题:
x w1
w1 类
w2 类
则 x w2
类条件概率密度已知
P x | wi P wi 先验概率已知 P wi | x P x
i 1, 2
x x 可能属于 w1 类也可能属 于w2类。
2.1.4 最小错误率贝叶斯决策规则应用实例
例 细胞识别
现在进行一次试验,如果 B 确定发生了,那么这一重 要的补充信息可以使我们对事件 Ai 的概率重新估计, 则:在已知 B 发生的条件下,求出 Ai 的概率 ,这个概率称为后验概率。
P( Ai | B)
5、贝叶斯公式(利用了条件概率和全概率公式)
P(WD ) P( D | W ) P(W ) P(W | D) P ( D) P( D)
第2章 贝叶斯决策理论
Chapter 2: Bayesian decision theory
模式(样本)的表示方法
向量表示 : 假设一个样本有n个变量(特征) Ⅹ= (X1,X2,…,Xn)T 2. 矩阵表示: N个样本,n个变量(特征)
1.
变量 样本 X1 X2 „ XN
2015/11/18
x1 X11 X21 „ XN1
3、条件概率 P( AB) 定义: P( B | A)
P( A)
即:P( AB) P( A) P( B | A)
4、全概率公式 定义:设事件 A1 , A2 ..., An 是样本空间 的一个划分,B是任意 n 一事件,则
P( B) P( Ai ) P( B | Ai )
i 1
0
1 0 1 0 0 1
转化成列向量
1 2 3
特征提取
x1 T x x1 , x2 x2
“1”
1
0
0 35
1 33 0 34 0 35
模式“1”的图片
2、高维积分
已知模式(样本):x 一维积分:
P x dx
推广
高维积分:
P x dx
若 x x1 x , x T 1 2
贝叶斯 公式
P w | D
P D | w P w P D
似然 (样本信息)
P D | w
后验
先验
Pw
贝叶斯 推理
Pw | D
贝叶斯公式的另一种形式: P D | wi P wi P D | wi P wi P wi | D n P D P D | wi P wi
x 的概率密度
Pe Pe, x dx Pe x px dx
(2 - 6) (2 - 7)
如果 P w2 | x P w1 | x 则
如果 P w1 | x P w2 | x 则
x w2
P1 x ,当P 2 x P1 x Pe x P 2 x ,当P1 x P 2 x
i 1
贝叶斯公式: P wi | D
P D | wi P wi P D
(1763年提出)
贝叶斯公式由于其权威性、一致性和典雅性而被列入最优美的数 学公式之一 ;
由贝叶斯公式衍生出贝叶斯决策、贝叶斯估计、贝叶斯学习等 诸多理论体系,进而形成一个贝叶斯学派;