第2章贝叶斯决策理论
第2章 贝叶斯决策完整版.ppt
最小风险准则
❖ 最小风险贝叶斯决策:考虑各种错误造成损失不
同而提出的一种决策规则。
❖ 条件风险:
精选
最小风险准则
❖ 期望风险:对于x的不同观察值,采取决策αi时,
其条件风险大小是不同的。所以究竟采取哪一种决 策将随x的取值而定。这样,决策α可以看成随机向 量x的函数,记为α(x)。可以定义期望风险Rexp为:
假言:如果鱼的长度 x 大于45cm,则该鱼为 鲈鱼 1,否则该鱼为鲑鱼 2
前提:现在某条鱼 x 38cm
结论:该鱼为鲑鱼 2
❖ 概率推理(不确定性推理)
P i x 精选
最小错误率准则
❖ 例子:
给定
P
y
1
P
y
2
1 2
,类条件概率密度如图。
现有一条鱼 x=38cm, 若采用最小错误率决策,该鱼应该为哪一类?
R2
R1
a p 1 b
❖ 一旦 R1 和 R2 确定,a和b为常数
❖ 一旦 R1 和 R2 确定, R 与 P(ω1) 成线性关系
❖ 选择使 b=0 的R1 和 R2 ,期望风险与P(ω1) 无关!
精选
R* C’ C
最小最大决策准则
D
R1 ,R2不变
A
R*B
D’
B
R1 ,R2改变
b=0
此时最大 风险最小,
P i
x
Px
i P i
Px
则: P1 x P2 x
等价于:
p x 1 P 1 p x 2 P 2
p x 1 p x 2
p 2 p 1
精选
似然比公式
最小错误率准则
❖ 特例1:
第2章 贝叶斯决策理论_正态分布
2) 观测数据白细胞浓度分别在两种情况 下的类条件分布: 下的类条件分布: P(x|ω1) ~ N(2000,1000) P(x|ω2) ~ N(7000,3000)
– P(3100|ω1) = 2.1785e-004 – P(3100|ω2) = 5.7123e-005 – P(ω1|3100)=1.9% – P(ω2|3100)=98.1%
– 观测值通常是很多种因素共同作用的结果,根据 观测值通常是很多种因素共同作用的结果,
中心极限定理,服从正态分布。 中心极限定理,服从正态分布。 – 计算、分析最为简单的模型。 计算、分析最为简单的模型。
一元正态分布
一元正态分布及其两个重要参数: 一元正态分布及其两个重要参数:
– 均值(中心) 均值(中心) – 方差(分散度) 方差(分散度)
医生的判断: 医生的判断:正常
作业
设有两类服从二维正态分布的样本如下(前两 设有两类服从二维正态分布的样本如下 前两 个一类,后两个一类): 个一类,后两个一类 : 1 2 2 4 x1 = x2 = x3 = x4 = 1 2 4 4 其协方差相同, 其协方差相同,可用两类样本的协方差的 均值来估计。 均值来估计。 设两类的先验概率之比为4:6。 设两类的先验概率之比为 。 求其判别边界,写出计算过程。 求其判别边界,写出计算过程。
判别边界是各种二次曲线。 判别边界是各种二次曲线。
例1:二次曲线边界
3 1/ 2 0 µ1 = ; Σ1 = 6 0 2 3 2 0 µ2 = ; Σ 2 = −2 0 2
g i ( x ) = x Wi x + w x + wi 0
[
]
判别边界仍是一条直线,但不垂直于均值的连线。 判别边界仍是一条直线,但不垂直于均值的连线。
贝叶斯决策理论课件(PPT 88页)
最小错误率的证明
以一维情况为例证明贝叶斯决策确实对 应最小错误率
统计意义上的错误率,即平均错误率, 用P(e)表示
最小错误率的证明
错误率图示
以t为界确实使错误率最小,因为P(e/x)始终取 最小
这个图在哪见过? 与图像分割中最优阈值对应的错误分割结果类
似,最优阈值同样是基于最小错误概率 图像分割蕴含了与模式识别类似的思想,即判
设被试验的人中患有癌症的概率为0.005,即 P(ω1)=0.005,当然P(ω2)=1-0.005=0.995
现任意抽取一人,要判断他是否患有癌症。显然, 因为P(ω2)> P(ω1),只能说是正常的可能性大。如 要进行判断,只能通过化验来实现
寻找样本观测量
设有一种诊断癌症的试验,其结果为 “阳性”和“阴性”两种反应
元素含义:对角线和非对角线
协方差:用来度量变量之间“协同变异”大小的总体参数, 即二者相互影响大小的参数;绝对值越大,相互影响越大
对角阵情形;去相关
多元正态分布的性质
均值向量和协方差矩阵共同决定分布
均值向量有d个分量 协方差矩阵独立元素个数为d(d+1)/2 多元正态分布由d+d(d+1)/2个参数完全决定,
取若干个不同的P(1)值,并分别按最小损失准则确
定相应的最佳决策类域R1、R2,然后计算出其相应
的最小平均损失R*,从而可得最小平均损失R*与先 验概率P(1)的关系曲线。
最小最大决策图示
先验概率为Pa*(1) 的 最小风险分类结果对
应各种先验概率的风 险变化 R a bP(1)
为何 为切 线?
正常人试验反应为阳性的概率=0.01,即 p(x=阳|ω2)=0.01
第二章 贝叶斯决策理论—第三次课
第2章 贝叶斯决策理论
第2章 贝叶斯决策理论
本章内容
2.1 分类器的描述方法 2.2 最大后验概率判决准则 2.3 最小风险贝叶斯判决准则 2.4 Neyman-Person判决准则 2.5 最小最大风险判决准则 2.6 本章小结
第2章 贝叶斯决策理论
2.2 最大后验概率判决准则 (基于最小错误率的贝叶斯决策准则)
第2章 贝叶斯决策理论
2.5
第2章 贝叶斯决策理论
最小风险贝叶斯判决受三种因素的影响: 类条件概率密度函数p(x|ωi) ; 先验概率P(ωi) ; 损失(代价)函数λ(αj, ωi) 。 在实际应用中遇到的情况: – 各类先验概率不能精确知道; – 在分析过程中发生变动。 这种情况使判决结果不能达到最佳,实际分类器的平均损 失要变大,甚至变得很大。
第2章 贝叶斯决策理论
2.4 Neyman-Person
第2章 贝叶斯决策理论
最小风险贝叶斯判决准则使分类的平均风险最小, 该准则需要什么条件?
最大后验概率判决准则使分类的平均错误率最小, 该准则需要什么条件?
N-P准则在实施时既不需要知道风险函数,也不需 要知道先验概率。
第2章 贝叶斯决策理论
最大后验概率判决准则使分类的平均错误概率最小。 最小风险贝叶斯判决准则使分类的平均风险最小。 可是, 在实际遇到的模式识别问题中有可能出现这样 的问题: 对于两类情形, 不考虑总体的情况, 而只关注某 一类的错误概率, 要求在其中一类错误概率小于给定阈 值的条件下, 使另一类错误概率尽可能小。
因为两类情况下, 先验概率满足:
P(1) P(2 ) 1
第2章 贝叶斯决策理论
R R1 [(1,1)P(1) p(x | 1) (1,2 )P(2 ) p(x | 2 )]dx R2 {(2 ,1)P(1) p(x | 1) (2,2 )P(2 ) p(x | 2 )}dx
第二章 贝叶斯决策理论与统计判别方法汇总
第二章贝叶斯决策理论与统计判别方法课前思考1、机器自动识别分类,能不能避免错分类,如汉字识别能不能做到百分之百正确?怎样才能减少错误?2、错分类往往难以避免,因此就要考虑减小因错分类造成的危害损失,譬如对病理切片进行分析,有可能将正确切片误判为癌症切片,反过来也可能将癌症病人误判为正常人,这两种错误造成的损失一样吗?看来后一种错误更可怕,那么有没有可能对后一种错误严格控制?3、概率论中讲的先验概率,后验概率与概率密度函数等概念还记得吗?什么是贝叶斯公式?4、什么叫正态分布?什么叫期望值?什么叫方差?为什么说正态分布是最重要的分布之一?学习目标这一章是模式识别的重要理论基础,它用概率论的概念分析造成错分类和识别错误的根源,并说明与哪些量有关系。
在这个基础上指出了什么条件下能使错误率最小。
有时不同的错误分类造成的损失会不相同,因此如果错分类不可避免,那么有没有可能对危害大的错分类实行控制。
对于这两方面的概念要求理解透彻。
这一章会将分类与计算某种函数联系起来,并在此基础上定义了一些术语,如判别函数、决策面(分界面),决策域等,要正确掌握其含义。
这一章会涉及设计一个分类器的最基本方法——设计准则函数,并使所设计的分类器达到准则函数的极值,即最优解,要理解这一最基本的做法。
这一章会开始涉及一些具体的计算,公式推导、证明等,应通过学习提高这方面的理解能力,并通过习题、思考题提高自己这方面的能力。
本章要点1、机器自动识别出现错分类的条件,错分类的可能性如何计算,如何实现使错分类出现可能性最小——基于最小错误率的Bayes决策理论2、如何减小危害大的错分类情况——基于最小错误风险的Bayes决策理论3、模式识别的基本计算框架——制定准则函数,实现准则函数极值化的分类器设计方法4、正态分布条件下的分类器设计5、判别函数、决策面、决策方程等术语的概念6、Bayes决策理论的理论意义与在实践中所遇到的困难知识点§2.1 引言在前一章中已提到,模式识别是一种分类问题,即根据识别对象所呈现的观察值,将其分到某个类别中去。
第2章贝叶斯决策理论[1]
•ω1
•ω2
•根据条件风险公式:
•α•1(正常) •0
•1
•α•(2 异常) •1
•0
•则两类决策的风险为
•(将 判决为第 类的风险 )
•(将 判决为第 类的错误率)
PPT文档演模板
•因此两种决策规则等价 (理论推导见教材P16)
第2章贝叶斯决策理论[1]
•2.3 正态分布时的贝叶斯统计决策
PPT文档演模板
第2章贝叶斯决策理论[1]
•2.2.3 基于最小风险的贝叶斯决策应用实例
•例:细胞识别
•类
•类
• 假设在某个局部地区细胞识别中, 正常( )和异常( )两类的先验概 率分别为
• 正常状态:
P ( ) =0.9;
• 异常状态:
P ( ) =0.1.
•现有一待识别的细胞,其观察值为 ,从类条件概率密度分布曲线上
• 正常状态:
P ( ) =0.9;
• 异常状态:
P ( ) =0.1.
•现有一待识别的细胞,其观察值为 ,从类条件概率密度分布曲线上
查得
•
P(x | )=0.2, P(x | )=0.4.
•试对该细胞x进行分类。
•解:利用贝叶斯公式,分别计算出 及 的后验概率。
•
P( | x)=
•
P( |x)=1- P( |x)=0.182
•(2)多元正态分布
•均值向量: •协方差矩阵:
PPT文档演模板
•多元正态分布
•左图的投影
第2章贝叶斯决策理论[1]
•2.3.1 预备知识(续)
•(3)多元正态分布的协方差矩阵
区域中心由均值决定,区域形状由协方差矩阵决定;且主轴方向是 协方差矩阵的特征向量方向;
第二章 贝叶斯决策
分类器设计
2. 决策面方程:g ( x) 0 代入判别函数得 p( x | 1 ) p(1 ) p( x | 2 ) p(2 ) 0
分类器设计
(3)分类器设计
x1 x2
g
判别计算 阈值单元 两类分类器的构成
1 1 1 2
决策
…
xd
分类器设计
举例: 对例2.1和例2.2分别写出其判别函数和决策面方程
在例2.1条件的基础上,利用右侧决策表, 按最小风险贝叶斯决策进行分类。
w1
w2
a1 a2
0
1
6 0
解:已知条件为:
p(1 ) 0.9, p( x | 1 ) 0.2,
p(2 ) 0.1 p( x | 2 ) 0.4
再计算条件风险
R(a1 | x) 1 j p( j | x) 12 p(2 | x) 1.092
更一般地gi ( x)可以取f ( p (i | x)) h( x)其中 f ( )为任一单调增函数
分类器设计
(2)决策面方程
如果i和 j是相邻的,则分割它们的决策面方程应满足: gi ( x) gj ( x)
分类器设计
(3)分类器设计
分类器设计
2.两类情况
1. 定义判别函数:g ( x) g1 ( x) g 2 ( x) 决策规则可表示为:g( x) 0则决策1; g( x) 0则决策2。 显然可以定义如下判别函数: 1.g(x)=p(1|x)-p(2|x) 2.g(x)=p(x|1 )p(1 )-p(x|2 )p(2 ) p(x|1 ) p(1 ) 3.g(x)=ln ln p(x|2 ) p(2 )
p( x | 1 )是正常状态下细胞特征观察值x的类条件概率密度 p( x | 2 )是异常状态下细胞特征观察值x的类条件概率密度
贝叶斯决策
超曲面。相邻的两个类别在决策面上的判别函数
值是相等的。如果ωi和ωj是相邻的,则分割它们 的决策面就应为
– di(x)=dj(x) 或 di(x)-dj(x)=0 – 对于两类问题,决策面方程:
– P(x|ω1)P(ω1)-P(x|ω2)P(ω2)=0
§2.2 基于贝叶斯公式的几种判别规则
一、基于最小风险的贝叶斯决策
ωi所受损失。因为这是错误判决,故损失最大。
表示:在决策论中,常以决策表表示各种 情况下的决策损失。
状态
ω
ω
…ω
…ω
损失
1
2
j
m
决策
α1
…
…
α2
…
…
…
…
αi
…
…
…
…
αα
…
…
2.风险R(期望损失):
对未知x采取判决行动α(x)所付出的代价(损耗)
➢行动αi:表示把模式x判决为ωi类的一次动作。
➢条件风险:
密度,考虑误判的损失代价。决策应是统计意义
上使由于误判而蒙受的损失最小。
–
如果在采取每一个决策或行动时,都使
其条件风险最小,则对所有的x作出决策时,其期
望风险也必然最小。(条件平均损失最小的判决
也必然使总的平均损失最小。)
–5.最小风险贝叶斯决策规则
–如果 :
–6.判决实施步骤:
–(1)在已知P(ωj),P(x|ωj),j=1,2,…m,并给出待 识别的x的情况下,根据贝叶斯公式计算出后验概
决策表很不容易,往往要根据所研究的具体问题, 分析错误决策造成损失的严重程度来确定。
–7.错误率最小的贝叶斯决策规则与风险最小的贝 叶斯决策规则的联系 – 在采用0-1损失函数时,最小风险贝叶斯决 策就等价于最小错误率贝叶斯决策。
第2章 贝叶斯决策
的条件风险; 3)比较各个条件风险的值,条件风险最小的决 策即为最小风险贝叶斯决策
最小风险准则
最小风险准则
对于贝叶斯最小风险决策,如果损失函数为“01损失”,即取如下的形式:
i w j
似然比公式
P i x P x i P i P x
则: P 1 x P 2 x
等价于:
p x 1 P 1 p x 2 P 2
p x 2
p x 1
p 2 p 1
似然比公式
带入上式:
最小最大决策准则
期望风险可写成:
R1
R 22 12 22 p x 2 dx p 1 11 22 21 11 p x 1 dx 12 22 p x 2 dx R2 R1 a p 1 b
i 1
c
最小错误率准则
例:医生要根据病人血液中白细胞的浓度来判断病 人是否患血液病。 两类识别问题:患病,未患病 根据医学知识和以往的经验,医生知道:
患病的人,白细胞的浓度服从均值2000方差1000的正
态分布;未患病的人,白细胞的浓度服从均值7000, 方差3000的正态分布;(类条件概率) 一般人群中,患病的人数比例为0.5%;(先验概率) 一个人的白细胞浓度时3100,医生应该做出怎样的判 断?(后验概率?)
期望风险反映对整个空间上所有x的取值采取相应的 决策α(x)所带来的平均风险。
最小风险准则
两分类问题的例子:
似然比公式
第二章 贝叶斯决策理论
ωc } αa}
对x可能采取的决策: Α = {α1 α 2
决策表
损失 状态 决策
ω1
ω2
…
ωj
λ (α 2 , ω j ) λ (α i , ω j ) λ (α a , ω j ) λ (α1 , ω j )
…
ωc
λ (α1 , ωc ) λ (α 2 , ωc ) λ (α i , ωc ) λ (α a , ωc )
⎧0 i = j 假设损失函数为0 - 1函数 : λ (α i , ω j ) = ⎨ ⎩1 i ≠ j
条件风险为 :R(α i | x ) = ∑ λ (α i , ω j )P (ω j | x ) =
c j =1 j =1, j ≠ i
∑ P(ω
c
j
| x)
等式右边的求和过程表示对x采取决策 ωi 的条件错 误概率。
贝叶斯公式 设试验E的样本空间为S,A为E的事件, B1,B2,…,Bn为S的一个划分
且 P ( A ) > 0 , P (B i ) > 0 , 则 P (B i | A ) =
n
P ( A | B i ) ⋅ P (B i )
j j
∑ P (A | B )⋅ P (B )
j =1
, j = 1, 2 ,..., n
分析 根据后验概率,发现这个细胞不正常的可能性
利用Bayes公式求后验概率 P(ωi | x )
增大了。 ∵ P (ω1 | x ) > P (ω 2 | x ) 所以判断该细胞为正常的。 实际中仅这个结论不能确诊的,需要更有效的化验。
(2)最小错误率的贝叶斯决策规则
⎧ω1 > 若P(ω1 | x ) < P(ω2 | x ),则x ∈ ⎨ ⎩ω2 ⎧ω1 > 若P(ω1 ) ⋅ p (x | ω1 ) < P(ω2 ) ⋅ p( x | ω2 ),则x ∈ ⎨ ⎩ω2 ⎧ω1 p( x | ω1 ) > P(ω2 ) ∈ x 若l ( x ) = ,则 ⎨ < p( x | ω2 ) P(ω1 ) ⎩ω2
第二章贝叶斯决策理论
第二章 贝叶斯决策理论
2.2 几种 常用旳决策规则
• 基于最小错误率旳贝叶斯决策 • 基于最小风险旳贝叶斯决策 • 分类器设计
2
2.2.1 基于最小错误率旳贝叶斯决策
在模式分类问题中,基于尽量降低分类旳错 误旳要求,利用概率论中旳贝叶斯公式,可得出 使错误率为最小旳分类规则,称之为基于最小错 误率旳贝叶斯决策。
11 0,
12 6
21 1,
22 0
根据例2.1旳计算成果可知后验概率为
P(1 | x) 0.818,
P(2 | x) 0.182
再按式(2-15)计算出条件风险 2 R(1 | x) 1 j P( j | x) 12P(2 | x) 1.092 j 1
R(2 | x) 21P(1 | x) 0.818 由于R(1 | x) R(2 | x)
c
c
R(i | x) (i , j )P( j | x) P( j | x)
(2 19)
j 1
j 1
ji
c
P( j
j 1
| x)
表达对x采用决策 i旳条件错误概率。
ji
26
• 所以在0-1损失函数时,使
R( k
|
x)
min
i 1,,c
R(i
|
x)
旳最小风险贝叶斯决策就等价于
c
c
j1
P( j
(i ,
j
)
10,,ii
j, j,
i, j 1,2,, c
(2 18)
25
• 式中假定对于c类只有c个决策,即不考虑“拒绝”旳
情况。式(2-18)中(i , j ) 是对于正确决策(即i=j)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Px R1 2 P 2 Px R2 1 P1 P 2 px 2 dx P1 px 1 dx P 2 P2 e P1 P 1 e
R1 R2
Pe Px R1 , 2 P x R2 , 1
t t
可以写成: P x R1 2 P2 P x R2 1 P1 P2 p x 2 dx P1 p x 1 dx P2 P2 e P1 P 1 e
R2 R1 R2
Pe Px R1 , 2 P x R2 , 1
P( 1| x)=
p( x | 1 ) P(1 )
P( 2 |x)=1- P(1 |x)=0.182
p( x |
j 1
2
j
) P( j )
0.2 0.9 0.818 0.2 0.9 0.4 0.1
2.1.4 最小错误率贝叶斯决策规则应用实例(续)
类条件概率密度(已知)
待解决的分类问题:
w1 类
w2 类
(3)每一类的“类条件概率密度”已知;
x
即 P x | w1 与 P x | w2 已知
2.1.3 最小错误率贝叶斯决策规则
决策规则(样本只有两类时):
如果 P w1 | x P w2 | x 如果 P w2 | x P w1 | x 则
例:利用贝叶斯公
式求 x 的最大值:
pw D
pw
w MP
w
2.1.1 预备知识(续)
6、分类错误率
x
分类方案一 分类方案二
分类错误率 = 被错分的样本数 / 样本总数
在分类中,希望分类错误率尽可能地小。
2.1.2 最小错误率贝叶斯决策的前提
前提:
(1)要决策分类的类别数是一定的; (2)每一类出现的“先验概率”已知; 即 P w1 P w2 已知
P w1 P w2
该县正常人的比例; 该县白血病患者的比例;
正常血细胞 异常血细胞
上述比例关系可根据往年病历 资料统计大致得到,因此可以看 作是已知的。 上述比例关系尽管可能是近似的, 但对决策准确程度的影响并不是直接 的,这也是贝叶斯决策的一个优点。
w1 类
w2 类
2.1.5 决策规则使错误率最小的理论证明
x2
2
二重积分:
P( x , x )dx dx
1 2 1
条件概率密度
若有两个随机变量X和Y,它们的联合概率密度为 f ( x, y) ,
变量X和Y各自的边缘概率密度为 f X ( x) 和 fY ( y) ,则在条件 Y=y下,X的条件概率密度为
f x, y f X |Y ( x | y) f ( x | y) fY y
3、条件概率 P( AB) 定义: P( B | A)
P( A)
即:P( AB) P( A) P( B | A)
4、全概率公式 定义:设事件 A1 , A2 ..., An 是样本空间 的一个划分,B是任意 n 一事件,则
P( B) P( Ai ) P( B | Ai )
i 1
P x | w1 P x | w2
后验概率密度(待求)
P w1 | x
P w2 | x
x
x
w1 类
x
w2 类
根据上图决策
2.1.4 最小错误率贝叶斯决策规则应用实例(续)
⑴为什么类条件概率密度是已知的
“类条件概率密度”是指系统位于 某种类型条件下,模式样本的概率密 度函数。一般而言,同一类事物的某 个属性都有一定的变化范围,在这个 变化范围内的分布密度可用一种函数 形式表示。
2015/11/18
本章主要内容
2.1 基于最小错误率的贝叶斯决策
2.2 基于最小风险的贝叶斯决策 2.3 正态分布时的贝叶斯统计决策 2.4 分类器的错误率问题
2.1 基于最小错误率的贝叶斯决策
2.1.1 预备知识
1、用向量来表示模式
模式: 一些供比对用的、“标准”的样本。 1 2 3 4 5
例如对于细胞识别而言,假设 x 是血红素浓度,则 P x | w1 表示正常血 细胞的血红素浓度的分布情况。该分 布可以事先测定,因此是已知的。
异常血细胞
x
正常血细胞
w1 类
w2 类
2.1.4 最小错误率贝叶斯决策规则应用实例(续)
⑵为什么先验概率是已知的
例如在某个局部地区(比如一个县)细胞识别中,要根据血红素浓度的测 量值 x 判定其为正常血细胞或者是异常血细胞(例如白血病血细胞)。
0
1 0 1 0 0 1
转化成列向量
1 2 3
特征提取
x1 T x x1 , x2 x2
“1”
1
0
0 35
1 33 0 34 0 35
模式“1”的图片
2、高维积分
已知模式(样本):x 一维积分:
P x dx
推广
高维积分:
P x dx
若 x x1 x , x T 1 2
t
为什么决策规则使 P(e)最小?书 12页
决策错误率 P(e x) 在每个x值处都取小者 ,因而平均错误率P(e)也必然达到最小 。
t
x
设t是两类的分界面, Pe P 2 x p x dx P 1 x p x dx
t t
p x 2 P2 dx p x 1 P1 dx
x2 X12 X22 „ XN2
„ „ „ „ „
xn X1n X2n „ XNn
3. 几何表示 一维表示
X1=0.5 X2=3
二维表示
X1=(x1,x2)T=(1,2)T X2=(x1,x2)T=(2,1)T
三维表示
X1=(x1,x2, x3)T=(1,1,0)T X2=(x1,x2 , x3)T=(1,0,1)T
i 1
贝叶斯公式: P wi | D
P D | wi P wi P D
(1763年提出)
贝叶斯公式由于其权威性、一致性和典雅性而被列入最优美的数 学公式之一 ;
由贝叶斯公式衍生出贝叶斯决策、贝叶斯估计、贝叶斯学习等 诸多理论体系,进而形成一个贝叶斯学派;
决策边界把x轴分成两个区域 , 分别为第一个区域R1 和第二个区域 R2 , 样本在R1中, 但属于第二类的概率 加上 样本在R2中, 但属于第一类的概率 , 就是出现的错误概率 , 再考虑到样本自身的分 布后就是平均错误率 p (e)。 Px R1 2 P2 P x R2 1 P1 P2 p x 2 dx P1 p x 1 dx P2 P2 e P1 P 1 e
贝叶斯公式的两个创新点: (1)用概率表示所有形式的不确定性; 例如天气预报时,“今天下雨的概率是85%”比直接预测 “今天下雨”要更科学 ; (2) 引入了“先验”与“后验”的概念 ;
先验概率:预先已知的或者可以估计的模式识别系统位于 某种类型的概率。根据大量统计确定某类事物出现的比例 ,如我国理工科大学男女生比例大约为8:2,则在这类学校 一个学生是男生的先验概率为0.8,而为女生的概率是0.2 ,这两类概率是互相制约的,因为这两个概率之和应满足 总和为1的约束。 P(男生) 后验概率:一个具体事物属于某种类别的概率.例如一个学 生用特征向量X表示,它是男性或女性的概率表示成P(男 生|X)和P(女生|X)这就是后验概率。由于一个学生只可能 为两个性别之一,因此有P(男生|X)+P(女生|X)=1的约束, 这一点是与类分布密度函数不同的。 后验概率与先验概率也不同,后验概率涉及一个具体事物 ,而先验概率是泛指一类事物,因此 P(男生|X)和P(男生) 是两个不同的概念。
其中 P dx 是把第一类样本决策为 第二类的错误率; 1 e p x 1 P2 e p x 2 dx 是把第二类样本决策为 第一类的错误率;
R1
两种错误率用相应类别 的先验概率加权就是总 的错误率, 如图所示。 由p ( x | w1 ) p ( w1 ) p ( x | w2 ) p ( w2 )可以解出p (e)是最小的t 值。
x w1
3、对 x 进行分类(决策)时的错误 见(2-7)式
2.1.5 决策规则确实使错误率最小的理论证明(续)
设t是两类的分界面,将( 2 7)代入( 2 6)得 Pe P 2 x px dx P1 x px dx
t t
px 2 P 2 dx p x 1 P1 dx
待解决的分类问题:
x w1w1 类 Nhomakorabeaw2 类
则 x w2
类条件概率密度已知
P x | wi P wi 先验概率已知 P wi | x P x
i 1, 2
x x 可能属于 w1 类也可能属 于w2类。
2.1.4 最小错误率贝叶斯决策规则应用实例
例 细胞识别
贝叶斯 公式
P w | D
P D | w P w P D
似然 (样本信息)
P D | w
后验
先验
Pw
贝叶斯 推理
Pw | D
贝叶斯公式的另一种形式: P D | wi P wi P D | wi P wi P wi | D n P D P D | wi P wi
前面给出了最小错误率贝叶斯决策规则,但尚未证明按这种决策规 则进行分类确实能使分类错误概率最小。下面以一维情况完成证明, 其结果不难推广到多维。 1、平均错误率: P(e) (是 P(e x) 的期望) 见(2-6) 2、决策规则(两类时):