模式识别:贝叶斯决策理论
模式识别的基本理论
7
基于最大后验概率的贝叶斯决策
▪ 例:癌细胞的识别
– 假设每个要识别的细胞已作过预处理,并抽取出 了d个特征描述量,用一个d维的特征向量X表示,
– 识别的目的是要依据该X向量将细胞划分为正常 细胞或者异常细胞。
– 这里我们用ω1表示是正常细胞,而ω2则属于异常 细
8
▪ 具体规则如下:
▪ ▪
若:P(i | X
对于多类:
)
max j 1,2
P(
j
| X)
则:
X ▪
若:P(i
|
X
)
max
j 1,...,c
P( j
| X)
则:
i
11
最大后验概率决策的其他形式
先验概率,后验概率,概率密度函数之间关系
P( X ,i ) p( X | i )P(i ) P(i | X ) p( X )
第2章 模式识别的基本理论与方法
1
主要内容
▪ 1、贝叶斯决策理论。 ▪ 主要讲授两种常用的决策规则:贝叶斯准则和最小风险准
则;两类及多类决策,分类器的设计、分类器的错误率计算。 ▪ 2、非参数判别分类方法。 ▪ 包括线性判别函数及线性分类器的设计、非线性判别函
数、分段线性判别函数、局部训练法等。 ▪ 3、近邻法。 ▪ 包括近邻法及其改进算法(剪辑近邻、压缩近邻法)。 ▪ 4、特征选择与提取方法。 ▪ 概述特征提取与选择的基本概念、常用判据、基于欧氏
的两类别决策(Neyman-pearson准则) 4. 最小最大决策
6
2.2.1 基于最小错误率的贝叶斯决策
▪ 分类识别中为什么会有错分类?
– 当某一特征向量值X只为某一类物体所特有,即
模式识别第二章贝叶斯理论
4、分类器设计:
x1 x X 2 ... xn
g1(x) g2(x)
...
Max g(x)
x i
gn(x)
判别计算
最大值选择器
决策
特征向量
贝叶斯公式可以有几种形式的判别法则,针对具体问 题可以选取合适的形式。不管选取何种形式,其基本思想均 是要求判别归属时依概率最大作出决策,这样的结果就是分 类的错误率最小。
由上例中计算出的后验 概率:P (1 x) 0.818, P ( 2 x) 0.182 条件风险:R (1 x) 1 j P ( j x) 12 P( 2 x) 1.092
j 1 2
R ( 2 x) 21 P (1 x) 0.818 因为R (1 x) R ( 2 x) x 异常细胞,因决策1类风险大。 因12=6较大,决策损失起决定 作用。
31
N-P决策规则 如果:
Px | 2
当
P x | 1
则:
N-P决策规则归结为找阈值
1 x 2
。
P ( x 1 ) 时, 作1 2的分界线. P( x 2 )
t
2 P ( x 2 ) dx, 为 2的函数在取 2为常数时, 可确定, 这时 2一定 1最小
1 j M
另一种形式: g i ( x ) ln P ( x i ) ln P ( i ) max ln P ( x j ) ln P ( i ) x i
1 j M
3、决策面方程: g i ( x )
g j ( x ), 即 g i ( x ) g j ( x ) 0
i , 1 i , 2
模式识别课件 第二章 贝叶斯决策论
• 2.3 最小误差率分类
• 当损失函数简化到所谓的“对称损失”或“0-1损失” 函数
i, j 1,2,c
0 ( i | j ) 1
i j i j
• 这个损失函数将0损失赋给一个正确的判决,而将一 个单位损失赋给任何一种错误判决,因此所有误判都是 等价的。与这个损失函数对应的风险就是平均误差概率。
i ;
b
左图说明,如果 引入一个0-1损失 或分类损失,那么 判别边界将由阈值 a 决定;而如果 损失函数将模式 2 判为 1 的惩罚大于 反过来情况,将得 到较大的阈值 使 b 得R1变小
2.3.1 极小极大化准则(先验概率未知情形) • 有时我们需要设计在整个先验概率范围内都能很好操作的 分类器。一种合理的设计方法就是使先验概率取任何一种
2
?
通常: (2,1 1,1 ) 0 (1,2 2,2 ) 0
结合贝叶斯公式,用先验概率与条件密度来表示 后验概率,等价规则为 如果 (2,1 1,1 ) P( x | 1 ) P(1 ) (1, 2 2,2 ) P( x | 2 ) P(2 )
p( x | i ) P(i ) p( x | j ) P( j )
j
g i ( x) P(i | x)
gi ( x) ln p( x | i ) ln P(i )
• 尽管判别函数可写成各种不同的形式,但是判决规则是相同的。 每种判决规则都是将特征空间划分c个判决区域, R1 , Rc 如果对于所有的 j i ,有 gi ( x) g j ( x) 那么x属于 Ri 。 要求我 们将x分给 i 。此区域由判决边界来分割,其判决边界即判决
注 : 假定的类条件概率密度函数图,显示了模式处于类别 i 时观察某 个特定特征值 x 的概率密度.如果 x 代表了鱼的长度,那么这两条曲线可 描述两种鱼的长度区别.概率函数已归一化,因此每条曲线下的面积为1
模式识别第2章 模式识别的基本理论(2)
(步长系数 )
33
算法
1)给定初始权向量a(k) ,k=0;
( 如a(0)=[1,1,….,1]T)
2)利用a(k)对对样本集分类,设错分类样本集为yk 3)若yk是空集,则a=a(k),迭代结束;否则,转4) 或 ||a(k)-a(k-1)||<=θ, θ是预先设定的一个小的阈值 (线性可分, θ =0) ( y) a(k 1) a(k) k J p 4)计算:ρ k, J p (a) y y 令k=k+1 5)转2)
1)g(x)>0, 决策:X∈ ω1 决策面的法向量指向ω1的决 策域R1,R1在H的正侧 2) g(x)<0, 决策:X∈ ω2, ω2的决策域R2在H的负侧
6
X g(X) / ||W|| R0=w0 / ||W|| Xp R2: g<0 H: g=0 r 正侧 R1: g>0 负侧
g(X)、 w0的意义 g(X)是d维空间任一点X到决策面H的距离的代数度量 w0体现该决策面在特征空间中的位置 1) w0=0时,该决策面过特征空间坐标系原点 2)否则,r0=w0/||W||表示坐标原点到决策面的距离
否则,按如下方法确定: 1、 2、 3、 m m ln[ P( ) / P( )]
~ ~
w0
1
2
2
1
2
N1 N 2 2
(P(W1)、P(W2) 已知时)
24
分类规则
25
5 感知准则函数
感知准则函数是五十年代由Rosenblatt提出的一种 自学习判别函数生成方法,企图将其用于脑模型感 知器,因此被称为感知准则函数。 特点:随意确定判别函数的初始值,在对样本分类 训练过程中逐步修正直至最终确定。 感知准则函数:是设计线性分类器的重要方法 感知准则函数使用增广样本向量与增广权向量
模式识别-贝叶斯决策.ppt
[21P(1) p(x|1) 22P(2 ) p(x|2 )]dx
R2
2021/3/8
31
P1 P(1); P2 P(2 )
I11 p(x|1)dx; I12 p(x|2 )dx
R1
R1
I21 p(x|1)dx; I22 p(x|2 )dx
R2
R2
R P111I11 P212I12 P121I21 P222I22
我们希望 P变2 化时,最大可能 的损失R最小,则
R P b 0, Rmin a
b=0是平行于横轴的直线
对应于曲线最大值
结论:
在不精确知道 P或2 P变2 动情况时,为使最大的可能损失 最小,应该选择最小损失R取最大值时的 来P设2 计分类 器,此时相对其他 在P最2 优设计下的R要大。但当 P2 在(0,1)发生变化时,其相应的最大损失为最小。
12
2021/3/8
23
多类情况
若c个类,lij (x)
p(x | i ) ,i, p(x | j )
j
1,2,...c,i
j
若lij (x) ij , j i, j 1,2,...c,则x i
其中
ij
[(i | j ) ( j [( j | i ) (i
| j )]P( j ) , | i )]P(i )
若取0-1损失函数,则
R P(1) p(x | 1)dx P(2 ) p(x | 2 )dx
2021/3/8
18
最小风险贝叶斯决策规则:
若R(
j
|
x)
min
i 1,...,a
R(i
|
x),则=
j
算法步骤:
模式识别课件-第二章 贝叶斯决策理论
立,则将x归于 类。
几种常见的决策规则
判别函数
相对应于贝叶斯决策的判别函数
(1) = |
(2) = (│ )( )
(3) = ln + ln ( )
= , =
= , =
几种常见的决策规则
基于最小风险的贝叶斯决策
利用贝叶斯公式,分别计算后验概率
(│ )( )
=
σ= (│ )( )
. ∗ .
=
= .
. ∗ . + . 4 ∗ . 1
且对应于各类别的 i 出现的先验概率 P(i )
及类条件概率密度 p ( x | i )已知
如果在特征空间已经观察到某一个向量x, 应
该把x分到哪一类?
引言
基本符号与定义
例:医生要根据病人血液中白细胞的浓度来
判断病人是否患血液病。(两分类问题)
根据以往医生的经验知道:
患病的人,白细胞的浓度与正常人不同
正态分布函数定义及性质
概率密度函数应满足下面关系:
≥ 0 −∞ < < +∞
+∞
න
−∞
() = 1
正态分布时的统计决策
正态分布函数定义及性质
多元正态分布
1
−1
−1
=
exp{
(
−
)
Σ ( − )}
/2
1/2
2
(2) |Σ|
其中
= [ , , … , ] 是d维列向量,
= [ , , … , ] 是d维均值向量,
模式识别-3-贝叶斯决策理论
(
)
确定性特征向量与随机特征向量
确定性特征向量 在获取模式的观测值时,有些事物具有确定的 因果关系,即在一定条件下,存在必然会发生 或必然不发生的确定性,这样获得的特征向量 称为确定性特征向量。 例如识别一块模板是不是直角三角形,只要 凭“三条直线边闭合连线和一个直角”这个 特征,测量它是否有三条直线边的闭合连线 并有一个直角,就完全可以确定它是不是直 角三角形。 这种现象是确定性的现象,比如上一讲的线 性模式判别就是基于这种现象进行的。
x1 x X = 2 ... xn
特征向量
g1(x) g2(x)
...
Max(g(x))
最大值选择器
x ∈ ωi
gn(x)
判别计算
决策
§3-3 正态分布决策理论
一、正态分布判别函数
1、为什么采用正态分布:
a、正态分布在物理上是合理的、广泛的。 b、正态分布数学上简单,N(µ, σ ²) 只有均值和方差两个参数。
)
2
=
∫ (x − µ )
−∞
∞
2
P ( x)
P ( x ) d x,方 差 ) (
1
概率密度函数应满足下 列关系: P ( x ) ≥ 0, ( −∞ < x < ∞ ) ∞ ∫−∞ P ( x )dx = 1
0 . 95
µ − 2σ
µ
X
µ + 2σ
3、(多变量)多维正态分布 (1)函数形式:
µ i = E ( xi ) =
∑
= E
= E = E
(x 1 − ...... (x n − µ
[(x
哈工大模式识别课件—第2章_贝叶斯决策理论
模式识别 – 贝叶斯分类器
正态分布的判别函数
• 贝叶斯判别函数可以写成对数形式:
g ix l n p xi l n P i
• 类条件概率密度函数为正态分布时:
g ix 1 2 x μ itΣ i 1 x μ i d 2 l n 2 1 2 l n Σ i l n P i
模式识别 – 贝叶斯分类器
贝叶斯分类器的错误率估计
p 2 x
p 1 x
c
Perror1pi xdx i1Ri
模式识别 – 贝叶斯分类器
例2.1
• ω对2一类大代批表人正进常行人癌。症已普知查先,验设概ω率1:类代表患癌症,
P 1 0 . 0 0 5 ,P 2 0 . 9 9 5
以一个化验结果作为特征x: {阳性,阴性},患癌症 的人和正常人化验结果为阳性的概率分别为:
模式识别 – 贝叶斯分类器
线性分类器
• 两类问题,1维特征,先验概率不同时:
模式识别 – 贝叶斯分类器
线性分类器
• 两类问题,高维特征,先验概率不同时:
模式识别 – 贝叶斯分类器
情况三: Σ i 任意
• 判别函数可以写成:
g ix 1 2 x tΣ i 1 x μ t iΣ i 1 x 1 2 μ i tΣ i 1 μ i 1 2 ln Σ i ln P i
•将未知模式x判别为ωj类的平均风险为:
c
j x ijP i x i1
模式识别 – 贝叶斯分类器
最小平均风险判别准则
• 利用Bayes公式,构造判别函数:
gj xj x
c
jxijPxiPi i1
模式识别 – 贝叶斯分类器
贝叶斯分类器
行动(分类)
代价
决策管理-模式识别之贝叶斯决策
②变型1(消去相同的分母)
如果
P(i
| x)
max j 1,2
P
(
j
| x),
则
x i
P(i | x)
p(x | i )P(i )
c
p(x | j )P( j )
j 1
如果
p(x | i )P(i )
max j 1,2
p(x | j )P( j ),
①已知决策分类的类别数为c,各类别的状态为:
i , i 1, ..., c
②已知各类别总体的概率分布(各个类别出现 的先验概率和类条件概率密度函数)
P(i ), p(x | i ), i 1, ..., c
Bayes决策理论欲解决的问题
如果在特征空间中观察到某一个(随机) 向量 x = ( x1 , x2 ,…, xd )T
2
p( x | j )P( j
)
0.2
0.2 0.9 0.9 0.4
0.1
0.818
j1
P(2 | x) 1 P(1 | x) 0.182
属于正常细胞,注意:先验概率起主导作用
如果先验概率相等,则属于异常细胞
正确分类与错误分类
• 正确分类:将样本归属到样本本身所属的 类别
红+黄
绿
只有当 t 取两类后验概率相等的点时,错误率才是最 小的(黄颜色区域变成零)
P(e) P(2 ) 1 p( x | 2 )dx P(1 ) 2 p( x | 1 )dx
P(2 )P2 (e) P(1 )P1 (e)
2.2.2 基于最小风险的Bayes决策
• 错误分类:将样本归属到非样本本身所属
模式识别 第二章 贝叶斯决策论习题答案
2
= min p (ω1 x ) , p (ω2 x ) max p (ω1 x ) , p (ω2 x )
= p ω1 x p ω2 x
(
) (
)
所以, p ω1 x p ω2 x 能过给出误差率的下界。 d) 因为:
(
) (
)
pβ ( error ) = ∫ β p (ω1 x ) p ( ω2 x ) p ( x ) dx
α 4
∫
Hale Waihona Puke +∞p ( x ) dx <
显而易见: pα ( error ) < p ( error ) ,因此当 α < 2 时,无法得到误差率的上界。 c) 因为:
p ( error x ) ≥ p ( error x ) − p ( error x ) = p ( error x ) 1 − p ( error x )
i =1 ωi ≠ωmax
∑ P (ω x ) p ( x ) d x
i
c
= ∫ 1 − P (ωmax x ) p ( x ) dx = 1 − ∫ P (ωmax x ) p ( x ) dx
d) 续上式:
(
)
P ( error ) = 1 − ∫ P (ωmax x ) p ( x ) dx ≤ 1− ∫ 1 1 c −1 p ( x ) dx = 1 − = c c c
n t
′ ′ ′ Σ′ = ∑ ( x′ k − μ )( x k − μ )
k =1 n
= ∑ Tt ( x 0 k − μ )( x 0 k − μ ) T
t k =1
n t = Tt ∑ ( x 0 k − μ )( x 0 k − μ ) T k =1 = T t ΣT
模式识别中贝叶斯决策理论的研究
科技情报开发与经济SCI-TECHINFORMATIONDEVELOPMENT&ECONOMY2007年第17卷第7期模式识别(PatternRecognition)最初诞生于20世纪20年代,随着40年代计算机的出现、50年代人工智能的兴起,模式识别在60年代初迅速发展成一门学科。
模式识别所研究的理论和方法在很多科学和技术领域中得到了广泛的重视,并且推动了人工智能系统的发展,扩大了计算机应用的可能性。
1模式和模式识别的基本概念通常,我们把通过对具体的个别事物进行观测所得到的具有时间和空间分布的信息称为模式,而把模式所属的类别或同一类中模式的总体称为模式类或简称类。
也有人习惯把模式类称为模式,而把个别具体的模式定为样本,正如面向对象技术中的类与实例的关系一样。
而模式识别是人类的一项基本智能,同时它也是一门主要利用统计学、概率论、计算几何、机器学习、信号处理以及算法的设计等工具从可感知的数据中进行推理的学科。
它与统计学、心理学、语言学、计算机科学、生物学、控制论等都有关系,它与人工智能、图像处理的研究有交叉关系。
例如自适应或自组织的模式识别系统包含了人工智能的学习机制;人工智能研究的景物理解、自然语言理解也包含模式识别问题。
又如模式识别中的预处理和特征抽取环节应用图像处理的技术,图像处理中的图像分析也应用模式识别的技术。
2模式识别方法模式识别研究主要集中在两方面:一是研究生物体(包括人)是如何感知对象的,属于认识科学的范畴;二是在给定的任务下,如何用计算机实现模式识别的理论和方法。
前者是生理学家、心理学家、生物学家和神经生理学家的研究内容,后者通过数学家、信息学专家和计算机科学工作者近几十年来的努力,已经取得了系统的研究成果。
模式识别主要有两种基本的方法,即统计模式识别方法和结构(句法)模式识别方法,与此对应的模式识别系统都由两个过程所组成,即设计和实现。
此外,还有其他诸如模板匹配的方法和神经网络方法等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
❖ 那么当 R (1|x)R (2|x) 时,采取第1个行动。即:
1 P ( 1 1 | x ) 1 P ( 2 2 | x ) 2 P ( 1 1 | x ) 2 P ( 2 2 | x )
( 1 1 2 ) P 1 (1 |x ) ( 2 2 1 ) P 2 (2 |x )
( 1 1 2 ) P ( 1 x |1 ) P ( 1 ) ( 2 2 1 ) P ( 2 x |2 ) P ( 2 )
因此:
该样例j的 属概 于 类 率 类 j中 别 别 该 该样 样例 例 类 出 出 j出 别 现 现 现 的 概 概
对于上面 的问题:
P(1|
x)P(x|1)P(1)
P(x)
P(2|x)P(x|P (2x)P )(2)
❖ 如果p(ω1|x)>p(ω2|x),那么就认为x属于ω1, 即这条鱼是鲈鱼。同理于:
P(j |
x)P(x|j)P(j)
P(x)
但为是要,考并虑不损是失简:单地将x归于具有最大p(ωj|x)值的那个类别ωj。因 定义进行第i个行动(比如将样例归于第i个类别)这种行为表示为:
αi。 在λ(α一i|ω个j)样。例的真正类别为ωj时,进行第i个行动造成的损失是: 那么进行第i个行动的总损失:
一 最简单的贝叶斯分类算法
❖ 还使用前面的例子:鲈鱼(sea bass)和鲑鱼(salmon)。
❖ 使用一个特征亮度对这两种鱼进行表示。
❖ 新来了一条鱼特征是x(亮度),怎么根据特征x确定 它到底是鲈鱼ω1还是鲑鱼ω2?
❖ 已知数据:鲈鱼类标号ω1,鲑鱼类标号ω2。鲈鱼总 数量占所有鱼总数量的比率为P(ω1),鲑鱼总数量占 所条有鱼鱼的总 亮数 度x量在的分比类率为为鲈P鱼(ω时2)。出由现鲈的鱼概的率分为布p(x得|ω知1)这, 由鲑鱼的分布得知这条鱼的亮度x在分类为鲑鱼时出 现的概率为p(x|ω2)。
P ( x |1 ) P (1 ) 1 P ( x 0 | 2 ) P (2 )
三 判别函数
❖ 在模式识别里,经常用gi(x)来表示x属于第i个类别的可能性。 ❖ 如果对于所有的j!=i都有:gi(x)>gj(x),那么认为x属于第i个类别ωi。 ❖ 比如令gi(x)=-R(αi|x)。 ❖ 上面是一个不等式关系,如果不等式两边都乘以相同的正数,或
二 贝叶斯决策算法
❖ 上面的分类有几个主要限制:
特征向量中只包含一个特征:亮度。 只有两个类别:鲈鱼和鲑鱼。 仅仅允许分类,而不是根据分类采取行动。同时,没有
加入损失控制:例如鲈鱼比鲑鱼贵。如果鲈鱼的罐头里 装入了鲑鱼,那么客户会很生气;如果鲑鱼的罐头里装 入了鲈鱼,那么客户很难感到有损失。那么这个时候分 类后采取的行动就要偏向于便宜的鲑鱼。
定义 ij(i |j)
,造是成在的一损个 失样。例的真正类别为ωj时,进行第i个行动 采取第1个行动时的总损失:
R (1 |x ) 1 P ( 1 1 |x ) 1 P ( 2 2 |x )ห้องสมุดไป่ตู้
采取第2个行动时的总损失:
R (2 |x ) 2 P ( 1 1 |x ) 2 P ( 2 2 |x )
P ( x | 1 ) P (1 ) P ( x | 2 ) P (2 )
这几个基本数据都已经给出了,因此可 以计算出不等式的结果。
如果p(ω1|x)<p(ω2|x),那么就认为x属于 ω2,即这条鱼是鲑鱼。同理于:
P ( x | 2 ) P (2 ) P ( x | 1 ) P (1 )
❖ 如何求解?可以求出x属于鲈鱼ω1的概率 P(ω1|x)和x属于鲑鱼ω2的概率P(ω2|x)。如果 P(ω1|x)>P(ω2|x),就认为x是鲈鱼。现在的问 题是如何求P(ω1|x)和P(ω2|x)。
❖ 有一个概率公式:
P (y |x )P (x ) P (x |y )P (y )
从而推出:
比鱼的时如ω罐候1对头分的于里类罐上装后头面入采里的了取装例 鲈 的入子 鱼 行了动λω鲑111就鱼,=λ要ω那222偏么=,0向客那。于户么鲈便很客鱼宜难户ω的感1会比鲑到很鲑鱼有生鱼。损气ω因失;2贵此。如。设那果如当么鲑果真这鱼鲈正个ω2 类装将λ21别入x=归0是了类.2鲑鲑。为鱼鱼可鲑ωω以鱼22的)看的ω时2到损(造候,失成,上λ鲑1将2面=鱼x的2归, ω公类2设的式为当罐变鲈真头成鱼正里了ω类装1:(别入造是了成鲈鲈鲈鱼鱼鱼ωωω111的的)的时罐损候头失,里
加上相同的树,或取自然对数。那么不等式的关系是不变的。因 此不考虑损失时的贝叶斯判别函数:
gi(x)p(i|x)p(x|p (ix ))p(i)
可以写成:
gi(x)p(x|i)p(i)
g i(x ) ln p (x| i) ln p (i)
四 正态分布
P(j |x)P(x| P(jx)P )(j)
c
R(i |x)(i |j)P(j |x) j1
这里将每个类别为真正类别时采取第i个行动造成的损失都加起来, 作为采取第i个行动的总损失。
那么每个行动的总损失都可以求出来,采取其中总损失最小的行 动。比如行动k最小,对应的行动是将样例归于第k个类别,那么
就如此进行分类。
举例:贝叶斯决策算法在两类问 题中的决策。
❖ 下面就看突破这几个限制的比较通用的贝叶斯分类 器是什么样的。
❖ 为了解决第一个显示,使用向量x代替原来的单变量x。 x就叫做特征向量。比如鲈鱼鲑鱼分类的例子中,可以 设计这样一个特征向量(x1,x2),其中x1表示亮度,x2表 示长度。
❖ 定 为义 ωj。类别总共有c个:{ω1,ω2…,ωc},第j个分类 ❖ 此 算时 :,x属于类别ωj的概率依然用这个公式计
P(y|x)P(x| y)P(y) P(x)
换一种写法:
P(j |x)P(x| P(jx)P )(j)
P(j |x)P(x| P(jx)P )(j)
这就是著名的贝叶斯公式。其中P(ωj)叫做先验概率,就是类别出现 的可能性;p(x|ωj)叫条件概率,就是在ωj时x出现的可能性;p(ωj|x) 叫后验概率;p(x)是该样例出现的可能性。