模式识别-第二章 - 贝叶斯决策理论2
合集下载
02-模式识别-贝叶斯方法
若 l1 l 2 , 则 x 属于 1 类,即
(2-13)
( 21 22 ) p ( x | 2 ) P ( 2 ) ( 12 11 ) p ( x | 1 ) P ( 1 )
2012年11月6日星期二
(2-14)
12
Pattern Recognition
的未知样本, M 个条件
1 , 2 ,..., M 是预先已知的
M 个类,则形成了
概率 P ( i x )( 后验概率 ),表示 x i的概率。用概率最 大来进行分类是一种无 规则和实验数据进行后 意义的的选择,必须采 验概率密度函数的计算 用 Bayes 和分类。
2012年11月6日星期二
2
Pattern Recognition
Ch. 2 分类器-基于Bayes决策理论
2.1 引言
模 式 识 别
2.1.2 全概率公式和贝叶斯准则
A i ( i 1, 2 ,... M ) 是 M 个事件,设每个事件发 则有 生的概率为 : ( 2 1) 定义: (2 2) P ( B , A ) 是两个事件 。
2.2 贝叶斯决策理论
模 式 识 别
2.2.2 最小化分类错误率 可以证明,贝叶斯分类器在分类错误率最小化方面最优:
Pe P ( x R 2 , 1 ) P ( x R 1 , 2 ) P ( x R 2 | 1 ) P ( 1 ) P ( x R1 | 2 ) P ( 2 ) P ( 1 )
全概率: p ( x )
M
p ( x | Ai ) P ( Ai )
i 1
2012年11月6日星期二
5
Pattern Recognition
(2-13)
( 21 22 ) p ( x | 2 ) P ( 2 ) ( 12 11 ) p ( x | 1 ) P ( 1 )
2012年11月6日星期二
(2-14)
12
Pattern Recognition
的未知样本, M 个条件
1 , 2 ,..., M 是预先已知的
M 个类,则形成了
概率 P ( i x )( 后验概率 ),表示 x i的概率。用概率最 大来进行分类是一种无 规则和实验数据进行后 意义的的选择,必须采 验概率密度函数的计算 用 Bayes 和分类。
2012年11月6日星期二
2
Pattern Recognition
Ch. 2 分类器-基于Bayes决策理论
2.1 引言
模 式 识 别
2.1.2 全概率公式和贝叶斯准则
A i ( i 1, 2 ,... M ) 是 M 个事件,设每个事件发 则有 生的概率为 : ( 2 1) 定义: (2 2) P ( B , A ) 是两个事件 。
2.2 贝叶斯决策理论
模 式 识 别
2.2.2 最小化分类错误率 可以证明,贝叶斯分类器在分类错误率最小化方面最优:
Pe P ( x R 2 , 1 ) P ( x R 1 , 2 ) P ( x R 2 | 1 ) P ( 1 ) P ( x R1 | 2 ) P ( 2 ) P ( 1 )
全概率: p ( x )
M
p ( x | Ai ) P ( Ai )
i 1
2012年11月6日星期二
5
Pattern Recognition
模式识别第二章贝叶斯理论
13
4、分类器设计:
x1 x X 2 ... xn
g1(x) g2(x)
...
Max g(x)
x i
gn(x)
判别计算
最大值选择器
决策
特征向量
贝叶斯公式可以有几种形式的判别法则,针对具体问 题可以选取合适的形式。不管选取何种形式,其基本思想均 是要求判别归属时依概率最大作出决策,这样的结果就是分 类的错误率最小。
由上例中计算出的后验 概率:P (1 x) 0.818, P ( 2 x) 0.182 条件风险:R (1 x) 1 j P ( j x) 12 P( 2 x) 1.092
j 1 2
R ( 2 x) 21 P (1 x) 0.818 因为R (1 x) R ( 2 x) x 异常细胞,因决策1类风险大。 因12=6较大,决策损失起决定 作用。
31
N-P决策规则 如果:
Px | 2
当
P x | 1
则:
N-P决策规则归结为找阈值
1 x 2
。
P ( x 1 ) 时, 作1 2的分界线. P( x 2 )
t
2 P ( x 2 ) dx, 为 2的函数在取 2为常数时, 可确定, 这时 2一定 1最小
1 j M
另一种形式: g i ( x ) ln P ( x i ) ln P ( i ) max ln P ( x j ) ln P ( i ) x i
1 j M
3、决策面方程: g i ( x )
g j ( x ), 即 g i ( x ) g j ( x ) 0
i , 1 i , 2
4、分类器设计:
x1 x X 2 ... xn
g1(x) g2(x)
...
Max g(x)
x i
gn(x)
判别计算
最大值选择器
决策
特征向量
贝叶斯公式可以有几种形式的判别法则,针对具体问 题可以选取合适的形式。不管选取何种形式,其基本思想均 是要求判别归属时依概率最大作出决策,这样的结果就是分 类的错误率最小。
由上例中计算出的后验 概率:P (1 x) 0.818, P ( 2 x) 0.182 条件风险:R (1 x) 1 j P ( j x) 12 P( 2 x) 1.092
j 1 2
R ( 2 x) 21 P (1 x) 0.818 因为R (1 x) R ( 2 x) x 异常细胞,因决策1类风险大。 因12=6较大,决策损失起决定 作用。
31
N-P决策规则 如果:
Px | 2
当
P x | 1
则:
N-P决策规则归结为找阈值
1 x 2
。
P ( x 1 ) 时, 作1 2的分界线. P( x 2 )
t
2 P ( x 2 ) dx, 为 2的函数在取 2为常数时, 可确定, 这时 2一定 1最小
1 j M
另一种形式: g i ( x ) ln P ( x i ) ln P ( i ) max ln P ( x j ) ln P ( i ) x i
1 j M
3、决策面方程: g i ( x )
g j ( x ), 即 g i ( x ) g j ( x ) 0
i , 1 i , 2
模式识别_2贝叶斯决策理论_正态分布时的统计决策
(2) P Z i P Z j T -1 g i x x μ i Σ i x μ i
g i x
g i x ln 1
d 2
g i x w T i x wi 0
㓯ᙗ࠶㊫ಘ
x μ i
2
ᴰሿ䐍࠶㊫ಘ
54
2S 生课程 仅作本科生课程教学参考使用 本科 程
T
仅作本科生课程教学参考使用
56
2.4 ޣҾ࠶㊫ಘⲴ䭉䈟⦷䰞仈
ߣㆆ㿴ࡉˉ䭉䈟⦷ ㊫ᶑԦᾲ⦷ᇶᓖ৺ݸ傼ᾲ⦷ᐢ⸕ˉ䭉䈟⦷പᇊ
䭉䈟⦷ˉ࠶㊫䰞仈പᴹ༽ᵲᙗᓖ䟿
㺑䟿࠶㊫ಘᙗ㜭Ո࣓ 䇑㇇ഠ䳮ǃ䟽㾱
⨶䇪ޜᔿ ¾ 䭉䈟⦷к⭼ ¾ ᇎ傼ՠ䇑
¾
仅作本科生课程教学参考使用
57
仅作本科生课程教学参考使用
g i x ln
2S d 2
1
1 T -1 ln Σ i 1 x μ Σ i i x μ i ln P Z i 2 2
55
@
3. Σ iнㅹ
g i x g i x d x
g x g x
נሀཱ૨٩
BAYES DECISION THEORY
↓ᘱ࠶ᐳᰦⲴ㔏䇑ߣㆆ
仅作本科生课程教学参考使用
47
2.3 ↓ᘱ࠶ᐳᰦⲴ㔏䇑ߣㆆ ⢙⨶кⲴਸ⨶ᙗ
ᮠᆖкⲴᯩׯᙗ
仅作本科生课程教学参考使用
2.3.1 ↓ᘱ࠶ᐳᾲ⦷ᇶᓖ࠭ᮠⲴᇊѹ৺ᙗ䍘
1. অਈ䟿↓ᘱ࠶ᐳ ˉ ᵏᵋǃᯩᐞǃḷ߶ᐞ
p( x) ª 1 § x P ·2 º 1 exp « ¨ ¸ » 2 V 2S V © ¹ » « ¬ ¼
1 T -1 l ln Σ i 1 x μ Σ i i x μ i ln P Z i 2 2
《模式识别与机器学习》第2讲 贝叶斯学习基础
−1
, =
贝叶斯决策
可能错分的情况存在 × ( − 1)种,涉及到的计算很多,
所以通常采样计算平均正确率()来计算()
= 1 −
= 1 − න , = 1 + න , = 2 + ⋯ + න , =
−
通过判别函数可以得到决策面g i = g j 为
−
1
− T Σ−1 − − −
2
第二讲 贝叶斯学习基础
T −1
Σ
−
+ ln
=
1 Σ
− ln
=0
=
2 Σ
基于高斯分布的贝叶斯决策器
考虑当所有类别的协方差矩阵都相等的情况下,即
目录
• 贝叶斯公式
• 贝叶斯决策
• 分类器的相关概念
• 基于高斯分布的贝叶斯分类器
• 朴素贝叶斯分类器
• 参数估计
第二讲 贝叶斯学习基础
贝叶斯决策
• 贝叶斯决策
贝叶斯决策(Bayesian decision)是概率框架下实施决策的
基本方法,它通过综合考虑决策的后验分布和错误决策的
损失来做出决策。其中,贝叶斯公式被用于计算后验分布。
=
≠
( = |)
= 1 − ( = |)
第二讲 贝叶斯学习基础
第二讲 贝叶斯学习基础
目录
• 贝叶斯公式
• 贝叶斯决策
• 分类器的相关概念
• 基于高斯分布的贝叶斯分类器
• 朴素贝叶斯分类器
• 参数估计
第二讲 贝叶斯学习基础
分类器的相关概念
二类分类问题:要机器来判断一张图像是大熊猫还是小熊猫
, =
贝叶斯决策
可能错分的情况存在 × ( − 1)种,涉及到的计算很多,
所以通常采样计算平均正确率()来计算()
= 1 −
= 1 − න , = 1 + න , = 2 + ⋯ + න , =
−
通过判别函数可以得到决策面g i = g j 为
−
1
− T Σ−1 − − −
2
第二讲 贝叶斯学习基础
T −1
Σ
−
+ ln
=
1 Σ
− ln
=0
=
2 Σ
基于高斯分布的贝叶斯决策器
考虑当所有类别的协方差矩阵都相等的情况下,即
目录
• 贝叶斯公式
• 贝叶斯决策
• 分类器的相关概念
• 基于高斯分布的贝叶斯分类器
• 朴素贝叶斯分类器
• 参数估计
第二讲 贝叶斯学习基础
贝叶斯决策
• 贝叶斯决策
贝叶斯决策(Bayesian decision)是概率框架下实施决策的
基本方法,它通过综合考虑决策的后验分布和错误决策的
损失来做出决策。其中,贝叶斯公式被用于计算后验分布。
=
≠
( = |)
= 1 − ( = |)
第二讲 贝叶斯学习基础
第二讲 贝叶斯学习基础
目录
• 贝叶斯公式
• 贝叶斯决策
• 分类器的相关概念
• 基于高斯分布的贝叶斯分类器
• 朴素贝叶斯分类器
• 参数估计
第二讲 贝叶斯学习基础
分类器的相关概念
二类分类问题:要机器来判断一张图像是大熊猫还是小熊猫
模式识别课件 第二章 贝叶斯决策论
• 2.3 最小误差率分类
• 当损失函数简化到所谓的“对称损失”或“0-1损失” 函数
i, j 1,2,c
0 ( i | j ) 1
i j i j
• 这个损失函数将0损失赋给一个正确的判决,而将一 个单位损失赋给任何一种错误判决,因此所有误判都是 等价的。与这个损失函数对应的风险就是平均误差概率。
i ;
b
左图说明,如果 引入一个0-1损失 或分类损失,那么 判别边界将由阈值 a 决定;而如果 损失函数将模式 2 判为 1 的惩罚大于 反过来情况,将得 到较大的阈值 使 b 得R1变小
2.3.1 极小极大化准则(先验概率未知情形) • 有时我们需要设计在整个先验概率范围内都能很好操作的 分类器。一种合理的设计方法就是使先验概率取任何一种
2
?
通常: (2,1 1,1 ) 0 (1,2 2,2 ) 0
结合贝叶斯公式,用先验概率与条件密度来表示 后验概率,等价规则为 如果 (2,1 1,1 ) P( x | 1 ) P(1 ) (1, 2 2,2 ) P( x | 2 ) P(2 )
p( x | i ) P(i ) p( x | j ) P( j )
j
g i ( x) P(i | x)
gi ( x) ln p( x | i ) ln P(i )
• 尽管判别函数可写成各种不同的形式,但是判决规则是相同的。 每种判决规则都是将特征空间划分c个判决区域, R1 , Rc 如果对于所有的 j i ,有 gi ( x) g j ( x) 那么x属于 Ri 。 要求我 们将x分给 i 。此区域由判决边界来分割,其判决边界即判决
注 : 假定的类条件概率密度函数图,显示了模式处于类别 i 时观察某 个特定特征值 x 的概率密度.如果 x 代表了鱼的长度,那么这两条曲线可 描述两种鱼的长度区别.概率函数已归一化,因此每条曲线下的面积为1
模式识别第2章 模式识别的基本理论(2)
yk
(步长系数 )
33
算法
1)给定初始权向量a(k) ,k=0;
( 如a(0)=[1,1,….,1]T)
2)利用a(k)对对样本集分类,设错分类样本集为yk 3)若yk是空集,则a=a(k),迭代结束;否则,转4) 或 ||a(k)-a(k-1)||<=θ, θ是预先设定的一个小的阈值 (线性可分, θ =0) ( y) a(k 1) a(k) k J p 4)计算:ρ k, J p (a) y y 令k=k+1 5)转2)
1)g(x)>0, 决策:X∈ ω1 决策面的法向量指向ω1的决 策域R1,R1在H的正侧 2) g(x)<0, 决策:X∈ ω2, ω2的决策域R2在H的负侧
6
X g(X) / ||W|| R0=w0 / ||W|| Xp R2: g<0 H: g=0 r 正侧 R1: g>0 负侧
g(X)、 w0的意义 g(X)是d维空间任一点X到决策面H的距离的代数度量 w0体现该决策面在特征空间中的位置 1) w0=0时,该决策面过特征空间坐标系原点 2)否则,r0=w0/||W||表示坐标原点到决策面的距离
否则,按如下方法确定: 1、 2、 3、 m m ln[ P( ) / P( )]
~ ~
w0
1
2
2
1
2
N1 N 2 2
(P(W1)、P(W2) 已知时)
24
分类规则
25
5 感知准则函数
感知准则函数是五十年代由Rosenblatt提出的一种 自学习判别函数生成方法,企图将其用于脑模型感 知器,因此被称为感知准则函数。 特点:随意确定判别函数的初始值,在对样本分类 训练过程中逐步修正直至最终确定。 感知准则函数:是设计线性分类器的重要方法 感知准则函数使用增广样本向量与增广权向量
(步长系数 )
33
算法
1)给定初始权向量a(k) ,k=0;
( 如a(0)=[1,1,….,1]T)
2)利用a(k)对对样本集分类,设错分类样本集为yk 3)若yk是空集,则a=a(k),迭代结束;否则,转4) 或 ||a(k)-a(k-1)||<=θ, θ是预先设定的一个小的阈值 (线性可分, θ =0) ( y) a(k 1) a(k) k J p 4)计算:ρ k, J p (a) y y 令k=k+1 5)转2)
1)g(x)>0, 决策:X∈ ω1 决策面的法向量指向ω1的决 策域R1,R1在H的正侧 2) g(x)<0, 决策:X∈ ω2, ω2的决策域R2在H的负侧
6
X g(X) / ||W|| R0=w0 / ||W|| Xp R2: g<0 H: g=0 r 正侧 R1: g>0 负侧
g(X)、 w0的意义 g(X)是d维空间任一点X到决策面H的距离的代数度量 w0体现该决策面在特征空间中的位置 1) w0=0时,该决策面过特征空间坐标系原点 2)否则,r0=w0/||W||表示坐标原点到决策面的距离
否则,按如下方法确定: 1、 2、 3、 m m ln[ P( ) / P( )]
~ ~
w0
1
2
2
1
2
N1 N 2 2
(P(W1)、P(W2) 已知时)
24
分类规则
25
5 感知准则函数
感知准则函数是五十年代由Rosenblatt提出的一种 自学习判别函数生成方法,企图将其用于脑模型感 知器,因此被称为感知准则函数。 特点:随意确定判别函数的初始值,在对样本分类 训练过程中逐步修正直至最终确定。 感知准则函数:是设计线性分类器的重要方法 感知准则函数使用增广样本向量与增广权向量
模式识别课后习题答案
• 2.10 随机变量l(x)定义为l(x) = p(x|w1) ,l(x)又称为似然比,试证明 p(x|w2)
– (1) E{ln(x)|w1} = E{ln+1(x)|w2} – (2) E{l(x)|w2} = 1 – (3) E{l(x)|w1} − E2{l(x)|w2} = var{l(x)|w2}(教材中题目有问题) 证∫ 明ln+:1p对(x于|w(12)),dxE={ln∫(x()∫p(|wp(x(1x|}w|w=1)2))∫n)+nl1nd(xx)所p(x以|w∫,1)Ed{xln=(x∫)|w(1p(}p(x(=x|w|Ew1)2{))ln)n+n+11d(xx)又|wE2}{ln+1(x)|w2} = 对于(2),E{l(x)|w2} = l(x)p(x|w2)dx = p(x|w1)dx = 1
对于(3),E{l(x)|w1} − E2{l(x)|w2} = E{l2(x)|w2} − E2{l(x)|w2} = var{l(x)|w2}
• 2.11 xj(j = 1, 2, ..., n)为n个独立随机变量,有E[xj|wi] = ijη,var[xj|wi] = i2j2σ2,计 算在λ11 = λ22 = 0 及λ12 = λ21 = 1的情况下,由贝叶斯决策引起的错误率。(中心极限 定理)
R2
R1
容易得到
∫
∫
p(x|w2)dx = p(x|w1)dx
R1
R2
所以此时最小最大决策面使得P1(e) = P2(e)
• 2.8 对于同一个决策规则判别函数可定义成不同形式,从而有不同的决策面方程,指出 决策区域是不变的。
3
模式识别(第二版)习题解答
– (1) E{ln(x)|w1} = E{ln+1(x)|w2} – (2) E{l(x)|w2} = 1 – (3) E{l(x)|w1} − E2{l(x)|w2} = var{l(x)|w2}(教材中题目有问题) 证∫ 明ln+:1p对(x于|w(12)),dxE={ln∫(x()∫p(|wp(x(1x|}w|w=1)2))∫n)+nl1nd(xx)所p(x以|w∫,1)Ed{xln=(x∫)|w(1p(}p(x(=x|w|Ew1)2{))ln)n+n+11d(xx)又|wE2}{ln+1(x)|w2} = 对于(2),E{l(x)|w2} = l(x)p(x|w2)dx = p(x|w1)dx = 1
对于(3),E{l(x)|w1} − E2{l(x)|w2} = E{l2(x)|w2} − E2{l(x)|w2} = var{l(x)|w2}
• 2.11 xj(j = 1, 2, ..., n)为n个独立随机变量,有E[xj|wi] = ijη,var[xj|wi] = i2j2σ2,计 算在λ11 = λ22 = 0 及λ12 = λ21 = 1的情况下,由贝叶斯决策引起的错误率。(中心极限 定理)
R2
R1
容易得到
∫
∫
p(x|w2)dx = p(x|w1)dx
R1
R2
所以此时最小最大决策面使得P1(e) = P2(e)
• 2.8 对于同一个决策规则判别函数可定义成不同形式,从而有不同的决策面方程,指出 决策区域是不变的。
3
模式识别(第二版)习题解答
《模式识别》 第二章 2.1
( ) ( ) P ωi x
=
max P
j =1,2 ," ,c
ωj
x
先验概率与类条件概率密度相联系的形式 :
( ) ( ) ( ) ( ) P
x ωi
P ωi
= max P j =1,2,",c
x ωj
P ωj
,则
x ∈ωi
19
小结
贝叶斯公式:
P(ωi | x) =
p(x | ωi )P(ωi )
=
−
ln
p(x
|
ω1 )
+
ln
p(x
|
ω2
)
< ln
>
⎛ ⎜ ⎝
P(ω1) P(ω2 )
⎞ ⎟ ⎠
x ∈ ⎧⎨⎩ωω12
15
基于最小错误率的贝叶斯决策
例:假设在某个局部地区细胞识别中正常和异常两类的先验概率 分别为
正常状态:P(ω1) = 0.9
异常状态:P(ω2 ) = 0.1
现有一待识别的细胞,其观察值为x,类条件概率密度分别
基于最小错误率的贝叶斯决策
鲈鱼/鲑鱼例子
自然状态下,先验的类别状态,ωi, i=1,2
ωi类别状态是一个随机变量, P(ωi) 表示为先验概率。 捕获鲈鱼和鲑鱼的几率相等。
P(ω1) = P(ω2) (先验) P(ω1) + P( ω2) = 1 (排除其它鱼的种类)
基于最小错分布 (先验概率和类条件 概率密度) 是已知的
要决策分类的类别数是一定的
决策
黑色:第一类
粉色:第二类
绿色:哪一类?
统计决策理论就是 根据每一类总体的 概率分布决定未知 类别的样本属于哪 一类!
模式识别_清华答案
j =1,...,c
先验概率和类条件概率相联系的形式,即 如果p(x|wi )P (wi ) = max p(x|wj )P (wj ),则x ∈ wi 。
j =1,...,c
• 2.6 对两类问题,证明最小风险贝叶斯决策规则可表示为,若 p(x|w1 ) (λ12 − λ22 )P (w2 ) > , p(x|w2 ) (λ21 − λ11 )P (w1 ) 则x ∈ w1 ,反之则属于w2 。 解 :计算条件风险
第二章 贝叶斯决策理论
• 2.11 xj (j = 1, 2, ..., n)为n个独立随机变量,有E [xj |wi ] = ijη ,var[xj |wi ] = i2 j 2 σ 2 ,计算在λ11 = λ22 = 0 及λ12 = λ21 = 1的情况下,由贝叶斯决策引 起的错误率。(中心极限定理) 解 : 在0 − 1损失下,最小风险贝叶斯决策与最小错误率贝叶斯决策等 价。 • 2.12 写出离散形式的贝叶斯公式。 解: P (wi |x) = P (x|wi )P (x) P (x|wi )P (wi )
– II –
第一章 绪论
第一章
略
绪论
–1–
第二章 贝叶斯决策理论
第二章
示?
贝叶斯决策理论
• 2.1 如果只知道各类的先验概率,最小错误率贝叶斯决策规则应如何表 解 : 设一个有C 类,每一类的先验概率为P (wi ),i = 1, ..., C 。此时最小错 误率贝叶斯决策规则为:如果i∗ = max P (wi ),则x ∈ wi 。
2
R(α1 |x) =
j =1
λ1j P (wj |x)
= λ11 P (w1 |x) + λ12 P (w2 |x)
先验概率和类条件概率相联系的形式,即 如果p(x|wi )P (wi ) = max p(x|wj )P (wj ),则x ∈ wi 。
j =1,...,c
• 2.6 对两类问题,证明最小风险贝叶斯决策规则可表示为,若 p(x|w1 ) (λ12 − λ22 )P (w2 ) > , p(x|w2 ) (λ21 − λ11 )P (w1 ) 则x ∈ w1 ,反之则属于w2 。 解 :计算条件风险
第二章 贝叶斯决策理论
• 2.11 xj (j = 1, 2, ..., n)为n个独立随机变量,有E [xj |wi ] = ijη ,var[xj |wi ] = i2 j 2 σ 2 ,计算在λ11 = λ22 = 0 及λ12 = λ21 = 1的情况下,由贝叶斯决策引 起的错误率。(中心极限定理) 解 : 在0 − 1损失下,最小风险贝叶斯决策与最小错误率贝叶斯决策等 价。 • 2.12 写出离散形式的贝叶斯公式。 解: P (wi |x) = P (x|wi )P (x) P (x|wi )P (wi )
– II –
第一章 绪论
第一章
略
绪论
–1–
第二章 贝叶斯决策理论
第二章
示?
贝叶斯决策理论
• 2.1 如果只知道各类的先验概率,最小错误率贝叶斯决策规则应如何表 解 : 设一个有C 类,每一类的先验概率为P (wi ),i = 1, ..., C 。此时最小错 误率贝叶斯决策规则为:如果i∗ = max P (wi ),则x ∈ wi 。
2
R(α1 |x) =
j =1
λ1j P (wj |x)
= λ11 P (w1 |x) + λ12 P (w2 |x)
模式识别课件-第二章 贝叶斯决策理论
如果使得 > 对于一切的 ≠ 均成
立,则将x归于 类。
几种常见的决策规则
判别函数
相对应于贝叶斯决策的判别函数
(1) = |
(2) = (│ )( )
(3) = ln + ln ( )
= , =
= , =
几种常见的决策规则
基于最小风险的贝叶斯决策
利用贝叶斯公式,分别计算后验概率
(│ )( )
=
σ= (│ )( )
. ∗ .
=
= .
. ∗ . + . 4 ∗ . 1
且对应于各类别的 i 出现的先验概率 P(i )
及类条件概率密度 p ( x | i )已知
如果在特征空间已经观察到某一个向量x, 应
该把x分到哪一类?
引言
基本符号与定义
例:医生要根据病人血液中白细胞的浓度来
判断病人是否患血液病。(两分类问题)
根据以往医生的经验知道:
患病的人,白细胞的浓度与正常人不同
正态分布函数定义及性质
概率密度函数应满足下面关系:
≥ 0 −∞ < < +∞
+∞
න
−∞
() = 1
正态分布时的统计决策
正态分布函数定义及性质
多元正态分布
1
−1
−1
=
exp{
(
−
)
Σ ( − )}
/2
1/2
2
(2) |Σ|
其中
= [ , , … , ] 是d维列向量,
= [ , , … , ] 是d维均值向量,
立,则将x归于 类。
几种常见的决策规则
判别函数
相对应于贝叶斯决策的判别函数
(1) = |
(2) = (│ )( )
(3) = ln + ln ( )
= , =
= , =
几种常见的决策规则
基于最小风险的贝叶斯决策
利用贝叶斯公式,分别计算后验概率
(│ )( )
=
σ= (│ )( )
. ∗ .
=
= .
. ∗ . + . 4 ∗ . 1
且对应于各类别的 i 出现的先验概率 P(i )
及类条件概率密度 p ( x | i )已知
如果在特征空间已经观察到某一个向量x, 应
该把x分到哪一类?
引言
基本符号与定义
例:医生要根据病人血液中白细胞的浓度来
判断病人是否患血液病。(两分类问题)
根据以往医生的经验知道:
患病的人,白细胞的浓度与正常人不同
正态分布函数定义及性质
概率密度函数应满足下面关系:
≥ 0 −∞ < < +∞
+∞
න
−∞
() = 1
正态分布时的统计决策
正态分布函数定义及性质
多元正态分布
1
−1
−1
=
exp{
(
−
)
Σ ( − )}
/2
1/2
2
(2) |Σ|
其中
= [ , , … , ] 是d维列向量,
= [ , , … , ] 是d维均值向量,
模式识别第二版答案完整版
• 2.5
1. 对c类情况推广最小错误率率贝叶斯决策规则; 2. 指出此时使错误率最小等价于后验概率最大,即P (wi|x) > P (wj|x) 对一切j ̸= i
成立时,x ∈ wi。
2
模式识别(第二版)习题解答
解:对于c类情况,最小错误率贝叶斯决策规则为: 如果 P (wi|x) = max P (wj|x),则x ∈ wi。利用贝叶斯定理可以将其写成先验概率和
(2) Σ为半正定矩阵所以r(a, b) = (a − b)T Σ−1(a − b) ≥ 0,只有当a = b时,才有r(a, b) = 0。
(3) Σ−1可对角化,Σ−1 = P ΛP T
h11 h12 · · · h1d
• 2.17 若将Σ−1矩阵写为:Σ−1 = h...12
h22 ...
P (w1) P (w2)
= 0。所以判别规则为当(x−u1)T (x−u1) > (x−u2)T (x−u2)则x ∈ w1,反
之则s ∈ w2。即将x判给离它最近的ui的那个类。
[
• 2.24 在习题2.23中若Σ1 ̸= Σ2,Σ1 =
1
1
2
策规则。
1]
2
1
,Σ2
=
[ 1
−
1 2
−
1 2
] ,写出负对数似然比决
1
6
模式识别(第二版)习题解答
解:
h(x) = − ln [l(x)]
= − ln p(x|w1) + ln p(x|w2)
=
1 2 (x1
−
u1)T
Σ−1 1(x1
−
u1)
−
1 2 (x2
1. 对c类情况推广最小错误率率贝叶斯决策规则; 2. 指出此时使错误率最小等价于后验概率最大,即P (wi|x) > P (wj|x) 对一切j ̸= i
成立时,x ∈ wi。
2
模式识别(第二版)习题解答
解:对于c类情况,最小错误率贝叶斯决策规则为: 如果 P (wi|x) = max P (wj|x),则x ∈ wi。利用贝叶斯定理可以将其写成先验概率和
(2) Σ为半正定矩阵所以r(a, b) = (a − b)T Σ−1(a − b) ≥ 0,只有当a = b时,才有r(a, b) = 0。
(3) Σ−1可对角化,Σ−1 = P ΛP T
h11 h12 · · · h1d
• 2.17 若将Σ−1矩阵写为:Σ−1 = h...12
h22 ...
P (w1) P (w2)
= 0。所以判别规则为当(x−u1)T (x−u1) > (x−u2)T (x−u2)则x ∈ w1,反
之则s ∈ w2。即将x判给离它最近的ui的那个类。
[
• 2.24 在习题2.23中若Σ1 ̸= Σ2,Σ1 =
1
1
2
策规则。
1]
2
1
,Σ2
=
[ 1
−
1 2
−
1 2
] ,写出负对数似然比决
1
6
模式识别(第二版)习题解答
解:
h(x) = − ln [l(x)]
= − ln p(x|w1) + ln p(x|w2)
=
1 2 (x1
−
u1)T
Σ−1 1(x1
−
u1)
−
1 2 (x2
哈工大模式识别课件—第2章_贝叶斯决策理论
模式识别 – 贝叶斯分类器
正态分布的判别函数
• 贝叶斯判别函数可以写成对数形式:
g ix l n p xi l n P i
• 类条件概率密度函数为正态分布时:
g ix 1 2 x μ itΣ i 1 x μ i d 2 l n 2 1 2 l n Σ i l n P i
模式识别 – 贝叶斯分类器
贝叶斯分类器的错误率估计
p 2 x
p 1 x
c
Perror1pi xdx i1Ri
模式识别 – 贝叶斯分类器
例2.1
• ω对2一类大代批表人正进常行人癌。症已普知查先,验设概ω率1:类代表患癌症,
P 1 0 . 0 0 5 ,P 2 0 . 9 9 5
以一个化验结果作为特征x: {阳性,阴性},患癌症 的人和正常人化验结果为阳性的概率分别为:
模式识别 – 贝叶斯分类器
线性分类器
• 两类问题,1维特征,先验概率不同时:
模式识别 – 贝叶斯分类器
线性分类器
• 两类问题,高维特征,先验概率不同时:
模式识别 – 贝叶斯分类器
情况三: Σ i 任意
• 判别函数可以写成:
g ix 1 2 x tΣ i 1 x μ t iΣ i 1 x 1 2 μ i tΣ i 1 μ i 1 2 ln Σ i ln P i
•将未知模式x判别为ωj类的平均风险为:
c
j x ijP i x i1
模式识别 – 贝叶斯分类器
最小平均风险判别准则
• 利用Bayes公式,构造判别函数:
gj xj x
c
jxijPxiPi i1
模式识别 – 贝叶斯分类器
贝叶斯分类器
行动(分类)
代价
决策管理-模式识别之贝叶斯决策
②变型1(消去相同的分母)
如果
P(i
| x)
max j 1,2
P
(
j
| x),
则
x i
P(i | x)
p(x | i )P(i )
c
p(x | j )P( j )
j 1
如果
p(x | i )P(i )
max j 1,2
p(x | j )P( j ),
①已知决策分类的类别数为c,各类别的状态为:
i , i 1, ..., c
②已知各类别总体的概率分布(各个类别出现 的先验概率和类条件概率密度函数)
P(i ), p(x | i ), i 1, ..., c
Bayes决策理论欲解决的问题
如果在特征空间中观察到某一个(随机) 向量 x = ( x1 , x2 ,…, xd )T
2
p( x | j )P( j
)
0.2
0.2 0.9 0.9 0.4
0.1
0.818
j1
P(2 | x) 1 P(1 | x) 0.182
属于正常细胞,注意:先验概率起主导作用
如果先验概率相等,则属于异常细胞
正确分类与错误分类
• 正确分类:将样本归属到样本本身所属的 类别
红+黄
绿
只有当 t 取两类后验概率相等的点时,错误率才是最 小的(黄颜色区域变成零)
P(e) P(2 ) 1 p( x | 2 )dx P(1 ) 2 p( x | 1 )dx
P(2 )P2 (e) P(1 )P1 (e)
2.2.2 基于最小风险的Bayes决策
• 错误分类:将样本归属到非样本本身所属
第二章贝叶斯决策理论
1
第二章 贝叶斯决策理论
2.2 几种 常用旳决策规则
• 基于最小错误率旳贝叶斯决策 • 基于最小风险旳贝叶斯决策 • 分类器设计
2
2.2.1 基于最小错误率旳贝叶斯决策
在模式分类问题中,基于尽量降低分类旳错 误旳要求,利用概率论中旳贝叶斯公式,可得出 使错误率为最小旳分类规则,称之为基于最小错 误率旳贝叶斯决策。
11 0,
12 6
21 1,
22 0
根据例2.1旳计算成果可知后验概率为
P(1 | x) 0.818,
P(2 | x) 0.182
再按式(2-15)计算出条件风险 2 R(1 | x) 1 j P( j | x) 12P(2 | x) 1.092 j 1
R(2 | x) 21P(1 | x) 0.818 由于R(1 | x) R(2 | x)
c
c
R(i | x) (i , j )P( j | x) P( j | x)
(2 19)
j 1
j 1
ji
c
P( j
j 1
| x)
表达对x采用决策 i旳条件错误概率。
ji
26
• 所以在0-1损失函数时,使
R( k
|
x)
min
i 1,,c
R(i
|
x)
旳最小风险贝叶斯决策就等价于
c
c
j1
P( j
(i ,
j
)
10,,ii
j, j,
i, j 1,2,, c
(2 18)
25
• 式中假定对于c类只有c个决策,即不考虑“拒绝”旳
情况。式(2-18)中(i , j ) 是对于正确决策(即i=j)
第二章 贝叶斯决策理论
2.2 几种 常用旳决策规则
• 基于最小错误率旳贝叶斯决策 • 基于最小风险旳贝叶斯决策 • 分类器设计
2
2.2.1 基于最小错误率旳贝叶斯决策
在模式分类问题中,基于尽量降低分类旳错 误旳要求,利用概率论中旳贝叶斯公式,可得出 使错误率为最小旳分类规则,称之为基于最小错 误率旳贝叶斯决策。
11 0,
12 6
21 1,
22 0
根据例2.1旳计算成果可知后验概率为
P(1 | x) 0.818,
P(2 | x) 0.182
再按式(2-15)计算出条件风险 2 R(1 | x) 1 j P( j | x) 12P(2 | x) 1.092 j 1
R(2 | x) 21P(1 | x) 0.818 由于R(1 | x) R(2 | x)
c
c
R(i | x) (i , j )P( j | x) P( j | x)
(2 19)
j 1
j 1
ji
c
P( j
j 1
| x)
表达对x采用决策 i旳条件错误概率。
ji
26
• 所以在0-1损失函数时,使
R( k
|
x)
min
i 1,,c
R(i
|
x)
旳最小风险贝叶斯决策就等价于
c
c
j1
P( j
(i ,
j
)
10,,ii
j, j,
i, j 1,2,, c
(2 18)
25
• 式中假定对于c类只有c个决策,即不考虑“拒绝”旳
情况。式(2-18)中(i , j ) 是对于正确决策(即i=j)
2第二章 贝叶斯决策理论 2013
2.8 本章小结
2
内容纲要 第一章 绪论
1.5 模式识别系统 研究目的和意义
计算机分类 识别
计算机分析
3
内容纲要 第一章 绪论
1.5 模式识别系统 研究目的和意义
一个典型的模式识别系统(监督模式识别) 一个典型的模式识别系统一般由数据获取,预处理, 特征提取选择、分类决策及分类器设计五部分组成。 分类器设计在训练过程中完成,利用样本进行训练,确 定分类器的具体参数。而分类决策在识别过程中起作用,对 待识别的样本进行分类决策。
P(i | X ) P( X | i ) P(i )
P( X |
j 1
n
j
) P( j )
先验概率 后验概率
P(i )
P( X | i )
类条件概率密度函数
P(i | X )
Bayes公式体现了先验概率、类概率密度函数、后 验概率三者之间的关系。
11
内容纲要 第二章 贝叶斯决策理论
2.1.2 Bayes公式 研究目的和意义
对于待测样品,Bayes公式可以计算出该样品分属各类 别的概率,叫做后验概率。 看X属于哪个类的可能性最大,就把X归于可能性最大的 那个类,后验概率作为识别对象归属的依据。
基本的贝叶斯决策思路!!!
12
内容纲要 第二章 贝叶斯决策理论
研究目的和意义
2.2 Bayes决策的基本概念
27
内容纲要 第二章 贝叶斯决策理论
2.2 Bayes决策的基本概念 研究目的和意义
Bayes公式如下:
P(i | X ) P( X | i ) P(i )
P( X |
j 1
n
j
) P( j )
模式识别 第二章 贝叶斯决策论习题答案
2
= min p (ω1 x ) , p (ω2 x ) max p (ω1 x ) , p (ω2 x )
= p ω1 x p ω2 x
(
) (
)
所以, p ω1 x p ω2 x 能过给出误差率的下界。 d) 因为:
(
) (
)
pβ ( error ) = ∫ β p (ω1 x ) p ( ω2 x ) p ( x ) dx
α 4
∫
Hale Waihona Puke +∞p ( x ) dx <
显而易见: pα ( error ) < p ( error ) ,因此当 α < 2 时,无法得到误差率的上界。 c) 因为:
p ( error x ) ≥ p ( error x ) − p ( error x ) = p ( error x ) 1 − p ( error x )
i =1 ωi ≠ωmax
∑ P (ω x ) p ( x ) d x
i
c
= ∫ 1 − P (ωmax x ) p ( x ) dx = 1 − ∫ P (ωmax x ) p ( x ) dx
d) 续上式:
(
)
P ( error ) = 1 − ∫ P (ωmax x ) p ( x ) dx ≤ 1− ∫ 1 1 c −1 p ( x ) dx = 1 − = c c c
n t
′ ′ ′ Σ′ = ∑ ( x′ k − μ )( x k − μ )
k =1 n
= ∑ Tt ( x 0 k − μ )( x 0 k − μ ) T
t k =1
n t = Tt ∑ ( x 0 k − μ )( x 0 k − μ ) T k =1 = T t ΣT
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
多元正态分布下的最小错误率Bayes分类器
1.第一种情况:各特征统计独立,且同方差情况。这种 情况下协方差矩阵是对角阵。
即: i
2 11 ... 0 2 I ... ... ... ,只有方差,协方差为 零。 2 0 ... nn
线性变换的正态性
线性组合的正态性
第二章 贝叶斯决策理论
30
正 态 密 度
返回
32
正 态 密 度
指数项为常数时,密度值P(x)不变,因此等密度点应是使指 数项为常数的点,即应满足:
(x - μ)t Σ-1 (x - μ) 常数
其解是超椭球面,主轴方向由的特征向量决定,主轴的长 度由的特征值决定。称为 x 到 的Mahalanobis距离(马 氏距离)的平方。
第二章 贝叶斯决策理论
单变量正态分布
单变量正态分布(Normal Distribution),即高斯分 布(Gauss Distribution) 正态分布的pdf:
1 x 2 1 p( x) exp 2 2
其中, :x的期望(均值), E[ x] :标准差, 2:x的方差, 2 E[ x E[ x]]2
4
Pattern Recognition
Ch. 2 分类器-基于Bayes决策理论
贝叶斯决策理论
模 式 识 别
例2-1 Consider the reverse situation when the
Thus moves to the left of 0 (WHY?)
ˆ x
1 x0 2
ˆ x0
?
p( x) ~ N (, 2 )
多元正态分布
多变量正态分布的pdf:
P( x) 1
p( x )
1 x 2 1 e xp 2 2
2
d
2
T 1 1 exp x x 1 2 2
第二章 贝叶斯决策理论
两个多元正态分布例子
两个二元正态分布的各个分量是相同的,即它 们的期望μ1和μ2,方差σ1和σ2都相同,但这两个 特征向量在空间的分布却不相同。
第二章 贝叶斯决策理论
对右图来说,x1和x2有很大的相关性,而对左图来说,随 机变量x1与x2之间的相关性很小。这可以从两者的区别看 出来。
2.8 错误率与积分
第二章 贝叶斯决策理论
第四讲
2
基本模式识别过程
被观测对象
特征提取
特征信息
决策理论 (判别准则)
识别 分类
• 根据决策理论 计算理论结果, 再用判别准则 得到识别或分 类结果。
上一过程的数学表达:
Object (n个样本) 每个样本 有d个特征 c个类别
X [ x1 , x2 ,, xn ]
ci
计算判别函数及决策面
上式为非线性二次函数。 得到特征向量 的 , , P(i ) 决策面 gi(x) - gj(x) = 0 即可以计算判别 函数及决策面。 d=2时,二次曲面 d>2时,超二次曲面
随着i , i , P(i )不同超二次曲面也不同:超球面、 超椭球面、超双曲面、超平面等等。 几种特殊情况: ①各类中各向量 相等; ②各类 相等。 决策面方程可得到不同程度的简化。
样本空间Ω
xi [ xi1 , xi 2 ,, xid ]
事件 A
i , i 1, 2,, c
划分 Bi
p(x | 1 )P(1 ) p(x | 2 )P(2 )
Pattern Recognition
Ch. 2 分类器-基于Bayes决策理论
贝叶斯决策理论 Then the threshold value is:
Aw
列向量是∑的正 交本征向量
1 2
返回
与本征值对应 的对角矩阵
正态分布下的贝叶斯决策
类条件概率P(x|ωi)为正态分布; 判别函数选择:
gi ( x) ln[P( x i )P(i )] ln P( x i ) ln P(i );
单变量
代入多 元正态 分布:
P( x)
2
2 2
2 d
正 态 密 度
参数的计算:
是向量x的期望 ,=E[x]=[μ1,μ2,…,μd]T
是矩阵(x-)(x-)t 的期望, =E[(x- ) (x- )t ] 若xi是x的第i个分量, i是的第i个分量, ij2是的第i,j个元素,则:
21
正 态 密 度
如果是一个三维向量,它的协方差矩阵是几乘几的
矩阵?每个元素又对应什么含义?
是个3×3矩阵,
协方差矩阵并不只对正态分布有用,它是多元随机
变量中一个重要的数学统计表示方法,它描述了一 个随机变量样本集中各个分量之间的相关性。
第二章 贝叶斯决策理论
22
正 态 密 度
协方差的性质
模 式 识 别
例
x0 for minimum Pe :
1
p(x 1 ) p(x 2 )
1
exp( x )
2
x0 : exp( x 2 ) exp(( x 1) 2 ) 1 x0 2
Threshold
exp( (x 1)2 ) 1 2
P(1 ) P(2 )
对于右图可以看出一个随机变量的x1分量较小时,另一分 量x2也必然较小。而当随机变量的x1较大时,则其相应的x2 分量也较大。换句话说,如果x1分量小于其均值μ1,则其相 应的分量x2也很可能小于它的均值μ2。
因此当x1-μ1<0时,也常伴有x2-μ2<0 ,这说明它们之间有 联系,或称相关性,用(x1-μ1)(x2-μ2)这两项相乘来看 其相关性。
1
2
d
2
T 1 1 exp x x 1 2 2
gi ( x) ln[P( x i )P(i )] ln P( x i ) ln P(i );
P( x) 1
2
d
2
T 1 exp x 1 x 1 2 2
i E[ xi ] xip ( xi )dxi 2 ij E[(xi i )(xj j )]
( x )(x ) p( x , x )dx dx
i i j j i j i
j
20
态 密 度
协方差矩阵总是对称非负定阵,且可以表示为
moves to the right of
1 x0 2
图2 - 3 例2 - 1 的图
5
正态分布下的Bayes决策
贝叶斯公式中类条件概率和先验概率未知时需 要 进 行 概 率 密 度 函 数 (probability density function, pdf)的估计。
什么是正态分布?为何要用正态分布?
单变量正态分布
N 单变量正态分布的形状完全由 和 2 来确定:(, 2 )
P(x)
1 0.95
P(x)
小
P(x)
相同
大
2
2
x
x
1
2
x
正态分布的样本主要集中分布在其均值附近,其分散程度 可用标准差来衡量,σ愈大分散程度也越大。从正态分布的总 体中抽取样本,约有95%的样本都落在区间(μ-2σ,μ+2σ)内。
r 2 (x - μ)t Σ-1 (x - μ)
返回
区域中心由μ决定,区域形状由∑决定
多元正态分布的离散程度由参数|Σ|1/2决定,这与单变量
时由标准差σ决定是对应一致的。
34
图中特征空间中的一个线性 变换将一个任意正态分布变 换成另一个正态分布。 变换A将原分布变成分布N (AT,AT∑A);另一个线性 变换,即由向量a决定的向某 条直线的投影P,产生沿该直 线方向的N(μ,σ2)分布。 尽管这些变换产生一个不同 空间中的分布,还是将它们 显示在原x1~x2空间中。一种 白化变换,将产生一个圆周 对称的高斯分布。
第三讲 贝叶斯决策理论
参考书: 中文教材:第二章 p9-34,p42-43 2011-2012学年第二学期
第二章 贝叶斯决策理论
2.1 引言
2.2 贝叶斯决策理论
2.3 最小错误率分类
2.4 最小风险决策
第三讲
2.5 分类器、判别函数及决策面
2.6 正态密度
2.7 正态分布的判别函数
它是一个对称矩阵,如果它的第i行第j列元素表示成
,则应有
。这就是说与第j行第i列的元素是
相同的,这就是对称性。
由于它的主对角元素都是各分量的方差,因此一般情况 下都是大于零的值。因此协方差矩是正定的,这一点也 是十分有用的。
第二章 贝叶斯决策理论
23
多元正态分布
多元正态分布要比单变量正态分布复杂得多。 并且多元正态分布具有许多重要的特性。 多元正态分布的概率密度函数中的元,即特征向量的分 量数,也就是维数。 为了分析方便我们着重讨论二维向量。 二维随机向量,其中每一个分量都是随机变量,服从 正态分布。但是一个二维随机向量不仅要求考虑每个分 量单独的分布,还要考虑两个随机变量之间的关系。
第二章 贝叶斯决策理论
对整个随机变量样本集取期望值,就会使E[ (x1-μ1)(x2-μ2)] 有非零值。 反过来看左图中的随机变量分布,就没有这种规律,一个 随机变量x1分量小于其均值 ,并不对其相应分量x2与 之间的 关系有什么限制。 在此时一个随机变量(x1-μ1)与(x2-μ2)的乘积的符号就可正可 负,则E[ (x1-μ1)(x2-μ2)]就可能接近于零,或等于零。 因此我们可以用E[ (x1-μ1)(x2-μ2)]来衡量这种相关性,称为 协方差。 协方差是个正数,很可能为零,协方差越大,说明两个变 量的相关度越高。