第3章Bayes决策理论
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三章 Bayes决策理论
➢ 最小错误概率的Bayes决策 ➢ 最小风险的Bayes决策 ➢ Neyman-Pearson决策 ➢ Bayes分类器和判别函数 ➢ 正态分布时的Bayes决策法则
引言
模式特征的不确定性
进行模式识别,首先要提取和选择模式特征, 使这些特征组成的特征向量能很好地代表这个 事物。但是,在实际问题中,由于技术或经济 上的原因,使得提取和选择的特征不一定能准 确地描述这个模式。
反映了 1 和 2
的类别状态的差别 反映了两类模式的差别。
假设已经知道了 P1 ,P2 ,p x | 1 ,p x | 2
如何求
P(1 | x)
P(2 | x)
利用Bayes公式:
P j
| x
px |j Pj
px
式中
c
p x p x | i P i i 1
Bayes公式表明,可以通过特征的观察值 p x | j , 把先验概率 Pj 转化为后验概率 Pj | x 。
用先验概率决策存在的问题?
与待识别对象的特征没有建立联系,没有利用待 识别对象本身的信息
2.用后验概率决策
先用一个模式特征 x 来分类,如果这个特征 对分类是有效的,那么 x 的概率分布就与类别状
态 i ,i 1, 2 是有联系的。 例如:铜螺钉和铁螺钉的表面亮度是不同的,以
亮度作为特征 x ,亮度用“亮度计”来测量,每
这个决策规则被称为最小错误概率的Bayes决策。
为什么说这个决策规则具有最小错误概率呢?
3. 最小错误概率的解释 在用上述规则决策时,有两种可能发生的错误分类
P(e
|
x)
P(1 P(2
| |
x) x)
将真实属于1 分到 2 将真实属于2 分到 1
观察到的x值不同,那么后验概率就不同,从而分
类错误概率也不同,所以分类错误概率 P(e | x) 是
如果对于每次观察到的特征值x, P(e | x) 尽可能小 的话,则上式的积分也必定是尽可能小的.
假设H为两类的分界面,相应于 1和2 , 将x轴分
为两个区域 R1 , R2 在发生分类错误时,总的错误概率为:
P e P x R2,1 P x R1,2
P e P x R2,1 P x R1,2 R2 p(x | 1)P(1)dx R1 p(x | 2 )P(2 )dx
概率:在相同条件下重复进行同一试验,如果随
着试验次数n的增加,事件A的频率
fn ( A) n
仅在某个数 p 附近有微小变化,则称 p 是事件A
的概论,
实际上,p 是不容易得到的,常用n较大时的频率作
为A的概率 P(A) p
2. 条件概率 设A,B是试验E的两个事件,则称 P(A | B) 为在事件B发生条件下事件A的条件概率。
若选取决策面H使得:px |1 P1 px |2 P2
则可消除面积A,从而得到最小的分类错误概 率。 这正是上述决策规则得到的结果。
如果对于某个x ,有 p(x | 2 )P(2 ) p(x | 1)P(1)
3.1 最小错误概率的Bayes决策
1.用先验概率决策
假设某个工厂生产两种尺寸和外形都相同的螺钉, 一种是铁的,一种是铜的,两种产品混在一起,要求 对它们进行自动分类。
设 铁的类别状态用 1 表示;
铜的类别状态用 2 表示;
因为事先类别状态是不确定的,所以 1,2是随
机变量。假设铁螺钉有7万个,铜螺钉有3万个,
随机变量x的函数. P(e | x) 也是随机变量.
对于观察到的大量x,对它们作出分类决策的平均错 误率 P(e) 应当是 P(e | x) 的数学期望.
由概率论可知,若已知连续随机变量x的概率密度 函数 p(x) , 可以计算出 P(e | x) 的数学期望 P(e)
P(e) P(e | x) p(x)dx
个螺钉的亮度在亮度计上可以在一定范围内连续
取值。由于每个螺钉的亮度可能是不同的,所以x
是一个连续的随机变量。
概率密度
P( x|w1)
X有对属于铜螺钉的分布, 也有对属于铁螺钉的分布
P( x|w2)
x1
x2
亮度
x 对 1 的概率分布记为 p x | 1
x 对 2 的概率分布记为 px |2
那么 p x | 1 和 p x | 2 的差别
3. Bayes公式
P( Ai | B)
P( Ai )P(B | Ai )
n
P(Aj )P(B | Aj )
j 1
i 1,2,, n
含义:假设 Ai , i 1,2,, n 是某个过程的n个事件,P( Ai )
是各事件出现的概率,称为先验概率。如果这个过程得到
一个结果B,由于B的出现,而对各事件 P( Ai ) 的概率 要做出重新认识。
比如, 特征选择的不合适,特征的数量不当, 特征测量的不准确,等等,使模式具有不确定 性。
因此,我们应当把模式向量看成随机变量。
处理随机变量用什么方法呢?
概率论与数理统计
1.概率
频率:如果在 n次重复试验中,事件A发生了
次,则称比值 / n 是事件A在这n次试验中发生
的频率。记作
fn ( A) n
P(1) R2 p(x | 1)dx P(2 ) R1 p(x | 2 )dx
P(1)1 P(2 )2
所以总的错误概率是两种分类错误概率的加权和。
源自文库于 R1 和 R2 是任意取的,所以错误概率 不一定是最小的。当把决策面 H 左移时,我 们可以减小代表误分类的三角形区域A 的面 积,从而减小分类错误概率。
图3.1表示了当(a)所示时,后验概率 Pj | x 随
亮度的变化情况。
概率密度
P( x|w1)
P( x|w2)
Bayes公 式
概率 P(w1|x)
P(w2|x)
亮度
w1
因此,可以用后验概率进行决策。
w2
x
决策规则:
如果 P1 | x P2 | x
如果 P2 | x P1 | x
,则决策 1 ; ,则决策 2 ;
那现么的铁 概螺 率钉P 出2现 的13概0 率P0.31
7 10
0.7
,铜螺钉出
如果用概率 P1 和 P2 来决策,规则为: 如果 P1 P2 则螺钉1
如果 P1 P2 则螺钉2
因为 P1 0.7 P2 0.3 ,所以 螺钉1 。
所有螺钉都分到铁螺钉这一类,决策错误概率为 0.3。
➢ 最小错误概率的Bayes决策 ➢ 最小风险的Bayes决策 ➢ Neyman-Pearson决策 ➢ Bayes分类器和判别函数 ➢ 正态分布时的Bayes决策法则
引言
模式特征的不确定性
进行模式识别,首先要提取和选择模式特征, 使这些特征组成的特征向量能很好地代表这个 事物。但是,在实际问题中,由于技术或经济 上的原因,使得提取和选择的特征不一定能准 确地描述这个模式。
反映了 1 和 2
的类别状态的差别 反映了两类模式的差别。
假设已经知道了 P1 ,P2 ,p x | 1 ,p x | 2
如何求
P(1 | x)
P(2 | x)
利用Bayes公式:
P j
| x
px |j Pj
px
式中
c
p x p x | i P i i 1
Bayes公式表明,可以通过特征的观察值 p x | j , 把先验概率 Pj 转化为后验概率 Pj | x 。
用先验概率决策存在的问题?
与待识别对象的特征没有建立联系,没有利用待 识别对象本身的信息
2.用后验概率决策
先用一个模式特征 x 来分类,如果这个特征 对分类是有效的,那么 x 的概率分布就与类别状
态 i ,i 1, 2 是有联系的。 例如:铜螺钉和铁螺钉的表面亮度是不同的,以
亮度作为特征 x ,亮度用“亮度计”来测量,每
这个决策规则被称为最小错误概率的Bayes决策。
为什么说这个决策规则具有最小错误概率呢?
3. 最小错误概率的解释 在用上述规则决策时,有两种可能发生的错误分类
P(e
|
x)
P(1 P(2
| |
x) x)
将真实属于1 分到 2 将真实属于2 分到 1
观察到的x值不同,那么后验概率就不同,从而分
类错误概率也不同,所以分类错误概率 P(e | x) 是
如果对于每次观察到的特征值x, P(e | x) 尽可能小 的话,则上式的积分也必定是尽可能小的.
假设H为两类的分界面,相应于 1和2 , 将x轴分
为两个区域 R1 , R2 在发生分类错误时,总的错误概率为:
P e P x R2,1 P x R1,2
P e P x R2,1 P x R1,2 R2 p(x | 1)P(1)dx R1 p(x | 2 )P(2 )dx
概率:在相同条件下重复进行同一试验,如果随
着试验次数n的增加,事件A的频率
fn ( A) n
仅在某个数 p 附近有微小变化,则称 p 是事件A
的概论,
实际上,p 是不容易得到的,常用n较大时的频率作
为A的概率 P(A) p
2. 条件概率 设A,B是试验E的两个事件,则称 P(A | B) 为在事件B发生条件下事件A的条件概率。
若选取决策面H使得:px |1 P1 px |2 P2
则可消除面积A,从而得到最小的分类错误概 率。 这正是上述决策规则得到的结果。
如果对于某个x ,有 p(x | 2 )P(2 ) p(x | 1)P(1)
3.1 最小错误概率的Bayes决策
1.用先验概率决策
假设某个工厂生产两种尺寸和外形都相同的螺钉, 一种是铁的,一种是铜的,两种产品混在一起,要求 对它们进行自动分类。
设 铁的类别状态用 1 表示;
铜的类别状态用 2 表示;
因为事先类别状态是不确定的,所以 1,2是随
机变量。假设铁螺钉有7万个,铜螺钉有3万个,
随机变量x的函数. P(e | x) 也是随机变量.
对于观察到的大量x,对它们作出分类决策的平均错 误率 P(e) 应当是 P(e | x) 的数学期望.
由概率论可知,若已知连续随机变量x的概率密度 函数 p(x) , 可以计算出 P(e | x) 的数学期望 P(e)
P(e) P(e | x) p(x)dx
个螺钉的亮度在亮度计上可以在一定范围内连续
取值。由于每个螺钉的亮度可能是不同的,所以x
是一个连续的随机变量。
概率密度
P( x|w1)
X有对属于铜螺钉的分布, 也有对属于铁螺钉的分布
P( x|w2)
x1
x2
亮度
x 对 1 的概率分布记为 p x | 1
x 对 2 的概率分布记为 px |2
那么 p x | 1 和 p x | 2 的差别
3. Bayes公式
P( Ai | B)
P( Ai )P(B | Ai )
n
P(Aj )P(B | Aj )
j 1
i 1,2,, n
含义:假设 Ai , i 1,2,, n 是某个过程的n个事件,P( Ai )
是各事件出现的概率,称为先验概率。如果这个过程得到
一个结果B,由于B的出现,而对各事件 P( Ai ) 的概率 要做出重新认识。
比如, 特征选择的不合适,特征的数量不当, 特征测量的不准确,等等,使模式具有不确定 性。
因此,我们应当把模式向量看成随机变量。
处理随机变量用什么方法呢?
概率论与数理统计
1.概率
频率:如果在 n次重复试验中,事件A发生了
次,则称比值 / n 是事件A在这n次试验中发生
的频率。记作
fn ( A) n
P(1) R2 p(x | 1)dx P(2 ) R1 p(x | 2 )dx
P(1)1 P(2 )2
所以总的错误概率是两种分类错误概率的加权和。
源自文库于 R1 和 R2 是任意取的,所以错误概率 不一定是最小的。当把决策面 H 左移时,我 们可以减小代表误分类的三角形区域A 的面 积,从而减小分类错误概率。
图3.1表示了当(a)所示时,后验概率 Pj | x 随
亮度的变化情况。
概率密度
P( x|w1)
P( x|w2)
Bayes公 式
概率 P(w1|x)
P(w2|x)
亮度
w1
因此,可以用后验概率进行决策。
w2
x
决策规则:
如果 P1 | x P2 | x
如果 P2 | x P1 | x
,则决策 1 ; ,则决策 2 ;
那现么的铁 概螺 率钉P 出2现 的13概0 率P0.31
7 10
0.7
,铜螺钉出
如果用概率 P1 和 P2 来决策,规则为: 如果 P1 P2 则螺钉1
如果 P1 P2 则螺钉2
因为 P1 0.7 P2 0.3 ,所以 螺钉1 。
所有螺钉都分到铁螺钉这一类,决策错误概率为 0.3。