第三章-统计模式识别中的概率分类法PPT课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

3.2 最小错误率判决规则(最简单的 Bayes 分类方法)
分析一个“两类问题”。
以上一个例子为例,用 w1 和 w2 表示两种不同的类型,如 w1
表示诊断正常,w2 表示诊断出患有癌症。
用 P(w1) 和 P(w2 ) 分别表示先验概率。如: P(w1) 诊断正常的概率, P(w2 ) 表示某地人患癌症的概率,可通过大量的统计得到。
பைடு நூலகம்
先验概率: P(w1) 0.995 , P(w2 ) 0.005 类条件概率密度: (x | w1) 0.01 , (x | w2 ) 0.95 (3) 决策过程
(w2 | x)
(x | w2 ) P(w2 )
(x | w1 ) P(w1 ) (x | w2 ) P(w2 )
2.类(条件)概率密度 它是系统位于某种类型条件下,模式样本 x 出现的概率密度分布 函数,常用 (x | A), (x | B) ,以及 (x | wi )(i 1,2,,c) 来表示。 类概率密度在分类方法中起至关重要的作用,它的函数形式及主 要参数或者是已知的,或者是可通过大量抽样实验估计出来。 3. 后验概率 它是系统在某个具体的模式样本 x 条件下,位于某种类型的概率, 常以 P(A | x), P(B | x) ,以及 P(wi | x)(i 1,2,, c) 表示。 后验概率可以根据贝叶斯公式计算出来,可直接用作分类判决的 依据。
这一批人中,每100个正常人中有一个试验呈 阳性反应;
这一批人中,每100个癌症病人中有95人试验 呈阳性反应。
问:若某人(甲)呈阳性反应,甲是否正常?
解:假定 x 表示实验反应为阳性,
(1) 人分为两类:w1-正常人,w2-癌症患者, P(w1) P(w2 ) 1 (2) 由已知条件计算概率值:
若令 t 为两类分界面,特征向量 x 为一维时,t 为 x 轴上的一个
点,如上图所示:
t

P(e) P(w2 | x) (x)dx t P(w1 | x)(x)dx
t

(x | w2 ) P(w2 )dx t (x | w1 ) P(w1 )dx
判决风险也可以理解为判决损失,即使在正确判决的情况下,一 般也会付出某种代价,也会有损失。正是由于有判决风险的存在,最 小错误率判决就不够了,必须引入最小风险判决规则。
假定有 c 类问题,用 wj ( j 1,2,,c) 表示类型,用i (i 1,2,, a) 表 示可能作出的判决。实际应用中,判决数 a 和类型数 c 可能相等,a c ; 也可能不等,即允许除 c 类的 c 个决策之外,可以采用其它决策,如 “拒绝”决策,此时 a c 1。
第三章-统计模式识别中的概率分类法
3.1 引言 3.2 最小错误率判决规则 3.3 最小风险判决规则 3.4 最大似然比判决规则 3.5 Neyman-Pearsen判决规则 3.6 最小最大判决规则 3.7 分类器设计 3.8 正态分布时的统计决策 3.9 参数估计与非参数估计
P(w1 ) P(w2 ) P(wc ) 1
其实,在处理实际问题时,有时不得不以先验概率的大小作为判 决的依据。如:有一批木材,其中桦木占 70%,松木占 30%,A―― 桦木,B--松木,则 P( A) 0.7 , P(B) 0.3 ,如果从中任取一块木材, 而又要用先验概率作出判决,那就判为桦木。 先验概率不能作为判决的唯一依据,但当先验概率相当大时,它也能 成为主要因素。

0.95 0.005
0.01 0.995 0.95 0.005
0.323
(x | w1 ) P(w1 ) 0.00995
P(w1 | x) 1 P(w2 | x) 1 0.323 0.677
(x | w2 ) P(w2 ) 0.00475
P(w1 | x) P(w2 | x)
也可写为:
P(e) P(x R1, w2 ) P(x R2 , w1)
P(w2 ) P(x R1 | w2 ) P(w1) P(x R2 | w1)
P(w2 )
R1 (x | w2)dx (w1 )
(x | w1)dx
R2
P(w2 ) P2 (e) P(w1) P1(e)
先看一下确定性模式判决函数的问题。 如下图所示:
通过判决函数,特征空间
被区分界面划分成两种类型的区 域A和B。由于模式样本的观测 值是确定性的,经常被正确分配 到类型区域A、B之中。假如我 们用概率的形式来表达,就是: 在类型A的条件下观测模式样本 x,则x位于区域A的概率为1, 而位于区域B的概率为0。同样, 在类型B的条件下观测模式样本 x,情况正好相反,x位于区域A 的概率为0,而位于区域B的概 率为1。这实际上是将概率的方 法引入到确定模式,对于大多数 实际情况,这是非常理想的概率 分布。
(x |w2 ) P(w2 ) (x |w1 ) P(w1) ,则 x w2
(3.2-4)
(x |w2 ) P(w2 ) (x |w1 ) P(w1) ,则偶然决定 x w1 ,或 x w2
上面只是给出了最小错误率贝叶斯决策规则,但没有证明按这种 规则进行分类确实使错误率最小。下面用一维情况来证明最小错误率 贝叶斯决策规则,其结果不难推广到多维。
对于给定的模式样本 x,令 L(i | wj ) 表示 x w j 而判决为 i 的风险。 若判决 i 一定,对 c 个不同类型的 w j ,有 c 个不同的 L(i | wj ) 。
L(i | wj ) 的 c 个离散值随类型的性质变化,具有很大的随机性, 可看成是随机变量。
另外,由于判决数目有 a 个,这样对于不同的判决和不同类型就
许多实际情况,即使在类型A的条件下,模 式样本x位于区域A的概率也往往小于1,而 位于区域B的概率也不为0。对于类型B的条 件也一样。这种交错分布的样本使分类发生 错误,是模式随机性的一种表现。此时,分 类方法就从确定性模式转到随机模式。
“如何使分类错误率尽可能小,是研究各种 分类方法的中心议题。”
(3.2-1)
根据 Bayes 公式,在模式样本 x 出现的条件下,两个类型的后验 概率为:
P(w1
|
x)

(x
|w1 ) P(w1 ) (x)

P(w2
|
x)

(x
|w2 ) P(w2 ) (x)
(3.2-2)
此时,样本归属于“后验概率较高”的那种类型。
也就是:
P(w1 | x) P(w2 | x) ,则 x w1
如下图所示,在一维特征空间里,判决门限 t 把空间划分为两个 类型区域 R1,R2。
在 R1 中, (x | w1) P(w1) (x | w2 ) P(w2 ) ,则 x w1 ; 在 R2 中, (x | w2 ) P(w2 ) (x | w1) P(w1) ,则 x w2 ;
(x | w1 ) P(w1 ) (x | w2 ) P(w2 )
由最小错误判决规则,可知:甲 w1 由于 P(w1) 比 P(w2 ) 大很多,所以先验概率起了较大作用。
3.3 最小风险判决规则 最小风险判决规则也是一种 Bayes 分类方法。最小错误率判决规 则没有考虑错误判决带来的“风险”,或者说没有考虑某种判决带来 的损失。 同一问题中,某种判决总会有一定的损失,特别是错误判决有风 险。不同的错误判决有不同的风险,如上一节的例子中,判断细胞是 否为癌细胞,可能有两种错误判决: ① 正常细胞错判为癌细胞; ② 癌细胞错判为正常细胞。 两种错误带来的风险不同。在①中,会给健康人带来不必要的精 神负担,在②中,会使患者失去进一步检查、治疗的机会,造成严重 后果。显然,第②种错误判决的风险大于第①种。
有一个 a c 维风险矩阵。
类型 判决
1
2
一般风险矩阵
w1 L(1 | w1) L( 2 | w1)
w2 L(1 | w2 ) L(2 | w2 )
…… …… …… ……
wc L(1 | wc ) L( 2 | wc )
用 (x | w1) 和 (x | w2 ) 表示两个类概率密度。 样本 x 表示“试验反应阳性”,则 (x | w1) 诊断为无癌症且试验反 应为阳性, P(w1 | x) 试验为阳性且没有癌症。 根据全概率公式,模式样本 x 出现的全概率密度为:
(x) (x | w1) P(w1) (x | w2 ) P(w2 )
Bayes决策理论是随机模式分类方法最重要 的基础。下面是几个重要的概念:
1. 先验概率 先验概率是预先已知的或者可以估计的模式识别系统位于某种类 型的概率。 若仍然用两个类型 A 和 B 为例,可用 P(A) 和 P(B) 表示各自的先验概 率,此时满足 P( A) P(B) 1 。 推广到一般的 c 类问题中,用 w1, w2 ,wc 表示类型,则各自的先验 概率用 P(w1 ), P(w2 ),, P(wc ) 表示,且满足:
对上述两类问题:当 P(w2 | x) P(w1 | x) 时,则 x w2 。显然作出决策
w2 时,x 的条件错误概率为 P(w1 | x) ,反之为 P(w2 | x) 。
也就是: P(e | x) =
P(w1 | x) P(w2 | x)
当 P(w2 | x) P(w1 | x) 当 P(w1 | x) P(w2 | x)
阴影区域是两类样本的交错分配区域,阴影面积就是这种分类方
法的错误概率。总错误率有两种情况:
x w1,而判为 x w2 ,斜线区域。 x w2 ,而判为 x w1 ,纹线区域。 所以,总错误率:

P(e) P(e | x)(x)dx
其中,


()dx
表示在整个
d
维特征空间上的积分。
例如:一个 2 类问题,w1 表示诊断为无癌症,w2 诊断为有癌症。P(w1) 表示诊断正常的概率,P(w2) 表示某地区的人被诊断出患上癌症的概 率,该值可以通过大量的统计得到,x 表示“试验反应呈阳性”。那
么,P(x|w1)表示诊断为无癌症且试验反应为阳性,P(w1|x)表示试验
为阳性,而且没有癌症。同样,可以有 w2 的类概率密度和后验概率。
P(w2 | x) P(w1 | x) ,则 x w2
(3.2-3)
P(w1 | x) P(w2 | x) ,则偶然决定 x w1 ,或 x w2
根据(3.2-2)式,上述判决规则等价于:
(x |w1 ) P(w1) (x |w2 ) P(w2 ) ,则 x w1
3.1 引言 随机模式:在可以觉察到的客观世界中,存在着大量的物体和事 件,他们在基本条件不变时,具有某种不确定性,每 一次观测的结果没有重复性,这种模式就是随机模式。 虽然随机模式样本测量值具有不确定性,但同类抽样实验的大量
样本的观测值具有某种统计特性,这个统计特性是建立各种分类方法 的基本依据。
所以要使 P(e) 最小,判决门限应如上图所示,否则就会有多余的 阴影面。而(3.2-3)、(3.2-4)表达的判决规则,判决门限正好如上
图所示,所以称之为“最小错误概率判决规则”。
可以把上述两类问题导出的最小错误率判决规则一般化,推广到
c 类问题中,表达为:
若: P(wi
|
x)

max{P(w
j 1,,c
j
|
x)},则 x wi

等价于:
(x
|
wi )
P(wi )

max { ( x
j 1,,c
|
wj )
P(w j
)},则
x
wi
例1:为了对癌症进行诊断,对一批人进行 一次普查,各每个人打试验针,观察反应, 然后进行统计,规律如下:
这一批人中,每1000个人中有5个癌症病人;
相关文档
最新文档