第5章 近邻法分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第5章 近邻法
下面我们先定性的比较一下最近邻分类法与最小错误率 的Bayes分类方法的分类能力。 , 我们把 x 的最近邻 x N 的类别看成是一个随机变量 n i , i 1, , 2, c 的概率为后验概率 N
N
lim P(i x N ) P(i x )
返回本章首页
第5章 近邻法
最近邻法的错误率分析 在前面我们曾给出平均错误率的
P(e) P(e x) p( x)dx
在最小错误率的Bayes决策中,决策使条件错误率 P(e x) 尽可能小,从而平均错误率 P(e) 也一定最小。这里,设
P (e x ) 1 P(m x ) P P (e x ) p ( x ) d x
它是在已知模式类别的训练样本的条件下,绕开概率的 估计,按最近距离原则对待识别模式直接进行分类。
返回本章首页
第5章 近邻法
5.1 最近邻法
最近邻决策规则 给定c 个类别 1 , 2 , 近邻法的判别函数为
个, , c ,每类有标明类别的样本 N i
gi ( x ) min
i
k x xi
PN (e x) PN (e x, x) p( x x)dx
N
lim p( x x) ( x x)
c c
来自百度文库PN (e x, x) 1 P( i , i x, x) 1 P(i x)P(i x)
i1 i1
返回本章首页
第5章 近邻法
N N
c 2 1 P (i x ) p( x )d x i1
上式即是最近法错误率的计算公式,先看下界的证明,这里指出下 面的P P 两种特殊情况。 1 P ( x ) i 1, 2, , c (1) P(m x ) 1 (2) i
P(1 x) 0.4
P(2 x) 0.3 P(3 x) 0.3
按最小错误率的Bayes决策法则:以概率1决策 x1; 按最近邻决策法则:以概率 P(1 x) 0.4 决策 x1;以 概率 1 P(1 x) 0.6 决策 x1 。 当 P(m x) 1 时,最近邻法的决策结果与最小错误率的 Bayes决策的决策结果相同,它们的错误率都是比较小的, P(m x ) 1 两种方法同样的好,当 ,两者的错误概率 1 c 1 接近于 ,两种方法同样的坏。下面我们将进一步分 c 析近邻法的错误率。
P(m x) max P(i x) i 1,2, , c 采用N个样本的最近邻法的平均错误率 PN (e) ,并设 P lim PN (e)
N
返回本章首页
第5章 近邻法
则有以下的不等式成立:
c P P P P 2 c 1
证明:最近邻法属于随机化决策,待分类模式 x 的近邻 随样本集的变化而随机变化,设其最近邻为 x ,错误的 条件错误率为 PN (e x, x) 。对于 x 取平均
i1 c
返回本章首页
第5章 近邻法
下面我们看一下上面的两个表达式。 lim p( x x) ( x x)
N
设对于给定的 x ,概率密度是连续的且不为零。那么, 任何样本落入以 x 为中心的一个超球 S 中的概率为 PS p( x)dx
N个独立的样本落在 S 外的概率为 (1 PS ) N
N
c 2 lim 1 P (i x ) p( x x )d x N i1 c 2 lim 1 P (i x ) ( x x )d x N i1 1 P 2 (i x )
N
xS
lim (1 PS ) N 0
即是,一个样本也不落在 S 内的概率为0,也就是说总有 一个样本落在 S 内的概率为1。无论S多么小,这个结论 也是成立的,所以 lim p( x x) ( x x)
N
返回本章首页
第5章 近邻法
P lim PN (e) lim PN (e x ) p( x )d x
PN (e x, x) 1 P( i , i x, x) 1 P(i x)P(i x)
i1
c
c
N
lim PN (e x, x ) 1 P 2 (i x )
i1
N
c
i1
lim PN (e x ) lim PN (e x, x ) p( x x ) d x
最近邻法则可以看成是一个随机化决策 ——按照概率 P(i x)来决定 x 的类别。 定义:
P(m x) max P(i x)
i 1,2,
,c
返回本章首页
第5章 近邻法
按最小错误率的Bayes决策法则:以概率1决策 m ; 按最近邻决策法则:以概率 P(m x) 决策 m; x 的后验概率分别为 这里假设在三类问题中,
第5章 近邻法
第 5章
5.1 最近邻法 5.2 k—近邻法 5.3 剪辑近邻法
近邻法
5.4 可做拒绝决策的近邻法
第5章 近邻法
前面我们介绍了Bayes方法和概率密度函数的估计。可 以看出,Bayes方法的应用受到很大限制。事实上,非 参数模式识别方法更为实用。由于能解决许多实际的模 式识别问题,虽然在许多情况下它们不是最优的,但却 是应用的最多的有效的方法。统计模式识别中常用的基 本非参数方法除了前面介绍的线性判别函数外,还有本 章将要介绍的近邻法和集群。近邻法属于有监督学习, 集群属于无监督学习。近邻法是由Cover和Hart于1968 年提出来的。
,
k 1, 2,
, Ni
决策法则为
g j ( x) min gi ( x),
i
i 1, 2,
, c x j
直观的说,就是对待识别的模式向量 x ,只要比较x 与所 有已知类别的样本之间的欧式距离,并决策 x与离它最近 的样本同类。
返回本章首页
第5章 近邻法
1
3
x
2
返回本章首页