近邻法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4.5.1最近邻法 二、最近邻法的错误率分析
从式中可见在一般情况下只要P(ω1|x)>
P(ω2|x)>0,△P是大于零的值。
在两种例外情况下△P=0:
P(ω1|x)=1
或P(ω1|x)=P(ω2|x)=1/2。
4.5.1最近邻法 二、最近邻法的错误率分析
特例
⒈在P(ω m|x)=1时,
P [1 1] p (x)dx 0
PN (e | x) PN (e | x, x' ) p(x' | x)dx'
4.5.1最近邻法 二、最近邻法的错误率分析
其中条件概率密度p(x’|x)的确切表达式是难以 得到的。但按定义x’应为x的最近邻,所以可 以设想该密度在x附近尖峰凸起,而在其它地 方则较小。
就是说在已知x条件下,x的最近邻x’在x附近 概率密度最大,这显然是合理的。
其中 x 中的第k个。按照上式。决策规则可以写为
k i 的角标i表示ωi类,k表示ωi类Ni个样本
i
4.5.1最近邻法
一、最近邻决策规则
g i (x),i 1, 2, ,c 若 g j (x) min i
则决策
x ∈ω j
这一决策方法称为最近邻法。 其直观解释是相当简单的,就是说对未
N c
[1 P (i | x)] (x'x)dx
2 i 1
1 P 2 (i | x)
i 1
c
4.5.1最近邻法 二、最近邻法的错误率分析
按渐近平均错误率的定义,有
P lim PN (e) lim PN (e | x) p(x)dx
N N
4.5.1最近邻法 二、最近邻法的错误率分析
图4.14示出近邻法的上下界。一般地,最 近邻法的错误率落在图中的阴影区域 中。 c类别最近邻
分类器可能 渐近误差率
4.5.1最近邻法 二、最近邻法的错误率分析
c 证明P的上界是 P * (2 P*) c 1
仍然考虑下式
P [1 P (i | x)] p(x)dx
2 i 1
c
并已知Bayes条件错误率 P*(e|x)=1-P(ωm|x)
以上两式表明:对已知的 P(ωm|x), c 2 P (i | x) 的最小值对应于P的最大值。
N
lim p (x' | x) (x' x)
当说有N个独立抽取并有类别标记的样本 时,意思是说有N对 (x1,1 ), (x2 ,2 ),, (x N , N )
随机变量其中xi是独立抽取的样本, i 是xi 的类别标记,且 i 是c个类别状态ω 1, ω 2,…,ω c之一。
i
则有Bayes条件错误率
P * (e | x) 1 P(m | x)
因此 P* P * (e | x) p ( x) dx
对于两类问题,由前面公式
N
lim PN (e | x) 1 P (i | x)
2 i 1
2
4.5.1最近邻法 二、最近邻法的错误率分析
i 1
4.5.1最近邻法 二、最近邻法的错误率分析
若记
2 2 2 P ( | x ) P ( | x ) P i (i | x) m i 1 im
c
则在以下约束条件 ⑴ ⑵
i m i
P(i | x) 0
P( | x) 1 P(
m
| x) P * (e | x)
而且当N→∞时,可以期望 p(x’|x)趋于一个中 心在x的δ 函数。 这样就使上式的计算简单化了。为了严格证 明这点,假定对于给定的 x,p(x) 是连续且非 零的。
4.5.1最近邻法 二、最近邻法的错误率分析
在这样的条件下,任何样本落在以 x 为 中心的一个超球 s 里的概率为一正数, 记为Ps,且 Ps p ( x' ) dx'
i 1
c
1 P(i | x) P(i | x' )
i 1
c
Hale Waihona Puke Baidu
4.5.1最近邻法 二、最近邻法的错误率分析
N
lim PN (e | x, x' ) 1 P (i | x)
2 i 1
c
N
lim PN (e | x) lim PN (e | x, x' ) P(x' | x)dx'
4.5.1最近邻法 二、最近邻法的错误率分析
可以证明以下关系式成立
c P* P P * (2 P*) c 1
其中P*为贝叶斯错误率,c为类数。
上式实际上给出了最近邻法渐近平均错 误率P的范围,指出它在Bayes错误率P* c 和 P * (2 P*) 之间。 c 1
4.5.1最近邻法 二、最近邻法的错误率分析
可得
N
lim PN (e | x) 1 P (1 | x) P (2 | x)
2 2
将上式减去贝叶斯错误率
P * (e | x) 1 P(1 | x)
可得
P P(1 | x)[1 P(1 | x)] P (2 | x)
2
P(2 | x)[P(1 | x) P(2 | x)]
x 's
这样,一个样本落在s外的概率为(l-Ps), N个独立样本x1,x2,…,xN落在s外的概 率为
P(x1,x2,…,xN) = (1-Ps)N
当N → ∞时,这一概率趋于零。
4.5.1最近邻法 二、最近邻法的错误率分析
由于s可以任意小,所以N → ∞时,x’落在以x 为中心无限小区域中的概率趋于l。 就是说x’以概率为l收敛于x,从而
i m i i
P * (e | x) ,i m P(i | x) c 1 1 P * (e | x),i m
4.5.1最近邻法 二、最近邻法的错误率分析
2 2 2 P ( | x ) P ( | x ) P i (i | x) m i 1 im 2 P * (e | x ) 2 [1 P * (e | x)] 2 ( c 1 ) im 2 P * (e | x ) 2 [1 P * (e | x)] c 1 c 1 2 P * (e | x ) P *2 (e | x) c 1 c
lim PN (e | x) p(x)dx
N
[1 P (i | x)] p(x)dx
2 i 1
c
上式提供了最近邻法错误率P的计算公式。 P 称为渐近平均错误率,是 PN(e) 在 N→∞ 的 极限。
4.5.1最近邻法 二、最近邻法的错误率分析
根据贝叶斯错误率的讨论,若设 P ( m | x) max P (i | x)
当最近邻法所使用的训练样本数量 N 不是很大 时,其错误率是带有偶然性的。为了说明这一 点用如图所示一个在一维特征空间的两类别情 况来讨论。
4.5.1最近邻法 二、最近邻法的错误率分析
当最近邻法应用于特定的一组样本时,所得
到的错误率与样本的偶然性有关。 特别是用不同组的N个样本对x进行分类的话, 则x的最近邻可能是不相同的x’。 由于决策完全取决于该最近邻样本,所以条 件错误率是 PN(e|x,x’),它同 x 和 x’ 都有关系。 若对x’取平均,得给定x时的条件错误率
E[P*(e| x)] = P* 根据方差定义有
D[ P * (e | x)] [ P * (e | x) P*]2 p(x)dx P * (e | x) p(x)dx P * 0
2 2
4.5.1最近邻法 二、最近邻法的错误率分析
即
根据错误率公式 P [1 P 2 (i | x)]p(x)dx
整理上式得
c 2
c 2 1 P (i | x) 2 P * (e | x) P * (e | x) c 1 i 1
4.5.1最近邻法 二、最近邻法的错误率分析
上述表达式证明了P≤2P*。 求P*(e| x)的方差D[P*(e| x)]。
根据式: P* P * (e | x) p ( x) dx
4.5.1最近邻法 二、最近邻法的错误率分析
假定抽取一对(x, )并假定标以 ' 的x’是 x的最近邻。由于抽出x’时,它的类别状态 和x无关,因此有
P( , ' | x, x' ) P( | x) P( '| x' )
采用近邻规则的条件错误率就是
PN (e | x, x' ) 1 P( i , ' i | x, x' )
4.5 近 邻 法
4.5.1最近邻法 4.5.2 k-近邻法 4.5.3 最佳距离度量近邻法
4.5 近 邻 法
4.5.1最近邻法
一、最近邻决策规则 最近邻分类是假定有c个类别ω1,ω2,…, ωc的模式识别问题,每类有标明类别的 样本Ni个, i=1,2,……,c 规定ω i类的判别函数为 k g i (x) min || x xi ||,k 1,2,, N i
c i 1
知样本x,只要比较x与 N N i 个已知类 别的样本之间的欧氏距离,并决策x与离 它最近的样本同类。
4.5.1最近邻法
二、最近邻法的错误率分析
近邻法的错误率很难计算,因为训练样本集的 数量总是有限的,有时多一个少一个训练样本 对测试样本分类的结果影响很大。如图中所示
4.5.1最近邻法 二、最近邻法的错误率分析
⑶ 除m外,其它后验概率都相等,即 P(i | x) A ,i =1,2,…,c; i ≠m
2 P 满足时 (i | x) 达到极小。 i 1 c
4.5.1最近邻法 二、最近邻法的错误率分析
根据第二个约束条件,有
P( | x) (c 1)P( | x) P * (e | x)
一类的后验概率接近或等于 1 。此时,基于最 小错误率贝叶斯决策基本没错,而近邻法出错 可能也很小。而后验概率近似相等一般出现在 两类分布的交界处,此时分类没有依据,因此 基于最小错误率的贝叶斯决策无能为力,近邻 法与贝叶斯决策效果相同。
4.5.1最近邻法二、最近邻法的错误率分析
从以上讨论可以看出,当N→∞时,最近 邻法的渐近平均错误率的下界是贝叶斯 错误率,这发生在样本对某类别后验概 率处处为1的情况或各类后验概率相等的 情况。 在其它条件下,最近邻法的错误率要高 于贝叶斯错误率。
4.5 近 邻 法
利用每一类的“代表点”设计分段线性分类器 问题是最简单而直观的设计方法,这类方法的 缺点是所选择的“代表点”不一定能很好地代 表各个类,其后果是使所设计分类器的错误率 增加。
将各类中全部样本都作为“代表点”进行决策 的方法称为近邻法。 近邻法是模式识别非参数法中最重要的方法之 一。
i 1
P *2 P *2 (e | x) p (x)dx
c
及上述结果,可得
P [1 P 2 (i | x)]p(x)dx
i 1 c
c [ 2 P * (e | x ) P *2 (e | x) p(x)dx c 1 c 2 2 P * (e | x) p(x)dx P * (e | x) p(x)dx c 1 c c 2 2P * P * P * (2 P*) c 1 c 1
P* P * (e | x) p(x)dx [1 P(m | x)] p(x)dx 0
此时P = P*。
4.5.1最近邻法 二、最近邻法的错误率分析
⒉在P(ωi|x) =1/c,(i =1,2,…,c)时,即 各类后验概率相等的情况,有
c 1 1 P [1 ] p(x)dx c i 1 c
c
2
c 1 1 P* 1 p(x)dx c c
此时也有P = P*。
4.5.1最近邻法 二、最近邻法的错误率分析
请 想 一 下 , 什 么 情 况 下 P(ω1|x)=1 或 P(ω2|x)=1? P(ω1|x)=P(ω2|x) 会出现什么情 况?
答:一般来说,在某一类样本分布密集区,某