第六章 近邻法.ppt
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
最近邻法的错误率
由于X‘与所用训练样本集有关,因此错误率有较大偶然性。 但是如果所用训练样本集的样本数量N极大,即N→∞时,可
以想像X‘将趋向于X,或者说处于以X为中心的极小邻域内, 此时分析错误率问题就简化为在X样本条件下X与一个X(X’ 的极限条件)分属不同类别的问题。
如果样本X的两类别后验概率分别为P(ω 1|X)与P(ω 2|X), 那么对X值,在N→∞条件下,发生错误决策的概率为:
最近邻法的基本思想:以全部训练样本作为“代表点”, 计算测试样本与这些“代表点”,即所有样本的距离,并 以最近邻者的类别作为决策。
近邻法是由Cover和Hart于1968年提出的,随后得到理论 上深入的分析与研究,是非参数法中最重要的方法之一。
§6.1 最近邻法
将与测试样本最近邻样本的类别作为决策的方 法称为最近邻法。
类别 W1 W1 W2 W2
§6.1 最近邻法
最小距离分类器:将各类训练样本划分成若干子类,并在 每个子类中确定代表点,一般用子类的质心或邻近质心的 某一样本为代表点。测试样本的类别则以其与这些代表点 距离最近作决策。该法的缺点是所选择的代表点并不一定 能很好地代表各类,其后果将使错误率增加。
从以上讨论可以看出,当N→∞时,最近邻法的渐近平均错 误率的下界是贝叶斯错误率,这发生在样本对某类别后验概率 处处为1的情况或各类后验概率相等的情况。
最近邻法的错误率
最近邻法的错误率
最近邻法的错误率高于贝叶斯错误率,可以证明
以下关系式成立:
P* P P*(2 C P*) C 1
进行比较,看跟哪个模板匹配度更好些,从而确定待测试 样本的分类。
前面讨论的方法可以说都是将特征空间划分为决策域,并 用判别函数或决策面方程表示决策域的方法。
近邻法则在原理上属于模板匹配。它将训练样本集中的每 个样本都作为模板,用测试样本与每个模板做比较,看与 哪个模板最相似(即为近邻),就按最近似的模板的类别作为 自己的类别。
红点表示A类训练样本,蓝点表 示B类训练样本,而绿点O表示待 测样本。
假设以欧氏距离来衡量,O的最 近邻是A3,其次是B1,因此O应该 属于A类;
但若A3被拿开,O就会被判为B 类。
最近邻法的错误率
这说明计算最近邻法的错误率会有 偶然性,也就是指与具体的训练样本 集有关。
同时还可看到,计算错误率的偶然 性会因训练样本数量的增大而减小。
因此我们就利用训练样本数量增至 极大,来对其性能进行评价。这要使 用渐近概念,以下都是在渐近概念下 来分析错误率的。
最近邻法的错误率
当最近邻法所使用的训练样本数量N不是很大时,其错误率是 带有偶然性的。 下图所示为一个在一维特征空间的两类别情况:
X表示一待测试样本,而X'是所用训练样本集中X的最邻近者, 则错误是由X与X'分属不同的类别所引起的。
6.1 最近邻法
§6.1 最近邻法
在二维情况下,最近邻规则算法使得二维空间被分割成了 许多Voronoi网格,每一个网格代表的类别就是它所包含 的训练样本点所属的类别。
最近邻法的错误率
最近邻法的错误率是比较难计算的,这是因为训练样本集 的数量总是有限的,有时多一个少一个训练样本对测试样本 分类的结果影响很大。
模式识别
第六章近邻法
回顾
最简单的分段线性分类器:把各类划分为若干子 类,以子类中心作为类别代表点,考查新样本到 各代表点的距离并将它分到最近的代表点所代表 的类。
极端情况,将所有样本都作为代表点---- 近邻法
§6.1 最近邻法
问题描述:
特征向量
类别
X=(0.1,0.1)
?
特征向量 (0.1,0.2 ) (0.2,0.1) (0.4,0.5) (0.5,0.4)
6.2 k-近邻法
k-近邻法: 最近邻法的扩展,其基本规则是,在 所有N个样本中找到与测试样本的k个最近邻者, 其中各类别所占个数表示成ki, i=1,…,c。
定义判别函数为: gi(x)=ki, i=1, 2,…,c。
决策规则为:
g
j
(
x)
max i
gi
(Leabharlann Baidu
x),
i 1,...,c
k-近邻一般采用k为奇数,跟投票表决一样,避免 因两种票数相等而难以决策。
6.2 k-近邻法
从样本点x开始生长,不断扩大区域,直到包含进k个训练 样本点为止,并且把测试样本点x的类别归为这最近的k个 训练样本点中出现频率最大的类别。
K近邻法的错误率
对于两类问题,
有以下两种例外情况△P=0:
PN(e|x,x’)=P(ω1|x) P(ω2|x’) + P(ω2|x) P(ω1|x’) 当N->∞时, P(ωi|x’) 近似等于P(ωi|x) PN-> ∞(e|x,x’)=P(ω1|x) P(ω2|x) + P(ω2|x) P(ω1|x)
最近邻法的错误率
有以下两种例外情况△P=0:
P(ω1|X)=1 P(ω1|X)=P(ω2|X)=1/2。
最近邻法的错误率
请想一下,什么情况下P(ω1|X)=1或P(ω2|X)=1? P(ω1|X)= P(ω2|X)会出现什么什么情况?
一般来说,在某一类样本分布密集区,某一类的后验概率接 近或等于1。此时,基于最小错误率贝叶斯决策基本没错,而 近邻法出错可能也很小。 而后验概率近似相等一般出现在两类分布的交界处,此时分 类没有依据,因此基于最小错误率的贝叶斯决策也无能为力了, 近邻法也就与贝叶斯决策平起平坐了。
P*:贝叶斯错误率
P:最近邻法错误率
由于一般情况下P*很小,因 此又可粗略表示成:
P* P 2P*
可粗略说最近邻法的渐近平 均错误率在贝叶斯错误率的
两倍之内。
小结
模式识别(机器自动分类)的基本方法有两大类: I. 一类是将特征空间划分成决策域,这就要确定判别函数或
确定分界面方程。 II.另一种方法则称为模板匹配,即将待分类样本与标准模板
最近邻法的错误率
而在这条件下的平均错误率
P称为渐近平均错误率,是PN(e)在N→∞的极限。 为了与基于最小错误率的贝叶斯决策方法对比,下面写出贝 叶斯错误率的计算式:
其中
最近邻法的错误率
若是两类问题,则 贝叶斯错误率: 最近邻法错误率:
可见在一般情况下△P是大于零的值,只要P(ω 1|X)> P(ω 2|X)>0。