模式识别7.近邻法
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
若
则
8
【最近邻法决策规则 】
计算量:最近邻法在原理上最直观,方法上也十分简单,只
要对所有样本进行
次距离运算,然后以最小距离者的
பைடு நூலகம்
类别作决策。
用‖·‖表示距离,采用任何一种相似性的度量,一般以欧氏距 离为相似性度量。
由于特征向量各个分量之间对应的物理意义很可能不一致, 因此究竟采用何种相似性度量要看问题而定。
本节如何减少模板样本数目,从而可同时减少分类时 的计算量及模板样本的存储量,同时还能进一步改进分类 器的性能,如降低错误率等要求。
本节讨论的剪辑近邻法除了在样本数量上有一定程度的减 少外,更主要的优点是错误率的降低。
21
【基本原理】
剪辑近邻法的基本思想是从这样一个现象出发的,即当 不同类别的样本在分布上有交迭部分的,分类的错误率主 要来自处于交迭区中的样本。
搜索算法过程: 当搜索树形样本集结构由高层次向低层次 深入时,对同一层次的所有结点,可以利用规则1排除掉 一些不可能包含待识别样本的近邻的结点(样本子集)。但 是这往往不能做到只留下唯一的待搜索结点,因此必须选 择其中某一结点先深入搜索,以类似于深度优先的方法确 定搜索路径直至叶结点。然而在该叶结点中找到的近邻并 不能保证确实是全样本集中的最近邻者,所找到的该近邻 样本需要在那些有可能包含最近邻的样本子集中核对与修 正,直至找到真正的最近邻样本为止。
18
【讨论 】
1. 分级数目增多,结点增多,最终结点对应的样 本数减少。
2. 分级数目增少,结点增少,最终结点对应的样 本数增多。
3. 推广到 -近邻
19
3. 剪辑近邻法
20
【概念的提出 】
以上讨论的快速算法只是研究如何减少计算量的问题 ,而不考虑存储量的压缩。实际上由于对样本进行分层次 分组,并附有一些参数,实际的存储量还有可能增加。
:结点 对应的样本子集 :样本子集 中的样本数目 :样本子集 中的样本均值
:从 到
的最大距离
15
【样本集分级分解示例 】
16
【样本集搜索规则 】
规则1:如果
成立,则 规则2:如果
不可能是 的最近邻。
成立,其中
,则 不可能是 的最近邻。
:当前已经涉及到的样本集 中的样本到 的最 近距离。
17
【搜索算法的基本思想 】
改进算法大致基于两种原理。 1) 对样本集进行组织与整理,分群分层,尽可能将计算压缩 到在接近测试样本邻域的小范围内,避免与训练样本集中每个 样本进行距离计算。 2) 原有样本集中挑选出对分类计算有效的样本,使样本总数 合理地减少,以同时达到既减少计算量,又减少存储量的双重 效果。
12
2.快速搜索近邻法
当我们得到一个作为识别用的参考样本集时,由于不 同类别交迭区域中不同类别的样本彼此穿插,导致用近邻 法分类出错。因此如果能将不同类别交界处的样本以适当 方式筛选,可以实现既减少样本数又提高正确识别率的双 重目的。为此可以利用现有样本集对其自身进行剪辑。
22
【基本步骤】
第一步:剪辑 利用已知样本集中的样本进行预分类,并剪辑掉被错分的样
14
【样本集分级分解 】
思路:先对样本集进行分级分解,形成树结构,然后利 用搜索算法找出最近邻。
步骤:将整个样本分成 l 个子集,每个子集又分为它的 l个 子集,如此进行若干次就能建立起一个样本集的树形结构。 子集分解的原则是该子集内的样本尽可能聚成堆。
结点参数: 树形结构,每个结点表示一样本子集,描述该 子集的参数是:
近邻法的基本思想: 一种极端的情况是以全部训练样本作为“代表点”,计算测 试样本与这些“代表点”,即所有样本的距离,并以最近邻 者的类别作为决策。
7
【最近邻法决策规则 】
定义:将与测试样本最近邻样本类别作为决策的方法。 对一个 类别问题,每类有 个样本,
第 类 的判别函数
,则
其中 表示是 类的第 个样本。决策规则为:
13
【基本思想】
基本思想:将样本集按邻近关系分解成组,给出每组的 质心、组内样本至质心的最大距离。
这些组又可形成层次结构,即组又分子组,因而待识别 样本可将搜索近邻的范围从某一大组,逐渐深入到其中的子 组,直至树的叶结点所代表的组,确定其相邻关系。
特点:这种方法着眼于解决减少计算量,但没有达到减少存 储量的要求。
本,留下的样本构成剪辑样本集。
近邻法在原理上属于模板匹配。 它将训练样本集中的每个样本都作为模板,用测试样本与 每个模板做比较,看与哪个模板最相似(即为近邻),就 以最近似的模板的类别作为自己的类别。
4
【引言】
近邻法优缺点: 1)原理简单、易于实现,在模板数量很大时其错误率低。 2)计算量大,存储量大,要存储的模板很多,每个测试样本要
9
【 -近邻法决策规则 】
最近邻法可以扩展成找测试样本的 个最近样本作决策 依据的方法。其基本规则是,在所有 个样本中找到与测试 样本的 个最近邻者; 其中各类别所占个数表示成 则决策为:
若 则
注意: 近邻一般采用 为奇数,跟投票表决一样,避免因两种 票数相等而难以决策。
10
【近邻法的错误率 】
第6章 近邻法
1
➢0.引言 ➢1.近邻法原理及其决策规则 ➢2.快速搜索近邻法 ➢3.剪辑近邻法 ➢4.压缩近邻法
2
0.引言
3
【引言】
模式识别或者分类的基本方法有两大类: 一类是将特征空间划分成决策域,需要确定判别函数或确定
分界面方程。 另一类是模板匹配:将待分类样本与标准模板进行比较,看
跟哪个模板匹配度更好些,从而确定待测试样本的分类。
对每个模板计算一次相似度。
5
1.近邻法原理及其决策规则
6
【基本原理】
背景: 最小距离分类器是将各类训练样本划分成若干子类,并在每 个子类中确定代表点,一般用子类的质心或邻近质心的某一 样本为代表点。测试样本的类别则以其与这些代表点距离最 近作决策。该法的缺点是所选择的代表点并不一定能很好地 代表各类, 后果将使错误率增加。
错误率:
由于 一般较小,忽略上式中的二次项得到:
近邻法错误率在贝叶斯错误率 和两倍贝叶斯 错误率 之间。
11
【存在的问题】
存在的问题: 1)需要存储全部训练样本,以及繁重的距离计算量。 2)以简单的方式降低样本数量,只能使其性能降低。 为此要研究既能减少近邻法计算量与存储量,同时又不明显降低 其性能的一些改进算法。
则
8
【最近邻法决策规则 】
计算量:最近邻法在原理上最直观,方法上也十分简单,只
要对所有样本进行
次距离运算,然后以最小距离者的
பைடு நூலகம்
类别作决策。
用‖·‖表示距离,采用任何一种相似性的度量,一般以欧氏距 离为相似性度量。
由于特征向量各个分量之间对应的物理意义很可能不一致, 因此究竟采用何种相似性度量要看问题而定。
本节如何减少模板样本数目,从而可同时减少分类时 的计算量及模板样本的存储量,同时还能进一步改进分类 器的性能,如降低错误率等要求。
本节讨论的剪辑近邻法除了在样本数量上有一定程度的减 少外,更主要的优点是错误率的降低。
21
【基本原理】
剪辑近邻法的基本思想是从这样一个现象出发的,即当 不同类别的样本在分布上有交迭部分的,分类的错误率主 要来自处于交迭区中的样本。
搜索算法过程: 当搜索树形样本集结构由高层次向低层次 深入时,对同一层次的所有结点,可以利用规则1排除掉 一些不可能包含待识别样本的近邻的结点(样本子集)。但 是这往往不能做到只留下唯一的待搜索结点,因此必须选 择其中某一结点先深入搜索,以类似于深度优先的方法确 定搜索路径直至叶结点。然而在该叶结点中找到的近邻并 不能保证确实是全样本集中的最近邻者,所找到的该近邻 样本需要在那些有可能包含最近邻的样本子集中核对与修 正,直至找到真正的最近邻样本为止。
18
【讨论 】
1. 分级数目增多,结点增多,最终结点对应的样 本数减少。
2. 分级数目增少,结点增少,最终结点对应的样 本数增多。
3. 推广到 -近邻
19
3. 剪辑近邻法
20
【概念的提出 】
以上讨论的快速算法只是研究如何减少计算量的问题 ,而不考虑存储量的压缩。实际上由于对样本进行分层次 分组,并附有一些参数,实际的存储量还有可能增加。
:结点 对应的样本子集 :样本子集 中的样本数目 :样本子集 中的样本均值
:从 到
的最大距离
15
【样本集分级分解示例 】
16
【样本集搜索规则 】
规则1:如果
成立,则 规则2:如果
不可能是 的最近邻。
成立,其中
,则 不可能是 的最近邻。
:当前已经涉及到的样本集 中的样本到 的最 近距离。
17
【搜索算法的基本思想 】
改进算法大致基于两种原理。 1) 对样本集进行组织与整理,分群分层,尽可能将计算压缩 到在接近测试样本邻域的小范围内,避免与训练样本集中每个 样本进行距离计算。 2) 原有样本集中挑选出对分类计算有效的样本,使样本总数 合理地减少,以同时达到既减少计算量,又减少存储量的双重 效果。
12
2.快速搜索近邻法
当我们得到一个作为识别用的参考样本集时,由于不 同类别交迭区域中不同类别的样本彼此穿插,导致用近邻 法分类出错。因此如果能将不同类别交界处的样本以适当 方式筛选,可以实现既减少样本数又提高正确识别率的双 重目的。为此可以利用现有样本集对其自身进行剪辑。
22
【基本步骤】
第一步:剪辑 利用已知样本集中的样本进行预分类,并剪辑掉被错分的样
14
【样本集分级分解 】
思路:先对样本集进行分级分解,形成树结构,然后利 用搜索算法找出最近邻。
步骤:将整个样本分成 l 个子集,每个子集又分为它的 l个 子集,如此进行若干次就能建立起一个样本集的树形结构。 子集分解的原则是该子集内的样本尽可能聚成堆。
结点参数: 树形结构,每个结点表示一样本子集,描述该 子集的参数是:
近邻法的基本思想: 一种极端的情况是以全部训练样本作为“代表点”,计算测 试样本与这些“代表点”,即所有样本的距离,并以最近邻 者的类别作为决策。
7
【最近邻法决策规则 】
定义:将与测试样本最近邻样本类别作为决策的方法。 对一个 类别问题,每类有 个样本,
第 类 的判别函数
,则
其中 表示是 类的第 个样本。决策规则为:
13
【基本思想】
基本思想:将样本集按邻近关系分解成组,给出每组的 质心、组内样本至质心的最大距离。
这些组又可形成层次结构,即组又分子组,因而待识别 样本可将搜索近邻的范围从某一大组,逐渐深入到其中的子 组,直至树的叶结点所代表的组,确定其相邻关系。
特点:这种方法着眼于解决减少计算量,但没有达到减少存 储量的要求。
本,留下的样本构成剪辑样本集。
近邻法在原理上属于模板匹配。 它将训练样本集中的每个样本都作为模板,用测试样本与 每个模板做比较,看与哪个模板最相似(即为近邻),就 以最近似的模板的类别作为自己的类别。
4
【引言】
近邻法优缺点: 1)原理简单、易于实现,在模板数量很大时其错误率低。 2)计算量大,存储量大,要存储的模板很多,每个测试样本要
9
【 -近邻法决策规则 】
最近邻法可以扩展成找测试样本的 个最近样本作决策 依据的方法。其基本规则是,在所有 个样本中找到与测试 样本的 个最近邻者; 其中各类别所占个数表示成 则决策为:
若 则
注意: 近邻一般采用 为奇数,跟投票表决一样,避免因两种 票数相等而难以决策。
10
【近邻法的错误率 】
第6章 近邻法
1
➢0.引言 ➢1.近邻法原理及其决策规则 ➢2.快速搜索近邻法 ➢3.剪辑近邻法 ➢4.压缩近邻法
2
0.引言
3
【引言】
模式识别或者分类的基本方法有两大类: 一类是将特征空间划分成决策域,需要确定判别函数或确定
分界面方程。 另一类是模板匹配:将待分类样本与标准模板进行比较,看
跟哪个模板匹配度更好些,从而确定待测试样本的分类。
对每个模板计算一次相似度。
5
1.近邻法原理及其决策规则
6
【基本原理】
背景: 最小距离分类器是将各类训练样本划分成若干子类,并在每 个子类中确定代表点,一般用子类的质心或邻近质心的某一 样本为代表点。测试样本的类别则以其与这些代表点距离最 近作决策。该法的缺点是所选择的代表点并不一定能很好地 代表各类, 后果将使错误率增加。
错误率:
由于 一般较小,忽略上式中的二次项得到:
近邻法错误率在贝叶斯错误率 和两倍贝叶斯 错误率 之间。
11
【存在的问题】
存在的问题: 1)需要存储全部训练样本,以及繁重的距离计算量。 2)以简单的方式降低样本数量,只能使其性能降低。 为此要研究既能减少近邻法计算量与存储量,同时又不明显降低 其性能的一些改进算法。