模式识别7.近邻法

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

若
则
8
【最近邻法决策规则】
计算量：最近邻法在原理上最直观，方法上也十分简单，只
要对所有样本进行
次距离运算，然后以最小距离者的
பைடு நூலகம்
类别作决策。
用‖·‖表示距离，采用任何一种相似性的度量，一般以欧氏距离为相似性度量。
由于特征向量各个分量之间对应的物理意义很可能不一致，因此究竟采用何种相似性度量要看问题而定。
本节如何减少模板样本数目，从而可同时减少分类时的计算量及模板样本的存储量，同时还能进一步改进分类器的性能，如降低错误率等要求。
本节讨论的剪辑近邻法除了在样本数量上有一定程度的减少外，更主要的优点是错误率的降低。
21
【基本原理】
剪辑近邻法的基本思想是从这样一个现象出发的，即当不同类别的样本在分布上有交迭部分的，分类的错误率主要来自处于交迭区中的样本。
搜索算法过程：当搜索树形样本集结构由高层次向低层次深入时，对同一层次的所有结点，可以利用规则1排除掉一些不可能包含待识别样本的近邻的结点(样本子集)。但是这往往不能做到只留下唯一的待搜索结点，因此必须选择其中某一结点先深入搜索，以类似于深度优先的方法确定搜索路径直至叶结点。然而在该叶结点中找到的近邻并不能保证确实是全样本集中的最近邻者，所找到的该近邻样本需要在那些有可能包含最近邻的样本子集中核对与修正，直至找到真正的最近邻样本为止。
18
【讨论】
1. 分级数目增多，结点增多，最终结点对应的样本数减少。
2. 分级数目增少，结点增少，最终结点对应的样本数增多。
3. 推广到 -近邻
19
3. 剪辑近邻法
20
【概念的提出】
以上讨论的快速算法只是研究如何减少计算量的问题，而不考虑存储量的压缩。实际上由于对样本进行分层次分组，并附有一些参数，实际的存储量还有可能增加。
：结点对应的样本子集：样本子集中的样本数目：样本子集中的样本均值
：从到
的最大距离
15
【样本集分级分解示例】
16
【样本集搜索规则】
规则1：如果
成立，则规则2：如果
不可能是的最近邻。
成立，其中
，则不可能是的最近邻。
：当前已经涉及到的样本集中的样本到的最近距离。
17
【搜索算法的基本思想】
改进算法大致基于两种原理。 1）对样本集进行组织与整理，分群分层，尽可能将计算压缩到在接近测试样本邻域的小范围内，避免与训练样本集中每个样本进行距离计算。 2）原有样本集中挑选出对分类计算有效的样本，使样本总数合理地减少，以同时达到既减少计算量，又减少存储量的双重效果。
12
2.快速搜索近邻法
当我们得到一个作为识别用的参考样本集时，由于不同类别交迭区域中不同类别的样本彼此穿插，导致用近邻法分类出错。因此如果能将不同类别交界处的样本以适当方式筛选，可以实现既减少样本数又提高正确识别率的双重目的。为此可以利用现有样本集对其自身进行剪辑。
22
【基本步骤】
第一步：剪辑利用已知样本集中的样本进行预分类，并剪辑掉被错分的样
14
【样本集分级分解】
思路：先对样本集进行分级分解，形成树结构，然后利用搜索算法找出最近邻。
步骤：将整个样本分成 l 个子集，每个子集又分为它的 l个子集，如此进行若干次就能建立起一个样本集的树形结构。子集分解的原则是该子集内的样本尽可能聚成堆。
结点参数: 树形结构，每个结点表示一样本子集，描述该子集的参数是：
近邻法的基本思想：一种极端的情况是以全部训练样本作为“代表点”，计算测试样本与这些“代表点”，即所有样本的距离，并以最近邻者的类别作为决策。
7
【最近邻法决策规则】
定义：将与测试样本最近邻样本类别作为决策的方法。对一个类别问题，每类有个样本，
第类的判别函数
，则
其中表示是类的第个样本。决策规则为:
13
【基本思想】
基本思想：将样本集按邻近关系分解成组，给出每组的质心、组内样本至质心的最大距离。
这些组又可形成层次结构，即组又分子组，因而待识别样本可将搜索近邻的范围从某一大组，逐渐深入到其中的子组，直至树的叶结点所代表的组，确定其相邻关系。
特点：这种方法着眼于解决减少计算量，但没有达到减少存储量的要求。
本，留下的样本构成剪辑样本集。
近邻法在原理上属于模板匹配。它将训练样本集中的每个样本都作为模板，用测试样本与每个模板做比较，看与哪个模板最相似(即为近邻)，就以最近似的模板的类别作为自己的类别。
4
【引言】
近邻法优缺点： 1）原理简单、易于实现，在模板数量很大时其错误率低。 2）计算量大，存储量大，要存储的模板很多，每个测试样本要
9
【 -近邻法决策规则】
最近邻法可以扩展成找测试样本的个最近样本作决策依据的方法。其基本规则是，在所有个样本中找到与测试样本的个最近邻者；其中各类别所占个数表示成则决策为：
若则
注意：近邻一般采用为奇数，跟投票表决一样，避免因两种票数相等而难以决策。
10
【近邻法的错误率】
第6章近邻法
1
➢0.引言 ➢1.近邻法原理及其决策规则 ➢2.快速搜索近邻法 ➢3.剪辑近邻法 ➢4.压缩近邻法
2
0.引言
3
【引言】
模式识别或者分类的基本方法有两大类: 一类是将特征空间划分成决策域,需要确定判别函数或确定
分界面方程。另一类是模板匹配:将待分类样本与标准模板进行比较，看
跟哪个模板匹配度更好些，从而确定待测试样本的分类。
对每个模板计算一次相似度。
5
1.近邻法原理及其决策规则
6
【基本原理】
背景：最小距离分类器是将各类训练样本划分成若干子类，并在每个子类中确定代表点，一般用子类的质心或邻近质心的某一样本为代表点。测试样本的类别则以其与这些代表点距离最近作决策。该法的缺点是所选择的代表点并不一定能很好地代表各类, 后果将使错误率增加。
错误率：
由于一般较小，忽略上式中的二次项得到：
近邻法错误率在贝叶斯错误率和两倍贝叶斯错误率之间。
11
【存在的问题】
存在的问题： 1）需要存储全部训练样本，以及繁重的距离计算量。 2）以简单的方式降低样本数量，只能使其性能降低。为此要研究既能减少近邻法计算量与存储量，同时又不明显降低其性能的一些改进算法。