近邻法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

【概念的提出】
将特征空间划分为决策域,并用判别函数或决策面方程表 示决策域的方法。而近邻法则在原理上属于模板匹配。 它将训练样本集中的每个样本都作为模板,用测试样本与 每个模板做比较,看与哪个模板最相似(即为近邻),就按最近 似的模板的类别作为自己的类别。
例如:A类有10个训练样本,因此有10个模板,B类有8个训 练样本,就有8个模板。任何一个待测试样本在分类时与这18 个模板都算一算相似度,如最相似的那个近邻是B类中的一个 ,就确定待测试样本为B类,否则为A类。
【k近邻法决策规则 】
最近邻法可以扩展成找测试样本的k个最近样本作决策依 据的方法。其基本规则是,在所有N个样本中找到与测试样 本的k个最近邻者,其中各类别所占个数表示成ki,i=1,… ,c则决策为:
若 则 X∈ωj
注意: k近邻一般采用k为奇数,跟投票表决一样,避免因两种 票数相等而难以决策。
第6章 近邻法
主讲人:李君宝
哈尔滨工业大学
0.引言 1.近邻法原理及其决策规则 2.快速搜索近邻法 3.剪辑近邻法 4.压缩近邻法
0.引言
【概念的提出】
模式识别或者分类的基本方法有两大类: 决策域:将特征空间划分成决策域,这就要确定判别 函数或确定分界面方程。 模板匹配:将待分类样本与标准模板进行比较,看跟哪 个模板匹配度更好些,从而确定待测试样本的分类。
【举例】
【问题的提出】
剪辑样本经压缩近邻法生成的压缩样本集。从中可看出样本 的数量极大地减少了。
图中还画出了贝叶斯分界面与压缩后的近邻法决策面, 它虽然比剪辑样本的近邻产生的决策面偏离贝叶斯决策面 要大些,但所需样本数量却大大减少了,因此可以大大节 省存储量。
本章结束
2.快速搜索近邻法
【问题的提出】
上述讨论中可以看出,尽管近邻法有其优良品质,但是它的 一个严重弱点与问题是需要存储全部训练样本,以及繁重的距 离计算量。但以简单的方式降低样本数量,只能使其性能降低 ,这也是不希望的。为此要研究既能减少近邻法计算量与存储 量,同时又不明显降低其性能的一些改进算法。 改进算法大致分为两种原理。一种是对样本集进行组织与整 理,分群分层,尽可能将计算压缩到在接近测试样本邻域的小 范围内,避免与训练样本集中每个样本进行距离计算。 另一种原理则是在原有样本集中挑选出对分类计算有效的 样本,使样本总数合理地减少,以同时达到既减少计算量,又 减少存储量的双重效果。
【样本集分级分解 】
图 判断某个子集是否可能为最近邻
【样本集分级分解 】
图 近邻法快速搜索算法中的样本集分类举例
3. 剪辑近邻法
【概念的提出 】
以上讨论的快速算法只是研究如何减少计算量的问题 ,而不考虑存储量的压缩。实际上由于对样本进行分层次 分组,并附有一些参数,实际的存储量还有可能增加。
【最近邻法决策规则 】
定义:将与测试样本最近邻样本类别作为决策的方法。 对一个C类别问题,每类有Ni个样本,i=1,…,C,则第i类 ωi的判别函数
其中Xik表示是ωi类的第k个样本。决策规则为:
若 则 X∈ωj
【最近邻法决策规则 】
最近邻法在原理上最直观,方法上也十分简单,只要对所有 样本(共N=∑Ni)进行N次距离运算,然后以最小距离者的类别 作决策。 用‖·‖表示距离,其实这是一个象征性的表示,采用任何 一种相似性的度量,一般以欧氏距离为相似性度量。 由于特征向量各个分量之间对应的物理意义很可能不一致, 因此究竟采用何种相似性度量要看问题而定。
1.近邻法原理及其决策规则
【基本原理】
最小距离分类器是将各类训练样本划分成若干子类,并在 每个子类中确定代表点,一般用子类的质心或邻近质心的某一 样本为代表点。测试样本的类别则以其与这些代表点距离最近 作决策。 近邻法的基本思想: 该法的缺点是所选择的代表点并不一定能很好地代表各 类,其后果将使错误率增加。增加代表点的数量有没有可能 获得性能好的分类器呢?一种极端的情况是以全部训练样本 作为“代表点”,计算测试样本与这些“代表点”,即所有样本 的距离,并以最近邻者的类别作为决策。此为近邻法的基本 思想。
当我们得到一个作为识别用的参考样本集时, 由于不同类别交迭区域中不同类别的样本彼此穿插 ,导致用近邻法分类出错。因此如果能将不同类别 交界处的样本以适当方式筛选,可以实现既减少样 本数又提高正确识别率的双重目的。为此可以利用 现有样本集对其自身进行剪辑。
【基本步骤】
第一步:剪辑 利用已知样本集中的样本进行预分类,并剪辑掉被错分的样 本,留下的样本构成剪辑样本集。
【举例】
【举例】
【举例】
【举例】
【举例】
【举例】
【举例】
4. 压缩近邻法
【问题的提出】
剪辑近邻法所得到的剪辑样本集在样本数量的压缩方 面并不十分明显,它的作用在于将原样本集中处于边界处 样本删除掉,但靠近两类中心大部分样本仍被保留下来。
按近邻规则来看,这些样本中的大多数对分类决策没什 么用处,如能在剪辑的基础上再去掉一部分这样的样本, 将有助于进一步缩短计算时间与压缩存储量,这种方法称 为压缩近邻法。
【概念的提出】
近邻法缺点:计算量大,存储量大,要存储的模板很多, 每个测试样本要对每个模板计算一次相似度。 但在模板数量很大时其错误率指标还是相当不错的。
几个要点: (1) 弄清楚近邻法的定义以及基本做法。 (2) 弄清“近邻法性能好”是在什么意义上讲的? (3) 快速搜索方法是使用怎样的原理? (4) 剪辑近邻法的原理是什么? 而压缩近邻法与剪辑近邻法有什 么不同之处?
【步骤】
1.[初始化] Store是空集,原样本集存入Grabbag;从Grabbag中任意选 择一样本放入Store中作为新样本集第一个样本。 2.[样本集生成] 在Grabbag中取出第i个样本用Store中的当前样本集按最近 邻法分类。若分类错误,则将该样本从Grabbag转入Store中 ,若分类正确,则将该样本放回Grabbag中,对Grabbag中所 有样本重复上述过程。 3.[结束过程] 若Grabbag中所有样本在执行第二步时没有发生转入Store的 现象,或Grabbag已成空集,则算法终止,否则转入第二步。
【样本集分级分解 】
根据以上基本思想,先对样本集进行分级分解,分级分 解过程可列举如下。 首先将整个样本分成l个子集,每个子集又分为它的l个 子集,如此进行若干次就能建立起一个样本集的树形结构。 分成子集的原则是该子集内的样本尽可能聚成堆,这可用聚 类方法实现。 结点参数: 树形结构,每个结点表示一样本子集,描述 该子集的参数是:
【问题提出】
这种方法着眼于只解决减少计算量,但没有达到减少存 储量的要求。其基本思想是将样本集按邻近关系分解成组, 给出每组的质心所在,以及组内样本至该质心的最大距离。
百度文库
这些组又可形成层次结构,即组又分子组,因而待识别 样本可将搜索近邻的范围从某一大组,逐渐深入到其中的子 组,直至树的叶结点所代表的组,确定其相邻关系。为了简 单先从最近邻法讨论起。
分类:利用剪辑样本集和最近邻规则对未知样本做分类决策。
【基本步骤】
重复剪辑近邻法 前提条件:样本数足够多。 步骤: (1)将样本集X随机划分为多个子集合 X={X1,X2,…,Xs}; (2)用最近邻法,X(i+1)mod(s) 作为参考集对集合Xi进行 分类; (3)去掉步骤(2)中被错分的样本; (4)用所有留下的样本,构成新的样本集 (5)经过k次操作,若没有样本被剪辑掉则停止。
本节讨论的算法着眼于如何减少模板样本数目,从而 可同时减少分类时的计算量及模板样本的存储量,同时还 能进一步改进分类器的性能,如降低错误率等要求。 本节讨论的剪辑近邻法除了在样本数量上有一定程度 的减少外,更主要的优点是错误率的降低。
【基本原理】
剪辑近邻法的基本思想是从这样一个现象出发 的,即当不同类别的样本在分布上有交迭部分的, 分类的错误率主要来自处于交迭区中的样本。
【基本思想】
压缩近邻法压缩样本的思想很简单,它利用现有样本 集,逐渐生成一个新的样本集。使该样本集在保留最少量 样本的条件下, 仍能对原有样本的全部用最近邻法正确分 类,那末该样本集也就能对待识别样本进行分类, 并保持 正常识别率。
该算法的作法也十分简单,它定义两个存储器,一个 用来存放即将生成的样本集,称为Store;另一存储器则存 放原样本集,称为Grabbag。
第二步:分类 利用剪辑样本集和近邻规则对未知样本进行分类。
【基本步骤】
两分剪辑近邻法 假定样本集被分为两个独立的样本集-考试集和参考集,分别对 应于错误率估计中的考试集和设计集。 剪辑:利用参考集的中样本对考试集的每个样本利用最近邻法 进行分类决策,剪辑掉那些被参考集中样本错分类的样本, 然后将参考集中剩余样本构成剪辑样本集。
相关文档
最新文档