第6章_近邻法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一阶段:样本集X 分级分解
首先将X 分为l个子集,每个子集再分成l子集,这样依次 下去就可得到一个树形结构。每个节点上对应一群样本, 用p表示一个节点,该节点所对应样本子集的参数如下: X p:节点p对应的样本子集; N p:X p中样本数; M p:样本子集X p中的样本均值; rp max D xi , M p :从M p到xi X p的最大距离。
i
K近邻法
(1)已知N个已知 类别样本X
(2)输入未知类别 样本x
(3)计算x到 xiX,(i=1, 2,…,N)的 距离di(x)
(6) 判xω2 (4)找出x的k个最近邻 元Xk={xi,i=1,2,…,k} (5)看Xk中属于哪一类的样 本最多k1=3<k2=4
讨论k为奇数时的两类问题
则xi 不是x的最近邻,不计算D x, xi ,否则计算D x, xi 。 若D x, xi B, 置NN i和B D x, xi 。在当前执行节点 中所有被检验完之后,转步骤3。 当算法结束时,输出x的最近邻xNN 和x与xNN的距离 D x, xNN B。
欧氏距离、马氏距离★ 基于类内散布矩阵的单类模式特征提取★ 基于自相关矩阵的K-L变换的特征提取★ 聚类的概念与理解★ 监督分类、无监督分类★
聚类与分类★
近邻聚类法算法步骤★ 最大最小距离算法★ 层次聚类法★ 动态聚类法:K-均值聚类算法★
考试题型
第一题 概念题 (2个小题)10分 第二题 简答题 (3个小题)30分 第三题 计算题 (4个小题)50分 第四题 综合应用题 10分
k
其中,xik 的角标i表示i 类,k 表示i 类N i中 的第k 个样本。 由此得到最近邻法的决策规则为: 若g j ( x) min gi ( x), i 1, 2, , c, 则决策 x j
i
直观解释
对未知样本x, 我们只要比较x和N N i 个已知
i 1 c
c * P P P 2 P c 1 * 其中P 为贝叶斯错误率,c为类数。
* *
可以证明,当样本数相当多时,近邻法错误 率与贝叶斯错误率存在以下关系:
• 上式表明,当样本数相当多时,近邻法的错误 率在贝叶斯错误率和两倍的贝叶斯错误率之间。
最近邻法错误率上下界与贝叶斯错误率的关系
6.3 查找k近邻的快速算法(树搜索 )
近邻法存在的问题
–存储量大;计算量大,要计算大量的样
本间的距离 • 为了减少查找k-近邻的计算量,需要尽量避免 穷尽地计算所有样本间的距离,可把训练样本 组织(分解)成一定的等级如树结构等,尽量 排除一些不必要的计算。
用X x1 , x2 , , xN 表示样本集。目的是在X 中寻找 未知样本x的k 个近邻。首先讨论k 1的情况,即最近 邻情况,然后再扩展到k -近邻情况。 算法分两个阶段: 第一阶段是将样本集X 分级分解,形成树形结构。 第二阶段用搜索算法找出待识别样本的最近邻。
类别的样本之间的欧氏距离,并决策x与离它最 近的样本同类。
最近邻方法
(1) N个已知类别 样本X
(2)输入未知类别 样本x
(3)计算x到 xiX,(i=1, 2,…,N)的 距离di(x)
(5) 判xωm (4)找出最小距离 dm(x)=min{di(x)}
6.1.2 最近邻法的错误率分析
规则2:如果存在
B xi , M p D x, M p
其中xi X p,则xi 不是x的最近邻。 D x, xi D x, M p D xi , M p B D xi , M p 在计算rp中已用到,并可存储在机器中。
利用规则1或2,可以剔除不可能是 x 最近 邻的子集或点
根据三角不等式:
D x, xi D xi , M p D x, M p D x, xi D x, M p D xi , M p D x, M p rp B
Fra Baidu bibliotek
规则1
• 当规则1不满足时,对于终端节点xi ,可以利 用下面的规则2迅速检验它能否成为 x 的最近 邻,省去计算所有的D x, xi 。
第6章 近邻法
Bayes方法需要借助概率密度函数估计。可以看 出,其应用受到很大限制。事实上,非参数模 式识别方法更为实用。由于能解决许多实际的 模式识别问题,虽然在许多情况下它们不是最 优的,但却是应用的最多最有效的方法。统计 模式识别中常用的基本非参数方法除了前面介 绍的线性判别函数外,还有将要介绍的近邻法 和聚类。近邻法属于有监督学习,聚类属于无 监督学习。它是在已知模式类别的训练样本的 条件下,绕开概率的估计,按最近距离原则对 待识别模式直接进行分类。
k-近邻法的错误率界
近邻法存在的问题
( )需将所有样本存入计算机中,每次决策都要计算待 1 识别样本与全部训练样本之间的距离并进行比较。 因此,存储量和计算量都很大。 (2)虽然在所有情况下,对未知样本都可进行决策,但 当错误代价很大时,会产生较大的风险。 (3)上述分析都是渐近的,就是说要求样本数N , 这在任何实际场合都是无法实现的。
5在目录表中选择最近节点p, 它使D x, M p 最小化,并
称该p为当前执行节点,从目录表中去掉p。如果当前 的水平L是最终水平,则转步骤6。否则置L L 1,转 步骤2。
6对现在执行节点p中的每个x,利用规则2作如下检验。
如果
D x, M p D xi , M p B
近邻法由Cover和Hart于1968年提出
6.1 最近邻法 6.2 k-近邻法 6.3 关于减少近邻法计算量和存储量的 考虑 6.4 可做拒绝决策的近邻法 6.5 最佳距离度量最近邻法
最近邻分类器(nearest
近邻法
neighborhood classifier, nnc): 最小距离分类器的一种极端的情况,以 全部训练样本作为代表点,计算测试样本与 所有样本的距离,并以最近邻者的类别作为 决策类。
• 利用上面两个规则,可以设计适当的树 搜索算法。
树搜索算法
1 置B , L 0, p 0。(L是当前水平, p是当前节点) 2 将当前节点的所有直接后继节点放入一个目录表中, 并对这些节点计算D( x, M p )。 3 对步骤2中的每个节点p,根据规则1,如果有 D x, M p B rp 则从目录表中去掉p。 4 如果步骤3目录表中的已没有节点,则后退到前一个 水平,即置L L 1。如果L 0则停止, 否则转步骤3。 如果目录表中有一个以上的节点存在,则转步骤5。
近邻法的错误率
6.2 k-近邻法
取未知样本的k个近邻,看这k个近 邻中哪类的样本数最多,就把未知 样本归到该类。
k -近邻法
图中为k 5的情 况,根据判定规 则,测试样本点 x被归类为黑色 的点所属的类别。
k-近邻法的基本规则
已知类别标签的样本集合N i (i 1, 2, , c), 类别标签分 别为1 , 2 , , c , 未知样本x的近邻样本数k1 ,k2 , , kc 分别来自于样本集合N1 ,N 2 , , N c,则定义判别函数 为 gi ( x) ki , i 1, 2, ,c K-近邻法的决策规则为: 若g j ( x) max ki,则决策x j。
最初的近邻法是由Cover和Hart于1968年提出
的,随后得到理论上深入的分析与研究,是 非参数法中最重要的方法之一。
6.1 最近邻法
6.1.1 最近邻决策规则
6.1.2 最近邻法的错误率分析
i 1
N Ni
c
6.1.1 最近邻决策规则
已知类别标签的样本集合N i (i 1, 2, , c), 类别标签分别 为1 , 2 , , c ,定义i的判别函数为 gi ( x) min x xik , k 1, 2, , N i
xi X p
第二阶段用搜索算法
检验未知样本x的最近邻是否在X p中的两个规则。 规则1:如果存在 B rp D x, M p 则xi X p 不可能是x的最近邻。其中B是在算法执行过程 中,对于已涉及到的那些样本集X p中的样本到x 的最近 距离。初始B可置为, 以后的B在算法中求得。
考试重点
模式识别的基本概念★ 模式识别系统★ 最小错误率贝叶斯分类器 ★ 最小风险贝叶斯分类器★ 线性判别分类器的设计步骤★ 由***两分法,判断某个模式的所属类别★ 广义线性分类器(非线性→线性) ★ 感知器准则函数及迭代解★ Fisher判别分类的思想、原则及准则函数★ 特征提取、特征选择的概念★ 最近邻法、K-近邻法的决策规则★