模式识别第五章 近邻法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
规则2: 如果满足:D(x, M p ) B D(xi , M p ) 则xi不是x的最近邻
14
树搜索算法
1. 2.
3. 4.
5.
6.
置B=∞,L=0,p=0 将当前结点的所有直接后继结点放入一个目录表中, 并对这些结点计算D(x,Mp) 根据规则1从目录表中去掉step2中的某些结点 如果目录表已无结点则置L=L-1,如果L=0则停止, 否则转Step3。如果目录表有一个以上的结点,则转 step5 在目录表中选出最近结点p’为当前执行结点。如果当 前的水平L是最终水平,则转Step6,否则置L=L+1, 转Step2 对当前执行结点p’中的每个xi,根据规则2决定是否 计算D(x, xi)。若D(x, xi)<B,则置NN=i和B= D(x, xi), 处理完当前执行结点中的每个xi后转Step3
18
剪辑近邻法
重复剪辑近邻法:MultiEdit算法
1.
将样本集XN 随机划分为s个子集,即
XN = {X1,X2, …,Xs} 且s≥3
2.
用最近邻法,以X(i+1)Mod(s)为参考集,对Xi中的样本进行分 类,其中i=1,2, …,s, (i+1)Mod(s)表示i+1对s求模
3.
4. 5.
去掉在2中被错分的样本
用所有留下的样本,构成新的样本集XNE 如果经k次迭代,再没有样本被剪辑掉则停止,否则转1
19
剪辑近邻法
原 始 样 本 集
第三 次迭 代后 第一 次迭 代后
最 后 样 本 集
样本正态分布
20
剪辑近邻法
原 始 样 本 集 最 后 样 本 集
样本非正态分布 K近邻 分界 面 贝叶 斯决 策面
样本集分级分解,形成树结构 搜索最近邻
12
样本集的层次结构
用树结构表示样本分 级:
p: 树中的一个结点, 对应一个样本子集Kp Np : Kp中的样本数 Mp : Kp中的样本均值 rp : 从Mp 到Kp中样本
的最大距离
13
减少计算的规则
规则1: 如果满足:D(x, M p ) B rp 则Kp中的样本都不可能 是x的最近邻,B是算法 执行中当前到x的最近 距离
P* P 0
当各类后验概率分布为均匀分布时:
1 P(i | x) C
C 1 P* P C
7
5.2 k-近邻法
k-近邻法: 最近邻法的扩展,其基本规 则是,在所有N个样本中找到与测试样本 的k个最近邻者,其中各类别所占个数表 示成ki, i=1,…,c。定义判别函数为: gi(x)=ki, i=1, 2,…,c。
剪辑:利用近邻法对样本进行剪辑 分类:利用剪辑后的样本用近邻法分类 多次剪辑 分类
17
重复近邻法
剪辑近邻法
剪辑的过程是:
将样本集KN分成两个互相独立的子集: test集KT和reference集KR。 T R 首先对K 中每一个Xi用K 中的样本最 其进行近邻分类,如果分类结果Yi(Xi) 。 与Xi不属于同一类别,则将Xi从KT中 删除,最后得到一个剪辑的样本集KTE (剪辑样本集),以取代原样本集, 对待识别样本进行分类。
k
决策规则:
if g j (x) min gi ( x) then x j
i
最近邻法在原理上最直观,方法上也十分简单,明显的缺 点就是计算量大,存储量大。 ‖· ‖表示某种距离(相似性)度量,常用欧氏距离作为相 似性度量。
4
最近邻法错误率分析
最近邻法的错误率高于贝叶斯错误率,可以证明 以下关系式成立: * C * *
21
第一 次迭 代后
压缩近邻法
起因:剪辑的结果只是去掉了两类边界 附近的样本,而靠近两类中心的样本几 乎没有去掉。按照近邻规则,这些样本 中的绝大多数对分类没有什么用处,反 而会增加计算时间和存储空间。 基本思想:在剪辑的基础上,去掉一部 分类中心的样本,生成一个新的样本集, 使该样本集在保留最少量样本的条件下, 仍能对原有样本的全部用最近邻法正确 分类,这类方法为压缩近邻法。
24
压缩近邻算法
数据经MultiEdit算法剪辑后再使用 Condensing压缩近邻算法的结果
25
5.4 小结
近邻法是典型的非参数法 在原理上最直观,方法上也十分简单, 明显的缺点就是计算量大,存储量大; 近邻法
26
习题
1.
设在一个二维空间,A类有三个训练样本,图 中用红点表示,B类四个样本,图中用蓝点表 示。试问:
c P P P (2 P* ) c 1
* *
P P 2P
*
*
10
5.3 改进的近邻法
近邻法的不足:需要存储全部训练样本, 距离计算量大。 两类改进的方法:
对样本集进行组织与整理,分群分层, 尽可能将计算压缩到在接近测试样本邻 域的小范围内,避免盲目地与训练样本 集中每个样本进行距离计算。 在原有样本集中挑选出对分类计算有效 的样本,使样本总数合理地减少,以同 时达到既减少计算量,又减少存储量的 双重效果。
3
5.1 最近邻法
最近邻法:nearest neighborhood classifier (NNC),将与 测试样本最近邻样本的类别作为决策的结果。 对一个C类别问题,每类有Ni个样本,i=1,…,C, 则第i类ωi的判别函数为:
gi (x) min x xi k , k 1,..., Ni
第六章 近邻法
1
主要内容
引言 最近邻法 K-近邻法 改进的近邻法 讨论
2
5.0 引言
最小距离分类器: 它将各类训练样本划分成若干 子类,并在每个子类中确定代表点。测试样本的 类别则以其与这些代表点距离最近作决策。该方 法的缺点是所选择的代表点并不一定能很好地代 表各类,其后果将使错误率增加。 近邻法: 最小距离分类器的一种极端的情况,以 全部训练样本作为代表点,计算测试样本与所有 样本的距离,并以最近邻者的类别作为决策。 最初的近邻法是由Cover和Hart于1968年提出的, 随后得到理论上深入的分析与研究,是非参数法 中最重要的方法之一。
22
压缩近邻法
基本方法
将样本集XN分为XS 和XG ,开始时XS 中只有一个样本,
XG中为其余样本
考查XG 中每个样本,若用XS 可正确分类则保留,否则 移入XS
最后用XS作最近邻法的设计集。
23
压缩近邻算法
定义两个存储器,一个用来存放即将生成的样本 集,称为Store;另一存储器则存放原样本集,称 为Grabbag。算法步骤为: 1. 初始化。Store是空集,原样本集存入Grabbag; 从Grabbag中任意选择一样本放入Store中作为 新样本集的第一个样本。 2. 样本集生成。在Grabbag中取出第i个样本用 Store中的当前样本集按最近邻法分类。若分 类错误,则将该样本从Grabbag转入Store中, 若分类正确,则将该样本放回Grabbag中。 3. 结束过程。若Grabbag中所有样本在执行第二 步时没有发生转入Store的现象,或Grabbag已 成空集,则算法终止,否则转入第二步。
P P P (2 C 1 P)
由于一般情况下P*很小, 因此又可粗略表示成:
P* P 2P*
可粗略说最近邻法的渐 近平均错误率在贝叶斯 错误率的两倍之内
5
最近邻法错误率分析
6
最近邻法错误率分析
当各类后验分布为一点分布时:
1, i m P(m | x) 0, i m
(1)按近邻法分类,这两类最多有多少个分界面 (2)画出实际用到的分界面
B2 A2 B4 B1 A1 A3
B3
27
ቤተ መጻሕፍቲ ባይዱ 解答
按近邻法,对任意两个由不 同类别的训练样本构成的样 本对,如果它们有可能成为 测试样本的近邻,则它们构 成一组最小距离分类器,它 们之间的中垂面就是分界面, 因此由三个A类与四个B类训 练样本可能构成的分界面最 大数量为3×4=12。实际分 界面如下图所示,由9条线段 构成。
11
快速搜索近邻法
其基本思想是将样本集按邻近关系分解成组, 给出每组的质心所在,以及组内样本至该质 心的最大距离。这些组又可形成层次结构, 即组又分子组,因而待识别样本可将搜索近 邻的范围从某一大组,逐渐深入到其中的子 组,直至树的叶结点所代表的组,确定其相 邻关系。这种方法着眼于只解决减少计算量, 但没有达到减少存储量的要求。 包括两个阶段:
B2 A2 B4 B1 A1 A3 B3
28
15
当算法结束时,输出x的最近邻xNN和与xNN的距离B
剪辑近邻法
近邻法存在的问题:处在两类交界处或 分布重合区的样本可能误导近邻法决策, 应将它们从样本集中去掉。
16
剪辑近邻法
基本思想:利用现有样本集对其自身进 行剪辑,将不同类别交界处的样本以适 当方式筛选,可以实现既减少样本数又 提高正确识别率的双重目的。 两步近邻法
gi (x), i 1,..., c 决策规则为: j argmax i
k-近邻一般采用k为奇数,跟投票表决一样, 避免因两种票数相等而难以决策。
8
K-近邻法理论依据
9
k-近邻法错误率分析
在N→∞的条件下,k-近邻法的错误率要低于最近邻法。 最近邻法和k-近邻法的错误率上下界都是在一倍到两 倍贝叶斯决策方法的错误率范围内。
14
树搜索算法
1. 2.
3. 4.
5.
6.
置B=∞,L=0,p=0 将当前结点的所有直接后继结点放入一个目录表中, 并对这些结点计算D(x,Mp) 根据规则1从目录表中去掉step2中的某些结点 如果目录表已无结点则置L=L-1,如果L=0则停止, 否则转Step3。如果目录表有一个以上的结点,则转 step5 在目录表中选出最近结点p’为当前执行结点。如果当 前的水平L是最终水平,则转Step6,否则置L=L+1, 转Step2 对当前执行结点p’中的每个xi,根据规则2决定是否 计算D(x, xi)。若D(x, xi)<B,则置NN=i和B= D(x, xi), 处理完当前执行结点中的每个xi后转Step3
18
剪辑近邻法
重复剪辑近邻法:MultiEdit算法
1.
将样本集XN 随机划分为s个子集,即
XN = {X1,X2, …,Xs} 且s≥3
2.
用最近邻法,以X(i+1)Mod(s)为参考集,对Xi中的样本进行分 类,其中i=1,2, …,s, (i+1)Mod(s)表示i+1对s求模
3.
4. 5.
去掉在2中被错分的样本
用所有留下的样本,构成新的样本集XNE 如果经k次迭代,再没有样本被剪辑掉则停止,否则转1
19
剪辑近邻法
原 始 样 本 集
第三 次迭 代后 第一 次迭 代后
最 后 样 本 集
样本正态分布
20
剪辑近邻法
原 始 样 本 集 最 后 样 本 集
样本非正态分布 K近邻 分界 面 贝叶 斯决 策面
样本集分级分解,形成树结构 搜索最近邻
12
样本集的层次结构
用树结构表示样本分 级:
p: 树中的一个结点, 对应一个样本子集Kp Np : Kp中的样本数 Mp : Kp中的样本均值 rp : 从Mp 到Kp中样本
的最大距离
13
减少计算的规则
规则1: 如果满足:D(x, M p ) B rp 则Kp中的样本都不可能 是x的最近邻,B是算法 执行中当前到x的最近 距离
P* P 0
当各类后验概率分布为均匀分布时:
1 P(i | x) C
C 1 P* P C
7
5.2 k-近邻法
k-近邻法: 最近邻法的扩展,其基本规 则是,在所有N个样本中找到与测试样本 的k个最近邻者,其中各类别所占个数表 示成ki, i=1,…,c。定义判别函数为: gi(x)=ki, i=1, 2,…,c。
剪辑:利用近邻法对样本进行剪辑 分类:利用剪辑后的样本用近邻法分类 多次剪辑 分类
17
重复近邻法
剪辑近邻法
剪辑的过程是:
将样本集KN分成两个互相独立的子集: test集KT和reference集KR。 T R 首先对K 中每一个Xi用K 中的样本最 其进行近邻分类,如果分类结果Yi(Xi) 。 与Xi不属于同一类别,则将Xi从KT中 删除,最后得到一个剪辑的样本集KTE (剪辑样本集),以取代原样本集, 对待识别样本进行分类。
k
决策规则:
if g j (x) min gi ( x) then x j
i
最近邻法在原理上最直观,方法上也十分简单,明显的缺 点就是计算量大,存储量大。 ‖· ‖表示某种距离(相似性)度量,常用欧氏距离作为相 似性度量。
4
最近邻法错误率分析
最近邻法的错误率高于贝叶斯错误率,可以证明 以下关系式成立: * C * *
21
第一 次迭 代后
压缩近邻法
起因:剪辑的结果只是去掉了两类边界 附近的样本,而靠近两类中心的样本几 乎没有去掉。按照近邻规则,这些样本 中的绝大多数对分类没有什么用处,反 而会增加计算时间和存储空间。 基本思想:在剪辑的基础上,去掉一部 分类中心的样本,生成一个新的样本集, 使该样本集在保留最少量样本的条件下, 仍能对原有样本的全部用最近邻法正确 分类,这类方法为压缩近邻法。
24
压缩近邻算法
数据经MultiEdit算法剪辑后再使用 Condensing压缩近邻算法的结果
25
5.4 小结
近邻法是典型的非参数法 在原理上最直观,方法上也十分简单, 明显的缺点就是计算量大,存储量大; 近邻法
26
习题
1.
设在一个二维空间,A类有三个训练样本,图 中用红点表示,B类四个样本,图中用蓝点表 示。试问:
c P P P (2 P* ) c 1
* *
P P 2P
*
*
10
5.3 改进的近邻法
近邻法的不足:需要存储全部训练样本, 距离计算量大。 两类改进的方法:
对样本集进行组织与整理,分群分层, 尽可能将计算压缩到在接近测试样本邻 域的小范围内,避免盲目地与训练样本 集中每个样本进行距离计算。 在原有样本集中挑选出对分类计算有效 的样本,使样本总数合理地减少,以同 时达到既减少计算量,又减少存储量的 双重效果。
3
5.1 最近邻法
最近邻法:nearest neighborhood classifier (NNC),将与 测试样本最近邻样本的类别作为决策的结果。 对一个C类别问题,每类有Ni个样本,i=1,…,C, 则第i类ωi的判别函数为:
gi (x) min x xi k , k 1,..., Ni
第六章 近邻法
1
主要内容
引言 最近邻法 K-近邻法 改进的近邻法 讨论
2
5.0 引言
最小距离分类器: 它将各类训练样本划分成若干 子类,并在每个子类中确定代表点。测试样本的 类别则以其与这些代表点距离最近作决策。该方 法的缺点是所选择的代表点并不一定能很好地代 表各类,其后果将使错误率增加。 近邻法: 最小距离分类器的一种极端的情况,以 全部训练样本作为代表点,计算测试样本与所有 样本的距离,并以最近邻者的类别作为决策。 最初的近邻法是由Cover和Hart于1968年提出的, 随后得到理论上深入的分析与研究,是非参数法 中最重要的方法之一。
22
压缩近邻法
基本方法
将样本集XN分为XS 和XG ,开始时XS 中只有一个样本,
XG中为其余样本
考查XG 中每个样本,若用XS 可正确分类则保留,否则 移入XS
最后用XS作最近邻法的设计集。
23
压缩近邻算法
定义两个存储器,一个用来存放即将生成的样本 集,称为Store;另一存储器则存放原样本集,称 为Grabbag。算法步骤为: 1. 初始化。Store是空集,原样本集存入Grabbag; 从Grabbag中任意选择一样本放入Store中作为 新样本集的第一个样本。 2. 样本集生成。在Grabbag中取出第i个样本用 Store中的当前样本集按最近邻法分类。若分 类错误,则将该样本从Grabbag转入Store中, 若分类正确,则将该样本放回Grabbag中。 3. 结束过程。若Grabbag中所有样本在执行第二 步时没有发生转入Store的现象,或Grabbag已 成空集,则算法终止,否则转入第二步。
P P P (2 C 1 P)
由于一般情况下P*很小, 因此又可粗略表示成:
P* P 2P*
可粗略说最近邻法的渐 近平均错误率在贝叶斯 错误率的两倍之内
5
最近邻法错误率分析
6
最近邻法错误率分析
当各类后验分布为一点分布时:
1, i m P(m | x) 0, i m
(1)按近邻法分类,这两类最多有多少个分界面 (2)画出实际用到的分界面
B2 A2 B4 B1 A1 A3
B3
27
ቤተ መጻሕፍቲ ባይዱ 解答
按近邻法,对任意两个由不 同类别的训练样本构成的样 本对,如果它们有可能成为 测试样本的近邻,则它们构 成一组最小距离分类器,它 们之间的中垂面就是分界面, 因此由三个A类与四个B类训 练样本可能构成的分界面最 大数量为3×4=12。实际分 界面如下图所示,由9条线段 构成。
11
快速搜索近邻法
其基本思想是将样本集按邻近关系分解成组, 给出每组的质心所在,以及组内样本至该质 心的最大距离。这些组又可形成层次结构, 即组又分子组,因而待识别样本可将搜索近 邻的范围从某一大组,逐渐深入到其中的子 组,直至树的叶结点所代表的组,确定其相 邻关系。这种方法着眼于只解决减少计算量, 但没有达到减少存储量的要求。 包括两个阶段:
B2 A2 B4 B1 A1 A3 B3
28
15
当算法结束时,输出x的最近邻xNN和与xNN的距离B
剪辑近邻法
近邻法存在的问题:处在两类交界处或 分布重合区的样本可能误导近邻法决策, 应将它们从样本集中去掉。
16
剪辑近邻法
基本思想:利用现有样本集对其自身进 行剪辑,将不同类别交界处的样本以适 当方式筛选,可以实现既减少样本数又 提高正确识别率的双重目的。 两步近邻法
gi (x), i 1,..., c 决策规则为: j argmax i
k-近邻一般采用k为奇数,跟投票表决一样, 避免因两种票数相等而难以决策。
8
K-近邻法理论依据
9
k-近邻法错误率分析
在N→∞的条件下,k-近邻法的错误率要低于最近邻法。 最近邻法和k-近邻法的错误率上下界都是在一倍到两 倍贝叶斯决策方法的错误率范围内。