四、 近邻分类法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
近邻分类法
一、 问题表述 一、问题表述
对“data3.m”数据,采用剪辑法、压缩法生成参考集,近似描绘其决策 面,并用所有数据测试其分类效果。
方法叙述(包括公式推导等) 二、 二、方法叙述(包括公式推导等)
Bayes 方法需要借助概率密度函数估计。可以看出,其应用受到很大限制。 事实上,非参数模式识别方法更为实用。由于能解决许多实际的模式识别问题, 虽然在许多情况下它们不是最优的,但却是应用的最多的有效的方法。统计模式 识别中常用的基本非参数方法除了前面介绍的线性判别函数外, 还有将要介绍的 近邻法和聚类。近邻法属于有监督学习,聚类属于无监督学习。它是在已知模式 类别的训练样本的条件下, 绕开概率的估计,按最近距离原则对待识别模式直接 进行分类。 最近邻分类器(nearest neighborhood classifier, nnc): 最小距离分类器 的一种极端的情况, 以全部训练样本作为代表点,计算测试样本与所有样本的距 离,并以最近邻者的类别作为决策。最初的近邻法是由 Cover 和 Hart 与 1968 年 提出的。
NT α 。 = NR 1 − α 来自考试集 NT 和参考集 NR 的样本分别完成考试和参考任务,相互独立。
有 NT 和 NR 个样本,NR+NT=N,设两个集合所含样本数量之比为 � � � 步骤 2: 对考试集 x NT 进行剪辑,利用参考集 x NR 中的样本对 x NT 进行 1 或
� K 近邻分类,剪辑掉那些被错误分类的样本,剩下 x NTR
x1(60,1)=41.4626; x1(60,2)=9.1437; x1(61,1)=39.3878; x1(61,2)=13.3631; x1(62,1)=39.8096; x1(62,2)=12.6606; x1(63,1)=38.1384; x1(63,2)=13.4300; x1(64,1)=37.2636; x1(64,2)=10.7010; x1(65,1)=35.4688; x1(65,2)=12.6869; x1(66,1)=35.0976; x1(66,2)=12.7679; x1(67,1)=34.8632; x1(67,2)=12.0533; x1(68,1)=32.6704; x1(68,2)=15.7258; x1(69,1)=32.3111; x1(69,2)=16.0957; x1(70,1)=30.7838; x1(70,2)=14.5081; x1(71,1)=30.2546; x1(71,2)=17.3737; x1(72,1)=29.3982; x1(72,2)=13.6487; x1(73,1)=27.7944; x1(73,2)=17.5663; x1(74,1)=26.8273; x1(74,2)=17.3489; x1(75,1)=26.3104; x1(75,2)=15.9892; x1(76,1)=25.6752; x1(76,2)=17.1196; x1(77,1)=23.7432; x1(77,2)=19.0045; x1(78,1)=22.8505; x1(78,2)=17.6571; x1(79,1)=22.1893; x1(79,2)=15.8862; x1(80,1)=21.1315; x1(80,2)=16.5870; x1(81,1)=20.4331; x1(81,2)=15.9183; x1(82,1)=19.0226; x1(82,2)=17.5691; x1(83,1)=18.5528; x1(83,2)=17.2806; x1(84,1)=16.9787; x1(84,2)=17.6517; x1(85,1)=15.3718; x1(85,2)=18.4702; x1(86,1)=15.4013; x1(86,2)=15.8341; x1(87,1)=14.9654; x1(87,2)=17.0939; x1(88,1)=13.6133; x1(88,2)=18.5902; x1(89,1)=12.4071; x1(89,2)=16.4305;
最近邻决策规则—1-NN
� c 类问题,设 xi( k ) ∈ ωi ( i = 1, 2,⋯ c , k = 1, 2,⋯ Ni ) ,定义 ωi 类的判别函数为 � gi ( x ) = � min � � x − xi( k ) , i = 1, 2,……,C
k =1,2,⋯, Ni
� � � 分类规则:若 g j ( x ) = � min gi ( x ) ,则 x ∈ ω j
i
最近邻法错误率分析
在 N→∞的条件下, k-近邻法的错误率要低于最近邻法。 最近邻法和 k-近邻法的错误率上下界都是在一倍到两倍贝叶斯决策方法的 错误率范围内。
近邻法的特点
(1)简单,无需复杂的估计 (2)分类错误可以接受 (3)计算复杂度很大,存储量和计算量都很大 (4)没有考虑决策的风险,如果决策的错误代价很大时,会产生很大的风 险; (5)以上的分析——渐近平均错误率,都是建立在样本数趋向无穷大的条 件下得来的,在实际应用时大多是无法实现的。
压缩近邻法
利用现有样本集,逐渐生成一个新的样本集,使该样本集在保留最少量样本 的条件下,仍能对原有样本的全部用最近邻法正确分类,那么该样本集也就能对 测试样本进行分类,并保持正常识别率。 压缩近邻法中定义两个存储器,一个用力啊存放即将生成的样本集,称为 Store,另一个存储器则存放原样本集,称为 Grabbag。其算法步骤为: 步骤 1:初始化。Store 是空集,原样本集存入 Grabbag;从 Grabbag 中任意 选择一样本放入 Store 中作为新样本集得第一个样本。样本集生成,在 Grabbag 中取出第 i 各样本用 Store 中的当前样本集按最近邻法。 步骤 2:分类。若分类错误,则将该样本从 Grabbag 转入 Store 中,若分类 正确,则将该样本放回 Grabbag 中。 步骤 3: 结束过程。 若 Grabbag 中所有样本在执行步骤 2 时没有发生转入 Store 的现象,或 Grabbag 已称空集,则算法终止,否则转入步骤 2.
x1(30,1)=30.3822; x1(30,2)=2.5172; x1(31,1)=31.8449; x1(31,2)=4.1858; x1(32,1)=33.7120; x1(32,2)=5.0515; x1(33,1)=33.9805; x1(33,2)=4.8947; x1(34,1)=35.6319; x1(34,2)=5.7023; x1(35,1)=35.9215; x1(35,2)=6.1456; x1(36,1)=36.9147; x1(36,2)=3.8067; x1(37,1)=37.9014; x1(37,2)=7.9138; x1(38,1)=38.8244; x1(38,2)=7.3828; x1(39,1)=40.8032; x1(39,2)=7.7581; x1(40,1)=40.0112; x1(40,2)=8.0748; x1(41,1)=41.5948; x1(41,2)=7.5525; x1(42,1)=42.0983; x1(42,2)=5.4144; x1(43,1)=44.3864; x1(43,2)=5.9879; x1(44,1)=45.3002; x1(44,2)=7.9712; x1(45,1)=46.9660; x1(45,2)=7.7468; x1(46,1)=47.1053; x1(46,2)=5.5875; x1(47,1)=47.8001; x1(47,2)=5.9673; x1(48,1)=48.3976; x1(48,2)=7.1165; x1(49,1)=50.2504; x1(49,2)=8.0479; x1(50,1)=51.4667; x1(50,2)=8.6202; x1(51,1)=49.7518; x1(51,2)=11.0474; x1(52,1)=48.0198; x1(52,2)=9.7412; x1(53,1)=47.8397; x1(53,2)=8.6673; x1(54,1)=47.5073; x1(54,2)=9.6810; x1(55,1)=46.5877; x1(55,2)=10.5484; x1(56,1)=45.8399; x1(56,2)=8.6472; x1(57,1)=44.6894; x1(57,2)=12.2699; x1(58,1)=42.7355; x1(58,2)=13.1906; x1(59,1)=42.2416; x1(59,2)=11.6802;i =Fra bibliotek,2,⋯, c
最近邻决策规则—k-NN
� 在 N 个训练样本中, 找出未知样本 x 的 k 个近邻, 若这 k 个近邻中属于第 ωi � 类的数为 ki ,定义判别函数 gi ( x ) = ki , i = 1, 2,……,c
� � 分类规则:若 g j ( x ) = max ki , i = 1, 2,……,C 则 x ∈ ω j
算法实现( 核心 程序说明等) 三、 三、算法实现( 算法实现(核心 核心程序说明等)
clear all; close all;
x1(1,1)=1.8796; x1(1,2)=1.8041; x1(2,1)=2.6801; x1(2,2)=2.7526; x1(3,1)=3.6284; x1(3,2)=1.3313; x1(4,1)=4.7302; x1(4,2)=3.0267; x1(5,1)=5.7865; x1(5,2)=0.3089; x1(6,1)=7.1831; x1(6,2)=2.9453; x1(7,1)=7.2395; x1(7,2)=3.6268; x1(8,1)=8.0763; x1(8,2)=4.9714; x1(9,1)=9.9172; x1(9,2)=3.9551; x1(10,1)=11.7397; x1(10,2)=3.9500; x1(11,1)=12.8685; x1(11,2)=2.4619; x1(12,1)=12.5289; x1(12,2)=3.5313; x1(13,1)=13.3206; x1(13,2)=4.4376; x1(14,1)=15.7457; x1(14,2)=0.9094; x1(15,1)=15.4758; x1(15,2)=5.2898; x1(16,1)=17.2917; x1(16,2)=5.2197; x1(17,1)=18.9338; x1(17,2)=3.7324; x1(18,1)=19.3299; x1(18,2)=2.0778; x1(19,1)=20.7408; x1(19,2)=5.2698; x1(20,1)=20.0199; x1(20,2)=3.5670; x1(21,1)=21.2740; x1(21,2)=4.7658; x1(22,1)=23.6375; x1(22,2)=3.3211; x1(23,1)=23.8603; x1(23,2)=6.1293; x1(24,1)=25.7806; x1(24,2)=1.8003; x1(25,1)=26.4698; x1(25,2)=4.3295; x1(26,1)=27.3746; x1(26,2)=3.1499; x1(27,1)=27.6922; x1(27,2)=6.1123; x1(28,1)=28.3321; x1(28,2)=3.6388; x1(29,1)=29.3112; x1(29,2)=5.5035;
关于减小近邻法计算和存储量的办法——最优参考集选择 剪辑法
该方法通过去掉错误分类的原型达到压缩设计集的目的。 利用现有样本集对 其自身进行剪辑,将不同类别交界出的样本以适当方法筛选,可以实现既减少样 本数又提高正确识别率的双重目的。
� � 步骤 1: 将原始样本随机分为两个集合:考试集 x NT 和参考集 x NR ,分别含
� 步骤 3:将 x NTR 作为后续对未知样本进行分类的参考集
重复剪辑近邻法
当采用两分剪辑近邻法,考试集 NT 和参考集 NR 所含的样本是由总样本随 机产生的, 剪辑只针对考试集 NT 中的样本, 而参考集 NR 中的样本则经过剪辑。 为进一步提高近邻法的分类性能, 在样本数量足够多的情况下,可以针对所有样 本重复地执行剪辑程序。 � 步骤 1 : 将原始样本 x N 随机划分为 s 个集合,分别为 � � � � x N = { x1 , x2 , ……, xs }, s ≥ 3 � � � � � � 步骤 2 : 用 x1 对 x2 进行 1 或 K 近邻分类, x2 , x3 , ……用 xs −1 对 xs 进行分类, � � 用 xs 对 x1 进行分类。 步骤 3:去掉步骤 2 中被错误划分的样本,然后将所有留下的样本作为最后 � 的 x ,然后重复步骤 1 到步骤 3,直到再无错误划分为止。
相关文档
最新文档