四、近邻分类法

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

近邻分类法
一、问题表述一、问题表述
对“data3.m”数据，采用剪辑法、压缩法生成参考集，近似描绘其决策面，并用所有数据测试其分类效果。
方法叙述（包括公式推导等）二、二、方法叙述（包括公式推导等）
Bayes 方法需要借助概率密度函数估计。可以看出，其应用受到很大限制。事实上，非参数模式识别方法更为实用。由于能解决许多实际的模式识别问题，虽然在许多情况下它们不是最优的，但却是应用的最多的有效的方法。统计模式识别中常用的基本非参数方法除了前面介绍的线性判别函数外，还有将要介绍的近邻法和聚类。近邻法属于有监督学习，聚类属于无监督学习。它是在已知模式类别的训练样本的条件下，绕开概率的估计，按最近距离原则对待识别模式直接进行分类。最近邻分类器(nearest neighborhood classifier, nnc): 最小距离分类器的一种极端的情况，以全部训练样本作为代表点，计算测试样本与所有样本的距离，并以最近邻者的类别作为决策。最初的近邻法是由 Cover 和 Hart 与 1968 年提出的。
NT α 。 = NR 1 − α 来自考试集 NT 和参考集 NR 的样本分别完成考试和参考任务，相互独立。
有 NT 和 NR 个样本，NR+NT=N，设两个集合所含样本数量之比为 � � � 步骤 2：对考试集 x NT 进行剪辑，利用参考集 x NR 中的样本对 x NT 进行 1 或
� K 近邻分类，剪辑掉那些被错误分类的样本，剩下 x NTR
x1(60,1)=41.4626; x1(60,2)=9.1437; x1(61,1)=39.3878; x1(61,2)=13.3631; x1(62,1)=39.8096; x1(62,2)=12.6606; x1(63,1)=38.1384; x1(63,2)=13.4300; x1(64,1)=37.2636; x1(64,2)=10.7010; x1(65,1)=35.4688; x1(65,2)=12.6869; x1(66,1)=35.0976; x1(66,2)=12.7679; x1(67,1)=34.8632; x1(67,2)=12.0533; x1(68,1)=32.6704; x1(68,2)=15.7258; x1(69,1)=32.3111; x1(69,2)=16.0957; x1(70,1)=30.7838; x1(70,2)=14.5081; x1(71,1)=30.2546; x1(71,2)=17.3737; x1(72,1)=29.3982; x1(72,2)=13.6487; x1(73,1)=27.7944; x1(73,2)=17.5663; x1(74,1)=26.8273; x1(74,2)=17.3489; x1(75,1)=26.3104; x1(75,2)=15.9892; x1(76,1)=25.6752; x1(76,2)=17.1196; x1(77,1)=23.7432; x1(77,2)=19.0045; x1(78,1)=22.8505; x1(78,2)=17.6571; x1(79,1)=22.1893; x1(79,2)=15.8862; x1(80,1)=21.1315; x1(80,2)=16.5870; x1(81,1)=20.4331; x1(81,2)=15.9183; x1(82,1)=19.0226; x1(82,2)=17.5691; x1(83,1)=18.5528; x1(83,2)=17.2806; x1(84,1)=16.9787; x1(84,2)=17.6517; x1(85,1)=15.3718; x1(85,2)=18.4702; x1(86,1)=15.4013; x1(86,2)=15.8341; x1(87,1)=14.9654; x1(87,2)=17.0939; x1(88,1)=13.6133; x1(88,2)=18.5902; x1(89,1)=12.4071; x1(89,2)=16.4305;
最近邻决策规则—1-NN
� c 类问题,设 xi( k ) ∈ ωi ( i = 1, 2,⋯ c , k = 1, 2,⋯ Ni ) ，定义 ωi 类的判别函数为 � gi ( x ) = � min � � x − xi( k ) , i = 1, 2,……，C
k =1,2,⋯, Ni
� � � 分类规则：若 g j ( x ) = � min gi ( x ) ，则 x ∈ ω j
i
最近邻法错误率分析
在 N→∞的条件下， k-近邻法的错误率要低于最近邻法。最近邻法和 k-近邻法的错误率上下界都是在一倍到两倍贝叶斯决策方法的错误率范围内。
近邻法的特点
（1）简单，无需复杂的估计（2）分类错误可以接受（3）计算复杂度很大，存储量和计算量都很大（4）没有考虑决策的风险，如果决策的错误代价很大时，会产生很大的风险；（5）以上的分析——渐近平均错误率，都是建立在样本数趋向无穷大的条件下得来的，在实际应用时大多是无法实现的。
压缩近邻法
利用现有样本集，逐渐生成一个新的样本集，使该样本集在保留最少量样本的条件下，仍能对原有样本的全部用最近邻法正确分类，那么该样本集也就能对测试样本进行分类，并保持正常识别率。压缩近邻法中定义两个存储器，一个用力啊存放即将生成的样本集，称为 Store,另一个存储器则存放原样本集，称为 Grabbag。其算法步骤为：步骤 1：初始化。Store 是空集，原样本集存入 Grabbag；从 Grabbag 中任意选择一样本放入 Store 中作为新样本集得第一个样本。样本集生成，在 Grabbag 中取出第 i 各样本用 Store 中的当前样本集按最近邻法。步骤 2：分类。若分类错误，则将该样本从 Grabbag 转入 Store 中，若分类正确，则将该样本放回 Grabbag 中。步骤 3：结束过程。若 Grabbag 中所有样本在执行步骤 2 时没有发生转入 Store 的现象，或 Grabbag 已称空集，则算法终止，否则转入步骤 2.
x1(30,1)=30.3822; x1(30,2)=2.5172; x1(31,1)=31.8449; x1(31,2)=4.1858; x1(32,1)=33.7120; x1(32,2)=5.0515; x1(33,1)=33.9805; x1(33,2)=4.8947; x1(34,1)=35.6319; x1(34,2)=5.7023; x1(35,1)=35.9215; x1(35,2)=6.1456; x1(36,1)=36.9147; x1(36,2)=3.8067; x1(37,1)=37.9014; x1(37,2)=7.9138; x1(38,1)=38.8244; x1(38,2)=7.3828; x1(39,1)=40.8032; x1(39,2)=7.7581; x1(40,1)=40.0112; x1(40,2)=8.0748; x1(41,1)=41.5948; x1(41,2)=7.5525; x1(42,1)=42.0983; x1(42,2)=5.4144; x1(43,1)=44.3864; x1(43,2)=5.9879; x1(44,1)=45.3002; x1(44,2)=7.9712; x1(45,1)=46.9660; x1(45,2)=7.7468; x1(46,1)=47.1053; x1(46,2)=5.5875; x1(47,1)=47.8001; x1(47,2)=5.9673; x1(48,1)=48.3976; x1(48,2)=7.1165; x1(49,1)=50.2504; x1(49,2)=8.0479; x1(50,1)=51.4667; x1(50,2)=8.6202; x1(51,1)=49.7518; x1(51,2)=11.0474; x1(52,1)=48.0198; x1(52,2)=9.7412; x1(53,1)=47.8397; x1(53,2)=8.6673; x1(54,1)=47.5073; x1(54,2)=9.6810; x1(55,1)=46.5877; x1(55,2)=10.5484; x1(56,1)=45.8399; x1(56,2)=8.6472; x1(57,1)=44.6894; x1(57,2)=12.2699; x1(58,1)=42.7355; x1(58,2)=13.1906; x1(59,1)=42.2416; x1(59,2)=11.6802;i =Fra bibliotek,2,⋯, c
最近邻决策规则—k-NN
� 在 N 个训练样本中，找出未知样本 x 的 k 个近邻，若这 k 个近邻中属于第 ωi � 类的数为 ki ，定义判别函数 gi ( x ) = ki , i = 1, 2,……，c
� � 分类规则：若 g j ( x ) = max ki , i = 1, 2,……，C 则 x ∈ ω j
算法实现（核心程序说明等）三、三、算法实现（算法实现（核心核心程序说明等）
clear all; close all;
x1(1,1)=1.8796; x1(1,2)=1.8041; x1(2,1)=2.6801; x1(2,2)=2.7526; x1(3,1)=3.6284; x1(3,2)=1.3313; x1(4,1)=4.7302; x1(4,2)=3.0267; x1(5,1)=5.7865; x1(5,2)=0.3089; x1(6,1)=7.1831; x1(6,2)=2.9453; x1(7,1)=7.2395; x1(7,2)=3.6268; x1(8,1)=8.0763; x1(8,2)=4.9714; x1(9,1)=9.9172; x1(9,2)=3.9551; x1(10,1)=11.7397; x1(10,2)=3.9500; x1(11,1)=12.8685; x1(11,2)=2.4619; x1(12,1)=12.5289; x1(12,2)=3.5313; x1(13,1)=13.3206; x1(13,2)=4.4376; x1(14,1)=15.7457; x1(14,2)=0.9094; x1(15,1)=15.4758; x1(15,2)=5.2898; x1(16,1)=17.2917; x1(16,2)=5.2197; x1(17,1)=18.9338; x1(17,2)=3.7324; x1(18,1)=19.3299; x1(18,2)=2.0778; x1(19,1)=20.7408; x1(19,2)=5.2698; x1(20,1)=20.0199; x1(20,2)=3.5670; x1(21,1)=21.2740; x1(21,2)=4.7658; x1(22,1)=23.6375; x1(22,2)=3.3211; x1(23,1)=23.8603; x1(23,2)=6.1293; x1(24,1)=25.7806; x1(24,2)=1.8003; x1(25,1)=26.4698; x1(25,2)=4.3295; x1(26,1)=27.3746; x1(26,2)=3.1499; x1(27,1)=27.6922; x1(27,2)=6.1123; x1(28,1)=28.3321; x1(28,2)=3.6388; x1(29,1)=29.3112; x1(29,2)=5.5035;
关于减小近邻法计算和存储量的办法——最优参考集选择剪辑法
该方法通过去掉错误分类的原型达到压缩设计集的目的。利用现有样本集对其自身进行剪辑，将不同类别交界出的样本以适当方法筛选，可以实现既减少样本数又提高正确识别率的双重目的。
� � 步骤 1：将原始样本随机分为两个集合：考试集 x NT 和参考集 x NR ，分别含
� 步骤 3：将 x NTR 作为后续对未知样本进行分类的参考集
重复剪辑近邻法
当采用两分剪辑近邻法，考试集 NT 和参考集 NR 所含的样本是由总样本随机产生的，剪辑只针对考试集 NT 中的样本，而参考集 NR 中的样本则经过剪辑。为进一步提高近邻法的分类性能，在样本数量足够多的情况下，可以针对所有样本重复地执行剪辑程序。 � 步骤 1 : 将原始样本 x N 随机划分为 s 个集合，分别为 � � � � x N = { x1 , x2 , ……， xs }, s ≥ 3 � � � � � � 步骤 2 : 用 x1 对 x2 进行 1 或 K 近邻分类， x2 ， x3 ， ……用 xs −1 对 xs 进行分类， � � 用 xs 对 x1 进行分类。步骤 3：去掉步骤 2 中被错误划分的样本，然后将所有留下的样本作为最后 � 的 x ，然后重复步骤 1 到步骤 3，直到再无错误划分为止。

四、 近邻分类法

四、近邻分类法