近邻分类法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
四、近邻分类法
对“data3.m”数据,采用剪辑法、压缩法生成参考集,近似描绘其决策面,并用所有数据测试其分类效果。
1.近邻法算法:
近邻法NN(nearest neighborhood)的基本思想是:以全部训练样本作为代表点,计算测试样本与这些代表点的距离,即所有样本的距离,并以最近邻者的类别作为决策。最初的近邻法是由Cover和Hart与1968年提出的。
压缩法:利用现有样本集,逐渐生成一个新的样本集,使该样本集在保留最少量样本的条件下,仍能对原有样本的全部用最近邻法正确分类,那么该样本集也就能对测试样本进行分类,并保持正常识别率。
压缩近邻法中定义两个存储器,一个用力啊存放即将生成的样本集,称为Store,另一个存储器则存放原样本集,称为Grabbag。其算法步骤为:
步骤1 k=1,将原始样本T随机划分为s个集合,分别为 ,其中 ,分别含有 个样本。
步骤2以对 作为参考集,采用近邻法对预测集 中的所有样本进行分类决策,删除 中所有不相容样本。 ,依次进行,且当 时,以 作为参考集。
步骤3将所有经过剪辑后留下样本组成新的总样本集 。
步骤4重复步骤1至步骤3,反复迭代剪辑,直到再没有样本被剪辑去除则停止,否则转步骤1。
相似性的度量:欧式距离、曼哈坦距离、明考斯基距离;
参考集:
剪辑法:该方法通过去掉错误分类的原型达到压缩设计集的目的。如果剪辑过彻骨中k取值为1,就得到Devijver和Kittler(1982)的多重剪辑算法。如果采用留一法进行错误估计,就是Wilson的剪辑法(Wittler,1972)。进过一次迭代后,设计样本数减少且分类数不可能超过样本数。对小数据集来将,用交叉验证反法估计错误率的剪辑方法首选多重剪辑算法。其基本思想是,利用现有样本集对其自身进行剪辑,将不同类别交界出的样本以适当方法筛选,可以实现既减少样本数又提高正确识别率的双重目的。
步骤3:结束过程。若Grabbag中所有样本在执行步骤2时没有发生转入Store的现象,或Grabbag已称空集,则算法终止,否则转入步骤2.
2.近邻法参考核心程序:
3.近邻法分类实验结果:
步骤1:初始化。பைடு நூலகம்tore是空集,原样本集存入Grabbag;从Grabbag中任意选择一样本放入Store中作为新样本集得第一个样本。样本集生成,在Grabbag中取出第i各样本用Store中的当前样本集按最近邻法。
步骤2:分类。若分类错误,则将该样本从Grabbag转入Store中,若分类正确,则将该样本放回Grabbag中。
两分剪辑近邻法:
步骤1将原始样本随机分为两个集合:预测集T和参考集R,分别含有 和 个样本,设两个集合所含样本数量之比为 。来自预测集T合参考集R的样本分别完成考试和参考任务,相互独立。
步骤2对预测及T中的任一个样本 ,利用参考集R采用近邻对其进行分类决策,判定 所属类别为 ,而样本 自身实际所属类别为 ,如 和 不相同,则将不相容样本 从预测集T中删除,预测及T样本数量 减1。对预测集中所有样本依次进行判定,直至删除所有的不相容样本的,得到经过剪辑的考试样本集TE。
步骤3利用经过剪辑的考试样本集TE,采用最近邻法对测试样本X做出分类决策。
重复剪辑近邻法:当采用两分剪辑近邻法,预测集T和参考集R所含的样本是由总样本随机产生的,剪辑只针对预测集T中的样本,而参考集R中的样本则经过剪辑。为进一步提高近邻法的分类性能,在样本数量足够多的情况下,可以针对所有样本重复地执行剪辑程序。
最近邻法:将与测试样本最近邻样本的类别作为决策的方法称为最近邻法。近邻法的错误率比较难以计算。
近邻法k NN(k Nearest NeighborClassificationRule)的基本思想是在侧视样本 的 个近邻中,按出现最多的样本类别作为x的类别,即先对x的k各近邻一一找出它们的类别,然后对x类别进行判别,即在N各训练样本中,找出x的k各近邻。
相关文档
最新文档