KNN算法原理及应用 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

KNN分类算法（理论）

1.KNN算法 (1)

2.KNN算法描述 (1)

3.KNN主要的应用领域 (2)

4.KNN算法的优、缺点 (2)

1.KNN算法

KNN算法，右又叫K最邻近分类算法，是数据挖掘分类技术中最简单的方法之一。所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。

KNN算法概括来说，就是已知一个样本空间里的部分样本分成几个类，然后，给定一个待分类的数据，通过计算找出与自己最接近的K个样本，由这K个样本投票决定待分类数据归为哪一类。kNN算法在类别决策时，只与极少量的相邻样本有关。由于kNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，kNN方法较其他方法更为适合。

2.KNN算法描述

一个比较经典的KNN图如下：

从上图中我们可以看到，图中的有两个类型的样本数据，一类是蓝色的正方形，另一类是红色的三角形。而那个绿色的圆形是我们待分类的数据。

如果K=3，那么离绿色点最近的有2个红色三角形和1个蓝色的正方形，这3个点投票，于是绿色的这个待分类点属于红色的三角形。

如果K=5，那么离绿色点最近的有2个红色三角形和3个蓝色的正方形，这5个点投票，于是绿色的这个待分类点属于蓝色的正方形。

3.KNN主要的应用领域

文本分类、聚类分析、预测分析、模式识别、图像处理。

KNN算法不仅可以用于分类，还可以用于预测。通过找出一个样本的k个最近邻居，将这些邻居的属性的平均值赋给该样本，就可以得到该样本的属性。更有用的方法是将不同距离的邻居对该样本产生的影响给予不同的权值(weight)，如权值与距离成反比。

4.KNN算法的优、缺点

优点

(1) 简单，易于理解，易于实现，无需估计参数，无需训练；

(2) 适合对稀有事件进行分类；

(3) 特别适合于多分类问题(multi-modal,对象具有多个类别标签)，kNN比SVM的表现要好。

缺点

(1) 当样本不平衡时，如一个类的样本容量很大，而其他类样本容量很小时，有可能导致当输入一个新样本时，该样本的K个邻居中大容量类的样本占多数。

(2) 计算量较大，因为对每一个待分类的文本都要计算它到全体已知样本的距离，才能求得它的K个最近邻点。

(3) 可理解性差，无法给出像决策树那样的规则。