k临近值算法

合集下载

k临近值算法
K值近邻算法
K值近邻算法（K-Nearest Neighbor Algorithm）是一种最简单的机器学习算法，它基于定义的实例空间和类标签，并且基于最近邻算法做出预测。

算法的工作原理是：存在一个样本数据集合，也称作训练样本集，并且每个样本都存在标签，即我们知道样本集中每一个数据与所属分类的对应关系。

输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签。

一般来说，我们只选择样本数据集中前k个最相似的数据，这就是k-近邻算法中k的出处，通常k是不大于20的整数。

最后，选择k个最相似数据中出现次数最多的分类，作为新数据的分类。

K值近邻算法的优点：
1）简单易懂：K近邻算法最大的优点就是它的简单易懂，无需训练，使用直观易懂，而且比较容易理解；
2）精度高：虽然K近邻算法最大的优点就是简单易懂，但是它的精度却一般可达到90%以上；
3）误差低：K近邻算法仅仅比较最邻近的几个样本，所以它的误差也比较低。

K值近邻算法的缺点：
1）计算量大：K近邻算法需要计算每个样本到其他样本的距离，所以它的计算量比较大，当样本数量增多时，计算量会急剧增加；
2）空间复杂度大：K近邻算法需要保存样本集，所以它的空间复杂度也比较高；
3）容易受外界干扰：样本不平衡时，K近邻算法容易受到外界干扰，这就是所谓的维数灾难。