k临近值算法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

k临近值算法
K值近邻算法
K值近邻算法(K-Nearest Neighbor Algorithm)是一种最简单的机器学习算法,它基于定义的实例空间和类标签,并且基于最近邻算法做出预测。

算法的工作原理是:存在一个样本数据集合,也称作训练样本集,并且每个样本都存在标签,即我们知道样本集中每一个数据与所属分类的对应关系。

输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。

一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,通常k是不大于20的整数。

最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类。

K值近邻算法的优点:
1)简单易懂:K近邻算法最大的优点就是它的简单易懂,无需训练,使用直观易懂,而且比较容易理解;
2)精度高:虽然K近邻算法最大的优点就是简单易懂,但是它的精度却一般可达到90%以上;
3)误差低:K近邻算法仅仅比较最邻近的几个样本,所以它的误差也比较低。

K值近邻算法的缺点:
1)计算量大:K近邻算法需要计算每个样本到其他样本的距离,所以它的计算量比较大,当样本数量增多时,计算量会急剧增加;
2)空间复杂度大:K近邻算法需要保存样本集,所以它的空间复杂度也比较高;
3)容易受外界干扰:样本不平衡时,K近邻算法容易受到外界干扰,这就是所谓的维数灾难。

相关文档
最新文档