k-近邻法综述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
KNN(K-Nearest Neighbor),代表k 个最近邻分类法,通过K 个最与之相近的历史记录的组合来辨别新的记录。KNN 是一个众所周知的统计方法,在过去的40 年里在模式识别中集中地被研究[7]。KNN 在早期的研究策略中已被应用于文本分类,是基准Reuters 主体的高操作性的方法之一。其它方法,如LLSF、决策树和神经网络等。K-近邻算法的。
K-近邻法的概念
K-近邻算法的思想如下:首先,计算新样本与训练样本之间的距离,找到距离最近的K个邻居;然后,根据这些邻居所属的类别来判定新样本的类别,如果它们都属于同一个类别,那么新样本也属于这个类;否则,对每个后选类别进行评分,按照某种规则确定新样本的类别。
取未知样本X的K个近邻,看着K个近邻多数属于哪一类,就把X分为哪一类。即,在X的K个样本中,找出X的K个近邻。K-近邻算法从测试样本X开始生长,不断的扩大区域,直到包含进K个训练样本,并且把测试样本X的类别归为着最近的K个训练样本中出现频率最大的类别。例如,图3.1中K=6的情况,根据判定规则,测试样本X被归类为黑色类别。
图3.1 K-近邻法
近邻分类是基于眼球的懒散的学习法,即它存放所有的训练样本,并且知道新的样本需要分类时才建立分类。这与决策数和反向传播算法等形成鲜明对比,后者在接受待分类的新样本之前需要构造一个一般模型。懒散学习法在训练时比急切学习法快,但在分类时慢,因为所有的计算都推迟到那时。
优点:简单,应用范围广;可以通过SQL语句实现;模型不需要预先构造。
缺点:需要大量的训练数据;搜索邻居样本的计算量大,占用大量的内存;距离函数的确定比较困难;分类的结果与参数有关。
K-近邻法算法研究
K-近邻法的数学模型
用最近邻方法进行预测的理由是基于假设:近邻的对象具有类似的预测值。最近邻算法的基本思想是在多维空间R n中找到与未知样本最近邻的k 个点,并根据这k个点的类别来判断未知样本的类。这k个点就是未知样本的k-最近邻。算法假设所有的实例对应于n 维空间中的点。一个实例的最近邻是根据标准欧氏距离定义,设x的特征向量为: