最近邻匹配算法和logit算法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
最近邻匹配算法和logit算法
最近邻算法
一、算法概述
最近邻算法或者说KNN算法,是一种基本的分类与回归方法,是数据挖掘技术中最简单的技术之一。
Cover和Hart在1968年提出了最初的邻近算法,它的输入是基于实例的学习(instance-based learning),属于懒惰学习(lazy learning)即KNN是一种非显示学习过程,也就是没有训练阶段,对新样本直接与训练集做分类或者回归预测。
所谓最近邻,就是首先选取一个阈值为K,对在阈值范围内离测试样本最近的点进行投票,票数多的类别就是这个测试样本的类别,这是分类问题。
那么回归问题也同理,对在阈值范围内离测试样本最近的点取均值,那么这个值就是这个样本点的预测值。
二、学习过程
1、分类
假设紫色的点是类“1”,绿色的点是类“0”,而黄色的点是我们要预测的样本点。
在这里我们采用欧式距离为我们的衡量标准。
1点与样本点的距离为:$\sqrt{(2.0 - 1.0)^2+(1.0-1.0)^2}=1$
2点与样本点的距离为:$\sqrt{(2.0-1.5)^2+(1.0-1.1)^2}=0.510$
3点与样本点的距离为:$\sqrt{(2.0-1.0)^2+(1.0-1.5)^2}=1.118$
4点与样本点的距离为:$\sqrt{(2.5-2.0)^2+(1.05-1.0)^2}=0.502$
5点与样本点的距离为:$\sqrt{(3.0-2.0)^2+(1.1-1.0)^2}=1.004$
6点与样本点的距离为: $\sqrt{(3.0-2.0)^2+(1.2-1.0)^2}=1.020$
令K=3时,距离样本点最近的三个点为1,2,4对应的类别为“1”,“1”,“0”,所以此时样本点为“1”类别。
令K=4时,距离样本点最近的四个点对应的类别为“1”,“1”,“0”,“0”,此时重新选取K值计算。
令K=5时,距离样本点最近的五个点对应的类别为“1”,“1”,“0”,“0”,“0”,所以此时样本点为“0”类别。