最近邻匹配算法和logit算法

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

最近邻匹配算法和logit算法
最近邻算法
一、算法概述
最近邻算法或者说KNN算法，是一种基本的分类与回归方法，是数据挖掘技术中最简单的技术之一。

Cover和Hart在1968年提出了最初的邻近算法，它的输入是基于实例的学习（instance-based learning），属于懒惰学习（lazy learning）即KNN是一种非显示学习过程，也就是没有训练阶段，对新样本直接与训练集做分类或者回归预测。

所谓最近邻，就是首先选取一个阈值为K，对在阈值范围内离测试样本最近的点进行投票，票数多的类别就是这个测试样本的类别，这是分类问题。

那么回归问题也同理，对在阈值范围内离测试样本最近的点取均值，那么这个值就是这个样本点的预测值。

二、学习过程
1、分类
假设紫色的点是类“1”，绿色的点是类“0”，而黄色的点是我们要预测的样本点。

在这里我们采用欧式距离为我们的衡量标准。

1点与样本点的距离为：$\sqrt{(2.0 - 1.0)^2+(1.0-1.0)^2}=1$
2点与样本点的距离为：$\sqrt{(2.0-1.5)^2+(1.0-1.1)^2}=0.510$
3点与样本点的距离为：$\sqrt{(2.0-1.0)^2+(1.0-1.5)^2}=1.118$
4点与样本点的距离为：$\sqrt{(2.5-2.0)^2+(1.05-1.0)^2}=0.502$
5点与样本点的距离为：$\sqrt{(3.0-2.0)^2+(1.1-1.0)^2}=1.004$
6点与样本点的距离为: $\sqrt{(3.0-2.0)^2+(1.2-1.0)^2}=1.020$
令K=3时，距离样本点最近的三个点为1，2，4对应的类别为“1”，“1”，“0”，所以此时样本点为“1”类别。

令K=4时，距离样本点最近的四个点对应的类别为“1”，“1”，“0”，“0”，此时重新选取K值计算。

令K=5时，距离样本点最近的五个点对应的类别为“1”，“1”，“0”，“0”，“0”，所以此时样本点为“0”类别。