KD树算法及示例详解

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

KD树算法及示例详解
一、KD树概述
kd树(k-dimensional tree)可以帮助我们在很快地找到与测试点最邻近的K个训练点。

不再需要计算测试点和训练集中的每一个数据的距离。

kd树是二叉树的一种,是对k维空间的一种分割,不断地用垂直于坐标轴的超平面将k维空间切分,形成k维超矩形区域,kd树的每一个结点对应于一个k维超矩形区域。

二、KD树的构造
假设有一组拥有标签的m维数据,可以表示为:
T={(x1,y1),(x2,y2),(x3,y3)⋯(x n,y n)}
其中,x i=(x i1,x i2,⋯,x i m),y i是标签,即所属类别。

首先我们需要构造kd数,构造方法如下:
1.选取x(1)为坐标轴,以训练集中的所有数据x(1)坐标中的中位数作为切分点,将超矩形区域切割成两个子区域。

将该切分点作为根结点,由根结点生出深度为1的左右子结点,左节点对应x(1)坐标小于切分点,右结点对应x(1)坐标大于切分点;
2.对深度为j的结点,选择为x(l)切分坐标轴,l=(j mod k)+1,以该结点区域中训练数据x(l)坐标的中位数作为切分点,将区域分为两个子区域,且生成深度为j+1的左、右子结点。

左节点对应x(l)坐标小于切分点,右结点对应x(l)坐标大于切分点
3.重复2,直到两个子区域没有数据时停止。

下面举例说明。

设我们有一组二维数据集:
{(6,5),(1,-3),(-6,-5),(-4,-10),(-2,-1),(-5,12),(2,1 3),(17,-12),(8,-22),(15,-13),(10,-6),(7,15),(14,1)}
将它们在坐标系中表示如下:
开始:选择为X坐标轴,中位数为6,即(6,5)为切分点,切分整个区域:
可以得到第一层KD树:
再次划分区域,以Y轴为坐标轴,选择中位数,可知左边区域为-3,右边区域为-12。

所以左边区域切分点为(1,-3),右边区域切分点坐标为(17,-12),得到如下切分区域:
对应的KD树为:
再次对区域进行切分,同上步,我们可以得到切分点,切分结果如下:
得到如下的KD树:
最后分割的小区域内只剩下一个点或者没有点。

我们得到最终的kd树如下图:
三、kd树完成K近邻的搜索
当我们完成了kd树的构造之后,我们就要想怎么利用kd树完成K近邻的搜索呢?
假设现在要寻找p点的K个近邻点。

设p点坐标为(a,b),也就是离p点最近的K个点。

设S是存放这K个点的一个容器。

算法如下:
1.根据p的坐标和kd树的结点向下进行搜索(如果树的结点是以x(l)=c来切分的,那么如果p的坐标小于c,则走左子结点,否则走右子结点)
2.到达叶子结点时,将其标记为已访问。

如果S中不足k个点,则将该结点加入到S中;如果S不空且当前结点与p点的距离小于S中最长的距离,则用当前结点替换S中离p最远的点
3.如果当前结点不是根节点,执行(a);否则,结束算法
(a)回退到当前结点的父结点,此时的结点为当前结点(回退之后的结点)。

将当前结点标记为已访问,执行(b)和(c);如果当前结点已经被访过,再次执行(a)。

(b)如果此时S中不足k个点,则将当前结点加入到S中;如果S中已有k个点,且当前结点与p点的距离小于S中最长距离,则用当前结点替换S中距离最远的点。

(c)计算p点和当前结点切分线的距离。

如果该距离大于等于S中距离p最远的距离并且S中已有k个点,执行3;如果该距离小于S中最远的距离或S中没有k个点,从当前结点的另一子节点开始执行1;如果当前结点没有另一子结点,执行3。

以上的1,2,3我们会称为算法中的1,算法中的2,算法中的3
过程演示
为了方便描述,我们对结点进行了命名,如下图。

蓝色斜线表示该结点标记为已访问,红色下划线表示在此步确定的下一要访问的结点。

我们现在就计算p(-1,-5)的3个邻近点。

我们拿着(-1,-5)寻找kd树的叶子结点。

(1)执行算法中的1。

① p点的-1与结点A的x轴坐标6比较,-1<6,向左走。

② p点的-5与结点B的y轴坐标-3比较,较小,往左走。

③因为结点C只有一个子结点,所以不需要进行比较,直接走到叶子结点H。

(2)进行算法中的2,标记结点H已访问,此时,S中不足3个点,故将结点H加入到S中。

此时:S={H}
(3)执行算法中的3,当前结点H不是根结点
①执行(a),回退到父结点C,我们将结点C标记为已访问。

②执行(b),S中不足3个点,将结点C加入到S中。

③执行(c)计算p点和结点C切分线的距离,可是结点C 没有另一个分支,我们开始执行算法中的3。

此时,S={H,C}
(4)当前结点C不是根结点
①执行(a),回退到父结点B,我们将结点B标记为已访问;
②执行(b),S中不足3个点,将结点B加入到S中;
③执行(c)计算p点和结点B切分线的距离(如下图中红色线段所示,即p点到切分线的垂直距离),两者距离为
|(-3)-(-5)|=2,小于S中的最大距离。

(S中的三个点H、C、B 与p的距离分别为:
D(H,p)=√[(−1)−(−4)]2+[(−5)−(−10)]2=√34,
D(C,p)=√[(−1)−(−6)]2+[(−5)−(−5)]2=√25,
D(B,p)=√[(−1)−(−1)]2+[(−5)−(−3)]2=√8)p点和结点B切分线的距离小于S中3个点最远的距离,所以我们需要从结点B的另一子节点D开始算法中的1。

此时,S={H,C,B}
(5)从结点D开始算法中的1
①p点的-1与结点D的x轴坐标-2比较,-1 > -2,向右走。

②找到了叶子结点J,标记为已访问。

③开始算法中的2。

S不空,计算当前结点J与p点的距离,为
D(J,p)=√()()2()()2=√333
大于S中的最长距离,所以我们不将结点J放入S中。

此时,S={H,C,B}
(6)执行算法中的3,当前结点J不为根结点
①执行(a),回退到父结点D,标记为已访问。

②执行(b),S中已经有3个点,当前结点D与p点距离为:
D(D,p)=√[(−1)−(−2)]2+[(−5)−(−1)]2=√17
小于S中的最长距离(结点H与p点的距离),将结点D替换结点H。

③执行(c),计算p点和结点D切分线的距离(如下图中红色线段所示,即p点到切分线的垂直距离),两者距离为
|(-2)-(-1)|= 1,小于S中最长距离,所以我们需要从结点D的另一子节点I开始算法中的1。

此时,S={D,C,B}
(7)从结点I开始算法中的1,结点I已经是叶子结点,直接进行到算法中的2。

①标记结点I为已访问
②计算当前结点I和p点的距离为:
D(I,p)=√[(−1)−(−5)]2+[(−5)−(12)]2=√305
,大于S中3个点到p点的最长距离,不进行替换。

此时,S={D,C,B}
(8)执行算法中的3。

当前结点I不是根结点
①执行(a),回退到父结点D,但当前结点D已经被访问过。

②再次执行(a),回退到结点D的父结点B,也标记为访问过。

③再次执行(a),回退到结点B的父结点A,结点A未被访问过,标记为已访问。

④执行(b),结点A和p点的距离为:
D(A,p)=√[(−1)−(6)]2+[(−5)−(5)]2=√149大于S中的最长距离,不进行替换
⑤执行(c),p点和结点A切分线的距离为7(如下图中红色线段所示),大于S中的最长距离,不进行替换。

此时,S={D,C,B}
执行算法中的3,发现当前结点A是根结点,结束算法。

得到p点的3个邻近点,为(-6,-5)、(1,-3)、(-2,-1)kd树就这么的完成了它的任务。

总的来说,就是以下几步
1、找到叶子结点,看能不能加入到S中
2、回退到父结点,看父结点能不能加入到S中
3、看目标点和回退到的父结点切分线的距离,判断另一子结点能不能加入到S中。

相关文档
最新文档