时空数据分析算法及其应用研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
时空数据分析算法及其应用研究
空间和时间是现实世界最基本、最重要的属性,许多空间应用系统都需要表
达地学对象的时空属性,例如在地理位置变更、环境监测、城市演化等领域都需
是
术
对象的技
要管理历史变化数据,以便重建历史、跟踪变化、预测未来。面向
实体
用在软件设计中的一种方法,它用在时空数据[1]表达中主要是为了克服给定
题[2] 。下面从
的空间或非空间属性在不同时间不同频率变化而出现的复杂问
KNN、RNN、SkyLine三种时空数据分析算法出发,论述时空数据分析算法的应用。
1、KNN分析算法的基本概述及应用分析
KNN算法是非参数回归模型的基本算法之一,通过在状态空间中搜索与待测
点X相近的k个样本(X i ,Y i ) 估计g n(x) ,因此又称为k最近邻非参数回归,其预测函数[3]可表示为
k k
Y=g(X)= W i (X;X k1,⋯,X k k)Y i = k i Y i (1)
i 1 i 1
其中X k1.表示与x距离最近的点,并赋予权值k1;X k2则被赋予权值k2;以此
k个权函数k1,k2,?,k k,满足
类推,得到
k
k1≥k2≥⋯≥k k≥0,k =1 (2)
i i 1
KNN算法通过计算样本个体之间的距离或者相似度来寻找与每个样本个体最
相近的K个个体,在这个过程中需要完成一次样本个体的两两比较,所以算法的
。
时间复杂度,跟样本的个数直接相关
K最近邻算法通常情况下是用于分类的,这只是对K近邻算法用途的本质说明[4]。从实际来看,K近邻算法可以应用的地方还有很多,比如系统推荐等等。简
单的讲
,就是挖掘出客户喜欢的相同商品,来进行相似物品的推荐。另外区分客
户群体,从而使我们更好的为客户服务。
下面是KNN分类器构建实例。KNN的实现分训练和识别两步。训练时,把每类样本降维后的结果作
为KNN的输入。如图1所示,圆圈表示待识别数据所处的位置,
表的类;选择
K
圆中的3个数据,识别结果为三角形代
为3时,选中实线
选择
K值
圆中的5个数据,识别结果为正方形代表的类。
值
为5时,选中虚线
- 1 -
图1 KNN分类器构建
关于智能商务中的聚类算法等,已经应用于很多系统中,比如推荐系统、文等
本分类系统等
[5]。这其中衍生出的产品或者项目都已经被广泛使用于电子商务
者
费
领域。为了增加交易,满足不同的顾客的需求,研究人员已经推出了利用消
访问和购买的行为的推荐系统。广泛应用在大的超市或者企业中。这些系统通常通过给顾客一些与他购买物品高度相关联的推荐物品,来增加购买和交易。比如
。并且在这过程
亚马逊是通过偏好和用户信息和购买信息来向顾客推荐相关书
籍
有效
。
中,使用的技术并不复杂,而这不妨碍推荐系统的精确
2、RNN分析算法的基本概述及应用分析
[6]的定义为:给定一个数据点集合P和一个查询点q,单色反
通常,RNN查
询
向最近邻查询(Monochromatic Reverse Nearest Neighbor Query,RNN) 找出所有以查询点q为最近邻的数据点,即RNN(q)={p∈P丨?p’∈P
s.t.d(p,p ’) 查询点q,双色反向最近邻查询(Bichromatic Reverse Nearest Neighbor Query,bRNN)找出所有的数据点p∈P,满足p与q之间的距离比p与Q中任意一个点的距离都要短,即bRNN(q)={p∈P丨?p’∈Q s.t.d(p,q ’) [7] 图1展示了该查询算法的一个实例,图中显示有四个数据点,每个数据点 都对应一个限定圆,查询点g落在数据点p1,P2对应的限定圆中,因 此p1,P2就 ,即RNN(q)={Pl ,P2)。 是g的RNN查询结果 - 2 - 图2 查询实例 近年来,反向最近邻查询学术界得到了深入探讨和研究,并且在诸如决策支持、资源分配等许多领域得到了广泛应用。例如利用随机神经元网络方法和辐射 神经元网络方法设计分布式数据库系统,从而确定数据的物理分段方式[8];再如利用基于随机神经网络的时延预测模型对时延进行精确的预测,为实施网络拥塞控制、路由选择提供重要的依据[9]。 3、SkyLine 分析算法的基本概述及应用分析 近年来,流数据挖掘与管理成为学术界和工业界所共同关注的问题,并且随着信息技术的不断发展和应用的不断深入,数据收集手段越来越丰富,海量存储也越来越普遍。由此,一种新的操作算子--skyline 操作被引入了数据库领域, 目的是要发现数据集中不被其他点支配的所有点的集合[10] 。随着skyline 计算在多标准决策系统、城市导航系统、数据挖掘和可视化、智能防御系统、以及地理 信息系统等领域的广泛应用,有效地在数据流上实现skyline 计算成为数据挖掘领域的研究热点。 一个多维数据库的skyline ,是该数据库上不被其它任何数据点支配(dominate) 的点所组成的集合。数据点p支配点q,当且仅当p在任一维上的取值都不比q差,且至少在一个维度上比q更好。Skyline 计算就是从数据库中快速、 准确地z到所有的skyline 数据点。 [11],图中的每一个点是一个二维的数据记录,共同组 图1是一个skyline 例 子 成一个二维的数据库。在图2.6中,p点支配q点,p点与r 点互不相支配,所有实 - 3 -