轨迹数据挖掘:概述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

轨迹数据挖掘:概述
Trajectory Data Mining: An Overview
位置采集和移动计算技术的进步已经产生了大量的空间轨迹数据,这些数据代表了移动物体(如人,车辆和动物)的移动性。

在过去十年中,已经提出了许多技术来处理,管理和挖掘轨迹数据,促进了广泛的应用。

在本文中,我们对轨迹数据挖掘的主要研究进行了系统的调研,提供了该领域的全景及其研究课题的范围。

根据轨迹数据的推导,轨迹数据预处理,轨迹数据管理以及各种挖掘任务(如轨迹模式挖掘,异常值检测和轨迹分类)的路线图,调研探讨了连接,相关性,以及这些现有技术之间的差异。

这项调研还介绍了将轨迹转换为其他数据格式(如图,矩阵和张量)的方法,可以应用更多的数据挖掘和机器学习技术。

最后,提出了一些公共轨迹数据集。

这项调研可以帮助塑造轨迹数据挖掘领域,从而快速了解这一领域对社区的影响。

类别和主题描述符:H.2.8 [数据库管理]:数据库应用- 数据挖掘,空间数据库和GIS; I.2.6 [人工智能]:学习- 知识获取
一般术语:算法,测量,实验
附加关键词和短语:时空数据挖掘,轨迹数据挖掘,轨迹压缩,轨迹索引和检索,轨迹模式挖掘,轨迹异常值检测,轨迹不确定性,轨迹分类,城市计算
1.引言
空间轨迹是由地理空间中的运动物体产生的轨迹,通常由一系列时间顺序的点表示,例如p1 →p2 → · · · → p n,其中每个点包括地理空间坐标集和时间戳,如p = (x, y, t)。

位置采集技术的进步产生了无数的空间轨迹,代表了各种移动物体(如人,车辆和动物)的移动性。

这些轨迹为我们提供了前所未有的信息来了解移动物体和位置,促进了基于位置的社交网络[Zheng 2011],智能交通系统和城市计算领域的广泛应用[Zheng et al. 2014b]。

这些应用的流行又要求系统地研究新的计算技术,以从轨迹数据中发现知识。

在这种情况下,轨迹数据挖掘已经成为越来越重要的研究课题,引起了计算机科学,社会学和地理学等众多领域的关注。

在轨迹数据挖掘领域进行了深入和广泛的个人研究。

然而,我们缺乏系统的评估,可以很好地塑造现有的研究领域和定位。

面对大量出版物,社区对这些现有技术的联系,相关性和差异性仍不甚清楚。

为此,我们根据图1所示的范例进行了全面探索轨迹数据挖掘领域的综合描述:
第一,在第2节中,我们将生成轨迹的数据源分为四组,列出了每个组中轨迹数据可以启用的几个关键应用。

第二,在使用轨迹数据之前,我们需要处理诸如噪声过滤,轨迹分割和地图匹配等诸多问题。

这个阶段称为轨迹预处理,这是许多轨迹数据挖掘任务的基本步骤。

噪声滤波的目标是从轨迹中去除可能由位置定位系统的差信号(例如,在城市峡谷中行驶时)引起的一些噪声点。

轨迹压缩是为了压缩轨迹的大小(为了减少通信,处理和数据存储中的开销),同时保持轨迹的效用。

停留点检测算法识别移动物体在一定距离阈值内停留一段时间的位置。

停留点可以代表用户已经去过的餐厅或商场,比轨迹中的其他点具有更多的语义含义。

轨迹分割通过时间间隔,空间形状或语义含义将轨迹划分成片段,用于进一步的过程,如聚类和分类。

地图匹配旨在将轨迹的每个点投射到真正产生点的相应路段上。

我们详细介绍第3节中的轨迹预处理。

第三,许多在线应用程序需要即时挖掘轨迹数据(例如,检测交通异常),呼吁有效的数据管理算法可以从大轨迹语料库快速检索满足某些标准(例如时空约束)的特定轨迹。

通常有两种主要类型的查询:最近邻[the nearest neighbors]和范围查询[range queries]。

前者还与距离度量相关联,例如两个轨迹之间的距离。

另外,对于两种类型(历史和最近)的轨迹,需要不同的管理方法。

我们将在第4节介绍轨迹索引和检索。

第四,根据前两个步骤,我们可以进行挖掘任务,如轨迹模式挖掘,轨迹不确定性,异常值检测和分类。

- 轨迹不确定性:物体连续移动,而其位置只能在离散时间进行更新,从而使运动物体在两个更新之间的位置不确定。

为了增强轨迹的实用性,一系列研究试图建模和减少轨迹的不确定性。

另一方面,一个研究的分支旨在用户公开她的轨迹时保护用户的隐私。

我们在第5节回顾轨迹的不确定性。

- 轨迹模式挖掘:大量的空间轨迹提供了分析移动对象的移动模式的机会,这可以通过包含某种模式的个体轨迹或一组共享相似模式的轨迹来表示。

在第6节中,我们调研了四种模式策略:伴行模式,轨迹聚类,周期模式和频繁序列模式。

- 轨迹分类:使用受监督的学习方法,我们可以将轨迹或分段轨迹划分为某些类别,可以
是行走(如远足和餐饮)或不同的运输模式,如步行和驾驶。

我们在第7节中给出了轨迹分类的例子。

- 轨迹异常检测:与轨迹数据中经常发生的轨迹模式不同,轨迹异常值可以是与某些相似度量方面与其他项显着不同的项(轨迹或轨迹段),也可以是不符合预期模式的事件或观察(由轨迹集合表示)(例如由车祸引起的交通拥堵)。

第8节介绍轨迹数据的异常检测。

最后,除了研究原始形式的轨迹之外,我们还可以将轨迹转换为其他格式,如图,矩阵和张量(见图1右侧)。

轨迹的新表征利用现有的挖掘技术(例如,图挖掘,协同过滤(CF),矩阵因式分解(MF)和张量分解(TD)),扩展和多样化了轨迹数据挖掘的方法。

在第9节中,我们给出转换的代表性例子。

这篇文章的贡献有四个方面。

首先,本文介绍了轨迹数据挖掘的框架,为该领域定义了范围和路线图。

该框架提供了人们可以快速了解并进入该领域的全景图。

第二,个人研究工作在这个框架的每一层都有良好的定位,分类和连接。

专业人员可以轻松找到解决问题所需的方法,或找到未解决的问题。

第三,本文提出了将轨迹转移到其他格式的愿景,可以应用多种现有的挖掘技术。

这扩大了轨迹数据挖掘的原始范围,推进了该领域的方法和应用。

第四,我们收集人们可以获得各种公共轨迹数据集进行研究的来源列表。

我们还介绍了关于轨迹数据研究的会议和期刊。

2.轨迹数据
在本节中,我们将生成轨迹的数据源分为四个主要类别,简要介绍了每个类别中的几个应用场景。

代表人类流动性的轨迹数据可以帮助建立更好的社交网络[Bao et al. 2015; Zheng 2011; Zheng et al. 2012b]和旅游推荐[Zheng and Xie 2011b; Zheng et al. 2011c; Zheng et al. 2009b]。

(1)人员流动:长期以来,人们以空间轨迹的形式,被动地,积极地记录着现实世界的运动。

活动记录:旅行者使用GPS轨迹记录他们的旅行路线,以记住旅程并与朋友分享经验。

自行车和慢跑者记录运动分析的踪迹。

在Flickr中,一系列地理标记的照片可以制定空间轨迹,因为每张照片都有一个位置标签和一个对应于照片拍摄地点和时间的时间戳。

类似地,在基于位置的社交网络中的用户的“签入”可以被视为轨迹,按时间顺序排列。

无线记录:携带移动电话的用户无意中产生由具有相应转换时间的小区塔ID序列表示的许多空间轨迹。

此外,信用卡的交易记录还指示持卡人的空间轨迹,因为每个交易包含表示交易发生的位置的时间戳和商家ID。

(2)运输车辆的流动性:我们日常生活中出现了大量配备GPS的车辆(如出租车,公共汽车,船只和飞机)。

例如,主要城市的许多出租车都配备了GPS传感器,可以以一定的频率报告带时间戳的位置。

这样的报告制定了大量可用于资源分配的空间轨迹[Yuan et al. 2011b, 2013b],流量分析[Wang et al. 2014; Yuan et al. 2013a],改善交通网络[Zheng et al. 2011a]。

(3)动物流动:生物学家一直在收集动物像老虎和鸟类的移动轨迹,目的是研究动物的迁徙痕迹,行为和生活情况[Lee et al. 2007; Li et al. 2010c]。

(4)自然现象的流动:气象学家,环保人士,气候学家和海洋学家正在忙于收集一些自然现象的轨迹,如飓风,龙卷风和洋流。

这些轨迹捕捉到环境和气候的变化,帮助科学家处理自然灾害,保护我们生活的自然环境。

3.轨迹数据预处理
本节介绍了在开始挖掘任务之前处理轨迹所需的四项基本技术,包括噪声滤波,停留点检测,轨迹压缩和轨迹分割。

3.1 噪声滤波
由于传感器噪声和其他因素,如在城市峡谷中收到较差的定位信号,空间轨迹永远不会完全准确。

有时,错误是可接受的(例如,车辆的几个GPS点落在实际驾驶车辆的道路之外),这可以通过地图匹配算法来修复(在3.5节中介绍)。

在其他情况下,如图2所示,像p5这样的噪声点的误差太大(例如距离其真实位置几百米),以得出诸如行进速度等有用的信息。

因此,在开始采矿任务之前,我们需要从轨迹中滤除这些噪点。

虽然这个问题还没有完全解决,但现有的方法分为三大类。

均值(或中值)滤波器[Mean (or Median) Filter]:对于测量点z i,(未知)真实值的估计是z i 及其n-1个前驱在时间上的平均值(或中值)。

均值(中值)滤波器可以被认为是覆盖时间上相邻z i值的Sliding Window。

在图2所示的例子中,如果我们使用Sliding Window大小为5的均值滤波器,则。

处理极端误差时,中值滤波器比均值滤波器鲁棒性强。

均值(中值)滤波器适用于处理具有密集表示的轨迹中的各个噪声点,如p5。

然而,当处理多个连续的噪声点时,例如p10,p11和p12,需要较大尺寸的Sliding Window。

这导致计算的均值(或中值)和点的真实位置之间的误差更大。

当轨迹的采样率非常低(即两个连续点之间的距离可能长于几百米)时,均值和中值滤波器不再是很好的选择。

Kalman和粒子滤波器[Kalman and Particle Filters]:从Kalman滤波器估计的轨迹是测量和运动模型之间的折衷。

除了给出符合物理学规律的估计之外,Kalman滤波器还给出了诸如速度等高阶运动状态的原理估计。

虽然Kalman滤波器通过假设线性模型和Guass噪声来获得效率,但是粒子滤波器放宽了这些假设,以获得更一般但效率较低的算法。

Lee和Krumm [2011]可以找到使用Kalman和粒子滤波器修复噪声轨迹点的类似教程的介绍。

粒子滤波的初始化步骤是从初始分布生成P粒子,j =1, 2, . . . , P。

例如,这些粒子将具有零速度并且在Guass分布的初始位置测量周围聚集。

第二步是“重要性抽样”,它使用动态模型P(x i|x i-1)概率地模拟粒子在一个时间步长上的变化。

第三步使用测量模型计算所有粒子的“重要性权重”。

更重要的权重对应于更好地被测量支持的粒子。

然后重要的权重被归一化,所以它们相加到一个。

当从与归一化重要性权重成正比的中选择一组新的P粒子时,循环中的最后一步是“选择步骤”。

最后,我们可以通过来计算权重和。

Kalman和粒子滤波器模拟测量噪声和轨迹的动力学。

然而,它们取决于初始位置的测量。

如果轨迹中的第一点嘈杂,则两个滤镜的有效性会显着下降。

基于启发式的异常检测[Heuristics-Based Outlier Detection]:虽然先前提到的滤波器在轨迹中用估计值替代噪声测量,但是第三类方法通过使用异常值检测算法从轨迹直接去除噪声点。

噪声滤波方法已被用于T-Drive [Yuan et al. 2010a,2011a,2013a]和GeoLife [Zheng et al. 2009a 的; Zheng et al.2010]项目,首先根据点与其后继者之间的时间间隔和距离(我们称之为段)计算轨迹中每个点的行进速度。

切断速度大于阈值(例如,300km / h)的片段,例如p4 → p5, p5 → p6, 和p9 → p10(图2中虚线所示)。

假设噪声点的数量比普通点小得多,像p5和p10这样的分离点可以被认为是异常值。

一些基于距离的异常值检测可以很容易地找出在距离d 内的p5的邻居的数量小于整个轨迹中的点的比例。

同样,可以过滤p10,p11和p12。

虽然这样的算法可以处理轨迹中的初始误差和数据稀疏问题,但是设置阈值d和p仍然基于启发式。

3.2 停留点检测
空间点在轨迹上并不是等重要的。

有些地方表示人们停留了一段时间的地方,如购物中心和旅游景点,或加油车辆的加油站,我们称这种点为“停留点”。

如图3(a)所示,轨迹中出现两种停留点。

一个是单点位置,例如,Stay Point 1,用户保持静止一段时间。

这种情况是非常罕见的,因为用户的定位设备通常在相同的位置产生不同的读数。

第二种类型,如图3(a)所示的“Stay Point 2”,更为普遍地观察到轨迹,表示人们移动的地方(例如,如图3(b)和3(c)所示)或保持静止但定位读数会转移。

有了这样的停留点,我们可以将一系列时间戳-空间点P的轨迹转化为有意义的地方S,
因此促进了各种应用,如旅游建议[Zheng and Xie 2011b; Zheng et al. 2011c],目的地预测[Ye et al. 2009],出租车推荐[Yuan et al. 2011b, 2013b]和天然气消费量估计[Zhang et al. 2013, 2015]。

另一方面,在一些应用中,例如,估计路径的行进时间[Wang et al. 2014]和行车路线建议[Yuan et al. 2013a],这样的停留点应该在预处理期间从轨迹中移除。

Li 等[2008]首先提出了停留点检测算法。

该算法首先检查定位点(例如,p5)与其后继者之间的距离是否大于给定阈值(例如,100m)的轨迹。

然后,它测量定位点和距离阈值内的最后一个后继(即p8)之间的时间间隔。

如果时间间隔大于给定的阈值,则检测到停留点(由p5,p6,p7和p8表征);该算法开始从p9检测下一个停留点。

Yuan等[2011b, 2013b]基于密度聚类的思想改进了这种停留点检测算法。

在找到p5到p8是候选停留点(使用p5作为定位点)之后,他们的算法进一步检查p6的后继点。

例如,如果从p9到p6的距离小于阈值,则p9将被添加到停留点。

3.3 轨迹压缩
基本上,我们可以每秒记录移动物体的时间戳地理坐标。

但是,这需要大量的电池电量和通信,计算和数据存储的开销。

此外,许多应用程序并不真正需要这样的位置精度。

为了解决
这个问题,提出了两类轨迹压缩策略(基于轨迹的形状),旨在减少轨迹的大小,同时不会损害其新数据表示的精确度[Lee and Krumm 2011]。

一种是线下压缩(即批处理模式),它可以在轨迹完全生成后减小轨迹的大小。

另一种是在线压缩,当对象行进时,立即压缩轨迹。

距离度量[Distance Metric]:除了两种策略之外,还有两个距离度量来测量压缩误差:垂直Euclid距离和时间同步Euclid距离。

如图4所示,假设我们将具有12个点的轨迹压缩成三个点(即p1, p7和p12)的表示,则两个距离度量是连接p i 和的段的长度的总和,图4(a)和4(b)。

后一距离假定在p1和p7之间行进恒定速度,通过时间间隔计算上每个原始点的投影。

离线压缩[Offline Compression]:给定由一系列时间戳点组成的轨迹,批量压缩算法旨在通过从原始轨迹丢弃具有可忽略的误差的一些点来生成近似轨迹。

这与线简化问题相似,已经在计算机图形学和地图学研究领域进行了研究[McMaster 1986]。

一个称为Douglas-Peucker[Douglas and Peucker 1973] 的著名算法被用于近似原始轨迹。

如图5(a)所示,Douglas-Peucker的想法是用近似的线段代替原始轨迹,例如。

如果替换不符合指定的错误要求(在本例中使用垂直Euclid距离),则通过选择贡献最大误差的点作为分割点(例如p4),将原始问题递归地分解为两个子问题。

该过程一直持续到近似值和原始轨迹之间的误差低于指定误差。

原始Douglas-Peucker算法的复杂度为,其中N 是轨迹中的点数。

其改进实现了[Hershberger and Snoeyink 1992]。

为了确保近似轨迹是最佳的,Bellman算法[Bellman 1961]采用了一种复杂度为的动态规划技术。

在线数据缩减[Online Data Reduction]:随着许多应用程序需要及时传输轨迹数据,已经提出了一系列在线轨迹压缩技术来确定新获取的空间点是否应当保留在轨迹中。

在线压缩方法有两大类。

一种是基于窗口的算法,例如Sliding Window算法[Keogh et al. 2001]和Open Window算法[Maratnia and de By 2004]。

另一个是基于移动物体的速度和方向。

Sliding Window算法的想法是使具有有效线段的增长Sliding Window中的空间点适应,并继续增长Sliding Window,直到近似误差超过某个误差界限。

如图5(b)所示,p5将首先保
留为p3的错误超过阈值。

然后,算法从p5开始并保留p8。

其他几点可以忽略不计。

与Sliding Window算法不同,Open Window算法[Maratnia and de By 2004]应用Douglas-Peucker算法的启发式来选择窗口中最大误差的点(例如,图5(b)中的p3)到近似轨迹段。

然后将此点用作新的定位点来近似其后继。

另一类算法将速度和方向作为在线轨迹压缩的关键因素。

例如,Potamias等[2006]使用从最后两个位置导出的安全区域和给定的阈值来确定新获取的点是否包含重要信息。

如果新的数据点位于安全区域内,则该位置点被认为是冗余的,因此可以被丢弃;否则,它被包括在近似轨迹中。

压缩与语义含义[Compression with Semantic Meaning]:一系列研究[Richter et al. 2012; Chen et al. 2009]旨在在压缩轨迹时保持轨迹的语义含义。

例如,在基于位置的社会网络[Zheng 2011]中,用户留下来的一些特殊点,拍摄照片或者改变方向将比其他显示轨迹语义含义更重要。

Chen 等[2009]提出了一种轨迹简化(TS)算法,其考虑了形状骨架和上述特征点。

TS首先使用轨迹分割算法将轨迹划分为步行和非行进段(Zheng et al. 2008a](见第3.4节)。

一个点由其航向变化度和与其邻居的距离加权。

另一个研究分支[Kellaris et al. 2009年;Song et al. 2014]考虑了运输网络约束的轨迹压缩。

例如,我们可以减少同一路段上的冗余点。

只要移动物体在从定位点到当前位置的最短路径上行进,我们甚至可以在定位点之后丢弃所有新获取的点。

这个工作分支通常需要地图匹配算法的支持(参见第3.5节)。

2014年,PRESS [Song et al. 2014]被提出将轨迹的空间表示与其时间表示相分离。

PRESS由混合空间压缩算法和误差有限时间压缩算法组成,分别压缩轨迹的空间和时间信息。

空间压缩将频繁的序列模式挖掘技术与Huffman编码相结合,以减小轨迹的大小;也就是说,频繁行进的路径可以用较短的代码表示,因此可节省存储空间。

3.4 轨迹分割
在许多情况下,例如轨迹聚类和分类,我们需要进一步将一个轨迹进行分割。

分割不仅减少了计算复杂度,而且使我们能够挖掘更丰富的知识,如子轨迹模式,从而超出了我们从整个轨迹中学到的知识。

一般来说,有三种类型的分割方法。

第一类是基于时间间隔。

例如,如图6(a)所示,如果两个连续采样点之间的时间间隔大于给定的阈值,则将轨迹在两点分为两部分,即p1 → p2和p3 → · · · → p9。

有时,我们可以
将轨迹划分成相同时间长度的段。

第二类方法是基于轨迹的形状。

例如,如图6(b)所示,我们可以通过转向点来划分轨迹,即方向在阈值上改变幅度。

或者我们可以使用线简化算法,如Douglas-Peucker算法,来识别保持轨迹形状的关键点,如图6(c)所示。

然后通过这些关键点将轨迹分割成段。

类似地,Lee等[2007]提出通过使用最小描述语言(MDL)的概念来划分轨迹,该概念由两个部分组成:L(H) 和L(D|H)。

L(H)是假设H的描述的长度(以位为单位);而L(D|H)是借助于假设对数据的描述的长度(以位为单位)。

解释D的最佳假设H是最小化L(H)和L(D|H)之和的那个。

更具体地说,它们使用L(H)表示分割段的总长度(如和),而让L(D|H)表示原始轨迹与新轨迹之间的总(垂直和角度)距离分区段。

使用近似算法,它们找到从轨迹最小化L(H) + L(D|H)的特征点的列表。

通过这些特征点将轨迹划分成段。

第三类方法是基于轨迹中点的语义含义。

如图6(d)所示,基于其包含的停留点,可以将轨迹分成段,即p1 → p2 → p3和p8 → p9。

我们是否应该在分割结果中保留停留点取决于应用程序。

例如,在旅行速度估计的任务中,我们应该删除出租车停放等待乘客的停留点(出租车的轨迹)[Yuan et al. 2013b]。

相反,为了估计两个用户之间的相似性[Lee et al. 2008],我们只能关注停留点序列,同时跳过两个连续停留点之间的其他原始轨迹点。

另一种基于语义意义的轨迹分割是将轨迹划分成不同运输模式的部分,例如驾驶,乘坐公共汽车和步行。

例如,Zheng 等[2008a,2008b,2010c]提出了一种基于步行的分割方法。

关键的观点是人们必须走过两种不同的交通模式之间的过渡。

因此,我们可以首先根据点的速度(p ·v)和加速度(p ·a)来区分轨迹中的步态点和非步行点。

如图7(a)所示,轨迹可分为备选步行段和非步行段。

然而,实际上,如图7(b)所示,例如,当总线在交通拥堵中缓慢移动时,可以将非步行段的几点检测为可能的步行点。

另一方面,由于定位误差,步行段的几点可能超过行驶速度(v t)的上限,因此被识别为非步行点。

为了解决这个问题,如果段的距离或时间间隔小于阈值,则将段合并到其后向段中。

之后,如图7(c)所示,如果段的长度超过阈值,则将段视为特定段。

否则,它被视为不确定细分。

由于普通用户在短距离内不频繁地改变其运输模式,如果连续不确定段数超过一定阈值(在本示例中为三个),则将不确定的段合并成一个非步行段。

之后,从每个段提取特征以确定其确切模式。

3.5 地图匹配
地图匹配是将原始纬度/经度坐标序列转换为路段序列的过程。

了解车辆所在的道路对于评估交通流量,引导车辆的导航,预测车辆的行驶路线以及检测起点与目的地之间最常见的行进路径等是重要的。

地图匹配不是一个容易的问题,因为parallel roads, overpasses 和spurs [Krumm 2011]。

基于所使用的附加信息或轨迹中考虑的采样点的范围,有两种方法来对地图匹配方法进行分类。

根据所使用的附加信息,地图匹配算法可以分为四组:几何[Greenfeld 2002],拓扑[Chen et al. 2003; Yin and Wolfson 2004],概率[Ochieng et al. 2004; Pink and Hummel 2008; Quddus et al. 2006]和其他先进技术[Lou et al. 2009年; Newson and Krumm 2009; Yuan et al.2010b]。

几何地图匹配算法考虑道路网络中各个链路的形状,例如将GPS点与最近的道路相匹配。

拓扑算法注意道路网络的连通性。

代表性算法是使用Fréchet距离来测量GPS序列和候选路线序列之间的拟合的算法[Brakatsouls et al. 2005]。

为了处理嘈杂和低采样率的轨迹,概率算法[Ochieng et al. 2004; Pink and Hummel 2008; Quddus et al. 2006]明确规定了GPS噪声,并考虑通过道路网络的多个可能路径找到最佳路线。

最近出现了更先进的地图匹配算法,其包括路网的拓扑和轨迹数据中的噪声,例如Lou等[2009],Newson和Krumm [2009],Yuan等[2010 b]。

这些算法找到了一系列道路段,它们同时靠近嘈杂的轨迹数据,形成了通过道路网络的合理路线。

根据考虑的采样点的范围,地图匹配算法可以分为两类:局部/增量和全局方法。

局部/增量算法[Civilis et al. 2005; Chawathe 2007]遵循从已经匹配的部分顺序扩展解决方案的贪心策略。

这些方法尝试基于距离和方位相似度找到局部最优点。

局部/增量方法运行非常有效,通常在在线应用程序中采用。

然而,当轨迹的采样率低时,匹配精度降低。

相反,全局算法[Alt et al. 2003; Brakatsouls et al. 2005]旨在将整个轨迹与道路网络相匹配,例如,考虑到前提和后继者的一点。

全局算法比局部方法更准确,但效率更低,通常应用于已经生成完整轨迹的离线任务(例如挖掘频繁轨迹模式)。

高级算法[Lou et al. 2009; Newson and Krumm 2009; Yuan et al. 2010b]结合局部和全局信息(或几何,拓扑和概率)来处理低采样率轨迹的映射。

如图8(a)所示,Lou[2009]等人提出的算法首先找到在轨迹中每个点的圆内的局部候选路段。

例如,路段,,和在距离p i的圆内,并且,和是这些路段上的候选点。

p i和候选点之间的距离表示p i 可以与候选点匹配的概率。

这个概率可以被认为是由正态分布建模的局部和几何信息:。

相关文档
最新文档