基于行人GPS轨迹提取路网信息的高效算法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于行人GPS轨迹提取路网信息的高效算法
引言
当今时代,数字地图对于每一个人来说都变得日益重要。普通用户下载诸如Google地图、百度地图等类似软件来寻找目的地以及周围的景点、住宿和餐旅等等。商家用来宣传
自己的品牌(Fathi and Krumm 2010)。但对国内数字地图而言,目前大部分都由特定的地
图供应商通过专门部署GPS装置的汽车在路上行驶并采集数据。数据获取与更新成本的高
昂意味着购买这些这类地图数据需要花费大量的资金。因此,国内除了百度、高德、搜狗外,鲜有其他的地图服务商。然而,随着城市化进程的加快与道路网的建设与完善,用户
却面临这样的问题:某个地方新修了一条道路,但因路网数据的更新不及时而无法在地图
上找到这条路。如何缩短路网更新时间,尽可能满足用户的需求体验,则需要探索新的路
网采集与更新方式。在带有GPS装置的移动设备越来越普遍的背景下,如何通过合理的路
网挖掘算法,有效利用这些普通用户的定位数据,及时更新现有路网信息,这不仅极大降
低路网更新的高昂成本,还将有力提升地图服务的质量与效率。
这项技术的难点有二:一是大数据量。每天有成千上万的人通过搭载有GPS装置的设
备定位,假如按照每周一次更新的设想来获取GPS轨迹数据,这个数据量也将轻松突破TB 级。大数据的获取与处理需要强有力的硬件支撑,但这不是本文的重点。二是合适的路网
挖掘算法。将GPS数据转换为数字化路网,并与原有路网匹配,删除已经废弃的道路,添
加新增的道路。世界上最大的开源地图提供商OpenStreetMap(Haklay and Weber 2008)采
用一种让志愿者携带GPS装置记录GPS轨迹来手动更新地图的方式,获取的数据称为“志
愿者地理信息”(Haklay 2008)。志愿者地理信息秉承“人人都是传感器”的理念(Schroedl, Wagstaff et al. 2004),将每个人不仅作为地理信息的使用者,更是生产
者。参考上述理念,本次实验通过寻找志愿者,确定所需的实验区,采用步行的方式,边
走边采集GPS点,形成了大约10万条GPS轨迹数据,建立GPS轨迹数据库,并设计新型的路网挖掘算法,从中提取有用的路网信息挖掘路网。
国内外研究现状
国外对于道路的提取算法研究比较成熟。这些算法大都基于算术几何,有的以节点为
核心,有的以特征追踪为核心。这对于较为规则的车辆轨迹处理是高效而准确的(Fathi, A. and J. Krumm ,2010)。这些算法之所以高效,一是因为算法设计的恰当,另一方面则是因
为高采样率而低随机性的GPS数据。这种通过专门的车载导航系统获取的大量数据,数据特征规则且明显(图1),算法难度不是很高。然而,VGI数据在实践中往往是低采样率的,大约为2-5分钟有一个点,点与点之间相隔太远导致一些正常的匹配算法在面对VGI数据时低效,甚至有可能产生逻辑错误。另外,专门采集数据处理后得到的信息主要用于驾驶的道路网,而对于行人需要的步行网,例如天桥、地下通道等减少交通负担的设施生成与更新方面研究不多。
图1 来自文献[1]、[3]、[4]的原始数据,可以明显的看出路网而无干扰
国内对于通过GPS轨迹挖掘新道路网的研究相对较少,大部分算法是将矢量轨迹数据转换为栅格数据,然后利用图像识别算法提取路网,方法简单高效,但只适用于那些特征明显的轨迹的数据。由于这类算法完全抛弃了矢量数据的优点,在面对VGI时就显得束手无措。值得注意的是国内学者(陈琦,2011,廖顺华,2007)在这方面开展的一些研究。这些研究多针对传统的路网采集方式,得到的GPS轨迹由专门的GPS装置采集得到,数据量小,用来更新专门的路段,比如陈漪的立交桥识别,实用性相对较小。为了解决上述存在的问题,本文设计了一个用于挖掘步行GPS轨迹的并行算法。首先,需要先研究一下VGI 数据。
研究区数据
实验研究区来自安徽省合肥市市区的一部分,周长约20.12公里,面积约23.68平方公里。由于是在市区,道路网比较密集,人流量巨大,所以路网的更新对于这个地区来说显得尤为重要。同时也从百度公司获得了以前的旧路网数据。
图2 研究区的路网数据(未经更新)
整体上看,大部分的道路网数据是正确的,但局部存在很多偏差(图4)。
图3 路网与现实路网中的不匹配
本次实验的VGI数据采集部分模仿了OpenStreetMap的路网数据采集方式,但是更加突出了行人步行轨迹的无规律性,让志愿者在研究区域携带GPS走动,总共采集了将近10万条数据(图4)。
图4 10万条轨迹数据
整个实验区域的整体路网肉眼还是能够清晰辨认,但不同于以往专门采集的地理数据,路网存在很多错误路径和轨迹的不均匀分布。通过观察图的具体细节,可以看出步行轨迹不同于车辆轨迹的特点如下:
(1)可以在统计意义上看出路网的形状,但由于不是专门采集的数据,轨迹的方向几乎可以说毫无规律(图6);
(2)步行轨迹的终点容易集聚在一个地点,这些地点往往是一个景点入口,或者一个商城;
(3) 由于步行的随意性,道路两旁很容易出现一些不是路网的稀疏路线;
(4) 轨迹分布不均匀尤为明显;
(5) 更为重要的是步行者的轨迹不仅仅会出现一些交通路网上,还有可能出现在其他可以自由步行的场合,比如操场。
图5 局部数据放大图
算法流程
1.道格拉斯-普克线简化算法
在本试验中,算法预处理步骤是后续步骤能否有效运行的关键步骤。面对海量的步行轨迹数据,首先就是要将其中的不稳定和错误因素尽可能去除掉。一些经常在数据中出现的轨迹错误有下面几个:
(1) 不可估性。由于定位的不准确,一些轨迹会偏离原本的道路。
(2) 冗余性。步行轨迹的随意性决定了一些轨迹会有自身的一些重复。
(3) 跳跃性。志愿者GPS轨迹的不稳定性,导致一些轨迹出现很奇怪的转弯或者跳跃。类似横穿街区,在非道路的地方的轨迹走动。
(4) 稀疏性。一些道路由于穿过社区,或者由于采样间隔的原因,使
得轨迹点往往比较稀疏,但仍可能是一条步行道路。
对于上述问题,首先采用一种叫道格拉斯-普克线简化的算法对数据进行处理。道格拉斯-普克算法(Douglas–Peucker algorithm),亦称为拉默-道格拉斯-普克算法、迭代适应点算法或分裂与合并算法。该算法是将曲线近似表示为一系列点,以减少点的数量。
道格拉斯-普克算法处理效果的关键就是阈值的选择,本次实验综合考虑各个因素,选取一般道路正常宽度的50%作为阈值,得到经过线简化后的行人轨迹数据。线简化一方面纠正了一些行人轨迹的数据的轨迹错误,另一方面也降低了数据量。
2.细碎线段删除
在实验数据中能够看到一些小的细碎的线段,这些线段往往是没有意义的,在大数据量的前提下,这些数据的删除基本不会影响结果,而且还能减少带来的误差,降低数据量。