基于出租车GPS数据的南京市交通小区的划分
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于出租车GPS数据的南京市交通小区的划分摘要:在南京市出租车GPS海量数据中,提取部分数据对南京市市域进行交通小区的划分,利用SPSS19.0的Kmeans聚类分析方式对其进行分析,最终将分类数据进行可视化,对交通小区边界确定作出一些改进,以及对出租车GPS数据的利用作出了一些设想。
关键词:GPS数据交通小区Kmeans聚类
目前各大城市出租车均搭载了GPS,产生了海量的数据,而出租车司机的寻客行为很大程度上属于盲目寻客。本文旨在利用这些数据进行分析,使用乘客上下点进行交通小区的划分,从而对出租车寻客行为起到一定指导作用。
所谓交通小区,最早是在交通规划领域中提出的,其目的主要是为了定义城市路网中交通起讫点的位置,然后使用需求预测模型对各交通小区间的交通出行量进行预测[1]。
1 数据的提取与预处理
在城市居民出行影响因素中,时间和空间分布的研究是最重要的两点,有人把一天分为8个时间段进行居民出行研究,其研究结果表明工作日的居民出行行为主要是通勤出行,其最主要的出行时间段为7:00- 9:30和17:00-19:30,出行空间分布主要是居住地和工作地[2]。
此次实验数据为南京市2010年9月30日出租车GPS数据,数据库中表字段有ID(点唯一标识)、VehicleSimID(车辆唯一标识)、GPSLatitude(纬度)、GPSLongtitude(经度)、PassengerState(0-空车,1-非空车)、CreateDate(记录建立时间)。该次试验以7:00-9:30时间段的数据为例。
1.1 提取数据库中的数据
利用千万数量级的出租车GPS点数据进行交通小区划分,需要乘客上下车点的数据(OD)。所谓上车点,即PassengerState由0变为1的点(O);所谓下车点即PassengerState由1变为0的点(D)。本次实验提取7:00-9:30的所有出租车乘客上下车点数据。
1.2数据预处理
南京市域地理坐标为北纬31°14'~32°37',东经118°22'~119°14'。全市行政区域总面积6587.02km2。利用精度范围信息,剔除重复数据,记录不全数据,错误数据;由于最初得到的GPS坐标参数为WGS84坐标,必须经过坐标变换,进行高斯平面投影,最后才能在电子地图上显示出相应的位置[2]。再结合Excel对数据进行筛选,排除市域范围外的记录。
2 聚类分析
对处理好的数据进行聚类分析,本次采用Kmeans聚类分析方法
进行聚类,Kmeans是一种基于划分的聚类方法,又叫快速聚类法。
其算法思路是:
(1)假设将样本划分为K个类。
(2)选取K个初始聚类中心。
(3)从第一个样本开始计算其到各中心距离,并将该样本划分到距离最短中心所属类。
(4)从新计算聚类中心,重复(2)-(3),直到准则函数收敛为止。
而对于交通小区的划分,一般情况下可依照以下原则[3]:
(1)区内的经济社会等因素一致。
(2)小区划分不打破行政区划分。
(3)数量适当,中等城市约50个,大城市约100~150个。数量太多加重规划的工作量,数量太少又会降低分析的精度。
本次实验采用SPSS进行Kmeans聚类分析,设置参数。分类后把含样本数太少的类别删除,最终剩下33个类别。
3 聚类数据可视化
将各类别的数据导入arcgis进行可视化,按聚类类别符号化。各圆点为上/下车点,各点组成的颜色块为聚类块,五角星为各聚类中
心。
4 交通小区边界确定
现已有一种较好的交通小区边界确定方法,它将平面直角坐标均分为n等份,再将聚类的点放入坐标系,依次计算第i个区域里每个点到中心点的距离,最后将离中心点最远的点为连接起来,得到点集相应边界[3]。
此种方法有一些欠缺的地方,比如交通小区之间存在较大的空间,往往成为未被任何交通小区划分的地带,另外也没有结合土地利用、河流、行政等分界线进行划分。在考虑到交通小区必要的独立性条件下,对其进行改进,采取最远距离画圆法进行交通小区的边界线划分。具体步骤如下:
(1)坐标系以(0,0)为中心点均分为n 等份区域,
(2)记录距离中心点最远的点为ci与中心的距离r,
(3)以中心点为圆心,r为半径画圆,得到初步交通小区。
(4)若与邻近交通小区相交,则以交线重新分界。
(5)若与土地利用、河流、行政等界线相交,同样也以交线重新分界。
5 结语
据已有文献查阅,南京市尚未进行过交通小区的划分,本文利用出租车GPS数据对其利用Kmeans聚类进行了交通小区的划分,并基于以往划分方法,对于边界划分作出了一些改进。但是仍存在一些问题,如Kmeans方法的最大问题在于K值的设定。本次实验类别数目K和初始聚类位置的确定都很难,本文只是采取随机初始化聚类中心,后期可以采用canopy算法对Kmeans算法进行改进,在无需确定K值和聚类中心情况下进行聚类。另外也没有对聚类结果进行评价,这些在后期研究都应当进行。
参考文献
[1] 郭峤枫.浅析交通小区划分问题[J].黑龙江科技信息,2010(28).
[2] 童晓君,向南平,朱定局.基于出租车GPS数据的城市居民出行行为分析[D].中南大学,2012.
[3] 吕玉强,秦勇,贾利民.基于出租车GP数据聚类分析的交通小区动态划分方法研究[J].物流技术,2010(216).