基于浮动车数据的哈尔滨市市区出行OD分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
河北工业大学毕业论文
作者:学号:
学院:土木工程学院
系(专业):交通运输系交通运输专业
题目:基于浮动车数据的哈尔滨市
市区出行OD分析
指导者:
评阅者:
2015 年 6 月 14 日
目录
1 绪论 (1)
1.1 研究背景 (1)
1.2 研究的目的与意义 (1)
1.3 国内外研究现状 (2)
2 浮动车数据的分析与处理 (5)
2.1 相关概念 (5)
2.2 浮动车数据的处理 (7)
2.3 本章小结 (16)
3 利用聚类分析划分交通中区 (17)
3.1 聚类分析概述 (17)
3.2 交通中区划分概述 (20)
3.3 研究区域交通中区的划分 (20)
3.4 OD矩阵的获取 (29)
3.5 本章小结 (31)
4 哈尔滨市居民出行特征分析 (32)
4.1 出行量随时间的变化规律 (32)
4.2 出行量随空间的变化规律 (35)
4.3 基于居民出行特征提出改善交通的几点建议 (36)
4.4 本章小结 (37)
结论 (38)
参考文献 (39)
致谢 (41)
附录A (42)
1 绪论
1.1 研究背景
随着社会经济的发展,城市人口的不断增加,私家车数量的不断壮大,当前城市交通问题日益严重,各种矛盾日益突出,交通拥堵,事故频发。
为改善市内交通的状况,需要对城市现有的路网合理地规划运用,并适当地增加一些地下通道、立交桥等来疏导拥堵路段的交通,此外合理安排公共交通工具的运营调度,完善市内的公共交通运输系统也是一种有效措施,而要做到以上则首先必须了解居民的出行规律,只有在了解居民的出行规律,能够正确掌握交通流的时空分布特征,才能够对交通各相关方面做出合理的调整,改善市内交通条件,使交通更加地流畅。
OD矩阵作为居民出行特征的数字表现形式,便是改善市内交通的数据基础,如何获取实时准确的乘客OD信息是问题的关键。
此外浮动车技术作为新兴的交通数据采集技术,凭借其成本低,测试范围广,实时性强等优势逐渐地在交通数据采集中得到了广泛应用,如何通过浮动车数据来获取精确的OD矩阵成为国内外学者研究的热点。
市内公共交通工具,出租车、公交车等由于其运行的空间和时间跨度均比较大,且属于公共交通工具,GPS等数据信息容易获取到,非常适于作为浮动车采集市内路网的交通数据信息,其中由于出租车具有机动灵活,不受线路和运行时刻表等的约束,运营时间自由,可以实现门到门的服务,因此相对于公交车而言,通过出租车的运行特点所获取的城市居民OD矩阵更加地准确,同时居民出行在时间上的分布也更加全面,因为公交车存在运营时间的限制,而对于整体出租车而言,其是全天运行的,能够很好地填补了公交车在运营时间上的空白,因此在本文中,将出租车作为浮动车,通过出租车在运行期间所采集的相关数据信息来获取研究范围内居民出行OD特征。
1.2 研究的目的与意义
本课题的研究目的在于利用浮动车数据获取城市居民的OD矩阵,在本文中以出租车为例,通过对出租车运营过程中所采集的GPS数据、状态值、等信息的分析与处理,获取实时、准确的城市居民乘坐出租车出行的OD矩阵。
精确的OD矩阵对于交通需求估计的准
确性、交通设施的优化管理,提高公共交通设施服务水平等是至关重要的,通过OD矩阵可以知道乘客的出行规律,出行分布,可以据此来调整道路的使用,对各项交通设施的部署进行空间和时间上的调整,以使其能够更好地与居民的出行相契合,为出行者提供更加高水平的服务。
传统的交通调查技术,如跟车调查法、问卷调查法等往往存在采集到的数据量少、测试范围不全面,成本高等问题,浮动车法是近几年来发展起来的一种进行交通数据采集的技术,其很好地弥补了传统交通调查的缺点,大大地提高了交通调查数据的准确性、全面性保证了所得到乘客出行OD矩阵的准确性。
1.3 国内外研究现状
鉴于传统的OD矩阵的获取需要进行大量的交通调查,需要耗费大量的人力、财力和物力,而且数据生命周期短,时效性差,因此自1978年van Zuyle和Willumsen[1]利用检测到的交通量,运用最大熵原理来进行OD矩阵“反推”以来,各国便就OD估计展开了研究,各种估计方法层出不穷,由于相对于静态OD矩阵而言,动态OD矩阵具有更好的时效性,更能够满足交通规划与管理的需要,因此自20世纪80年代以来,各国的研究重点便放到了动态OD矩阵上。
我国相关方面的研究起步较晚,但是也是发展迅猛。
以下就是目前国内外OD矩阵估计的研究现状。
1.3.1 国外研究现状
国外关于公共交通OD矩阵估计的研究重点主要放在了如何得到一个通用且有效的算法上,在动态OD矩阵估计方面常用的算法主要有:最大似然法、广义最小二乘法、极大熵法、最小信息量法、BP-神经网络模型,均衡算法与非均衡算法,双层规划数学模型等等[2]。
1991年,基于交通控制中心和车辆之间的相互通信规定,使得有效的动态OD矩阵的连续估计成为可能,皇后大学的Van Aerde,M. [3]提出了建立动态OD矩阵的四阶段法的数学方法,并且说明了OD矩阵估计的统计方法的局限性,作者提出只有在网络的市场渗透率足够高的情况下,才能保证OD矩阵估计的准确性,利用车辆数据与控制中心的交互生成动态OD矩阵在当时是不现实的,但是这种方法是一个非常具有潜力的方法。
2000年,Turksma,S. [4]提出交通控制以及交通信息服务在很大程度上依赖于路网信息的精确性,通过感应线圈获取的路网信息情况不能满足实际需求,而通过浮动车技术可以精确地测量在城市内复杂的道路网络中以及高速公路网络中车辆的行驶时间以及获取精确的OD
矩阵。
2004年,Eisenman,S.M. [5]提出探针的使用为OD矩阵的估计提供了一种全新的数据源,并且对于利用探针估计OD矩阵存在的问题给出了解决方案。
Matschke,I.[6]提出了通过使用交叉口级别的附加信息来估计OD矩阵的方法,作者通过检测流量数据和交叉口信号灯的配时信息来确定其所需的附加信息,并通过将信息向周边连接传播,进而扩大OD估计的范围。
2007年,Caceres,N. [7]提出了通过移动手机网络生成OD数据的想法,利用移动通信系统移动电话网络全球系统来检测路网中车流的运动状况,由于检测活动仍然在GSM网络中进行,只需要从基站数据库中提取数据即可,成本效益比相对于传统方法更优。
2009年Biletska,K. [8]指出交通信号灯控制路口的OD矩阵是交通系统中的一个关键信息,作者提出了一个新的动态两步法用来估计信号交叉口的OD矩阵。
2011年,Frederix,R.[9]提出通过分解来简化复杂的拥堵路网,将其细化为多个等级,在每个等级上单独进行OD估计的方法。
2015年,Mahmoudabadi,A.[10]提出了一个两阶段过程,包括确定路径的最小化观测值与预测值之间的误差,来获取所需调查路网中的OD矩阵。
1.3.2 国内研究现状
我国关于OD矩阵的研究自上世纪九十年代便开始了,1995年,广东工学院的林思能[11]提出了通过处理记录车牌照法所得的数据来进行OD矩阵推断的思想,虽然该方法在当时的各种方法中相对简单,但是由于对计算的要求较高,而当时我国的数据计算能力还较低,所以在当时这种方法没有得到推广,但之后我国相关方面的研究逐渐地多了起来。
1996年,王炜、孙俊[12]两人就对于大型交通网络OD矩阵的推算的方法进行了研究,其利用极大熵模型,通过路段的交通量进行OD矩阵的推算;丁以冲[13]提出了利用交通量观测值进行OD流估计的贝叶斯——交通流均衡模型。
1999年,安梅,高自友[14]提出了一个进行多模式OD估计双层规划问题的新的解法——多模式逐步更新比例矩阵算法,提供了一种更加简单的方法来确定均衡状态下的比例矩阵,在得出OD需求估计值的同时也得出了各个末端的路段的流量估计值。
2000年张文新、胡列格[15]等人提出了一种新的交通OD流估计的解法——四维搜索,通过将节点的迂回流与直达流相分离,求解节点的发生量与集中量来进行交通流估计;尹娟、郭国会[16]提出了利用神经网络进行交通OD矩阵的推算。
2001年,史峰、付印平[17]提出了在拥挤网络中,OD矩阵的估计模型以及算法,采用用户平衡分配与随机用户平衡分配的方法来进行OD矩阵的推算。
2003年陈森发、周振国[18]等人基于极大熵原理,推导出相应的数学模型,并利用迭代算法,建立了一种动态OD矩阵的估计算法。
在2004年林勇、蔡远利、黄勇宣[19]结合了递推法以及一步法二者的优点,建立
了滑动窗广义最小二乘法模型来进行动态的OD矩阵估计,并且提出了一种更加切合实际的分配矩阵的计算公式。
2005年董敬欣、吴建平[20]提出了利用浮动车进行OD矩阵的检测,即利用浮动车车辆上的车载工具记录的车辆的运行数据作为数据基础对所估计的OD矩阵进行检测。
2009年,郭仁拥、黄海军[21]根据路网中可能出现的变异情况,提出了一个改进的网络交通流演化模型。
2014年,陈震霆[22]等人提出了利用移动定位来获取OD矩阵的想法,考虑到我国移动手机用户量之庞大,这是一个很可行的方法。
此外,在数据采集方面目前,现行的公共交通OD矩阵数据采集常用的方法主要有人工调查法和非人工调查法。
人工调查法主要通过发放调车问卷、跟车调查、电话咨询等方式来获取乘客的出行信息,这种方法可以节省高新技术设备的成本,而且机动灵活,可以随时根据需要进行工作的调整,但其也存在自身的缺点:人力有限不可能进行大范围的数据收集工作,人工调查的调查周期有限,数据的时效性比较差等;非人工调查法是近几年新兴的,主要通过道路上安装的检测设备,公交IC卡信息信息统计,浮动车法,图像识别技术等。
非人工调查法主要是利用一些技术手段来获取乘客的OD信息,比如利用IC卡信息技术统计,利用车辆内的监控信息通过图像识别技术判断车内的人数,利用路边安装的检测设备检测车辆信息等等,由于非人工调查法收集的数据一般为实时数据,时效性比较强,可以不断地更新收集到的数据,因此对其的应用越来越广。
1.4 本文主要研究内容
本论文研究目的是找出一种方法能够根据所采集到的浮动车数据信息来得到较准确
的城市居民的出行特点,得出较精确的OD矩阵。
在此我们以哈尔滨市的出租车数据为例,将其作为浮动车数据,听过对所获取的数据的处理来获取居民乘坐出租车出行的OD矩阵,分析哈尔滨市居民的出行特征。
本研究的优先之处在于浮动车收集的数据时效性较强,相对于人工调查的数据更加客观准确,本研究的数据基础是哈尔滨市全市的出租车的GPS数据,数据全面,不是通过某一具体算法来估计OD分布,而是通过分析收集到的大量数据来得出居民的出行特征。
2 浮动车数据的分析与处理
2.1 相关概念
2.1.1 OD矩阵
OD矩阵是在道路网中的出行者所有的起、终点之间出行量所组成的数量表格,其很好地反映了出行者对交通网络中道路交通通过量的需求,是进行交通管理与规划的基础依据,其中动态OD矩阵能够反映在特定的时间内每一个OD对之间的交通需求,但是在通常情况下,需要进行大量的调查以来收集OD数据,需要大量的人力和财力作为支撑,同时得到的数据往往是静态OD矩阵,因此如何在避免交通调查的情况下更加省时省力地获取出行者的OD数据成为当今交通领域研究的热点问题。
2.1.2 交通信息采集技术
根据设备工作的地点不同,将交通信息采集的技术分为固定式和移动式两种信息采集技术,以下是对两种信息采集技术的基本介绍以及两者之间的比较。
(1)固定式交通信息采集技术
顾名思义,固定式交通信息采集技术主要是通过安装在需要采集信息的道路上的可进行信息采集的固定检测设备以来观测所经过的车辆,来获取交通信息,其中常用的交通信息检测技术主要有视频采集技术、波频采集技术、磁频采集技术三种,下面对三者进行简单说明:
视频信息采集技术,其是综合利用视频采集与模式识别的新兴的检测技术,是通过特定的软件来处理持续采集到的视频图像来获取交通信息。
波频信息采集技术,根据其主被动性分为被动式采集技术和主动式采集技术。
其中被动式采集技术是通过检测器来接收所经过的车辆发出的能量波,并对其进行分析,提取所需信息;主动式采集技术是采集设备主动发出能量波,当车辆经过时便会将能量波反射回来,检测器接收到以后对其进行分析处理获取所需信息。
磁频信息采集技术,主要是利用电磁感应原理,当车辆经过检测区的时候,会改变检测器的磁场进而使其内部电流发生变化,当其变化超过设定阈值时便会计入记录,完成车辆信息的采集工作。
(2)移动式信息采集技术
移动式信息采集技术是指将可进行交通信息采集的特定设备安装到车辆上,然后利用车辆在路网中的移动来收集所需的交通信息。
常见的移动式信息采集技术目前主要有以下三种:电子标签信息采集技术、手机浮动车信息采集技术以及GPS浮动车信息采集技术。
电子标签信息采集技术是指将特定的电子发射器安装到车辆中,在车辆行驶过程中其发射的信息会被道路两侧的信号接收天线采集到,继而利用计算机处理采集到的信息获取所需的交通信息。
手机浮动车信息采集技术是指在车辆中放入手机,通过车辆在路网中行驶,通过手机与各个移动通信基站之间的位置变化来将车辆移动轨迹匹配到路网中,进而获取所需的交通信息。
GPS浮动车信息采集技术主要是指将可以进行测速和定位的GPS设备安装到车辆中,在其在路网中行驶过程中,GPS设备会定时返回车辆的速度、经纬度等数据信息,通过对这些数据处理获取所需的信息。
(3)交通信息采集技术之间的比较
表1-2各种交通信息采集技术之间的比较
目前,随着智能交通系统的建设,对交通信息数据的广度要求越来越高,固定式信息采集技术在信息采集范围、成本方面的不足日渐显现出来,与此同时随着GPS定位的精度的不断提高以及信息传输技术的不断发展和进步,移动式信息采集技术数据的精度不断提高,此外由于其覆盖范围广、维护成本低、数据实时性较强等优点,越来越受到人们的青睐,应用越来越广泛,其中尤以GPS浮动车信息采集技术的应用最为广泛。
2.1.3 GPS浮动车信息采集技术
GPS浮动车信息采集技术是近几年世界上在进行智能交通系统的建设时采用的交通信息采集的先进的技术之一,是指在城市路网中行驶的车辆上安装可进行速度、位置、车辆运行状态等数据信息的设备终端,在车辆行驶过程中其会间隔固定的时间间隔采集车辆的数据信息并通过无线网络回传给控制中心,然后控制中心对数据信息进行接收、存储以及分析、处理、发布等工作,进行地图匹配、路径推算等,将浮动车的数据在时间和空间上与城市的路网联系起来,通过浮动车数据获取城市路网的状态信息[23]。
GPS浮动车信息采集技术主要由安装着GPS终端设备的车辆,即浮动车、无线网络、控制中心等组成。
2.2 浮动车数据的处理
在此以出租车数据处理为例,由于出租车机动灵活,不受线路的约束等特点,可以认为乘客上下车点便是其出行的始终点,因此只需判断乘客的上下车点便可获取出租车乘客的OD矩阵。
本文主要进行出租车GPS数据的研究和处理,以来、获取研究区域的OD数据,由于市内交通状况变化以一天作为一个小周期,一周作为一个大周期,因此在本研究中选取2014年1月6日到12日这一周作为研究周期。
由于作为浮动车的出租车辆有13686辆,每辆出租车每天全天24小时每分钟上传两条数据,每天会上传将近3000条数据,所有出租车每天会上传两千多万条数据,数据量过大,数据处理时间过长,在硬件和时间上都不
太可行,因此需要进行抽样调查的方法,根据确定样本量的经验法则,当总体规模较小的时候,在研究时需要较大的抽样比例,一般大约为30%,才能有较高的精确度;对于中等规模的总体,抽样比率为10%便可以达到同样的精确性;而对于规模比较大的总体,抽样比率为1%,便可以得到比较精确的结果;当样本的规模非常大的时候,大约0.25%的抽样比率便可以达到比较精确的结果[24],鉴于确定样本容量的经验法则,并且考虑到硬件方面的条件,将抽样比率确定为1%,即每天随机选取137辆出租车的数据作为样本进行研究处理,由于对于所研究的这七天数据的处理过程均相同,为避免赘述,故下文中数据处理过程均选择研究期限内一天的数据处理来进行阐述,本文选的是2014年1月7日的数据。
原始数据是dmp格式的oracle备份数据文件,下面对出租车GPS数据表格内各个字段进行简要的说明,见表2-1。
表2-1 GPS数据各字段说明
2.2.1 数据预处理
由于GPS定位精度的不足、大气层对信号传输的影响、建筑物的遮挡或者人为操作错误等原因会导致GPS原始数据中的一些数据存在很大的误差,无法通过其来获取交通信息,因此要对原始的数据进行预处理以来剔除问题数据,由于本研究旨在进行OD分析,所以在这里主要考虑经纬度越界这种形式的误差的处理。
通过对哈尔滨市2014年1月7日这一天数据的分析得出全天有约96.7%的出租车的坐标点位于哈尔滨G1001绕城高速公路以内的范围,故将研究范围锁定在G1001所圈画起
来的范围内,其经纬度的坐标范围为:纬度45.635406 至 45.861084,经度126.478385 至126.842994,坐标圈定范围如图2-1所示,故可利用这一数据范围来进行经纬度越界数据的处理,将这一范围外的数据剔除出去。
图2-1 范围圈定示
本研究的原始数据是dmp格式的数据,因此直接将其导入oracle数据库中,采用oracle数据库对数据进行处理。
但经过试验发现,Oracle数据库数据处理速度比较慢,处理少量的数据还可以,当数据量比较大的时候其数据处理速度慢这一缺点便尤为突出,故在本文中采取oracle完成对数据的预处理,之后将数据导出,利用excel VBA进行数据处理,由于对于七天的数据而言,处理过程是完全相同的,在此以2014年1月7日的数据处理为例,在oracle中完成数据样本的选取以及范围的筛选,要从所有的出租车中选出137辆出租车作为样本,为了便于筛选,在此选取了车辆编号位于010******* 和010*******之间的车辆为样本车辆,并选取了上述137辆车所有数据中经度位于
126.478385到126.842994之间并且纬度位于45.635406到45.861084之间的数据,并且为了便于之后的数据处理对数据根据车辆编号以及数据采集时间进行升序排序处理。
具体数据处理的代码参看附录A。
2.2.2 利用VBA进行数据处理
数据处理主要目标是利用数据中的state数据来获取各辆出租车一天之内的乘客上下车点的位置,在之前的数据处理中对要用的数据已经依次按照车辆和时间进行了升序排序,因此在表格中同一车辆的数据被放到了一起按照时间顺序显示出来,由于出租车载客
时其相关状态值显示为1,空载时显示为0,即对于每一辆出租车而言其相关状态值在一段时间内应该呈现如下形式:000……011……100……,其中第10位状态位是空重载状态位,其中1代表车上有乘客,-1代表车上没有乘客,出租车处于空载状态。
但是由于出租车的state数据信息中包含了出租车的多项状态信息,并以十进制形式存储,故需要先将其转化为二进制数据,从中选出代表车上是否有乘客的状态值,故具体处理步骤如图2-2所示:
图2-2 数据处理过程
(1)在对STATE字符段的数值进行进制转换之前,要先将excel表格中准备放入转换后的二进制状态值的相应列的数字类型设置为数值、分数或者是特殊类型,以防转换之后的二进制数字被表示为科学计数法的形式,不利于之后的运算。
在此利用VBA进行十进制数据到二进制数据的转化,数据处理过程如图2-3所示。
图2-3 数据进制转换流程图
(2)因为状态位的自右向左第10位为出租车的空重载状态位,而常用的字符截取方法均是自左向右计算字符位数,为了便于之后字符串的截取,必须将参差不齐的二进制状态值进行位数统一化,均在其右侧补充若干个0,将其字符串统一为相同的长度,通过观
察获取的二进制状态值可知最长字符串长度为16位,故补充后的状态值字符串长度至少为16位,本文中将其补为17位,具体数据处理流程如图2-4所示。
图2-4 数据长度统一流程图
(3)在字符长度统一的二进制状态值中选出自右向左第10位,也就是自左向右第8位,便是出租车的空重载状态值,其中1表示车上有乘客,0表示车上没有乘客。
(4)对出租车空重载状态值做差,自除表头以外的第二行数据开始,依次用下一行的空重载状态值减去上一行空重载状态值,若差值为1表示空重载状态值由0变为1,即出租车由空载变为重载,说明此时有乘客上车,出租车所在位置为乘客出发地,若差值为-1表示空重载状态值由1变为0,即出租车由重载变为空载,说明此时有乘客下车,出租车所在位置为乘客目的地。
(5)为了便于之后对数据的操作与处理,需要对数据进行精简,去掉其中空重载状态值差值为0的数据记录,因为这一部分对于OD矩阵的获取不是必要的,只要保留空重载状态值差值为1和-1的数据记录即可,由于在excel中利用VBA处理数据进行整行数据的删除时数据处理速度较慢,耗费时间较长,因此在这里采用筛选的方法,选出空重载状态值差值为1或者-1的数据放入另一个表格中。
2.2.3 对数据进行异常值处理
这一步目的在于剔除得到的数据中不可用的数据,具体操作流程如图2-5所示。
首先如果表格内第一条数据的状态值差值为-1则应删除,因为如果表格内第一条数据的状态值差值为-1说明此辆出租车在这一天内发生的第一个状态转换为由重载变为空载,造成这种情况的原因可能为三种,首先可能是当时时间临近午夜,乘客上车动作发生在前一天;其次可能是在前面剔除数据时将乘客上车动作发生的数据剔掉了;最后可能是数据存在错误,以上三种情况均不能获取完整的一个OD对,所以应该删除;其次,除了第一条数据以外,还可能有不能进行OD配对的数据,可能会出现1或者是-1连续出现的情况,原因如上面所说可能是之前对经纬度越界的数据剔除时将其对应的乘客上车动作或者是乘客下车动作发生的数据记录剔除掉了,也可能是数据出现了问题,但是不论原因如何,都应该对其进行处理,通过分析可知对于连续重复的1或者-1都是只保留最后一个数值是最合理的,将其之前的都予以删除。