基于出租车运营数据和POI数据的出行目的识别

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于出租车运营数据和POI数据的出行目的识别
摘要:为了有效获取出租车乘客出行目的,提出了一种基于出租车运营数据和POI(Pointof Interest)数据的出行目的识别方法。

构建了基于乘客出行特征和下
车所属 POI 点类别的乘客出行目的识别模型,该方法从出行特征及乘客下车点最
终可能到达的目的地所属POI点类型两个方面确定乘客的出行目的。

为了验证所
提方法的有效性及实用性,本文对某地区展开了出租车出行调查,并利用调查数
据对模型进行了精度验证。

关键词:城市交通;出租车运营数据;POI点数据;出行目的识别
0 引言
出租车乘客的出行目的是交通调查中的重要内容,其对城市功能结构规划,
城市道路网络规划,交通组织设计及优化具有重要的意义。

传统出租车乘客出行
目的调查方式主要有旅行日记调查、电话调查、小组调查等人工调查方式。

传统
的调查方式要求前期准备、试点调查、实地调查、调查结果整理和录入,需要耗
费大量的人力和物力。

近年来随着信息设备在交通领域的广泛应用,使得一些原始的交通数据得以
自动传输到数据库系统,并保存下来。

在这样的背景下,利用已有的原始数据,
获取有价值的交通信息成为研究热点。

如公交数据方面有:利用公交车IC卡数据
分析票价结构,利用公交GPS数据分析公交车运营服务可靠性,融合IC卡数据和GPS数据获取乘客出行需求。

1 数据分析及处理
1.1 出租车运营数据
本文中所用到的某市出租车数据包含的主要字段为:车辆ID编号,每次触发GPS设备时的时刻,以及在当前时刻下车辆所处位置的经纬度且是否有乘客在车上。

表1为某市出租车的部分运营信息表。

表 1 某市出租车数据库系统记录数据
从上述部分爬取的POI点的信息可知,每个POI 点的信息包含其所属类别,具体类别与该 POI点的信息功能相对应.由于乘客从下车点到最终目的地的距离处
于一定范围内(具体范围为依据调查数据确定),我们将该乘客从下车点到最终
目的地所能够容忍的距离定义为半径阈值r,因此,从POI点层面,可以对乘客
的出行目的做出相应的判断。

我们认为乘客下车之后,可能前往POI 2 点作为其
最终目的地,由于 POI 1 点与下车点的距离大于半径阈值r,乘客将不会选择POI
1点作为最终出行目的地。

2 出行目的识别模型构建
本文提出的基于出租车数据和POI点数据的出行目的识别方法是从出行特征
和所属POI点类别两个层面对出行目的进行识别,然后依据两个层面的识别结果
进行综合判断。

2.1 出行特征判别
依据出行特征判断出行目的,本质上属于分类问题,目前该问题已经有多种
方法可以解决,如神经网络、贝叶斯、决策树、支持向量机、最近邻等方法。


于不同方法的识别效果不同,因此在实际使用过程中需要通过测试,然后选择分
类方法。

虽然这些方法的原理差别很大,但是这些方法总体都可以表示为依据特
征推导对象所属类别,具体到该问题为
式中:purposeai表示乘客i通过其出行特征推断出的出行目的;f表示推断出行特征所用的方法。

2.2 下车POI点类别归属
由于出租车具有灵活便利,具备门到门的服务能力,因此在调查中,乘客乘
坐出租车出行的“下车点离最终目的地的距离”这一内容进行了调查以确定乘客从
下车点到达可能的最终目的地的阀值半径r.因此,依据这个条件,通过POI点层
面也可以对其出行目的进行判断,可以表示为
式中:purposepoii为通过下车点可能的POI点归属推断的乘客i的出行目的;typepoi为在特定下车点的距离为 r 的范围内存在的 POI 点种类集合;dis(locai,locatypepoi)为乘客i下车点与最终目的地的距离;r为下车点与最终目的地距离
阀值。

2.3 最终出行目的识别规则
最终出行目的的识别,需要将依据特征识别的出行目的和依据POI点类别识
别的出行目的实现有效融合,才能够得到最终的出行目的.将两种不同的方式作为
一个集合,则可能出现式(2)~式(5)的情况。

式(7)表示出现两种方式识别不同情况时,采用POI点识别结果为准,
但基于POI点识别的结果在非空集的情况下可能存在两种情况,即出现全是同一
种出行目的或出现不全为一种出行目的。

当全是一种出行目的时,最终出行目的
即为该目的;但当出现不同的出行目的时,我们提出了两种方法,其中第1种为
统计各类出行目的的数量,并将数量出现最多的类型作为最早出行目的,第2种
为以离下车点距离最短的出行目的地类型作为最终出行目的。

3 案例分析
3.1 数据说明
本文所用到的调查数据为某市随机调查数据,共获得有效的调查问卷1014份,其中调查数据是采用随机确定调查地点,然后安排调查地点进行全天的调查,因
此调查数据具有代表性。

运营数据为某市2016年8月6~12 日 1 周内所有出租车
运营数据,其中出租车运营数据每天时段为6:00-24:00,每天该时段出租车自
动记录的数据约4000000条。

选择该时间区间的数据是因为本文旨在探索非节假
日的出租车乘客出行目的,而所选择的这1周没有特殊的节假日,所以所选取的
样本具有代表性。

3.2 调查数据模型验证
3.2.1 分类方法测试
为了测试不同分类方法对于本问题的适用性,结合调查数据采用不同的分类
方法对出行目的识别精度进行验证,结合Matlab工具包,采用十折交叉验证方法,最终识别效果如图1所示
图 1 不同识别方法的识别准确度
通过图1的识别结果可知,不同的识别模型其识别精度差别较大,从47%到65.7%,识别准确度最高的为决策树,因此,我们对决策树的识别结果的混淆矩
阵进行了分析,以获得具体类别识别准确率的情况,具体混淆矩阵如表4所示。

表 4 决策树识别结果的混淆矩阵
从上述决策混淆矩阵的误识别分析可知,某些不同出行目的由于其出行特征较为类似(上班和上学、休闲娱乐与购物和医疗等),因此,仅仅依靠出行特征进行识别,容易出现较大的误识别率。

针对这个问题,我们提出基于出租车运营数据和POI点数据的出行目的综合识别方法。

3.2.2 本文方法应用及对比分析
由于在上述6种不同的识别方法中决策树的识别准确率最高,因此在出行特征层面的出行目的识别方法仍采用决策树,然后结合乘客下车POI点半径阈值r 内的可能目的地的POI点类型进行综合决策。

为了进行对比,数据集及识别准确度的验证方法与上述一致,依据本文2.3节中的最终识别规则得到的对比识别结果如图2所示。

图 2 文献[19]和[21]及本文方法识别精准度对比
其中决策树+POI(I)为式(8)的出行目的的决策方法,决策树+POI(II)为式(9)的出行目的的决策方法。

通过上述不同方法的结果对比分析可知,本文提出的在现有的出行特征识别出行目的基础上融合下车点所属POI点信息的出行目的决策方法具有明显的优势,相比现有的出行特征估计出行目的的方法,所提出的决策树+POI(I)能够提高6.31%的识别准确率,决策树+POI(II)能够提高15.76%的识别准确率。

4 结论
本文提出了一种基于出租车运营数据及POI点数据的出租车乘客出行目的识别方法,该方法通过调查数据进行验证,并最终应用于实际的数据中,可得到如下结论:
(1)通过数据实验表明,本文所提出的基于出车组运营数据及POI点数据的出租车乘客出行目的识别方法,与现有的仅仅根据出租车运营数据识别乘客出行目的的方法相比,能够显著提高其识别精度。

(2)在所提出的方法中,针对实际数据量较大的问题,我们改进了判断预定半径阀值范围内出现的 POI 点的获取算法,结合地理知识,将距离判断转化为经纬度差判断,能够非常显著节约计算机计算时间,使所提出的方法能够有效运用于实践。

参考文献
[1] 丁涛杰,史殿习,李永谋.基于出租车GPS数据的道路平均速度估计方法[J].计算机技术与发展,2015,25(7):15-19.
[2] 姜桂艳,常安德,李琦,等.基于出租车GPS数据的路段平均速度估计模型[J].西南交通大学学报,2011,46(4):638-644.
[3]白竹,王健,胡晓伟.城市出租车系统运营效率评价研究[J].交通运输系统工程与信息,2014,14(3):227-233.。

相关文档
最新文档