基于公交IC卡数据的乘客出行时间特征研究

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于公交IC卡数据的乘客出行时间特征研究

李海波 陈学武 陈峥嵘

【摘要】公交乘客出行特征是公交规划、设计和运营管理的重要依据。本文以苏州市的公交IC优惠卡数据为例,详细介绍了公交IC卡数据的数据结构和数据内容,以及公交IC卡数据的清洗方法。基于公交客流的时变特征,将一天划分为7个典型时段,建立了公交乘客出行时间分布数据集。然后采用经典的k均值聚类算法,对苏州市公交IC优惠卡乘客的出行时间分布模式进行了分类。并以此为基础,分析了公交IC优惠卡所服务的三大人群的出行时间特征。

【关键词】公交IC卡;出行时间分布;k均值算法;聚类分析;出行时间特征

1引言

自上世纪90年代开始,公交IC卡开始应用于城市公共交通自动收费系统。截止至2012年,我国公交卡累计发行量已经达到1.8亿张。其中,北京和上海的公交IC卡发行量均已超过4000万张。公交IC卡收费系统的广泛应用,不仅为公交乘客出行提供了便利,同时系统的运行积累了大量的数据,为公交客流分析提供了全新的途径[1, 2]。

目前国内外针对公交IC卡数据的研究,主要是宏观层面的公交客流OD推导和微观层面的乘客出行行为研究。具体来说,在公交客流OD推导方面:陈学武等[3]对单一IC卡数据条件下的公交乘客的出行起点、换乘站点和出行讫点的判断方法进行了论述;章威等[4]引入车辆GPS定位数据,提出了基于GPS与IC卡数据的公交OD推导方法;Alex Cui[5]综合考虑了公交自动收费系统、自动定位系统和乘客自动计数系统的数据,建立了单条线路的OD和换乘OD的推导算法;高永等[6]从连续两次刷卡的时间间隔入手,提出了一种基于IC 卡数据的公交换乘识别方法,并深入分析了该方法的影响因素以及换乘识别结果的应用方法;彭晗等[7]通过对公交IC卡大量信息的处理,得到了城市公交线路间的换乘量和换乘矩阵。在乘客出行行为方面,Bruno Agard等[2]采用聚类分析方法对公交IC卡乘客进行了分类研究;Sanggu Lee等[8]分析了普通乘客的出行时间特征和换乘站点分布特征;Hiroaki Nishiuchi等[9]对公交乘客出行模式的时空变化特征。

2公交IC卡数据

本文研究所采用的是苏州市的公交IC优惠卡数据,数据时间范围是2013年05月04日(星期六)至2013年05月31日(星期五),共4周时间。

2.1数据结构

一般而言,公交IC卡原始数据包含了涵盖持卡者信息、消费信息、所乘线路信息和所乘车辆信息等多种信息在内的数十个字段。本文根据研究需要,从苏州市的公交IC优惠卡

基金项目:国家重点基础研究发展计划(2012CB725402)

原始数据中筛选出卡编号、数据类型、消费日期、消费时间、线路编号和汽车编号等6个字段。其中,数据类型的第一个字母代表卡类型,第二个十六进制数字代表持卡者的登记居住区域。公交IC卡数据中各字段的详细含义如下表所示:

表1 苏州市的公交IC优惠卡数据中各字段的含义

字段含义

卡编号公交卡的唯一编号

数据类型第一个字母:公交卡的类型,分为爱心卡、老年月票卡、高龄免费卡、学生月票卡和教育免费E卡,具体如表2所示

第二个十六进制数字:公交卡登记的居住区域,分为平江区、高新区、园区、吴中区、相城区、沧浪区和金阊区

消费日期刷卡上车的日期,格式为YYYY-MM-DD

消费时间刷卡上车的时间,24小时格式

线路编号公交线路的编号

汽车编号公交车辆的编号

2.2卡类型

如上文所述,苏州市的公交IC优惠卡分为爱心卡、老年月票卡、高龄免费卡、学生月票卡和教育免费E卡五类,服务于残障人士、老年人和学生三大特殊人群。其中,爱心卡、高龄免费卡和教育免费E卡享受免费乘坐公交车的优惠,老年月票卡和学生月票卡则需要缴纳一定的月使用费,但是不限制使用次数。苏州市公交IC优惠卡的卡类型分类详见表2:

表2 苏州市公交IC优惠卡的分类

卡类型服务人群使用限制

爱心卡 70周岁以下的残疾人免费使用

老年人老年月票卡 60~69周岁的老年人月使用费20元高龄免费卡年满70周岁的老人免费使用

学生学生月票卡6~18周岁中小(含技校、职高)学生月使用费20元教育免费E卡义务教育阶段学生免费使用

2.3数据清洗

在公交IC卡数据的采集、传输和存储过程中,会不可避免地产生不完整的数据、错误的数据或重复的数据。根据苏州市公交IC卡数据的实际情况和研究的需要,本文通过数据格式检查、卡类型一致性检查和代刷记录识别三个步骤来清除公交IC卡原始数据中的问题数据。

①时间格式检查。即通过逐条记录判断,筛选出显示时间超出正常时间范围(如“24:43:01”),或字段内含有非数字字符(如“A5:42:BC”)的时间格式错误的数据,并予以删除;

②卡类型一致性检查。在正常情况下,一个卡号对应一个卡类型。但是由于系统错误或持卡者信息更新等原因,会发生一个公交IC卡卡号对应多个卡类型的现象。由于该类错误仅涉及极少部分的公交IC卡,因此本文直接删除问题卡号所对应的刷卡记录;

③代刷记录识别。本文研究中默认公交IC卡是与公交乘客一一对应的,而代人刷卡所产生的刷卡记录并不是公交IC卡持卡者的出行记录,故应予以删除。本文以30s作为阀值进行代刷记录的判断,即同一张公交IC卡在同一辆公交车上的多次刷卡记录中,若其中两

条连续刷卡记录的时间间隔少于30 s,则认为第二条刷卡记录为代刷记录。

图1 公交IC卡数据清洗流程

通过数据清洗,共删除27708条问题记录,最终得到约1319万条出行记录,平均每周3298467次出行。由于问题记录仅占原始数据的0.2%,故可以认为删除问题数据不会影响本文的研究结果。

表3 公交IC优惠卡数据清洗情况汇总

数据清洗阶段

IC卡用户 IC卡记录

个数百分比条数百分比

原始数据361688 100% 13221576 100% 时间格式检查- - 180

0.001%

卡类型一致性检查416 0.1% 27250 0.2% 代刷记录识别- - 278

0.001%

清洗后样本361252 99.9% 13193868 99.8%

3方法与数据集

本文拟通过聚类分析方法的运用,挖掘公交IC卡乘客的出行时间特征。

3.1聚类分析

聚类分析(Cluster Analysis)是一种将研究对象分为相对同质的群组的统计分析技术。

聚类分析也叫分类分析或数值分类。聚类分析是一种探索性的分析,在分类的过程中,不必

事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。

聚类分析的方法有多种,其中k均值(k-means)算法是聚类分析的一种经典算法。自

James MacQueen在1967年首次提出k均值算法后,该算法在科学研究和工业应用中得到了

广泛运用。

k均值算法的主要思想是,将各个聚类子集内的所有数据样本的均值作为该聚类的代表

点,通过迭代过程把数据集划分为不同的类别,使得评价聚类性能的准则函数达到最优,从

而使生成的每个聚类内紧凑,类间独立。k均值算法不适合处理离散型属性,但是对于连续

相关文档
最新文档