219336225_基于公交刷卡数据的用户画像分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第23卷第3期2023年
6月交 通 工 程
Vol.23No.3
Jun.2023
DOI:10.13986/ki.jote.2023.03.011
基于公交刷卡数据的用户画像分析
范桂莲1,马 跃2
(1.武汉交通科学研究所,武汉 430014;2.北京通途永久科技有限公司,北京 100080)
摘 要:通过对公交刷卡数据进行分析,提取特征向量,用斯皮尔曼相关系数分析向量间的相关性,数据优化后采用大数据技术实现对K⁃means 聚类算法的深入挖掘,最终得出K =6,即将用户分为6类最为合理,通过对公交用户出行数据的详细解读,得到每类用户的出行画像,使行业管理者和决策者能够更加清晰㊁准确地了解用户特征,并制定出有针对性的决策.
关键词:大数据;公交IC 卡;用户画像中图分类号:U 495
文献标志码:A
文章编号:2096⁃3432(2023)03⁃071⁃06
收稿日期:2022⁃06⁃01.
作者简介:范桂莲(1979 ),女,硕士,高级工程师,研究方向为交通运输规划与管理.E⁃mail:40618085@.
User Image Analysis Based on IC Card Data
FAN Guilian 1,MA Yue 2
(1.Wuhan Institute of Transportation Science,Wuhan 430014,China;
2.The Beijing Tong Tu Soft,LLC.,Beijing 100080,China)
Abstract :By analyzing the bus farecard transaction data,the feature vector is extracted,and the
correlation between vectors is analyzed by using the Spearman correlation coefficient.After the data is optimized,the big data analytics are used to realize the deep mining of K⁃means clustering algorithm,and finally K is calculated to be 6,which means that users can be divided into 6categories.Through the detailed interpretation of the travel data of bus users,the travel portraits of each type of users can be obtained,so that industry managers and decision makers can understand user characteristics more clearly and accurately,and work out targeted decision making.Key words :big data;IC card;user profile
0 引言
互联网的发展和科技的进步使数据信息量迅速
增加,而数据的复杂及量的扩大,使大数据日益受到人们的关注,大数据的研发不仅可以提高人们从海量㊁复杂的数据中提取信息的速度,而且可以挖掘出数据中潜在的数据价值,从而扩大数据的应用范围[1-3].通过大数据技术的分析应用,可以更细㊁更精准地分析城市交通的数据,从而为相关决策的制定提供良好的数据支撑.大数据的主要分析技术有回归分析㊁聚类㊁关联法则㊁神经网络等[4].
信息化和智能化是城市交通的发展方向,公交
信息系统的发展㊁优化对公交服务质量的提升和公交运行效率的提高具有重要意义.交通运输信息化 十三五”发展规划中提出推进交通运输 互联网+”,充分利用信息技术改造传统交通运输业的要求[5-7].随着云计算㊁大数据㊁物联网㊁移动应用㊁人工智能等新一代技术的快速演进, 互联网+”成为经济发展新引擎.城市公共交通 十三五”发展纲要中明确要求推进 互联网+城市公交”发展[8-10].充分利用社会资源和企业力量,大力推进大数据㊁云计算和移动互联网技术在城市公交出行信息服务领域的广泛应用.
随着公交IC 卡的推广使用,不仅方便了广大乘
交 通 工 程2023年
客,也为管理部门提供了1种新的快速高效的客流调查统计手段.公交IC卡可直接或间接提供包含公交乘客的上㊁下车,换乘,出行距离和出行时间等信息,而此类信息是进行公交线网规划㊁公交运行调度管理和公交系统辅助的基础信息.在我国,公交
IC卡车载收费系统多为离线式的,而要保证数据分析结果的时效性,经常需要在短时间内处理大量的数据.本文以大数据思维,采用大数据技术深入挖掘分析公交用户的出行行为,利用相关性分析和聚类分析得到更加精细化的公交出行用户的画像分析,使行业管理者和决策者能够更加准确㊁有针地性地做出决策.用户画像是根据用户在公共交通出行过程的刷卡数据,通过主动或被动搜集加工成一系列用户的标签,比如是否为通勤用户,第1次上车时间,1d出行次数等等.
1 基于公交IC卡大数据分析方法
1.1 基本思路
根据传统的分析方法对公交IC卡数据进行分析,无论是分析效率还是对用户出行特征的分析精准度都比较低.随着公交IC卡的推广使用,以及管理部门认识上的提高,对分析的时效性和精准度方面的要求也越来越高.本文研究的领域涵盖轨道交通和常规公交2种方式,数据基础为IC卡刷卡数据,选取北京2016⁃05⁃01 2016⁃07⁃31的IC卡数据进行分析.
通过对公交IC卡数据的分析,提取特征向量,采用斯皮尔曼相关系数分析向量间的相关性,利用大数据技术采用交叉验证的方式确定K⁃means聚类簇K,即公交用户分为几类较为合适,在此基础上,对公交用户的出行特征进行详细解读,得到每类公交用户的画像分析.
1.2 数据特征向量提取
1.2.1 数据特征提取
一般根据公交刷卡数据可以得到的数据信息有卡号㊁上车时间㊁下车时间㊁上车站点㊁下车站点以及出行方式,通过分析数据的特征性,细化提取数据特征.经过一定的数据预处理后形成待分析的数据,如出行次数㊁平均出行时间和出行总时间等等. 1.2.2 数据特征分析
上文提取出的数据特征向量:出行次数㊁出行平均时间㊁出行总时间㊁首次上车时间㊁最后1次上车时间和最后1次下车时间中部分向量数据进行中位数㊁众数和离散系数等特征分析
.
图1 用户画像优化分析的流程
图2 数据向量化字段
出行次数:平均出行次数为2.59次,离散系数为0.6113,与均值1个标准差上下浮动的范围数据占62%,2个标准差上下浮动的范围数据占94%,数据较为分散.出行次数的1/4分位数为1.0次,中位数为2.0次,3/4分位数为4.0次.
出行平均时间:平均的出行时间为26.027min,离散系数为0.8372,数据分散性较大.出行平均时间的1/4分位数为12min,中位数为22min,3/4分位数为35min.
首次上车时间:平均的首次上车时间为10:25左右,离散系数为0.3945,数据较为集中.首次上车时间的1/4分位数为07:00,中位数为09:00,3/4分位数为
13:00,上车时间大部分集中在早高峰时段.
最后1次下车时间:平均最后1次下车时间为16:00左右,离散系数为0.2656,数据较为集中.最后1次下车时间的1/4分位数为13:00,中位数为17:00,3/4分位数为19:00,下车时间大部分集中在
27
 第3期
范桂莲,等:
基于公交刷卡数据的用户画像分析图3 出行次数数据分析结果
图4 出行平均时间数据分析结果
晚高峰时段.
根据上述数据特征分析可知,数据特征基本上较为分散,虽然具备局部特点,但区分性不强,根据向量数据分析无法直接得到准确的数据特征,通过聚类分析后再获取相关特征,可提高数据的精准性.
1.3 聚类分析
1.3.1 相关性分析
采用斯皮尔曼相关系数反映2组变量之间联系的密切程度,系数取值范围在-1到+1之间,即负
相关和正相关,相关系数越接近-1或者+1,则表明两组变量之间的相关性越强.利用大数据技术分析数据特征向量的相关性,如果2个向量的相关性越强,则删除强相关的特征向量.
通过相关性分析,可以得到总出行距离㊁平均出行距离和总出行时间之间强相关,保留总出行时间;第1次上车时间和第1次下车时间之间强相关,保留第1次上车时间;而最后1次上车时间和最后1次下车时间之间强相关,保留最后1次下车时间.
3
7
交 通 工 程2023

图5 首次上车时间数据分析结果
图6 最后1次下车时间数据分析结果
表1摇向量间的相关系数分析结果
totaldis⁃
tance avgdis⁃tance total⁃time avg⁃
time change⁃count avg⁃
count change⁃time firstup⁃time firstdown⁃time lastup⁃time lastdown⁃time totaldistance
avgdistance 0.835
totaltime 0.8870.748
avgtime
0.6340.8540.783 changecount 0.6730.5460.7290.548
avgcount 0.5200.6220.6070.6940.893 changetime 0.161
0.165
0.1540.1510.0520.045
firstuptime -0.289-0.116-0.272-0.057-0.197-0.060-0.022
firstdowntime -0.1810.009-0.1490.078-0.104
0.0410.0230.979
lastuptime 0.215-0.0370.193-0.1010.155-0.027
-0.0680.2150.204
lastdowntime
0.2910.0540.282-0.0010.2220.048-0.0390.2090.2150.990
4
7
 第3期
范桂莲,等:基于公交刷卡数据的用户画像分析1.3.2 确定聚类簇
K⁃means 算法是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则.它的基本思想是初始随机给定
K 个簇中心,按照最邻近原则把待分类样本点分到各个簇.然后按平均法重新计算各个簇的质心,从而确定新的簇心.一直迭代到簇心的移动距离小于某个给定的值
.
图7 不同k 值变化趋势
根据相关性分析,剔除总出行距离㊁平均出行距离㊁第1次下车时间和最后1次下车时间后,对其余向量组成的数据,分别选取K =2㊁3㊁4㊁ ㊁12,利用大数据技术通过交叉验证的方式计算在不同K 值下的数据到簇心的平均距离,由图7可知,当K >6时,数据到簇心平均距离的变化趋于平缓,表示其聚类效果较好.本文最终选择K =6,即6个簇心,也就是说将公交出行用户分为6类人群比较合理.
2 画像分析
根据K⁃means 结果把出行用户分为6类,对每类出行用户的出行特征进行详细解读:K =0的用户占样本量的23.5%,为工作日出
行的上班族,用户的出行时间较长(平均
55.02min)㊁距离较远(平均24.15km).每天平均出
行次数为1.98次,即早晚上下班出行,出行时间基本集中在早晚高峰期间,第1次上车时间在07:30 10:30,而最后1次下车时间在17:00 20:00.
K =1的用户占样本量的19.2%,为工作日接孩子放学的家长,一般出行时间较短(平均34.8min)㊁距离较近(平均14.65km).每天平均出行次数为1.14次,乘车时间主要集中在学生放学期间,上车时间在
16:15 19:00,下车时间在16:45 19:45.
K =2的用户占样本量最多(30.7%),为工作日
出行的上班族,出行时间较短(平均26.8min)㊁出行距离较近(平均12.99km).每天平均出行次数为2次,即早晚上下班出行,出行时间基本集中在早晚高峰期间,第1次上车时间在07:30 09:15,而最后1次下车时间在17:30 19:45.
K =3的用户占样本量的17.5%,为工作日出行的上班族,出行时间较短(平均35.18min)㊁距离
较近(平均21.28km ).每天平均出行次数为
1.04次,即早高峰期间通过公共交通方式出行,而因生活性需求而通过其他交通方式返回.第1次上车时间在07:30 10:00.
K =4的用户占样本量的7.6%,为周末远距离出行,出行时间较长(平均52.41min),距离较远(平均22.34km).平均出行次数为1.18次,用户上㊁下车时间跨度较大,第1次上车时间在07:30
14:15,最后1次下车时间在08:45 17:45.K =5的用户占样本量的1.6%,为周末往返出行,
出行时间较短(平均38.13min),距离较近(平均
16.47km).平均出行次数为2.12次,用户上㊁下车时间跨度较大,第1次上车时间在07:45 13:00,最后1次下车时间在14:30 19:30.
表2 不同用户的数据分析结果
用户种类用户占比/%平均出行次数平均出行时间/min 平均出行距离/km 第1次上车/
时间第1次下车/
时间最后1次上车/
时间最后1次下车/
时间K =023.51.9855.0224.1507:30 10:3008:15 11:3016:00 19:0017:00 20:00K =119.21.1434.8014.6516:15 19:0016:45 19:4516:30 20:0017:15 20:30K =230.72.2026.8012.9907:30 09:1508:00 09:4517:00 19:3017:30 19:45K =317.51.0435.1815.1807:30 10:0008:00 10:3007:30 10:1508:00 10:45K =47.61.1852.4122.3407:30 14:1508:15 15:0007:45 16:4508:45 17:45K =5
1.6
2.12
38.13
16.47
07:45 13:00
08:30 14:00
13:30 18:45
14:30 19:30
5
7
交 通 工 程2023年
3摇结束语
IC卡数据为挖掘居民出行行为特征提供了良好的数据支持,本文利用大数据技术对居民时空行为进行深入挖掘,将出行用户聚类为6类人群,并针对每类用户进行详细的出行特征解读.首先,6类人群主要是针对接送孩子上下学的家长㊁工作日出行的上班族和周末出行人群得到的细致分类,其中作为重点的通勤出行细分为3类,分别是:长时间㊁远距离的出行人群,短时间㊁近距离的出行人群和因具有生活性需求而采用其他方式出行的人群.对用户进行详细的人群划分,可以针对各个不同人群进行深层次的特征分析,挖掘更多有用的信息,更深层次的规律.其次,6类人群中,k=0(23.5%)和k=2 (30.7%)用户占样本量权重最大,以上2类用户均为通勤出行,说明通勤出行是居民最基本和最重要的出行,相对其他出行,通勤出行在时间和空间上具有更大的恒定性,职住距离直接影响其出行时间和距离的分布;从出行时间和出行距离看,占较大比重的公交用户为短时间㊁短距离出行,说明公交对短距离出行需求的乘客吸引力较大;出行次数受用户自身条件和出行目的(尤其是购物㊁娱乐和社交等生活性需求)的影响较大;从用户上下车时间来看,工作日较为集中,而周末出行相对灵活,上下车时间跨度较大.
交通数据分析应更多地借鉴大数据的理念,以新的思维角度充分挖掘数据资源潜在的价值信息.客流是车辆调度运营和规划的重要依据,全面多层次的分析和掌握其规律,详细解读用户出行特征,挖掘深层次公交用户出行规律,能为公共交通规划管理㊁运营调度提供科学的依据,为管理者㊁运营者和政府部门提供决策支持,继而有利于公交服务效能的提升,使公交乘客得到更优质的公交服务,如候车时间变短㊁乘车舒适感增强等,促使公交乘客数量增加.还可以通过模拟城市空间要素的变化,引导土地利用的合理调整,对城市的空间管理㊁交通管制和社会服务等方面均有重要意义.
参考文献:
[1]维克托㊃迈尔㊃舍恩伯格.大数据时代[M].周涛译.杭
州:浙江人民出版社,2013.
[2]徐子沛.大数据[M].桂林:广西师范大学出版社,2012.
[3]刘智慧,张泉灵.大数据技术研究综述[J].浙江大学
学报(工学版)2014(6):957⁃972.
[4]张学敏.大数据时代的数据分析[J].电子世界,2014 (16):5⁃6.
[5]王冠,孙贻璐,王新竹,等.基于大数据的武汉市常规公
交运行分析与评价[J].交通与运输,2017(4):55⁃57. [6]叶亮. 大数据”背景下我国交通数据管理应用的转型
与发展[J].交通与运输,2013,29(H12):65⁃68. [7]陈美.大数据在公共交通中的应用[J].图书与情报, 2012,148(6):22⁃28.
[8]邱卫云.智能交通大数据分析云平台技术[J].中国交
通信息化,2013(10):106⁃110.
[9]李德仁,姚远,邵振峰.智慧城市中的大数据[J].武
汉大学学报(信息科学版),2014,39(6):631⁃640. [10]甄峰,秦萧.大数据在智慧城市研究与规划中的应用
[J].国际城市规划,2014,6:44⁃50.
67。

相关文档
最新文档