北京市快速路浮动车最小样本量研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
北京市快速路浮动车最小样本量研究
熊娟;刘静;关积珍;孙建平;刘雪杰;温慧敏
【摘要】为确保浮动车提供信息的准确性和可靠度,首先以RTMS数据作为真值来验证当前样本量条件下浮动车数据的有效性;然后通过简单随机抽样方法来逐步减少浮动车的样本量,并计算、比较不同样本量下的浮动车数据与RTMS数据的相关系数;最后得出确保浮动车数据有效所需的最小样本量. 经验证,本文研究范围内的二、三环快速路5 min时间间隔内每千米路段上需要的浮动车最小样本量为7~9个,而当前样本量条件下的浮动车数据在时间上和空间上能达到最小样本量要求的分别占73%和87%以上.
【期刊名称】《交通运输系统工程与信息》
【年(卷),期】2010(010)004
【总页数】6页(P38-43)
【关键词】智能交通系统;交通控制;浮动车;样本量;有效性
【作者】熊娟;刘静;关积珍;孙建平;刘雪杰;温慧敏
【作者单位】北京四通智能交通系统集成有限公司,北京,100081;北京四通智能交通系统集成有限公司,北京,100081;北京四通智能交通系统集成有限公司,北
京,100081;北京交通发展研究中心,北京,100055;北京交通发展研究中心,北
京,100055;北京交通发展研究中心,北京,100055
【正文语种】中文
【中图分类】U491
1 引言
近年来,许多专家和学者都致力于短时交通流预测的研究,短时交通流预测结果的准确度不仅跟预测模型方法有很大关系,而且与预测时所采用的数据源有很大关系.GPS浮动车信息采集技术作为一项新兴的交通信息动态采集技术,具有受天气影响小、数据精度高、实时性强等诸多优点,更重要的是它采集范围广,能覆盖城市大部分路网,弥补了传统的微波、线圈等固定检测器只能覆盖城市的快速路、少部分主干路的缺点;同时,它是利用现有城市车辆GPS数据和通信网络资源,大大降低了采集设备安装和维护的成本.因此,浮动车数据成为短时交通流预报的基本数据源之一.
浮动车样本量过少,会增加个体随机性的影响,降低采集数据的精度;浮动车样本量过多,会提高系统造价及后期维护费用,也加重了系统的信息处理负荷.因此,浮动车样本量的研究为指导有条件的城市建立最小综合成本、最高精度数据的浮动车系统提供了有力的基础支撑.对于浮动车样本量问题,各国学者开展了大量研究,研究方法大致有以下几种:
(1)根据经验确定.文献[1]认为浮动车样本量小于3个时,结果可信度低;样本量为3~9个时,可信度中等;样本量为10个以上时,可信度较高.
(2)利用数理统计的传统算法.文献[2]利用数理统计方法的研究结果表明,高速公路上浮动车的比例应不低于3%,地面道路上浮动车比例应不低于5%;文献[3]和[4]推导出了满足路段覆盖率的最小浮动车样本量.
(3)基于仿真试验方法.通过对交通系统进行仿真研究,可得到交通流随时间与空间变化的规律及其与各变量的关系.文献[5]利用INTERGATION交通仿真软件,将浮动车比例从3%逐渐增加到18%,分析浮动车速度与全部车辆平均速度之间的关系,结果表明,要实现速度估计误差小于5 km◦h-1,浮动车的比例应为4%~5%,或是每个
计算周期内任一路段上经过的浮动车数量不少于10veh;文献[6]利用Vissim仿真软件得出:当浮动车比例在3%~5%之间时,估计的速度准确度可达到95%以上.
(4)基于抽样和相似性方法.文献[7]和[8]根据抽样后的数据与总体规模数据进行相似性分析,确定浮动车规模.但其假设的前提是当前规模的浮动车总体得到的路况是真实的,并没有验证浮动车数据的有效性.
在已有研究基础上,本文以远程交通微波传感器(Remote Traffic microwave Sensor,RTMS——安装在北京市快速路上的固定检测器)数据为约定真值来判定浮动车数据的有效性,通过抽样方法比较浮动车数据在不同抽样比例下与RTMS数据的相似性,从而得到确保浮动车数据有效性的最小样本量.
图1 研究范围Fig.1 The object of study
2 浮动车数据的有效性验证
2.1 研究对象选择
由于数据有限,本文的研究范围为北京市北至北三环、西至西三环、南至车公庄大街、东至鼓楼外大街区域(图1),由于相同工作日、周末或节假日的交通状态在某种程度上具有相似性,本文选取研究范围内的周二、周三、周日的二环和三环快速路上浮动车数据作为研究对象.同时,考虑到数据获取的难易和数据质量,以及研究的可对比性,分别从2008年3月,4月,5月,6月,7月以及10月中,各选取一个或几个周二、周三和周日的数据进行研究(8月和9月因北京奥运会部分路段实施交通管制,故未选取相应数据).
2.2 与RTMS数据之间的系统误差
以RTMS数据作为真值与浮动车数据进行比较时,必然存在一个因为数据源不同而带来的系统误差.比如RTMS数据是计算路段内所有车辆的平均速度,包括小型车、中型车和大型车,而浮动车调查所得的速度是以出租汽车为基本数据来源,这种系统误差虽不会给后续计算浮动车速度与RTMS速度之间的相关系数带来影响,但在以
RTMS速度作为真值计算浮动车速度的相对误差时却有很大影响,所以需要消除两者之间的系统误差.具体方法为:①利用调查数据画浮动车-RTMS速度散点图,并在散点图上添加线性趋势线,见图2;②用原始RTMS数据减去线性趋势线的截距k,得到的数据即为消除系统误差后的速度,记为rtms.由图2中的线性趋势线的公式可知,截距k=-6.697,即消除系统误差后的rtms=RTMS+6.697,结果见表1.
表1 浮动车与RTMS数据Table 1 The speed of FCD ane RTMS (km◦h-1)时刻18:00 18:05 18:10 18:15 18:20 18:25 18:30 18:35 18:40 18:45 18:50 18:55浮动车 23.27 21.05 24.92 22.29 23.32 25.96 27.81 26.45 25.83 29.68 29.16 42.86 RTMS 17.38 17.54 19.71 20.04 18.42 17.92 20.92 22.08 20.21 20.42 21.25 31.46 rtms 24.07 24.24 26.41 26.74 25.11 24.61 27.61 28.78 26.91 27.11 27.95 38.16
图2 浮动车-RTMS速度散点趋势Fig.2 The trend of scatter between FCD and RTMS
2.3 与RTMS数据的相对误差
消除系统误差后,分析浮动车数据的相对误差.图3为表1中消除系统误差后的浮动车数据相对误差面积图.研究发现,相对误差大多在20%以内,现假定当相对误差小于20%时(20%并不是一个固定值,可以根据精度要求进行调节,精度要求越高,下文提到的5 min内每千米路段上的浮动车最小样本量越大),认为现有的浮动车数据满足有效性要求.
3 最小样本量的确定
浮动车最小样本量是指为保证浮动车数据的有效性,在单位时间间隔内必须具有的浮动车样本的最少个数.鉴于已有的短时交通流预报一般不超过15min,本文拟以
5min为一个单位时间间隔,这样既减弱了浮动车数据的波动性,又能反映交通状况的必要特征,同时也能满足短时交通流预报的需求.
图3 浮动车速度相对误差图Fig.3 The relative error of FCD
在验证了浮动车数据有效性的前提下,通过简单随机抽样逐步减小其规模,并验证抽样结果,据此确定最小样本量.
3.1 按不同百分比对全体浮动车进行抽样
研究对象为单条路段全天(7:00-21:55)的浮动车数据,以5 min为一个时间单位,全天共有180个时间单位,每个时间单位内都有各自的浮动车样本量及平均速度.利用简单随机抽样方法对5 min内的样本量进行抽样,抽样比例步长越小,下文中涉及的浮动车数据与RTMS数据的相关系数随着抽样比例变化而变化的规律会更精确.为简化计算量,本文中采取的抽样比例依次为
10%,20%,30%,40%,50%,60%,70%,80%,90%,100%,得出不同抽样百分比下5 min内浮动车的平均速度.
3.2 抽样条件下浮动车速度与RTMS速度的相关性
比较不同抽样百分比下浮动车速度与 RTMS速度(真值)的相关性,相关系数rij可用式(1)计算.rij描述了两个样本线性相关强弱的程度,取值在-1与+1之间,若rij>0,表明两个样本是正相关;若rij<0,表明两个样本是负相关.
式中 i、j为两个不同的样本;xit(i=1,2,…,n;t=1,2,…,d)为第 i个样本的第t个属性值;¯xit为第i个样本所有属性值的平均数;n为样本个数;d为样本所取的空间维数. 找出使相关系数突变的抽样百分比,确定方法为:以抽样百分比为横轴,相关系数为纵轴画折线图,随着抽样百分比的减少相关系数突然减小的那个点即为突变点,把该百分比作为临界点,低于此百分比进行抽样所得的速度即认为是不可靠的,高于此百分比所得的速度是可靠的.表2为北京市二、三环路某个路段浮动车数据抽样比例与RTMS的相关系数.
表2 浮动车数据抽样比例与RTMS的相关系数Table 2 The correlation
coefficient between the sampling FCD and RTMS路段编号位置及方向不同抽样百分比时的相关系数10% 20% 30% 40% 50% 60% 70% 80% 90% 100%22057 北二环由西向东方向 0.83 0.86 0.90 0.89 0.90 0.90 0.91 0.92 0.92 0.9224206 北三环由东向西方向 0.57 0.63 0.65 0.66 0.67 0.70 0.70 0.71 0.73 0.73
分析表2可发现由于路段不同,相关系数随抽样百分比的降低所发生的变化也不尽相同,使相关系数发生突变的百分比并不固定.为方便比较,在确定了不同路段相关系数的突变百分比p后,根据路段长度L、5min内浮动车平均样本量¯N及5 min内路段的平均交通量¯V,利用式(2)和式(3)进行计算,可得出每千米路段上5 min内浮动车样本量占交通量的百分比r和浮动车的最小样本量n,计算结果见表3和表4.
表3 周二部分路段的r和n值Table 3 The evaluation index value of some Rds on Tuesday路段编号位置及方向L(km)¯N(个)¯V(veh)p(%)r(%)n(个)22057 北二环由西向东方向 1.135 16.09 509.45 40 1.11 5.6724206 北三环由东向西方向 1.59 16.59 365.78 60 1.71 6.26
利用相同的方法,并结合表2中的相关系数值,可得北京市二环和三环路的部分路段在周三和周日浮动车最小样本量,见表4.
表4 浮动车最小样本量Table 4 The minimum sample size of floating car after standardized道路等级周二周三周日r(%)n(个) r(%) n(个)r(%) n(个)二环1.90 7.08 1.52 8.80 1.99 7.10三环 1.74 6.31 1.24 7.30 1.75 6.20
由表4可知,二环路的最小样本量为7.08~8.80不等,三环路的最小样本量为
6.20~
7.3不等,由此可得:本研究范围内的二、三环快速路浮动车样本量达到7~9个时即可满足有效性要求.
每千米路段上5 min内的浮动车最小样本量有利于不同等级道路路段之间的比较,
但实时预测时路段长度均不相等,因此有必要根据路段的实际长度计算最小样本量,结果见表5和表6.其中,为确保所选路段上有一定的浮动车,结合二、三环路中的实际路段数和各路段长度,选取的二环路段长度均大于400 m,三环路段均大于500 m,既保证了路段上有浮动车,同时又覆盖了二环路以及三环路的绝大部分.
表5 北京市二环路各路段实际长度下浮动车最小样本量Table 5 The minimum sample size of floating car of 2ndring Rd section in Beijing (个)路段编号22679 22681 23923 24233 23988 22057 21724 23924 24219 24967周二6.58 2.99 5.32 3.53 4.76 8.03 3.06 3.99 3.36 6.22周三 8.18 3.72 6.62 4.39 5.91 9.99 3.80 4.96 4.17 7.74周日 6.61 3.00 5.34 3.54 4.77 8.06 3.07 4.01 3.37 6.24
表6 北京市三环路各路段实际长度下浮动车最小样本量Table 6 The minimum sample size of floating car of 3rdring Rd section in Beijing (个)周二路段编号 25344 24124 24206 24167 24858 24122 25877浮动车最小样本量 7.10 5.72 10.03 7.60 4.13 5.80 8.63路段编号 23986 23984 26184 24156 23985 25878 23971浮动车最小样本量 6.94 6.89 4.46 5.55 5.46 3.77 4.94周三路段编号 25344 24124 24206 24167 24858 24122 25877浮动车最小样本量 8.22 6.62 11.61 8.79 4.78 6.71 9.99路段编号 23986 23984 26184 24156 23985 25878 23971浮动车最小样本量 8.04 7.97 5.16 6.43 6.32 4.37 5.71周日路段编号 25344 24124 24206 24167 24858 24122 25877浮动车最小样本量 6.97 5.61 9.85 7.46 4.06 5.69 8.48路段编号 23986 23984 26184 24156 23985 25878 23971浮动车最小样本量 6.82 6.76 4.37 5.45 5.36 3.71 4.85
4 研究范围内浮动车数据的时空有效性分析
由于前文中的浮动车最小样本量的确定是基于路段较长、数据质量较好的前提,把该标准放在整个路网中来检验可以反映当前研究范围内浮动车数据在时空上的有效
性情况.
4.1 时间上的有效性情况
对于一个路段,在以5 min为时间单位,全天(7:00~21:55)180个时间单位内,或许并不是每一个5min的样本量都达到了最小样本量(7~9个)的标准.通过把样本量满足有效性要求的时间单位个数进行累加,计算其占全天180个时间单位的比例,然后把相同周期(如同是周二的各天)计算结果进行平均,就能得到浮动车数据在时间上的有效性情况,见表7.
表7 满足有效性要求的时间单位个数占全天的比例Table 7 The proportion of time-unit's number whose records are enough时间周二周三周日环路名称二环三环二环三环二环三环平均比例(%) 82.389 75.364 78.028 72.237 66.987 64.180
表7中,平均比例越高,该条路段上提供的浮动车数据越可靠.以周二二环路为例,浮动车数据时间上的有效性为82.389%,说明在全天180个5 min中只有17个5 min的时间里浮动车数据是不可靠的.
4.2 空间上的有效性情况
在选取的路段中,二环路有10个路段,三环路有14个路段,对于每一个路段,每一天的平均样本量都不相同,把全天平均样本量与最小样本量进行比较,把平均样本量大于最小样本量的路段数进行累加,然后计算其占所有路段数量的比例,得到浮动车数据在空间上的有效性满足情况,见表8.
表8中平均比例越高,说明研究范围内整个二环路或三环路的浮动车数据越可靠.结合表7、表8可知,同一时段、同一道路上的浮动车数据在空间上的有效性要高于在时间上的有效性,这或许是因为浮动车样本量数在时间上的分布不均匀而造成的. 表8 平均样本量满足有效性要求的路段数所占比例Table 8 The proportion of road sections whose average records are enough时间周二周三周日道路等
级二环三环二环三环二环三环平均比例(%) 97.727 83.333 98.387 89.247 74.468 83.333
最小样本量可以判断用于短时交通流预报的数据是否可靠,而表7、表8根据最小样本量可以从时间和空间两个方面总体上判断本文研究范围内的浮动车数据有效性情况,从而指导浮动车系统的建立.
5 研究结论
本文将RTMS数据引入浮动车数据有效性判断中,为北京市短时交通流预测的准确性提供了前提条件;利用抽样方法和相似性原理确定了浮动车最小样本量,这点可以指导其他城市浮动车系统的建设,同时也确定了保证短时交通流预测准确性所需的最低条件;最后通过最小样本量来检验了研究范围内浮动车数据在时空上的有效性情况,为最小样本量的实际应用进一步提供了根据.本文研究对象是北京市的快速路上的浮动车 ,下一步可以将研究对象扩展为主干路、次干路和支路上的浮动车数据,同时补充其他时间的浮动车最小样本量研究,最终实现一个完整路网的短时交通流预测.
参考文献:
【相关文献】
[1] 朱丽云,温慧敏,孙建平.北京市浮动车交通状况信息实时计算系统[J].城市交通,2008,6(1):77-80.[ZHU L Y,WEN H M,SUN J P.Floating car based realtime-traffic-info collection system in Beijing[J].Urban Transportation of China,2008,6(1):77-80.]
[2] Ferman M A,Blumenfeld D E,Dai X W.A simple analytical model of a probe-based traffic information system[C]//IEEE.Intelligent Transportation Systems
Proceedings.Shanghai:IEEE,2003:263-268.
[3] 姚琛.基于路段覆盖率的浮动车样本数量研究[J].山东理工大学学报(自然科学版),2006,20(3):96-98.[YAO C.Study on the density of floating car based on the route coverage[J].Journal of
Shandong University of Technology(Sci&Tech),2006,20(3):96-98.]
[4] 涂智,等.基于最小浮动车样本数量的道路覆盖率与交通信息更新周期研究[J].中国铁道科
学,2006,27(5):127-131.[TU Z,et al.Study on the route coverage and the update cycle of transportation information based on the minimum samples of floating car[J].China Railway Science,2006,27(5):127-131.]
[5] Ruey L C,Xie C,Lee D H.Probe vehicle population and sample size for arterial speed estimation[J].Computer-aided Civil and Infrastructure Engineering,2002,17(1):53-60. [6] 林思,徐建闽,熊文华.基于仿真试验的GPS浮动车最佳样本容量确定方法研究[J].交通与计算机,2008,4(26):72-74.[LIN S,XU JM,XIONG W H.Determination method of sample capacity of GPS floating vehicle based on simulation[J].Computer and
Communications,2008,4(26):72-74.]
[7] 孙立,王海峰,林绵峰.浮动车系统的规模参数研究[C]//全国智能交通系统协调指导小组办公室.2006第二届中国智能交通年会论文集.北京:人民交通出版社,2006:150-155.[SUN L,WANG HF,LIN M F.A research on scale parameter of floating car data system[C]//The National Intelligent Transportation Systems Office.2nd China Annual Conference on
ITS.Beijing:China Communications Press,2006:150-155.]
[8] 曾维,王海峰,孙立.不同浮动车规模下的城市道路路况相似性判据研究[C]//全国智能交通系统协调指导小组,2008第四届中国智能交通年会组委会.2008第四届中国智能交通年会精编论文集.北京:人民交通出版社,2008:781-786.[ZENG W,WANG H F,SUN L.A criterion research on similarity of city road conditions from different vehicle scales of FCDs[C]//The National Intelligent TransportationSystems Office and 4th China Annual Conference Academic The National Intelligent Transportation Systems Office.Beijing:China Communications Press,4th China Annual Conference on ITS,2008:781-786.]。