多分类器组合的交通拥堵预测模型研究_李春英

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

0引言

交通拥堵是交通拥挤和交通堵塞的统称，目前各国用来衡量交通拥堵的参数主要有拥堵时间、排队长度、车速等。中国公安部则对拥堵路段给出了定义：车辆在车行道上受阻且排队长度超过l km 的状态。美国诺贝尔奖获得者Gary S.Becker 曾做过一个测算，全球每年因交通拥堵造成的损失占GDP 的2.5%[1]，造成巨大的资源浪费。在中国由于汽车保有量的急剧上升，这种趋势还在增加。对于交通拥堵的治理，应该尽量做到事前处理，即当道路的交通状态出现轻度拥挤现象时，能够通过拥堵预测系统分析出短时间内的交通状态变化趋势，然后利用GPS 信息平台、广播等发出预警，诱导车辆进行合理分配行驶、加强秩序管理，来避免拥堵或缓解拥堵程度。国内外大多数文献对于交通拥堵识别预测方法，主要有人工判别法、模糊理论、模式识别、神经网络等技术，不过单独利用其中一种方法进行交通拥堵的判别，其准确率及可靠性难以保证[2]。

并且多数文献中主要利用交通流信息来预测交通拥堵，利用交通流检测信息及环境信息多源组合来进行城市交通拥堵判别的文献较少。文中充分考虑各种环境因素的基础上采用多分类器组合的方法来保证模型的稳定性，为提高预测的准确程度，采用了Bagging 类算法形成单分类器的训练集，然后通过简单多数投票法对城市道路的交通状态进行集成决策。实验数据表明，多分类器组合的模型在城市道路拥堵预测方面是可行的，可以提高BP 神经网络的泛化能力和获得更高的识别率，能够为交通拥堵预警及诱导系统提供数据上的支持。

1输入数据处理分析

现实中一些环境因素对于城市道路交通状态的影响是非

常重要的，比如暴雨经常容易造成交通瘫痪，上、下班的高峰时段容易造成道路拥挤，另外节假日和一些市政施工等也会造成道路拥挤。因此本文对于交通状态预测模型的输入数据主要有两部分组成：一类是环境因素，对于环境因素的处理涉

收稿日期：2010-05-20；修订日期：2010-07-22。

智能技术

及到如何将定性的描述转换成定量的数据作为多分类器模型的输入。另一类是交通流参数，由交通部门直接获得。由于其原始数据基本上都存在噪声，必须根据经验知识对数据进行预处理，主要包括相关性分析、数据噪声的清理、输入数据的归一化等[3]。

1.1环境因素数据处理

根据德克萨斯大学交通部对交通拥堵来源分类的数据研

究，文中对于交通状态所涉及的环境因素主要从4个方面进行处理：

(1)气候W 的影响。气候影响分成5个等级，借助于天气预报的预警信号颜色，没有出现预警信号时，用0.1表示；蓝色预警信号用0.3表示；黄色预警信号用0.5表示；橙色预警信号用0.7表示；红色预警信号用0.9表示。

(2)时段T 的影响。上下班高峰7:30-9:00和16:30-18:30用0.9表示；中午上、下班11:30-15:00用0.7表示；9:00-10:30用0.5表示；20:30-22:00用0.3表示；其余时段用0.1表示。

(3)特殊事件S 的影响。主要涉及市政工程，道路维修，交通事故，体育盛会等。道路无特殊事件的时候用0.1表示，当存有上述特殊事件的时候，可按照对交通状态的影响程度依次用0.3、0.5、0.7、0.9表示。

(4)假日H 的影响。非假日时用0.1表示，周六、日时用0.3表示，其它法定的节假日按照休假的时间长短依次用0.5、0.7、0.9表示对交通的影响程度。

1.2交通流参数的处理

2007版《城市道路交通管理评价指标体系》对于城市交通

通行状况的描述主要涉及到3个方面：①交叉路口阻塞率，衡量整个路网饱和程度的指标；②平均行程延误；综合地反映出城市路网的整体性能和城市交通管理的效率及水平。③高峰时段建成区主干道平均车速，用以评价道路的通畅程度，高峰时段主干道平均车速是指建成区早、晚交通流高峰时主干道上机动车的平均行程车速。由于模型的输入参数中已经考虑了与交通拥堵相关的环境因素，所以我们在模型输入参数中

的交通信息仅仅使用路段平均行程车速

表示观测路段

的长度(m )，表示第表示单位时间内检

测到的车辆总数(veh )。平均行程车速也可以由GPS 浮动车和线圈检测数据进行组合后得出观测路段的平均行程时间[4]，然

后通过路段长度与平均行程时间之比得出平均行程车速。每个城市的交通状态与平均行程车速之间的对应程度各不相同，需要通过经验数据得出，以肇庆市为例将路段平均行程车速划分为4个级别：①通畅：

该路段的平均行程车速≥25km/h 。②拥挤：该路段的平均行程车速10km/h

≤<25km/h ，相当于骑自行车的速度。③堵塞：该路段的平均行程车速3km/h

≤<10km/h ，相当于步行速度。④死锁：

该路段的平均行程车速<3km/h ，车辆几乎不能前行。

综合环境因素和平均行程车速可得到多分类器的输入

变量

ÖµºÍÉÏÒ»Ê±¼äÐòÁÐµÄ4个环境因素共7个因素，作为多分类器交通状态判决系统的输入，实时得出下一时间序列的交通状态，

然后根据给定的阈值

≤0.1死锁，

0.1<

≤0.8拥挤，

0.8<

结果的显著变动，而对稳定的学习算法效果不明显，有时甚至使预测精度降低。Bagging是一种通过重取样技术提高组合学习的差异性。其基本思想是：单分类器的训练集通过重复抽样的方式自主选择若干样本组成，训练集的规模与原始数据集规模相当，通过处理后一些样本在训练集中出现的概率是随机的。Bagging方法通过重新选取训练集，增加各训练集之间的差异，从而使单分类器模型参数的差异度增加，提高整个多分类器的泛化能力。因此本模型采用Bagging类算法来提高预测模型的稳定性和精度。

2.2组合规则

常见的组合规则有投票法、基于概率的方法等，这些方法需要苛刻的前提条件：各分类器要相互独立。Kittler给出了多分类器组合的理论框架，在此基础上得出组合的两个基本规则：和规则与积规则。其中和规则表现出较好的分类性能，原因是和规则对误差影响的抵制力较强。本模型采用和规则中的一种：简单多数投票法，由单分类器对样本进行预测(决策)，每一个单分类器对自己所预测的类投一票，得到票数最多的类就是分类器系统的最终预测结果。在投票的时候，对各单

分类器一视同仁，各个单分类器的权值相同。设样本类别总数为＝１，２，…,

£¬ÏµÍ³µÄ×îÖÕ·ÖÀà½á¹û¿É±íÊ¾Îª[3]：=

arg max

1｛｝。

｛1,2,…,

2.3性能评价

构造出多分类器模型后，需要评价该多分类器模型对给定问题的泛化程度，以便了解该模型对数据进行分类时的性能表现如何，是否足够适合用于给定的问题。评价多分类器的一个基本要求是：测试集当中不能包含用于训练单分类器时的训练样本，否则会导致“用训练集进行测试”的方法论上的错误。由于分类器对训练它的数据存在着过分特化的现象，所以，如果用训练数据来评价分类器的话，可能会得到过于乐观的估计。本模型的仿真实验是用样本集的一部分作为训练数据，余下的样本用于检测分类器的分类性能。

多分类器系统的性能通常用识别率来评价，即被正确识别的测试样本数占总测试样本的比率，但是仅仅通过识别率来评价一个多分类系统的优劣存在一定的不足之处，因为同一个分类系统可以通过增大识别的阈值