聚类分析算法在交通控制中的应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文章编号:100124098(2004)022*******
聚类分析算法在交通控制中的应用Ξ
李 英1,李 武2,王浣尘2
(1.华东理工大学管理学院,上海 200237;2.上海交通大学安泰管理学院,上海 200052)
摘 要:聚类分析是根据物理或抽象对象间的相似程度对对象进行分类的一种方法,通过聚类分析使得同一类中的对象具有高的相似度,而与其他类中的对象则很不相同。PAM(Partiti on ing A round M edo ids)算法是一种基于距离的分离式聚类方法,具有良好的抗噪声、抗偏离点的能力。本文将PAM算法应用于交通控制的时段划分中,通过验证分析,结果表明取得了良好的分类效果。
关键词:数据挖掘;聚类分析;交通控制
中图分类号:U491 文献标识码:A
聚类分析是根据物理或抽象对象间的相似程度对对象进行分类的一种方法,通过聚类分析使得同一类中的对象具有高的相似度,而与其他类中的对象则很不相同。
随着智能交通系统研究的深入和信息技术的发展,交通控制系统从原来的没有计算机的第一代系统发展到依赖计算机技术的第二代、第三代系统[2]。根据这些系统的需要,在各个路口均要设立检测器,以便及时搜集实时的交通数据用于控制策略的制定。但是,目前使用较多的控制方法仍是根据一天中不同的时间段选择制定不同的方案[3],而时间段的划分往往是根据工程师的经验,按照一个路口的交通流量大致确定的,没有利用实时的交通数据。
本文利用聚类分析中的PAM(Partiti on ing A round M edo ids)算法,对路口的历史数据进行分析,从而得到合理的时间段划分结果。
1 PAM算法[4]
PAM算法是一种k2M edo ids聚类算法。这种方法的基本思想是:首先从n个对象中任意选择k个对象(称为M edo id)作为k个类的代表,然后不断利用可以提高分类质量的非中位数对象代替原来的M edo id对象,直到达到最佳分类效果。
对于分类质量采用一个损失函数来衡量,损失函数可以采用一个类中所有对象与M edo id之间不相似性的平均值来表示。为了决定一个非M edo id对象O rando m是否能够替代当前的一个M edo id O j,需要从以下四种情况对每个非M edo id的对象p进行检查。
情况1:假设p当前属于M edo id O j.如果O j被O rando m替换后,p更相似于另外的一个M edo id O i,i≠j,则p重新分配给O i1
情况2:假设p当前属于M edo id O j.如果O j被O rando m替换后,p更相似于O rando m,则p重新分配给O rando m.
情况3:假设p当前属于M edo id O i,i≠j.如果O j 被O rando m替换后,p仍然最相似于O i,则对于p的分配不变。
情况4:假设p当前属于M edo id O i,i≠j.如果O j 被O rand o m替换后,p更相似于O rando m,则p重新分配给O rando m.
每进行一次重新分配,都要计算一个总的损失函数,这个损失函数表示重新分配前后不相似程度的差别,如果这个损失函数的值为负值,表示重新分配后,聚类效果优于重新分配前,需要用O rando m替换O j1 PAM算法是最早提出的k2M edo ids算法之一,对于PAM算法的描述如图1所示。
第22卷第2期(总第122期) 系 统 工 程 V o l.22,N o.2 2004年2月 Syste m s Engineering Feb.,2004
Ξ收稿日期:2003206207
作者简介:李英,上海交通大学安泰管理学院,研究方向:多A gent系统,数据挖掘,交通预测与控制;王浣尘,上海交通大学安泰管理学院教授,博士生导师。
①任选k个对象作为寝的M edo id;
②重复执行;
③ 将对象分配到最相近的聚类中;
④ 任选一个非M edo id的对象O rando m;
⑤ 用O rando m替换M edo id O j,计算损失函数S的值;
⑥ 如果S<0,用O rando m替换O j,组成新的M edo ids;
⑦直到没有变化。
图1 PAM算法描述
2 交通数据的聚类分析
(1)问题描述
在目前的交通控制中,对于控制时间段的划分一般仍采用脱机的形式,由工程师根据自己的经验,依据单个路口的历史交通流量来进行的。随着智能交通系统的推进,已经可以实时获得关于各个路口的实时交通流信息。如何利用这些实时信息,更科学有效地对控制的时间段进行划分成为研究的问题。
本文利用数据挖掘技术中的聚类分析算法PAM,对相邻路口的实时交通流量信息进行聚类分析,得到对控制时间段的划分。
(2)状态选择
对于控制时间段的聚类分析,是依据交通路口的状态进行的。在本文中,对交通状态的描述采用当前路口各个相位的交通流量以及与其相邻的路口的相关相位的交通流量。例如,对于图2所示的路网结构图,采用的控制状态可以描述为
X(t)=(V A1,V A2,V B1,V C1)
其中,X(t)表示在时刻t的系统状态;V A1表示路口A的相位1在时刻t时的交通流量;V
A2
表示路口A的相位2在时刻t时的交通流量;V
B1
表示路口B的相位1在时刻t时的交通流量;V C1表示路口C的相位1在时刻t时的交通流量。
图2 三路口路网结构图
(3)实例分析结果
采用上面介绍的状态选择方法,对天津市营口路某些路段的交通流量进行PAM聚类分析。其中,算法的输入为5个工作日的15分钟间隔的实测交通数据(共480个数据),以及聚类数目k(在本文中选择为7);算法的输出为一天的所有15分钟时间段所属的聚类(从类1到类7)。图3所示为聚类分析的结果。
图3 聚类分析结果
根据图3所示的结果,可以得到时间段的划分区间,如表1所示。
表1 控制时间段的划分结果
聚类时间段
500:00~03:30
103:30~06:30
206:30~10:45
310:45~16:00
416:00~18:00
618:00~22:00
722:00~24:00
(4)聚类验证
对于聚类有效性的验证,需要从数据和结构两个方面进行[3]。所谓从数据方面的验证就是要保证用于进行聚类分析的数据不是完全随机的,因为聚类算法可以对任意的数据群进行聚类分析,不管这些数据是完全随机的,还是本身具有内在的分类可能。而对聚类结构的有效性需要从两个方面进行:①紧密性,主要衡量一个聚类中个体的内聚性;②隔离性,用于衡量一个聚类中的对象与其他对象之间的区别性。已有很多研究表明交通流数据不是完全随机的[5],因此本文不专门从数据方面进行聚类验证了,仅对聚类结构的有效性进行分析。
图4所示为聚类间基于距离度量的紧密性和隔离性。分别表示对象与其所属的聚类的中的对象之间的距离,以及对象与属于其他聚类的对象之间的距离。从图4中可以看出,一个聚类中的对象之间的距离小于其中的
76
第2期 李英,李武等:聚类分析算法在交通控制中的应用