基于Q学习的Agent在单路口交通控制中的应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

法 , 其思想是不去估计环境模型 , 直接优化一个可迭 [7~9 ] [10 ] 代计 算 的 Q 函 数 。Watkins 定 义 此 Q 函 数 为 Agent 在状态 s 时执行行为 a , 且此后按最优行为序列 执行时所获得的折扣累积奖励值 ,即 : ) | a′ Q ( s , a) = r ( s , a) + γ max{ Q ( s′ , a′ ∈A } , ( 1)
2 路口 Agent 的学习机制 2 11 Q 学习算法 Q 学习是一种无需模型的在线增量式强化学习方
图2 交通流相位划分图
Fig12 The layout of traffic flow’ s phase
路口控制级 Agent 的主要功能是针对路口当前交 通流的状态制定相应的控制策略 , 然后让执行装置执 行 , 从而达到改善路口交通流环境的目的 。 路口 Agent 的模型如图 3 所示 , 包括环境感知模 块 、学习模块 、决策模块 、执行模块 、知识库 、通信 模块以及协调模块 。 各模块的基本功能为 : ( 1) 感知模块 : 采集路口 交通流环境的当前信息 ; ( 2) 学习模块 : 对接收到的 路况信息进行学习或者依据有关的经验知识得到定量 信息 , 为决策模块提供决策依据 ; ( 3) 决策模块 : 根 据学习模块提供的信息 , 制定相应的控制策略 ; ( 4) 执行模块 : 执行决策模块所制定的控制策略 ; ( 5) 知 识库 : 存储对应于不同路况的控制信息 ; ( 6) 通信模 块 : 为 Multiagent 控制预留的接口 , 其功能主要是负 责与相邻路口 Agent 间信息的交互 ; ( 7) 协调模块 : 为 Multiagent 控制预留的接口 , 其功能主要是负责与 相邻路口 Agent 间进行控制任务的协调 。 路口 Agent 的控制过程如下所示 :
基金项目 : 北京市教委科技发展计划基金资助项目 ( TM2004100051) ; 北京市自然科学基金资助项目 (4042006) ; 北京工业大学博士科研启动 基金资助项目 (52002011200402) 作者简介 : 陈阳舟 (1963 - ) ,男 ,湖北仙桃人 ,博士生导师 ,教授 ,研究方向为混杂系统 、 智能控制系统等 1 (zhanghuhui @emails1bjut1edu1cn)
第 5 期 陈阳舟 , 等 : 基于 Q 学习的 Agent 在单路口交通控制中的应用 119
性很强 , 具有较强的随机性和不确定性 , 并且环境也 是多变的 , 因此所设计的交通控制系统不仅要具有状 态的识别能力 , 更要具有控制策略 ( 信号灯的配时方 案) 的自寻优能力以及对环境变化的自适应能力 。 基于交通系统的特性 , 本文将 Agent 技术与 Q 学 习算法相结合能够实现交通控制策略的自学习和自寻 优 , 即采用 Q 学习算法来实现路口 Agent 的自主学习 功能 。在每一个决策时刻 , Agent 应用 Q 学习算法对 感知到的交通状态进行学习和行为决策 , 并将行为决 策交由执行模块执行 。行为决策作用到信号灯之后 , 改变了交通流环境的状态 , 并将行为执行的控制效果 (奖惩信号) 反馈给 Agent , 然后 Agent 根据控制效果 对行为决策进行调整 。路口 Agent 的 Q 学习示意图如 图 4 所示 。
基于 Q 学习的 Agent 在单路口 交通控制中的应用
陈阳舟 , 张 辉 , 杨玉珍 , 胡全连
1 1 1 2
(11 北京工业大学 , 北京 100022 , 21 江西师范大学 , 江西 南昌 330027)
摘要 : 将 Agent 技术与 Q 学习算法相结合 , 应用到城市交通控制领域中 , 对单交叉口的交通流进行了控制研究 , 介绍 了路口 Agent 的结构模型以及基于 Q 学习算法的学习机制的实现 , 提出了一种适用于交通控制的奖惩函数 。即当红灯 相位的饱和度大于绿灯相位的饱和度时 , 红灯相位的相对警界度在奖惩函数中占主导地位 , 此时大部分情况下会对
随着经济 、社会的全面发展 , 北京市机动车的保 有量迅速增加 , 从而导致北京市交通问题日益严重 。 对北京市现有交通路口的信号灯进行合理的控制 , 是 解决北京市交通问题的一种重要手段 。由于交通流具 有时变性 、随机性和干扰严重等特点 , 传统的控制方 法所取得的控制效果与人们的期望相比还有一定距 离 , 于是人们将一些先进的控制理论和方法 , 特别是
Agent 进行惩罚 ; 在以后的决策过程中面对类似的交通状态 Agent 所选择的控制行为更倾向于将通行权切换给下一个相
位 , 反之 , Agent 所选择的行为倾向于保持当前相位的通行权到下一决策Байду номын сангаас刻 。并通过微观交通仿真软件 Paramics 对控 制算法进行仿真研究 , 仿真结果表明该方法的控制效果优于定时控制 , 同时验证了奖惩函数的有效性 。 关键词 : 交通工程 ; 单交叉口 ; Q 学习 ; 奖惩函数 ; 交通流 中图分类号 : U491 文献标识码 : A
1 1 1 2
(11Beijing University of Technology , Beijing 100022 , China ; 21Jiangxi Normal University , Jiangxi Nanchang 330027 , China) Abstract : An approach of Agent technology combined with Q - learning is applied to urban traffic control , to study the single intersectio control1The model of intersection Agent an the implementation of the learning function based on QΟ learning are introduced1A reward function which is fit to traffic control is put forward1The Agent will be punished when the red saturation is more than green’ s , when the relative security of red phase occupies dominant position in the reward function1 In other words , in later decisionΟ making process facing the similar traffic condition , the control behavior which Agent chooses would let the right of way cut to the next phase1Otherwise , Agent would choose maintaining current phase right of way until next decision making1The experimental results indicate that the approach is better than the fixed control , and validate the effectiveness of the reward function1 Key words : traffic engineering ; single intersection ; QΟ learning ; reward function ; traffic flow
收稿日期 : 2005Ο 11Ο 23
各种智能控制方法
[1~2 ]
应用到城市交通控制中 。
在人工智能领域中 , Agent 被定义为具有感知能 力、 问题求解能力以及与外界进行通信能力的主 [3 ] 体 。随着人工智能不断发展和完善 , 人们开始将智 能 Agent 技术以及 MultiΟ Agent 控制系统引入到交通控 制领域中 , 对交通流进行控制研究 , 并逐渐成为一个 [4~6 ] 研究热点 。本文采用 Agent 技术与 Q 学习算法相
Applicatio n of AgentΟ ba sed QΟ learning in the Traffic Flow Co ntrol of Single Intersectio n
CHEN YangΟ zhou , ZHANG Hui , Y ANG YuΟ zhen , HU QuanΟ lian
公 路 交 通 科 技 第 24 卷 1 18
结合的控制策略 , 对单交叉口交通流进行控制研究 , 指出了控制策略的可行性 。
1 路口 Agent 的控制模型
本文以单交叉路口的交通流为研究对象 , 其交通 流分布如图 1 所示 。单交叉口交通流采取四相位控 制 , 设定右转交通流不控 , 相位划分如图 2 所示 : 相 位 1 为东西直行 , 相位 2 为东西左转 , 相位 3 为南北 直行 , 相位 4 为南北左转 。
r ( s , a) =
e
-
X X
r g
( La - Lg) + e (e X X
r g
X X
g r
g r
( La - Lr)
+e
-
X X
,
( 2)
) La
式中 , L a 为在 4 个方向的车辆进口处设置的车辆排队 长度警界值 ( 大于或等于警界值时表示道路拥堵 ,反之 表示道路畅通情况良好) ; L g 为绿灯相位的车辆排队 长度 ; L r 为所有红灯相位车辆排队长度中的最大值 , 即 L r = max ( L r1 , L r2 , L r3 ) ; Xg 为绿灯相位的饱和度 ; X r 为所有红灯相位饱和度中的最大值 ,即 X r = max ( X r1 ,
图3 路口 Agent 模型
Fig13 The model of intersection Agent
图1 单交叉口示意图
Fig11 Single intersection sketch map
第 1 步 : 感知模块对路口当前交通状态进行采 集 , 然后把采集到的交通流信息传递给学习模块 。 第 2 步 : 学习模块接收到感知模块传递来的信息 后 , 首先查找知识库中的历史知识 , 如果知识库中没 有相应的控制信息 , 学习模块则根据路口当前的交通 流状态进行学习 , 得到对应的定量控制信息 , 然后将 此信息传送给决策模块 , 并将此次学习到的知识存储 到知识库中 , 以便下次查找 。 第 3 步 : 决策模块依据学习模块所提供的定量信 息制定相应的控制策略 , 然后将控制策略传递给执行 模块 , 执行模块对路口信号灯执行相应的控制行为 。 第 4 步 : 经过一定的时间间隔 ( 本文取值为 2 s) 后 , 重复第 1 步至第 3 步 。
第 24 卷 第5期
2007 年 5 月
公 路 交 通 科 技
Journal of Highway and Transportation Research and Development
Vol124 No15
May 2007
文章编号 : 1002Ο 0268 (2007) 05Ο 0117Ο 04
a′
其中 , r ( s , a) 为奖惩函数 ;γ 为折扣因子 ; s′ 为环境的 后继状态 ; A 为 Agent 可执行的行为集合 。由式 ( 1) 可 知在学习过程中 ,奖惩函数 r ( s , a) 是 Agent 对 Q 值进 行更新的关键所在 。
2 12 学习机制的实现
交通是一个复杂的 、开放性的在系统 , 人们无法 得到完整 、准确的教学模型 。由于交通流的动态时变
相关文档
最新文档