基于演化博弈理论的有限理性交通选择行为模型
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
交通选择行为一直都是交通研究人员关注的问题之一 , 国内外的交通学者对此做了大量的研究工作, 并构建起以交通分配理论为基础的庞大的交通规划理论体系 . 现在已可以借助交通分配理论和离散选 择 模型计算出当路网处于均衡状态时各路径和路段的流量情况
[14]
.
尽管如此, 现有解释人们交通选择行为的研究多是基于出行者掌握完 全 的 路 网 信 息 和 选 择 行 为 完 全 理性( full rationality ) 的假设, 而现实情况往往无法严格满足这一假设条件 . 现实中的出行者往往只能在有 依据不 完 全 的 路 网 信 息, 选 择 自 己 的 出 行 路 径 . 因 此, 了解出行者 限理性( bounded rationality ) 的条件下, 在有限理性条件下的决策方法和学习过程对理解现实中的交通选择行为和交通现象非常必要 . 长期以来, 博弈论学者对有限理性条件下人们的学习过程进行了大量研究, 并提出了很多针对群体和 个体行为分析的理论和模型, 其中, 演化博弈理论已经被广泛应用于群体学习 现 象 的 研 究 中 . 1973 年, 英
[10]
基于演化博弈理论的方法分析了交通拥挤现象 . 该研究说明出行者的效用在理
论上存在一个最大值点, 由于该研究设定的效用函数在此最大值点的一个邻域内是严格凹的 , 作者进而根 据博弈论的理论说明这个最大值点就是唯 一 的 Nash 均 衡 . 该 研 究 没 有 说 明 用 演 化 博 弈 理 论 求 出 均 衡 的 具体状态和出行者效用最大值点附近邻域的具 体 边 界 . 上 述 2 项 研 究 是 具 有 开 创 性 的, 因为它们把出行 者的选择过程视为一个不断学习和不断调整的过程, 并且都应用演化博弈理论 的 方 法 从 群 体 角 度 分 析 了 出行者的选择行为 . 但这些研究并没有求出对 一 个 路 网 而 言 演 化 模 型 收 敛 的 稳 定 状 态, 也没有从理论上
者选择路径 a 的比例随时间的变化率只取决于 P a ( t ) ( 此时刻 出 行 者 选 择 路 径 a 的比例) 和 u a ( t ) - u ( t ) ( 选 择 路 径 a 所 得 效 用 与 平 均 效 用 之 间 的 差 值 ) . u a ( t ) 与 u ( t ) 之 间 差 值 越 大, 即选择路径 a 的优越性越突出, 则出行者选择此路径的比例增长就越快 . 另外, 若 d P a ( t) / d t = 0 , 则意 味着选择路径 a 的出行者的人数不再变化, 路网处于稳定状态( steady state ) . 在 2 条路径之间选择时, 出行者群体的平均效用可以表示为 u ( t) = P a ( t) u a ( t) + P b ( t) u b ( t) 将其代入式( 4 ) 有 d P a ( t) = ( u a ( t) - ( P a ( t) u a ( t) + P b ( t) u b ( t) ) ) P a ( t) = P a ( t) ( u a ( t) - dt P a ( t) u a ( t) - ( 1 - P a ( t) ) u b ( t) ) = P a ( t) ( 1 - P a ( t) ) ( u a ( t) - u b ( t) ) ( 1 ) 可以进一步解出 u a ( t) = u b ( t) ( B a + B b ) Q] . 即 A a + B a QP a ( t ) = A b + B b Q ( 1 - P a ( t ) ) , 则 P a ( t) = ( A b - A a + B b Q ) / [ P a ( t) = 1 及 P a ( t) = ( A b - A a + B b Q ) / [ ( B a + B b ) Q]时, 所以, 当 P a ( t) = 0 , 路网 处 于 稳 定 状 态, 其中 前 2 个稳定状态意味着出行者群体趋向于采用相同的策略( 选择路径 a 或路径 b ) 而最后一个稳定状态意 味着群体成员以一定比例采用不同策略 . 1. 2 路网稳定状态的稳定性问题 为了分析路网的稳定性问题, 需要先引入演化博弈理论 定义 1
[56] 国科学家 Maynard 和 Price 将博弈论的基本 理 论 融 入 对 生 物 进 化 现 象 的 研 究 当 中, 提出了演化博弈理 [7] 论中具有关键性意义的均衡概念: 进化稳定策略( evolutionary stable strategy ,ESS ) . 乔根 对基于演化模
摘
要: 基于出行者掌握不完全的路网信息和选择行为有限理性的假设, 运用 演 化 博 弈 理 论 建 立 了 出 行 者 交 通
2条 选择行为模型, 并基于数学归纳法的思路, 从理论上证明 演 化 方 法 对 交 通 选 择 行 为 分 析 的 适 用 性 . 经 证 明, 乃至 n 条独立路径条件下, 求得的进化 稳 定 状 态 与 用 交 通 分 配 理 论 和 随 机 效 用 理 论 所 得 到 的 均 衡 状 态 完 全 等 价. 关键词: 路径选择行为; 演化博弈; 稳定状态; 进化稳定策略( ESS ) 中图分类号: U 491. 1 文献标志码: A 文章编号: 0254 - 0037 ( 2010 ) 08 - 1077 - 07
1124. 收稿日期: 2008作者简介: 关宏志( 1959 — ) ,黑龙江牡丹江人,教授,博士生导师 .
1078
北
京
工
业
大
学
学
报
2010 年
说明演化博弈理论求得的稳定状态与交通分配理论中均衡状态的关系 . 由于演化博弈理论在交通选择行为研究领域的适用性尚未获得理论 上 的 证 明 , 从而限制了该方法在 交通行为分析中的应用 . 作者基于出行者掌握 不 完 全 信 息 和 有 限 理 性 的 假 设, 运用演化博弈理论建立出 并基于数学归纳法的思路, 从理论上分别证明 2 条路径和 3 ( 多) 条路径条件下进化 行者的选择行为模型, 稳定的状态与用交通分配理论和随机效用理论所得出的均衡状态完全等价 , 从而为进一步运用演化博弈 理论分析出行者群体选择行为奠定基础 .
Fig. 1 图1 2 路径路网示意图 The traffic network of two independent routes between O and D
( 1)
A i 为路径 i 的自由行驶费用; B i 为路径 i 的拥挤系数, 其中, 其与该路径的通行能力成 反 比; v i 为 路 径 i 的
型的博弈理论进行了系统总结和发展 . 近年来, 一些研究人员进一步尝试基于实验数据验证演化模型假
[8] 设的合理性, 最具代表性的是 Cheung 和 Friedman 的研究 . 他们基于演化模型和加权虚拟行动模型分 别
拟合了鹰鸽( hawk dove ) 博弈和买方 卖 方 ( buyer seller ) 博 弈 的 实 验 数 据, 结 果 表 明, 尽管用演化模型拟合 但演化博弈理论确实可以较好地解释上 的群体选择频数的平均绝对偏 差 ( mean absolute deviation ) 偏 大, 述博弈中的群体选择行为 . 近年来, 交通规划领域的研究人员也开始尝试把演化博弈理论用于对交通选择行为的研究 , 以完善传 统理论 . 李振龙
[9]
基于演化博弈理论, 对诱导情况下驾驶员的交通选择行为进行了分析. 该研究 认 为 出
并用演化模型的方法从群体角度分析了出行者的选择行为, 但该研究 行者面对诱导信息时存在学习现象, 并没有求出演化模型最后到达的稳定状态, 而是通过仿真方法验证了出行者的 选 择 行 为 是 可 以 收 敛 到 一 种稳定状态的 . 吴兵等
( 3)
d Q a ( t) / d t dQ / dt = u a ( t) , = u ( t) , 则式( 3 ) 可以进一步写为 Q a ( t) Q
第8期
关宏志,等: 基于演化博弈理论的有限理性交通选择行为模型
1079
d P a ( t) =[ u a ( t ) - u ( t) ] P a ( t) dt
1
1. 1
2 条路径选择行为分析
路网的均衡稳定条件 出行者在不同路径之间的选择行为可以视为路网中不同出行者之间的博弈问题 . 每个出行者的路径
选择结果, 都会影响其他出行者路径选择行为的效用, 而路网中各条道路的交通状况是由所有出行者的选 据此并不能准确地掌握其 择结果共同作用形成的 . 由于出行者在选择路 径 时 掌 握 的 出 行 信 息 是 有 限 的, 他出行者的选择和路网的实际状况, 这种状况 更 符 合 有 限 理 性 条 件 下 的 演 化 博 弈 理 论 所 讨 论 的 状 态 . 以 下基于演化博弈理论的方法讨论路网的均衡稳定条件 . D 之间存在 2 条相互独立的路径 a 和 b ( 参见图 1 ) , 设路网中 O 、 路径的成本函数为 C i = A i + B i v i ,( i = a , b) v a + v b 即是路网上的总流量 Q. 交通量, D 之间存在 2 根据博弈论 基 础 理 论, 假 设 在 O、 组出行者, 且每组的人数分别为 Q 1 和 Q 2 . 假设出 行 者的出行效用仅由上述成本函数决定, 且各出行者的 2 组出行者会分别以同样的概 偏好是同质的 . 因此, b 率 选择路径 a 和 b , 设 t 时刻 2 组出行者选择路径 a 、 的比例( 对 单 个 出 行 者 而 言 该 比 例 就 是 其 选 择 路 径 a、 b 的概率) 分别为 P a ( t ) 和 P b ( t ) ; 则选择路径 a 的 选择路径 b 的人数为 人数 为 Q 1 P a ( t ) + Q 2 P a ( t ) , Q 1 P b ( t ) + Q 2 P b ( t ) ; 此时各组出行者选择路径 a 、 b 的效用为 ui = - [ A i + B i ( Q 1 P i ( t ) + Q 2 P i ( t) ) ] = - [ A i + B i QP i ( t ) ] ,( i = a , b) 也是相同的, 因此不同的分组对出行者的选择效用没有影响 . 由于出行者在选择路径时无法准确地掌握其他出行者的选择行为和 路 网 的 实 际 状 况 , 所以不能期望 出行者一开始就通过同时采用特定的策略达到 2 条 路 径 之 间 的 均 衡 . 在 达 到 均 衡 之 前, 每个出行者会根 据自己选择策略的结果来不断调整自己的选择行为, 以不断提高自己获得 的 效 用, 因 此, 路网就会不断向 均衡状态进化 . 假设在 t 时刻, 选择路径 a 的出 行 者 的 人 数 为 Q a ( t ) , 则 t 时 刻 出 行 者 选 择 路 径 a 的 比 例 为 P a ( t) = Q a ( t) / Q , u b ( t ) 和 u ( t ) 来 表 示, 此时刻出行者选择路径 a 、 路径 b 的效用和群体的平均效用分别用 u a ( t ) 、 则选择路径 a 比例 P a ( t ) 随时间的变化率可通过对 P a ( t ) 求导得到 d P a ( t) = dt 令 d Q a ( t) d Q a ( t) d Q d Q d Q a ( t) / d tQ - d Q Q - Q a ( t) Q ( t ) d t Q ( t ) dt dt dt dt a a = · = - P ( t) 2 Q Q Q a Q Q a ( t) ( 2) 2 组选路径 a 的 出 行 者 的 效 用 相 同, 从式( 2 ) 可以看出, 在同一时刻, 同 理, 选路径 b 的出行者的效用
第 36 卷 第 8 期 2010 年 8 月
北
京
工
业
大
学
学
报
Vol. 36 No. 8 Aug. 2010
JOURNAL OF BEIJING UNIVERSITY OF TECHNOLOGY
基于演化博弈理论的有限理性交通选择行为模型
关宏志 ,浦 亮
100022 ) ( 北京工业大学 交通研究中心,北京