基于演化博弈理论的有限理性交通选择行为模型

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

交通选择行为一直都是交通研究人员关注的问题之一，国内外的交通学者对此做了大量的研究工作，并构建起以交通分配理论为基础的庞大的交通规划理论体系．现在已可以借助交通分配理论和离散选择模型计算出当路网处于均衡状态时各路径和路段的流量情况
［14］
．
尽管如此，现有解释人们交通选择行为的研究多是基于出行者掌握完全的路网信息和选择行为完全理性（ full rationality ）的假设，而现实情况往往无法严格满足这一假设条件．现实中的出行者往往只能在有依据不完全的路网信息，选择自己的出行路径．因此，了解出行者限理性（ bounded rationality ）的条件下，在有限理性条件下的决策方法和学习过程对理解现实中的交通选择行为和交通现象非常必要．长期以来，博弈论学者对有限理性条件下人们的学习过程进行了大量研究，并提出了很多针对群体和个体行为分析的理论和模型，其中，演化博弈理论已经被广泛应用于群体学习现象的研究中． 1973 年，英
［10］
基于演化博弈理论的方法分析了交通拥挤现象．该研究说明出行者的效用在理
论上存在一个最大值点，由于该研究设定的效用函数在此最大值点的一个邻域内是严格凹的，作者进而根据博弈论的理论说明这个最大值点就是唯一的 Nash 均衡．该研究没有说明用演化博弈理论求出均衡的具体状态和出行者效用最大值点附近邻域的具体边界．上述 2 项研究是具有开创性的，因为它们把出行者的选择过程视为一个不断学习和不断调整的过程，并且都应用演化博弈理论的方法从群体角度分析了出行者的选择行为．但这些研究并没有求出对一个路网而言演化模型收敛的稳定状态，也没有从理论上
者选择路径 a 的比例随时间的变化率只取决于 P a （ t ）（此时刻出行者选择路径 a 的比例）和 u a （ t ）－ u （ t ）（选择路径 a 所得效用与平均效用之间的差值）． u a （ t ）与 u （ t ）之间差值越大，即选择路径 a 的优越性越突出，则出行者选择此路径的比例增长就越快．另外，若 d P a （ t） / d t = 0 ，则意味着选择路径 a 的出行者的人数不再变化，路网处于稳定状态（ steady state ）．在 2 条路径之间选择时，出行者群体的平均效用可以表示为 u （ t） = P a （ t） u a （ t） + P b （ t） u b （ t）将其代入式（ 4 ）有 d P a （ t） = （ u a （ t）－（ P a （ t） u a （ t） + P b （ t） u b （ t））） P a （ t） = P a （ t）（ u a （ t）－ dt P a （ t） u a （ t）－（ 1 － P a （ t）） u b （ t）） = P a （ t）（ 1 － P a （ t））（ u a （ t）－ u b （ t））（ 1 ）可以进一步解出 u a （ t） = u b （ t）（ B a + B b ） Q］．即 A a + B a QP a （ t ） = A b + B b Q （ 1 － P a （ t ）），则 P a （ t） = （ A b － A a + B b Q ） / ［ P a （ t） = 1 及 P a （ t） = （ A b － A a + B b Q ） / ［（ B a + B b ） Q］时，所以，当 P a （ t） = 0 ，路网处于稳定状态，其中前 2 个稳定状态意味着出行者群体趋向于采用相同的策略（选择路径 a 或路径 b ）而最后一个稳定状态意味着群体成员以一定比例采用不同策略． 1. 2 路网稳定状态的稳定性问题为了分析路网的稳定性问题，需要先引入演化博弈理论定义 1
［56］国科学家 Maynard 和 Price 将博弈论的基本理论融入对生物进化现象的研究当中，提出了演化博弈理［7］论中具有关键性意义的均衡概念：进化稳定策略（ evolutionary stable strategy ，ESS ）．乔根对基于演化模
摘
要：基于出行者掌握不完全的路网信息和选择行为有限理性的假设，运用演化博弈理论建立了出行者交通
2条选择行为模型，并基于数学归纳法的思路，从理论上证明演化方法对交通选择行为分析的适用性．经证明，乃至 n 条独立路径条件下，求得的进化稳定状态与用交通分配理论和随机效用理论所得到的均衡状态完全等价．关键词：路径选择行为；演化博弈；稳定状态；进化稳定策略（ ESS ）中图分类号： U 491. 1 文献标志码： A 文章编号： 0254 － 0037 （ 2010 ） 08 － 1077 － 07
1124．收稿日期： 2008作者简介：关宏志（ 1959 — ），黑龙江牡丹江人，教授，博士生导师．
1078
北
京
工
业
大
学
学
报
2010 年
说明演化博弈理论求得的稳定状态与交通分配理论中均衡状态的关系．由于演化博弈理论在交通选择行为研究领域的适用性尚未获得理论上的证明，从而限制了该方法在交通行为分析中的应用．作者基于出行者掌握不完全信息和有限理性的假设，运用演化博弈理论建立出并基于数学归纳法的思路，从理论上分别证明 2 条路径和 3 （多）条路径条件下进化行者的选择行为模型，稳定的状态与用交通分配理论和随机效用理论所得出的均衡状态完全等价，从而为进一步运用演化博弈理论分析出行者群体选择行为奠定基础．
Fig． 1 图1 2 路径路网示意图 The traffic network of two independent routes between O and D
（ 1）
A i 为路径 i 的自由行驶费用； B i 为路径 i 的拥挤系数，其中，其与该路径的通行能力成反比； v i 为路径 i 的
型的博弈理论进行了系统总结和发展．近年来，一些研究人员进一步尝试基于实验数据验证演化模型假
［8］设的合理性，最具代表性的是 Cheung 和 Friedman 的研究．他们基于演化模型和加权虚拟行动模型分别
拟合了鹰鸽（ hawk dove ）博弈和买方卖方（ buyer seller ）博弈的实验数据，结果表明，尽管用演化模型拟合但演化博弈理论确实可以较好地解释上的群体选择频数的平均绝对偏差（ mean absolute deviation ）偏大，述博弈中的群体选择行为．近年来，交通规划领域的研究人员也开始尝试把演化博弈理论用于对交通选择行为的研究，以完善传统理论．李振龙
［9］
基于演化博弈理论，对诱导情况下驾驶员的交通选择行为进行了分析．该研究认为出
并用演化模型的方法从群体角度分析了出行者的选择行为，但该研究行者面对诱导信息时存在学习现象，并没有求出演化模型最后到达的稳定状态，而是通过仿真方法验证了出行者的选择行为是可以收敛到一种稳定状态的．吴兵等
（ 3）
d Q a （ t） / d t dQ / dt = u a （ t）， = u （ t），则式（ 3 ）可以进一步写为 Q a （ t） Q
第8期
关宏志，等：基于演化博弈理论的有限理性交通选择行为模型
1079
d P a （ t） =［ u a （ t ）－ u （ t）］ P a （ t） dt
1
1. 1
2 条路径选择行为分析
路网的均衡稳定条件出行者在不同路径之间的选择行为可以视为路网中不同出行者之间的博弈问题．每个出行者的路径
选择结果，都会影响其他出行者路径选择行为的效用，而路网中各条道路的交通状况是由所有出行者的选据此并不能准确地掌握其择结果共同作用形成的．由于出行者在选择路径时掌握的出行信息是有限的，他出行者的选择和路网的实际状况，这种状况更符合有限理性条件下的演化博弈理论所讨论的状态．以下基于演化博弈理论的方法讨论路网的均衡稳定条件． D 之间存在 2 条相互独立的路径 a 和 b （参见图 1 ），设路网中 O 、路径的成本函数为 C i = A i + B i v i ，（ i = a ， b） v a + v b 即是路网上的总流量 Q．交通量， D 之间存在 2 根据博弈论基础理论，假设在 O、组出行者，且每组的人数分别为 Q 1 和 Q 2 ．假设出行者的出行效用仅由上述成本函数决定，且各出行者的 2 组出行者会分别以同样的概偏好是同质的．因此， b 率选择路径 a 和 b ，设 t 时刻 2 组出行者选择路径 a 、的比例（对单个出行者而言该比例就是其选择路径 a、 b 的概率）分别为 P a （ t ）和 P b （ t ）；则选择路径 a 的选择路径 b 的人数为人数为 Q 1 P a （ t ） + Q 2 P a （ t ）， Q 1 P b （ t ） + Q 2 P b （ t ）；此时各组出行者选择路径 a 、 b 的效用为 ui = －［ A i + B i （ Q 1 P i （ t ） + Q 2 P i （ t））］ = －［ A i + B i QP i （ t ）］，（ i = a ， b）也是相同的，因此不同的分组对出行者的选择效用没有影响．由于出行者在选择路径时无法准确地掌握其他出行者的选择行为和路网的实际状况，所以不能期望出行者一开始就通过同时采用特定的策略达到 2 条路径之间的均衡．在达到均衡之前，每个出行者会根据自己选择策略的结果来不断调整自己的选择行为，以不断提高自己获得的效用，因此，路网就会不断向均衡状态进化．假设在 t 时刻，选择路径 a 的出行者的人数为 Q a （ t ），则 t 时刻出行者选择路径 a 的比例为 P a （ t） = Q a （ t） / Q ， u b （ t ）和 u （ t ）来表示，此时刻出行者选择路径 a 、路径 b 的效用和群体的平均效用分别用 u a （ t ）、则选择路径 a 比例 P a （ t ）随时间的变化率可通过对 P a （ t ）求导得到 d P a （ t） = dt 令 d Q a （ t） d Q a （ t） d Q d Q d Q a （ t） / d tQ － d Q Q － Q a （ t） Q （ t ） d t Q （ t ） dt dt dt dt a a = · = － P （ t） 2 Q Q Q a Q Q a （ t）（ 2） 2 组选路径 a 的出行者的效用相同，从式（ 2 ）可以看出，在同一时刻，同理，选路径 b 的出行者的效用
第 36 卷第 8 期 2010 年 8 月
北
京
工
业
大
学
学
报
Vol． 36 No． 8 Aug． 2010
JOURNAL OF BEIJING UNIVERSITY OF TECHNOLOGY
基于演化博弈理论的有限理性交通选择行为模型
关宏志，浦亮
100022 ）（北京工业大学交通研究中心，北京