基于博弈强化学习的多智能体协作行为寻优_张捍东

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
摘 要 :针 对 非 监 督 多 Agent系 统 协 作 行 为 的 动 态 优 化 中 存 在 难 以 使 行 动 序 列 收 敛 到 Pareto 最 优 问 题 ,提 出 一 种 一 般 和 博 弈 框 架 下 改 进 Pareto-Q算 法 ,将 全 局 目 标 作 为 局 部 Pareto最 优 联 合行为强化学习目标,并提出基于可接受度分配共同收益,将全局意义下的最优行为通过 迭 代 学 习 转 化 为 局 部Pareto行 为 ,以 多 机 器 人 行 为 协 调 为 模 型 ,仿 真 验 证 了 算 法 的 可 行 性 和实用性。 关 键 词 : 多Agent博 弈 ;动 态 协 作 寻 优 ;改 进 Pareto-Q;收 益 分 配 中图分类号:TP242.6 文献标志码:A
Qt(s,ai)为状态
s 的值函数。
2
式 (2)中 假 定 Agent i 的 Q 值 与 其 它 Agent 的
行 动 无 关 , 实 际 问 题 中 由 于 Agent 收 益 受 到 其 它
Agent 行动的影响, 在计算 Agent Q 值时必须考虑
其它 Agent 的行动, 环境在多个 Agent 的联合动作
多 Agent 行 为 协 作[1]研 究 是 人 工 智 能 研 究 的 热 点和重要领域之一,以博弈论均衡选择为基础,研究 联合行为的选择机制是系统优化的有效手段。 解决 均衡选择问题实质就是解决协调问题, 经济学家常 常把协调问题模型化为协调博弈。 协调博弈就是有
多个可 进 行 帕 累 托 排 序 严 格 Nash 均 衡 解 与 Pareto 解的博弈, 同时协调博弈要保证参与人对不同策略 组合有相同偏好的博弈, 均衡选择依赖参与人之间 对选择相同行为有充分相似的信念。 但是当 Pareto 最优解不是 Nash 均衡时,从局部个体理性的角度考
合对于多人间的协调博弈,首先给出可接受度概念,
设 Γ=(N,C)是 t 时刻的一个可转让所得的多人合作
如果把每个局中人的收益作为一个目标函数, 则可将上述问题转化为在核心 V(x)中求解下列多
目标规划的问题:
軆f1(x)=x1
max F(x)=軆軆f2(x)=x2 軆軆 … 軆fn(x)=xn
Σ 軆
s.t.

軆i∈N
xi =C(s)

軆xi≥0
(5)
其中核心 V(x)是满足约束条件分配 x=(xi)i∈N 的 集
1 基于博弈论的多智能体强化学习模型
强 化 学 习 [7]技 术 是 从 控 制 理 论 、 统 计 学 、 心 理 学
等相关学 科 发 展 而 来 ,该 方 法 通 过 试 错 (trial-and-
error)来 发 现 最 优 行 为 策 略 , 与 监 督 学 习 和 非 监 督 学
习相比,它最大的优势就是不需要先验知识来训练,
函数下的某种平衡解。
2 改进 Pareto-Q 算法
本 文 提 出 的 改 进 Pareto-Q 学 习 算 法 是 以 多 智
能体合作联盟理论和 Markov 博弈理论为基础,首先
介绍 Markov 博弈和 Pareto 最优解的概念。
定义 2 Markov 博弈 Γ: 由集合〈α,S,A,R,T〉
Qt(s,a)]
(1)
在多Agent环境下的单Agent独立Q学习算法为
Qit+1(s,ai)=(1-αt)Qit(s,ai)+αt[Rit(s,a軆
i
)+γVt(s′)]
(2)
其中:a軆 为 Agents 的联合行动;αt 为随时间可变的学
i
i
习率;γ







;Vt
(s′
)=max ai∈A
文 章 编 号 :1001-9944(2009)01-0001-04
专题研究
基于博弈强化学习的多智能体协作行为寻优
张捍东 1,暴 伟 1,3,王丽华 2
(1.安徽工业大学 电气信息学院,马鞍山 243002;2.安徽工业大学 机械工程学院,马鞍山 243002; 3.安徽工业大学 管理科学与工程学院,马鞍山 243002)
组成, 其中 α 是 n 个智能体集合;S 是有限状态空
间;A 是 n 个智能体的联合动作空间;R:S×A→R 是
智能体在状态 s 执行动作 A 所获得的收益;T:S×A×
S′→[0,1]是智能体在状态 s 执行动作 A 后状态转移
到 S′的转移函数。 每个智能体的目标就是搜索到最
优联合策略来最大化折扣收益之和的期望值。
收 稿 日 期 :2008-06-05;修 订 日 期 :2008-12-09 基 金 项 目 :国 家 自 然 科 学 基 金 项 目 (50407017) ; 安 徽 省 教 育 厅 自 然 科 学 基 金 项 目 (2004KJ058,2006KJ019A) 作 者 简 介 :张 捍 东 (1963-),男 ,教 授 ,博 士 ,主 要 研 究 机 器 人 路 径 规 划 及 相 关 技 术 、优 化 控 制 理 论 与 应 用 、功 率 变 换 技 术 与 应
强化学习可描述为以下 Markov 决策模型。
定义 1 Markov 决策:由四元组〈S,A,R,P〉定
义。 包含一个环境状态集 S,系统行为集合 A,奖赏
函数 R:S×A→R 和状态转移函数 P:S×A→P(S)。 记
R(s,a,s′)为 系 统 在 状 态 s 采 用 a 动 作 使 环 境 状 态
Automation & Instrumentation 2009(1)
期折扣收益分配到各个局中人的局部阶段,改变局中 人各阶段的 Q 值矩阵。 当矩阵中的元素值稳定后,
依据博弈论的知识可直接选择最优解, 联结所经历
状态下的这些最优解即形成了最优联合行为策略。
对于长期累计回报分配, 一方面要考虑时间信
转移到 s′获得的瞬时奖赏值;P(s,a,s′)为系统在状
态 s 采用 a 动作使环境状态转移到 s′的概率。 Q 算法[8]是强化学习中最常用的一种算法,在单
Agent 独立强化学习系统中, 通过学习 Q 值函数的
方法进行决策,其 Q 值函数学习规则为
Qt+1(s,a)←Qt(s,a)+α[rt(s,a)+γmaxa′Qt+1(s′,a′)-
本文将博弈论与强化学习相结合, 从合作联盟 收益的结构分配和时间分配角度来研究多 Agent 的 行为协作,提出一种改 进 Pareto-Q 算 法 ,将 全 局 目 标作为局部 Pareto 最优联合行为强化学习目标 ,并 提出基于可接受度分配共同收益,将全局意义下的 最优行为通过迭代学习转化为局部 Pareto 行为。
度分配,另一方面要考虑结构分配,即每个 Agent 对
收益分配的接受程度, 寻找出每个 Agent 都满意的
分配方案,本文通过 Agent 之间的协调,用单目标规
划方法找出最小让步值, 这个最小让步值对应的分
配就是各局中人满意的分配方案。
设局中人由于合作而产生的共同收益 Ct+1(s)为
Σ Ct+1(s)= [ParetoQit+1(s′,Σa′)-ParetoQit(s,a軆 )] (4) i∈s
Multi -agent Reinforcement Learning for Collaborative Behavior Optimization Based on Game Theory
ZHANG Han-dong1,BAO Wei3,WANG Li-hua2
(1.School of Electrical Engineering and Information,Anhui University of Technology,Ma’anshan 243002,China;2. School of Mechanical Engineering,Anhui University of Technology,Ma’anshan 243002,China;3.School of Management Science and Engineering,Anhui University of Technology,Ma’anshan 243002,China) Abstract:In order to overcome the problem of convergence in multi-agent system dynamic collaborative behavior optimization,a novel algorithm named improved Pareto-Q learning based on general-sum game is presented,in which the global goal is the goal of multi-agent learning for local pareto joint behavior,and in which a distribution method for collective payoff based on common acceptability is also presented. The simulation result based on multi-robot behavior coodindicates this algorithm is feasible and practicable. Key words:multi-agent games;dynamic collaborative optimization;improved pareto-Q;profit-allocation
问 题 (structural credit assignment problem),即 整 个
系统获得的奖赏如何分配到每个 Agent 的行为上。
博弈框架下,Agent 在进行动作选择时,选择动作不
再仅仅依赖自身的值函数, 而必须同时考虑其他
Agent 的值函数,选择的动作是在当前所有 Agent 值
下进行状态迁移,此时 Q 值函数学习规则为
i
i
i
i
Qt+1(s,a軆 )=(1-αt)Qt(s,a軆 )+αt(Rt(s,a軆 )+γVt(s′))
(3)
不同于单 Agent 强化学习只考虑时间信用分配
问 题 (temporal credit assignment problem), 协 作 型
多 Agent 强化学习面临的主要问题是结构信用分配
定 义 3 Pareto 均 衡 : 在 合 作 博 弈 中 , 一 个
Pareto 最优解应该满足以下条件: 在状态 s 时的 Q*

Q*(s,
a軆

≥Q*

(s,a′




a軆









Nash 均衡条件。 因此,多智能体 Markov 博弈决策问题归结为求
解最优 Nash 均衡,而协同强化学习过程可视为随机 协 调 博 弈[9]的 过 程 ,在 该 过 程 中 有 共 同 目 标 的 成 员 间结成联盟 S, 构成一个合作博弈强化学习,Agent 根据当前状态-联合行动的 Q 值来选择动作, 在具 有延时回报的合作博弈中, 当前阶段的博弈均衡选 择是以瞬时 Q 值矩阵而不是以瞬时回报矩阵为依 据, 如果采用传统的固定支付矩阵则只能选到当前 局部最优解, 所以需采取正确的收益分配方案将长
用 、动 态 联 盟 的 管 理 与 决 策 ;暴 伟 (1980-),男 ,助 教 ,主 要 研 究 方 向 为 机 器 人 智 能 控 制 、工 业 流 程 优 化 。
自动化与仪表 2009(1)
ቤተ መጻሕፍቲ ባይዱ
1
专题研究
虑该 Pareto 合作联盟不成立, 必须以外界某种规则 约束来保证行动的一致性。
多 Agent 博弈可以分为零和对策与广义和对策 两种,前者系统在任何状态下,多个 Agent 从环境中 获得的奖赏总和为 0;而在广义和对策中,则没有此 要求。 基于以上划分,多 Agent 博弈中的强化学习算 法 典 型 的 有 Minimax-Q[2],Nash-Q[3],Friend-or-Foe Q-learning(FFQ)[4]和 CE-Q[5]等 。 文 献 [6] 提 出 一 种 Pareto-Q 算法, 该算法所使用的 Pareto 占优解概念 与 Nash 平衡解相比更适用于合作的一般和博弈,使 合作的 Agent 更具集体理性。
相关文档
最新文档