第6章 多智能体及行为(部分)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
N= 360o
β
其中:β − 单个传感器所能 感知的扇形区的角度
单个传感器所能感知的距离半径 R0。
是一个获得是否有其它机器人在一个非常大半径(可以看作是无限大)的圆形扇形区内出现的信 息的传感器。对这类传感器,传感器 j 在扇形区 εj 内的返回值表示为:
是一个获得在半径为 R0 的区域内是否具有其他机器人存在的信息的传感器。这种情况下,在该 传感器所在的机器人邻域的圆形扇区 j 表示为:
机器人完全不知道—— (1) 球门大小及其在三维空间内位置; (2) 球的大小、重量及其在三维空间内的位置; (3) 焦点距离(焦距)、倾角等所有内部、外部摄像机参数; (4) 机器人自身的运动学、动力学参数及其物理意义。 机器人能够得到的信息只是——来自 TV 摄像机的球与门的图像信息。
为了应用 Q-学习,必须构筑状态空间、行为空间等。它们应该与机器人一边真实地感知环境 信息一边进行动作行为的物理空间相对应。 但是, 从实际的传感器得到的状态空间与实际机器人的 行为空间不一定呈明确的对应关系,从而产生“状态与行为偏离”的问题。 下面,介绍对应现实世界的状态空间与行为空间的构筑方法,然后,给出“状态与行为偏离”
• 球,球门一起被观测到的情况下:35 (球,球门的状态数)=243 • 只是球被观测到的情况下:32 (球的位置,大小)×2(球消失的方向)=18 • 只是球门被观测到的情况下:33 (球门的位置,大小,朝向)×2(球消失的方向)=54 • 球和球门都观测不到的情况下:2 (球消失的方向)×2(球门消失的方向)=4 总共组合出 319 种状态,构成状态空间。
要让仿人机器人达到足球运动员那样的技巧性程度, 其难度是可想而知的, 更何况还要战胜人 类足球与动员呢? 难度很大程度上取决于人类行为、 动作的复杂性。 即使是机器人学者与踢足球的顶级高手联合 起来,预先设计好所有的动作让机器人去实现,也很难应付临场情况下瞬息万变的情况。因此,遵 循人类成长过程中的不断学习获得知识、技巧的一般规律。各种学习方法自然成为 RoboCup 研究 中的重要理论基础。目的是通过让机器人从学习过程中能够获得发现性的动作、行为,以适应变化 的环境并自主地做出对策和响应。
哈工大硕士研究生课程《仿生机器人及其智能运动控制》讲义
编著者:吴伟国
2005 年 2 月
问题的解决方法。
机器人能够感知环境状态的唯一信息只是来自 TV 摄像机的球与球门的图像。为了选择精度好 的最佳行为,状态空间的分辨率越高越好。可是,如果考虑图像处理的噪声、学习时间与状态空间 的大小成指数级等问题,最好先不要那么精确。因此,如图 12 所示,在图像上的大小、位置等设 定如下状态: 球的大小—— 球的半径:“大”“中”“小”——3 种状态 球的位置—— 重心的水平轴上的位置:“左” “中”“右”—— 3 种状态 球不能被观察到的情况下—— “在右侧消失”“在左侧消失”—2 种状态 关于球门—— “与球同样大小(垂直轴方向上的长度)”、 在 “位置(水平轴上的坐标中心)” 上的朝向(球门框朝向:“朝右”“正面”“朝左”) 球门不能被观察到的情况下— “在右侧消失”“在左侧消失”—2 种状态 将它们组合起来构成了总共 319 种状态组成的状态空间。
机器人采用由两个独立的电机驱动的 PWS (Power Wheeled Steering),可以分别给它们发送指令。 对于每个电机都有—— “正转” “停止” “反转”指令。通过命令组合,有如下 9 种行为可被选择: “前进”(行为数: 1) “左右转”(行为数:2) )“向左向右拐弯前进”(行为数:2) )“后退”(行为 数:2)“ “向左向右拐弯后退”(行为数:2)等 9 种行为。 再者,电 电机的转速一定,速度不变化。
哈工大硕士研究生课程《仿生机器人及其智能运动控制》讲义
编著者:吴伟国
2005 年 2 月
每个传感器能够在一定距离内探测是否在角度β 度量的扇形区内有其它机器人存在。传感器能够探知到 其它机器人的周围区域称为邻域。当在该区域有机器人 出现,传感器的信息使状态位置 1;否则置 0 或保持原 值。 一台移动机器人全方位感知周围邻域内状态的传 感器数目 N:
多机器人如果能够组织、协调好相互之间的作业关系,则多机器人系统可以高效、可靠地完成单 个机器人所无法完成的任务。 • 其应用可以面向更广泛的任务领域 • 高效率地完成作业——多机协同作业的并行性 • 其系统中含有各种机器人,充分发挥系统各方面的性能 • 具有错误容忍性——如有某个机器人发生故障,暂时无法恢复,则由另一台机器人替代它继续 工作 • 鲁棒性 • 较低的成本 • 分布式的感知和作用——由各机器人获得各方面的信息并作出响应 • 从社会群体、生命体理解、看待多机器人系统的特点
编著者:吴伟国
2005 年 2 月
6.3 RoboCup 机器人行为学习、进化
RoboCup 的最终目标——按着 FIFA 规则,到 2050 年用自律型仿人机器人 11 台组成仿人机器 人足球队夺取世界杯。RoboCup 设定了以多台自律机器人实现足球比赛为目的机器人学和人工智能 研究领域的新标准问题,以努力促进其各个相关领域的研究。是以北野宏明、浅田 捻等为代表的日 本学者在 1993 年提出的。
哈工大硕士研究生课程《仿生机器人及其智能运动控制》讲义
编著者:吴伟国
2005 年 2 月
R0 → R0 ± ∆R
每个返回的长度为 N 的二进制串对应于一个机器人环境的局部分布。 尽管有多达 2N 个可能的串 值,但能够实际发生的不同的局部分布的数量是非常有限的。 激励——通过执行移位操作(如环形移位或反环形移位)得到的一组等价的二进制串对应的一个独特 的局部条件,称为一 一个激励。 提取——算子记为:extr. 它把返回的传感集合 R 映射到激励集合 I:extr:R→I
• 多机器人路径规划 • 编队形成 • 目标跟踪 • 觅食 • 探索 • 碰撞避免 等等。
• • • • • •
交通控制 队形保持与控制 推箱问题 多机器人足球 定位 运输
6.2 多智能体强化学习技术
自治(autonomous)机器人—— 能够以成功实现目标的方式来自主地决定如何去联系感知数据与 马达命令的机器人。
• 视觉——目前,面向实时处理用颜色信息进行物体识别研究正在进行,但是,在形状信息、运动 信息方面今后仍需进一步加强研究。 • 触觉——与其他物体接触的信息,目前使用红外线、声纳等技术可以预先察觉,但是,信息密度 不充分。即使能够预先检测到仿人机器人与其他队员的冲撞,仍然需要密度充分 高的触觉传感器,即人工皮肤变得十分重要。 • 移动机构——敏捷性的实现很困难。此外,腿式移动的情况下,从 4 足到 2 足、从行走到跑的控 制问Байду номын сангаас变得非常复杂。 • 学习—— 赛前,由设计者将所有的动作预先准备好是很困难的,作为机器人自己获得行为的手 法,强化学习等正在被采用。但是,单纯的理论应用是难以适用于实际机器人的,所以, 从示教和容易作业的角度的学习研究正在进行。 • 进化——进一步地,由进化的方法,能够让“球队”进化、生成协调化的行动。 • 攻防技术—— 为多智能体的意识决定问题。还存在着根据场上状况的各种各样的进攻/防守技术 等各方面课题。
强化学习基本上是一种事先不需知道环境和作业的知识和信息,以试行错误为根本的学习方 法。通常需要莫大的学习时间,示教的方法可以直接使机器人获得动作,从而相对来说节省时间, 但示教不能使机器人产生自发性的动作行为,因此,强化学习与示教相结合的方法是 RoboCup 中 的一项重要研究内容。
作业——作为作业如图 11(a)所示。为了研究、开发作业行为获得的手法问题,考虑移动机器人把 球射进球门的作业。 假设——为使问题简化,在球场上,除球、球门以外不存在其它的东西。图 11(b)为实际使用的移 动机器人、球及球门。
哈工大硕士研究生课程《仿生机器人及其智能运动控制》讲义
编著者:吴伟国
2005 年 2 月
可以考虑对于各状态分别分配报酬,但是,只要不是严格地进行报酬分配,在行为价值函数的 更新过程中,产生很多个极大值,导致学习不收敛。因此,给与如下报酬定义: 当球进入球门时,报酬 r =1,除此以外报酬 r =0 此外,取衰减系数(或称阻尼系数) γ=0.8。
哈工大硕士研究生课程《仿生机器人及其智能运动控制》讲义
编著者:吴伟国
2005 年 2 月
Maes 定义的智 智能体——是“试图在复杂的动态环境中实现一组目标的计算机系统”。它能够通过传 感器感知环境,并通过执行器对环境起作用。 依靠智能体所驻留环境的类型, 智能体能够有许多不同的形式。 特别地在物理环境中的智能体—— 是机器人。 Maes 提出——智能体的目标可以有很多不同的表现形式:它们可以是智能体尝试去达到的终极目 标或特殊状态, 可以是智能体试图最大化的选择性强化或奖励, 也可以是智能体必须保持在某个生存区 域内的内部需要或动机,等等。
其中: Bi = 1 − 表示机器人可以执行行为i. Bi = −1 − 表示机器人不能执行行为i
对应机器人的一组简单行为, 进一步定义一个权重向量来表示给定某个激励, 一个具体的行为反应被 执行之后能取得成功的概率。 权重向量可以写为:
w1 w W = 2 ... wN
哈工大硕士研究生课程《仿生机器人及其智能运动控制》讲义
编著者:吴伟国
2005 年 2 月
即使是最简单的动作,让一台机器人学习射门动作。实际上也遇到各种各样的问题。作为强化 学习代表性方法的 Q-学习需要被离散化、和满足马尔可夫性的状态/行动空间。作为课题,规划者 设计的状态空间对于实际机器人来说不一定能够保证是最优的。
ˆ j = {Pi || Pi − P0 < R0 } ε
其中:Pi − 表示机器人的位置; P0 − 表示设置该传感器的机器人的位置。
传感器 j 在扇形区 εj 内的返回值表示为:
1, rj = 0,
ˆj ∃Pi ∈ ε ˆj ∀Pi ∉ ε
单个传感器所能感知的距离半径 R0 若能调整,则:
6.1 为什么需要多个机器人?
【教学目的】未来的机器人技术将是同种及异种智能机器人构成的机器人群通过网络联系 起来共同存在、服务于人类社会的时代,形成“机器人社会”与人类社会共存的时代。因 此,本章将向学生讲述机器人群体行为的基础知识和技术。
20 世纪 80 年代初,由日本/名古屋大学教授福 福田敏男提倡了多个机器人所构成的复杂机器人系统 研究方向,并且在 1987 年研制了第一个多智能体机器人系统——CEBOT (CEllular roBOT)。此后,多 机器人技术得到了迅速发展。
群体机器人能够在任意方向上以任意的步子移动。但是,为了便于控制机器人,假定机器人的运 动方向划分为 N 个扇区,对应于 N 个均布的传感器。 用一个简单 N 维向量来表示机器人的简单行为:
B1 B [ Behavior ] = 2 , Bi ∈ {−1,1} ... BN
哈工大硕士研究生课程《仿生机器人及其智能运动控制》讲义
编著者:吴伟国
2005 年 2 月
第 6 章 多智能体及行为
主要内容 为什么需要多个机器人?多智能体强化学习技术;RoboCup 机器人行为学习与进化;基于网络环境的移动智能体机制及 以个人援助为目标的分散机器人统合法。
授课时间
所用学时
4 学时
2005.4.
作为图像信息的特征,比起近旁的分辨率,远处的分辨率下降。与此相应,行为是在 3 维环境 内表现常速下的运动,因此,由图像信息识别出的状态可能会与在 3 维环境中的行为发生偏差。图 13 反应出了这种状态,对应于“球门看起来小(因为距离远)”状态的球场区域要比对应于“球门看起 来大”的状态时的球场区域要宽广。 作为图像信息的特征,比起近旁的分辨率,远处的分辨率下降。与此相应,行为是在 3 维环境 内表现常速下的运动,因此,由图像信息识别出的状态可能会与在 3 维环境中的行为发生偏差。图 13 反应出了这种状态,对应于“球门看起来小(因为距离远)”状态的球场区域要比对应于“球门看起 来大”的状态时的球场区域要宽广。这意味着状态迁移的漂移量大,阻碍了正确学习的收敛。图 13 所示的情况下,将导致频繁地返回同一状态,难于找到最优的策略。 因此, 如下所述那样再次构成行为空间。 将前面定义的 行为 a(属于 A)作为行动要素,机器人在状态变化前一直执 行同样的行为要素。 状态发生变化时, 将一系列同一行为要 素下的行为看作一个行为,使用行为价值函数的更新式(式 A)。 图 13 的情况下,机器人反复几次前向移动行为要素之 后,从“球看起来小”的状态迁移到“球看起来大”的状态。此 时开始更新价值函数。
其中: wi = −1,if Bi = −1, i = 1,2,...., N
∑w |
i =1
N
i wi ≠ −1
=1
需要提到的是,每个机器人在一个给定的时间其实际移动步长 d0 依赖于最大的移动步长 dm 和最大 的自由移动步长 dp,即:
d 0 = min(d m , d p )
哈工大硕士研究生课程《仿生机器人及其智能运动控制》讲义
相关文档
最新文档