RoboCup清华大学毕业设计论文

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

清华大学毕业设计论文

目录

第一章背景介绍 (1)

第二章设计理念和决策框架 (3)

2.1设计理念 (3)

2.2决策框架 (4)

第三章截球技术的实现 (6)

3.1 问题介绍 (6)

3.2 RoboCup仿真环境的运动模型 (6)

3.3二分法求解 (7)

3.4 训练作截球判断的BP神经网络 (8)

3.5 比较和总结 (9)

第四章脚法的实现 (10)

4.1 问题介绍 (10)

4.2 再励学习(Reinfocement Learning) (10)

4.2.1再励学习简介 (10)

4.2.2 Bellmen最优方程 (12)

4.2.3 动态规划算法简介 (12)

4.2.4 Q学习算法简介 (13)

4.3 用再励学习训练脚法 (13)

4.3.1 Kalsruhe Brainstormers 的方法 (13)

4.3.2 我们的实验结果 (14)

4.3.3 我们的方法 (15)

第五章仲裁算法 (19)

5.1 问题介绍 (19)

5.2 RoboCup仿真环境中队员的观察模型 (19)

5.3 仲裁算法 (20)

5.4视野宽度的决策 (23)

第六章传球线路的搜索算法 (24)

6.1 问题介绍 (24)

6.2 传球线路搜索算法 (25)

6.2.1 简单的搜索算法 (25)

清华大学毕业设计论文

6.2.2 优化搜索算法 (25)

6.2.3 穿越速度的计算 (28)

第七章防守体系 (29)

7.1 问题介绍 (29)

7.2 角色的定义 (29)

7.3 阵形的定义 (30)

7.4 一个简单的防守系统 (30)

7.5 考虑全局利益的防守系统 (31)

7.5.1 考虑全局利益防守体系介绍 (31)

7.5.2 求解全局利益最优的防守方案 (32)

7.5.3 实战效果 (32)

7.5.4 缺点 (33)

第八章 TSINGHUAEOLUS的程序结构 (34)

参考文献 (36)

致谢 (37)

清华大学毕业设计论文

第一章背景介绍

机器人足球世界杯(RoboCup)是国际上一项为促进分布式人工智能、智能机器人技术及其相关领域的研究与发展而举行的大型比赛和学术活动。它通过提供一个标准的比赛平台来检验各种智能机器人技术。它的最终梦想是能在2050年发展出能打败人类足球运动员的机器人足球队。RoboCup仿真组重点研究多个智能体(MultiAgent)的竞争与合作的关系。设计RoboCup仿真比赛程序面临的主要难点在于:

在连续空间作连续的决策;

多个智能体的存在给状态空间带来维数灾难;

环境的反馈延迟太长。

环境具有强实时性和动态性;

环境通讯带宽很窄;

环境有噪声;

环境具有部分可观性;

环境不具有马尔可夫性;

前三点使得直接利用从环境中的得到的信息和反馈进行决策几乎不可能实现。曾经有球队直接利用遗传算法(Genetic Algorithm)训练球队,效果并不好。巨大的状态空间和长延时的反馈特性使得RoboCup的研究者纷纷转向分层的决策结构。Peter Stone在他的博士论文中把层学习的方法运用于RoboCup 的研究当中。他把决策分成底层技术层和顶层决策层,在不同的层次采用不同的方法决策,上层决策构筑在下层决策基础之上。其实,层学习的概念非常的简单,当整个复杂的决策任务被分层,分到每个层次的决策任务都变成简单可行了。

第1页

清华大学毕业设计论文

汉堡大学采用Case-base的思想研究RoboCup。其主要想法是利用定义各种典型的场景,根据当前场景和典型场景的匹配度来进行决策。可以设想,这种方法无法克服状态空间巨大的问题,而且很难跟得上环境对动态性的要求。

卡尔斯鲁厄大学以再励学习(reinforcement learning)为他们的主要研究方向。他们的梦想是能够做到仅仅告诉智能体去完成进球的任务,而智能体能够自主的通过和环境的交互,学习各种技能甚至是策略。再励学习在RoboCup中遇到的最大的两个挑战是:一、再励学习最初是以离散空间为求解空间设计的,而RoboCup环境是连续的;二、RoboCup中的再励信号延迟太长,因为只有进球是最本质的再励信号。从思维的层次上说,再励学习模仿的更多是人较为低级的智能行为,它很难表现如推理这类人类思维中较高级、较抽象的行为。关于再励学习的问题,本文第四章“脚法的实现”有所涉及。

葡萄牙的里兹本大学队是2000年RoboCup仿真组的冠军,他们的主要特点是充分利用人类足球的知识和建立准确的世界模型。由于环境具有噪声而且是部分可观的,如何充分利用得到的信息去推测当前的世界模型成了比赛的一个关键所在。

RoboCup的仿真比赛的场景如下图:

图1 RoboCup仿真比赛场景

第2页

清华大学毕业设计论文

第二章设计理念和决策框架

2.1设计理念

由于状态空间的过于庞大以及反馈延迟过大,不融入任何先验知识来设计决策几乎不可能实现。许多非常简单的概念如:带球、截球、射门、传球等要让智能体从与环境的交互当中总结出来,而且组织成知识都是十分困难的。从人类自身获取知识的途径来说,通过教学活动的占了很大的比例。基于以上考虑,我们认为一个融入人类的先验知识,并且能在一定程度上自主学习的决策系统是一个有价值而且可行的设计目标。人类的知识主要作为框架和建议的形式存在。比如人类可以不加思索的把决策分成控球和无球,进攻和防守,如果还有点足球知识的话,带球、截球、传球、射门几类。在我们的决策体系中,这些概念都是事先假定的,也就是我们所谓的以框架的形式存在。作为建议的人类知识通常以限定求解的方向的形式存在。这就类似于启发式搜索的思想,利用外来的信息来加速搜索,当然形式不限于此。还有一部分人类知识以教练的形式存在,如角色、角色行为的定义、阵形、定位球配合等等。

环境的复杂性使得我们不可能全部通过先验的知识来确定智能体每一时刻的行为,而且人类的知识不能完全适合模拟环境。智能体本身具有学习和适应能力,能够自己从环境中获取知识,也成为决策系统是否成功的关键所在。目前流行的自适应学习的算法有BP、动态规划、Q-learning、遗传算法等。当运用于决策时,这些学习算法普遍面临的问题是能处理的问题形式单一,能力有限。如何能合理的把这些学习算法获取的知识运用在决策体系中,使之能够处理形式复杂的各种决策场景,也是我们研究的一个重点。

第3页

相关文档
最新文档