交互式系统才是日常计算世界的典型形式,几乎最普通的系统
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
6,0 8,0
4,2 0,0
偏好排序
如果 和 '是集合 中可能的结局,有
ui () ui (' )
则Agent i的结局 至少与 ' 一样好,简写为:
i '
i '
严格好于
偏好排序 i 的性质
• 自反性:具体含义见板书 • 传递性:具体含义见板书 • 比较性:具体含义见板书
收益函数是策略组合和收益之间所建立的一种函数关系。
如: u1 (a11 , a23 ) A
博弈的分类
静态博弈 动态博弈
如果博弈双方同时行动,即一方在作出行动时并不 清楚对手是否已经作出了行动,则为静态博弈。如 果一方在作出行动时,知道对手已经作出了行动 (可能不知道具体行动是什么),则为动态博弈。
博弈论相关介绍 效用和偏好 多Agent相遇 优势策略与Nash平衡 竞争与零和交互 囚犯两难 多Agent系统的依赖关系
例子1.石头、剪刀、布
孙悟空
石头 剪刀
布
石头
未定,未定 找水,休息 休息,找水
猪八戒 剪刀
休息,找水 未定,未定 找水,休息
布
找水,休息 休息,找水 未定,未定
(2)有些交互的情形存在有一个以上的Nash平衡。
习题(1)
{1,2 ,3 ,4 ,5 ,6}
6 i 2 i 3 i 1 i 5 i 4
1 {1 , 3} 2 {3 , 4 } 3 {3} 4 {2 , 6 }
问题: 哪些集合(如果存在的话)优势 于另一些集合?当没有集合优势 于其他集合时,给出说明。
(4)判断出任何Nash平衡。
竞争
竞争的定义: i '当且仅当 ' j
Agent i希望得到结局 超过得到结局', 当且仅当Agent j希望得到 ' 超过得到结局
这样,局中人的偏好相互处在完全对立的位 置上:一个Agent要提高其效用,必须以另一 个Agent的付出为代价。 例子??
博弈的规则:对博弈作出具体规定的集合。它包含对参与者行 动顺序的规定、当某个参与者行动时他所知道的信息、有什么 样的行动可供选择、选择之后会有什么样的结果,等等。
结果:对所有参与者的每一个可能的行动组合,会出现什么样 的结果。
收益:在可能的每一个结果上,参与者的所得和所失,就是在 所有可能的结果上参与者的偏好是什么,这意味着博弈的每一 位参与者会在不同结果之间进行比较,以寻求最好的收益。
判断其中的Nash平衡。
习题(3)
i不合作 i合作
j不合作 3
3 2
4
j合作
1
2
1
4
问题: (1)从非形式地分析各情形, 决定两个Agent应该做什么行 动。 (2)根据结局对Agent的偏好
i不合作 i合作 进行排序。
j不合作 -1 j合作
2
-1 1
1
-1
2 (3)决定哪个策略是强优势
策略或弱优势策略。 -1
用范围,表示它们可以控制、至少是影响环境的不 同部分。在有些情况下,影响的范围可能会有重叠, 而影响范围重叠的事实会产生Agent之间的依赖关 系。例如不能通过同一道门。 Agent一般也会通过其他关系关联起来,如“权力” 的例子,一个Agent是另一个Agent的老板。
第五Baidu Nhomakorabea 多Agent交互
博弈论题目:屠夫砍人
有一个屠夫抓了100人,让他们面朝一个方向排成一 坚列,然后给这100人分别戴上帽子,帽子只有黑和白两 种颜色,屠夫是随机给他们带上的,且自己看不见自己帽 子的颜色,也不能回头,只能看到自己前面人的颜色。
他们的视力很好,排最后的那个人(100号)可以看见 前面所有人的帽子颜色,他们的听力都很好,最前面的 那个人(1号),可以听见后面所有人说的话。屠夫会从 100号开始要他猜自己帽子的颜色,如果猜中,则生,否, 则死。然后又问99号,以此类推。这些人只能回答“黑” 或“白”两种答案,如果说这两个字以外的字,所有人都 得死。他们都很团结,为了能让最多的人生存,他们愿意 牺牲。 问题就是,你给他们想一个方法,能让尽量多的人生存。
(2)因为要进行无限轮的对局,某次的效用损失会 在将来的轮次中“偿还”,也就是,由于是无限期的对 局,一个单元的效用损失只是获得的整个效用的一小部 分。
多Agent系统的依赖关系
• 独立:Agent之间没有依赖关系; • 单向依赖:一个Agent依赖于另一个Agent,反之不成立 • 相局互部依信赖念::为如了果共一同个的A目g标en,t相两信个依A赖ge关nt系相存互在依,赖但; • 交是互不依认赖为:其为他了A某g一en目t相标信第依一赖个关A系ge存nt在依;赖于第二个 Agen全t,局而信第念二:个当AAggeenntt为相了信实依现赖某关一系目存标在也,依还赖相于信第另一个 Agen一t(个两Ag个e目nt也标知不道必这相一同点)。。 注意:相互依赖蕴含着交互依赖。 这些关系可以通过局部信念还是全局信念加以限定。
思考和讨论:如果是你,你将怎么做?
囚犯两难问题的收益矩阵
i不合作 i合作 思考为什么说是
j不合作 2
2 5
0 囚犯两难?
j合作
5
3
0
3
课堂习题: •根据收益矩阵写出效用函数,并对每个结局进行排序; •分析有没有强优势策略,如果有,是什么? •分析是否存在Nash平衡,如果有,是什么?
囚犯两难问题的改进(Axelrod)
每个Agent必须执行一个动作,且它们不能看到其他 Agent执行的动作
环境函数例子
(D, D) 1 (D,C) 2
(C, D) 3
(C,C) 4
这个环境把每个动作组合映射成不同的结局,因此环 境对每个Agent执行的动作都是敏感的。
思考?两种极端怎么表示?? • 只对一个Agent的动作敏感 •只对一个动作敏感
博弈的表述
可以用参与者、策略和收益函数来表述一个博弈。
如石头、剪刀、布的例子: 参与者集合:I={1,2} //其中1表示孙悟空,2表示猪八戒
孙悟空的策略函数: fs (a21) a13, fs (a22 ) a11, fs (a23) a12;
猪八戒的策略函数: fz (a11) a23, fz (a12 ) a21, fz (a13) a22;
标准的博弈论收益矩阵 的表示法
j不合作 j合作
i不合作
i合作
4
1
4
4
4
1
1
1
优势策略
强优势策略 弱优势策略
定义:优势
假设两个 的子集—— 1和,2 如果对i希望
1中的每个结局超过 2 中的每个结局,则对于Agent
i来说 1优势于2
优势策略的作用??
举例见板书 进一步引出强优于
如果有多个优势策略, 怎么办???
完全信息博弈 不(非)完全信息博弈 如果所有参与者对其收益的信念是确定的,那么这个 博弈就是完全信息的。也就是每一个参与者都能明确 地计算出彼此的收益。相反,则为不完全信息博弈。
博弈的其他例子
1.鸽派和鹰派 2.烛光晚餐 3.……
思考:能否将身边一些情况描述成博弈?具体 例子?抽象成博弈的四个要素,并进行表述和 分类。
效用和偏好
假设只有两个Agent为i和j 自利的:即每个Agent对世界应该是什么样子有
自己的偏好和愿望。
存在一个关于Agent偏好的结局或者状态的集合
{1,2,}
效用和偏好 效用和金钱的比喻
可以用效用函数形式化地描述这两个Agent的 偏好,每个Agent有一个效用函数。给每个结 局赋予一个实数,表示这个结局对于该Agent 来说有多“好”,数值越大,从这个Agent的 角度来说效用越好。
交互式系统才是日常计算世界的典型形式, 几乎最普通的系统中也包含一些子系统,他们必 须互相交互以成功地完成它们的任务。
构造单Agent->构造Agent社会
多Agent系统的标准结构 (Jennings,2000)
作用范围
标准结构的说明
包含多个Agent,通过通信互相交互; Agent可以在环境中动作,不同的Agent有不同的作
策略:将动作视为策略,在多Agent交互的情形下, 对于Agent i的任何特定策略s,会有很多可能 的 结局,用s*表示采用策略s产生的结局。
Nash(纳什)平衡
两个策略s1和s2是处于Nash平衡,如果: (1)在Agent i执行s1这样的假设下,Agent j最好执行s2; (2)在Agent j执行s2这样的假设下,Agent i最好执行s1; 重要性是什么:??? 然而,(1)并不是每个交互的情形都有Nash平衡;
说明:严格偏好关系仅满足后两个性质,显然不是自反的。
多Agent相遇
前面所述为Agent偏好的模型,下面引入环境模型,使得 Agent可以在这个环境中动作。用下面的环境函数表示:
: Ac Ac
Agent i的动作 Agent j的动作
说明: Ac {C, D} C代表合作,D代表不合作
习题(2)
设想在古代的一个村庄有两个猎人。为了简化 问题,假设主要的猎物只有两种:鹿和兔子。在古 代,人类的狩猎手段比较落后,弓箭的威力也有限。 在这样的条件下,我们可以假设,两个猎人一起去 猎鹿,才能猎获1只鹿。如果一个猎人单兵作战,他 只能打到4只兔子。从填饱肚子的角度来说,4只兔 子算管4天吧,1只鹿却差不多能够解决一个月的问 题。这样,两个人的行为决策就可以写成以下的博 弈形式:要么分别打兔子,每人得4;要么合作,每 人得10(平分鹿之后的所得)。
ui R
导出一个关于输 出的偏好排序
uj R
富人和穷人
在一个小区内,住着一个富人和一个穷人。组织夜 间巡逻能有效防止偷盗,但夜间巡逻的成本为4。 假设富人的财产为8,穷人的财产为2。如果两人 都巡逻,那么巡逻成本由两人均摊,如果只有一人 巡逻,则由巡逻者承担。
富人
巡逻 不巡逻
穷人 巡逻 不巡逻
例子2.诺曼底登陆
德军
马赛设防 诺曼底设防
盟军
马赛登陆 诺曼底登陆
失败,成功 成功,失败
成功,失败 失败,成功
定义:博弈是指决策主体在相互对抗中,对抗双方(或 多方)相互依存的一系列策略和行动的过程集合。
定义:博弈论是专门研究博弈如何出现均衡的规律的学科。
博弈的四要素
参与者:参与博弈的决策主体。判断博弈参与者的根本标志是 是否是博弈的利害关系者。
进行一次以上的对策。可重复进行对局,且每个 Agent都可做以试看验到,其采对用手几前个一策轮略的:选择。另外,假设对局 将连续永不•A停L止L-D,那么,理性的动作是什么?如果你知 道下一轮会•R遇A到ND同O一M个对手,不合作的动机似乎会大大 减少,这有•T两IT个-F原OR因-:TAT
(1)如•T果ES你T现ER在不合作,你的对手也可以通过不合 作惩罚你,•或虽者然更这多种策惩略罚,不分可析能哪发个生测某略一更轮好;
零和交互
定义:对于任何特定的结局,两个Agent的效 用之和为零。
ui () u j () 0, 对所有
任何零和的情形都是严格的竞争。
囚犯两难
两个人被共同起诉一项罪名,被关押在隔离的牢房里,它们 没有办法互相通信,也没有办法达成任何一致,这两个人被 告知: (1)如果其中一人承认有罪而另一个人没有承认,承认有罪 者将被释放,另一个人将被关押3年; (2)如果两个人都承认有罪,则每人将被关押2年; (3)如果都不承认有罪,则每个人将被关押1年。