交互式系统才是日常计算世界的典型形式,几乎最普通的系统

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

6,0 8,0
4,2 0,0
偏好排序
如果 和 '是集合 中可能的结局,有
ui () ui (' )
则Agent i的结局 至少与 ' 一样好,简写为:
i '
i '
严格好于
偏好排序 i 的性质
• 自反性:具体含义见板书 • 传递性:具体含义见板书 • 比较性:具体含义见板书
收益函数是策略组合和收益之间所建立的一种函数关系。
如: u1 (a11 , a23 ) A
博弈的分类
静态博弈 动态博弈
如果博弈双方同时行动,即一方在作出行动时并不 清楚对手是否已经作出了行动,则为静态博弈。如 果一方在作出行动时,知道对手已经作出了行动 (可能不知道具体行动是什么),则为动态博弈。
博弈论相关介绍 效用和偏好 多Agent相遇 优势策略与Nash平衡 竞争与零和交互 囚犯两难 多Agent系统的依赖关系
例子1.石头、剪刀、布
孙悟空
石头 剪刀

石头
未定,未定 找水,休息 休息,找水
猪八戒 剪刀
休息,找水 未定,未定 找水,休息

找水,休息 休息,找水 未定,未定
(2)有些交互的情形存在有一个以上的Nash平衡。
习题(1)
{1,2 ,3 ,4 ,5 ,6}
6 i 2 i 3 i 1 i 5 i 4
1 {1 , 3} 2 {3 , 4 } 3 {3} 4 {2 , 6 }
问题: 哪些集合(如果存在的话)优势 于另一些集合?当没有集合优势 于其他集合时,给出说明。
(4)判断出任何Nash平衡。
竞争
竞争的定义: i '当且仅当 ' j
Agent i希望得到结局 超过得到结局', 当且仅当Agent j希望得到 ' 超过得到结局
这样,局中人的偏好相互处在完全对立的位 置上:一个Agent要提高其效用,必须以另一 个Agent的付出为代价。 例子??
博弈的规则:对博弈作出具体规定的集合。它包含对参与者行 动顺序的规定、当某个参与者行动时他所知道的信息、有什么 样的行动可供选择、选择之后会有什么样的结果,等等。
结果:对所有参与者的每一个可能的行动组合,会出现什么样 的结果。
收益:在可能的每一个结果上,参与者的所得和所失,就是在 所有可能的结果上参与者的偏好是什么,这意味着博弈的每一 位参与者会在不同结果之间进行比较,以寻求最好的收益。
判断其中的Nash平衡。
习题(3)
i不合作 i合作
j不合作 3
3 2
4
j合作
1
2
1
4
问题: (1)从非形式地分析各情形, 决定两个Agent应该做什么行 动。 (2)根据结局对Agent的偏好
i不合作 i合作 进行排序。
j不合作 -1 j合作
2
-1 1
1
-1
2 (3)决定哪个策略是强优势
策略或弱优势策略。 -1
用范围,表示它们可以控制、至少是影响环境的不 同部分。在有些情况下,影响的范围可能会有重叠, 而影响范围重叠的事实会产生Agent之间的依赖关 系。例如不能通过同一道门。 Agent一般也会通过其他关系关联起来,如“权力” 的例子,一个Agent是另一个Agent的老板。
第五Baidu Nhomakorabea 多Agent交互
博弈论题目:屠夫砍人
有一个屠夫抓了100人,让他们面朝一个方向排成一 坚列,然后给这100人分别戴上帽子,帽子只有黑和白两 种颜色,屠夫是随机给他们带上的,且自己看不见自己帽 子的颜色,也不能回头,只能看到自己前面人的颜色。
他们的视力很好,排最后的那个人(100号)可以看见 前面所有人的帽子颜色,他们的听力都很好,最前面的 那个人(1号),可以听见后面所有人说的话。屠夫会从 100号开始要他猜自己帽子的颜色,如果猜中,则生,否, 则死。然后又问99号,以此类推。这些人只能回答“黑” 或“白”两种答案,如果说这两个字以外的字,所有人都 得死。他们都很团结,为了能让最多的人生存,他们愿意 牺牲。 问题就是,你给他们想一个方法,能让尽量多的人生存。
(2)因为要进行无限轮的对局,某次的效用损失会 在将来的轮次中“偿还”,也就是,由于是无限期的对 局,一个单元的效用损失只是获得的整个效用的一小部 分。
多Agent系统的依赖关系
• 独立:Agent之间没有依赖关系; • 单向依赖:一个Agent依赖于另一个Agent,反之不成立 • 相局互部依信赖念::为如了果共一同个的A目g标en,t相两信个依A赖ge关nt系相存互在依,赖但; • 交是互不依认赖为:其为他了A某g一en目t相标信第依一赖个关A系ge存nt在依;赖于第二个 Agen全t,局而信第念二:个当AAggeenntt为相了信实依现赖某关一系目存标在也,依还赖相于信第另一个 Agen一t(个两Ag个e目nt也标知不道必这相一同点)。。 注意:相互依赖蕴含着交互依赖。 这些关系可以通过局部信念还是全局信念加以限定。
思考和讨论:如果是你,你将怎么做?
囚犯两难问题的收益矩阵
i不合作 i合作 思考为什么说是
j不合作 2
2 5
0 囚犯两难?
j合作
5
3
0
3
课堂习题: •根据收益矩阵写出效用函数,并对每个结局进行排序; •分析有没有强优势策略,如果有,是什么? •分析是否存在Nash平衡,如果有,是什么?
囚犯两难问题的改进(Axelrod)
每个Agent必须执行一个动作,且它们不能看到其他 Agent执行的动作
环境函数例子
(D, D) 1 (D,C) 2
(C, D) 3
(C,C) 4
这个环境把每个动作组合映射成不同的结局,因此环 境对每个Agent执行的动作都是敏感的。
思考?两种极端怎么表示?? • 只对一个Agent的动作敏感 •只对一个动作敏感
博弈的表述
可以用参与者、策略和收益函数来表述一个博弈。
如石头、剪刀、布的例子: 参与者集合:I={1,2} //其中1表示孙悟空,2表示猪八戒
孙悟空的策略函数: fs (a21) a13, fs (a22 ) a11, fs (a23) a12;
猪八戒的策略函数: fz (a11) a23, fz (a12 ) a21, fz (a13) a22;
标准的博弈论收益矩阵 的表示法
j不合作 j合作
i不合作
i合作
4
1
4
4
4
1
1
1
优势策略
强优势策略 弱优势策略
定义:优势
假设两个 的子集—— 1和,2 如果对i希望
1中的每个结局超过 2 中的每个结局,则对于Agent
i来说 1优势于2
优势策略的作用??
举例见板书 进一步引出强优于
如果有多个优势策略, 怎么办???
完全信息博弈 不(非)完全信息博弈 如果所有参与者对其收益的信念是确定的,那么这个 博弈就是完全信息的。也就是每一个参与者都能明确 地计算出彼此的收益。相反,则为不完全信息博弈。
博弈的其他例子
1.鸽派和鹰派 2.烛光晚餐 3.……
思考:能否将身边一些情况描述成博弈?具体 例子?抽象成博弈的四个要素,并进行表述和 分类。
效用和偏好
假设只有两个Agent为i和j 自利的:即每个Agent对世界应该是什么样子有
自己的偏好和愿望。
存在一个关于Agent偏好的结局或者状态的集合
{1,2,}
效用和偏好 效用和金钱的比喻
可以用效用函数形式化地描述这两个Agent的 偏好,每个Agent有一个效用函数。给每个结 局赋予一个实数,表示这个结局对于该Agent 来说有多“好”,数值越大,从这个Agent的 角度来说效用越好。
交互式系统才是日常计算世界的典型形式, 几乎最普通的系统中也包含一些子系统,他们必 须互相交互以成功地完成它们的任务。
构造单Agent->构造Agent社会
多Agent系统的标准结构 (Jennings,2000)
作用范围
标准结构的说明
包含多个Agent,通过通信互相交互; Agent可以在环境中动作,不同的Agent有不同的作
策略:将动作视为策略,在多Agent交互的情形下, 对于Agent i的任何特定策略s,会有很多可能 的 结局,用s*表示采用策略s产生的结局。
Nash(纳什)平衡
两个策略s1和s2是处于Nash平衡,如果: (1)在Agent i执行s1这样的假设下,Agent j最好执行s2; (2)在Agent j执行s2这样的假设下,Agent i最好执行s1; 重要性是什么:??? 然而,(1)并不是每个交互的情形都有Nash平衡;
说明:严格偏好关系仅满足后两个性质,显然不是自反的。
多Agent相遇
前面所述为Agent偏好的模型,下面引入环境模型,使得 Agent可以在这个环境中动作。用下面的环境函数表示:
: Ac Ac
Agent i的动作 Agent j的动作
说明: Ac {C, D} C代表合作,D代表不合作
习题(2)
设想在古代的一个村庄有两个猎人。为了简化 问题,假设主要的猎物只有两种:鹿和兔子。在古 代,人类的狩猎手段比较落后,弓箭的威力也有限。 在这样的条件下,我们可以假设,两个猎人一起去 猎鹿,才能猎获1只鹿。如果一个猎人单兵作战,他 只能打到4只兔子。从填饱肚子的角度来说,4只兔 子算管4天吧,1只鹿却差不多能够解决一个月的问 题。这样,两个人的行为决策就可以写成以下的博 弈形式:要么分别打兔子,每人得4;要么合作,每 人得10(平分鹿之后的所得)。
ui R
导出一个关于输 出的偏好排序
uj R
富人和穷人
在一个小区内,住着一个富人和一个穷人。组织夜 间巡逻能有效防止偷盗,但夜间巡逻的成本为4。 假设富人的财产为8,穷人的财产为2。如果两人 都巡逻,那么巡逻成本由两人均摊,如果只有一人 巡逻,则由巡逻者承担。
富人
巡逻 不巡逻
穷人 巡逻 不巡逻
例子2.诺曼底登陆
德军
马赛设防 诺曼底设防
盟军
马赛登陆 诺曼底登陆
失败,成功 成功,失败
成功,失败 失败,成功
定义:博弈是指决策主体在相互对抗中,对抗双方(或 多方)相互依存的一系列策略和行动的过程集合。
定义:博弈论是专门研究博弈如何出现均衡的规律的学科。
博弈的四要素
参与者:参与博弈的决策主体。判断博弈参与者的根本标志是 是否是博弈的利害关系者。
进行一次以上的对策。可重复进行对局,且每个 Agent都可做以试看验到,其采对用手几前个一策轮略的:选择。另外,假设对局 将连续永不•A停L止L-D,那么,理性的动作是什么?如果你知 道下一轮会•R遇A到ND同O一M个对手,不合作的动机似乎会大大 减少,这有•T两IT个-F原OR因-:TAT
(1)如•T果ES你T现ER在不合作,你的对手也可以通过不合 作惩罚你,•或虽者然更这多种策惩略罚,不分可析能哪发个生测某略一更轮好;
零和交互
定义:对于任何特定的结局,两个Agent的效 用之和为零。
ui () u j () 0, 对所有
任何零和的情形都是严格的竞争。
囚犯两难
两个人被共同起诉一项罪名,被关押在隔离的牢房里,它们 没有办法互相通信,也没有办法达成任何一致,这两个人被 告知: (1)如果其中一人承认有罪而另一个人没有承认,承认有罪 者将被释放,另一个人将被关押3年; (2)如果两个人都承认有罪,则每人将被关押2年; (3)如果都不承认有罪,则每个人将被关押1年。
相关文档
最新文档