博弈论入门5
第五章 博弈论初步
第二节
重复博弈与序列博弈
重复博弈——对局可以重复多次,那么, 博弈结局是否会改变,对参与者来说, 是否存在一种最优策略? 序列博弈——参与者对策略的选择有先 后顺序,那么,先行者是否存在先行优 势?
2018/12/11
重复博弈的最优策略
美国Michigen大学教授R.爱克塞罗曾进 行计算机程序竞赛,来决定什么策略最 优 14位程序设计者中有经济学家,计算机 专家,政治家,数学家等,总共进行5次 循环赛,12万次对局 获胜的策略是最简单的策略——“以牙还 牙”(tit-for-tat)
女 回顾性别之战,男以2/3 的概率选看足球,1/3 足球 电影 看电影,女方相反。 2,1 0,0 足球 如果双方自顾自,则结果 男 是随机的,以男方为例, 电影 0,0 1,2 选足球的概率为p,(1-p) 看电影的概率, 其期望得益:2(1/3)p+1(2/3)(1-p) =2/3
2018/12/11
2018/12/11
投资800后的收益矩阵
垄断者 商战 潜 进入 -200,600 在 进 入 者 不进入 0,2200 容忍 900,300
0,2200
2018/12/11
第四节 几种相关的策略
“保证最低价格”的策略 条款——本商店保证所销售的商品为 本市最低价。顾客在本商店购买这种商 品之后一个月内,如在本市任何其他商 店发现更低的价格,本商品将退还差额, 并另行补偿差额的10% 思考:这种策略的效果是什么?如果你 是另一家商店的老板,你将如何定价?
2018/12/11
价格竞争的策略选择
B
10元
10元 A 15元
15元
100,80 50,170
180,30 150,120
(完整)博弈论经典模型全解析(入门级)
博弈论经典模型全解析(入门级)1。
囚徒困境这是博弈论中最最经典的案例了-—囚徒困境,非常耐人寻味。
“囚徒困境"说的是两个囚犯的故事。
这两个囚徒一起做坏事,结果被警察发现抓了起来,分别关在两个独立的不能互通信息的牢房里进行审讯。
在这种情形下,两个囚犯都可以做出自己的选择:或者供出他的同伙(即与警察合作,从而背叛他的同伙),或者保持沉默(也就是与他的同伙合作,而不是与警察合作).这两个囚犯都知道,如果他俩都能保持沉默的话,就都会被释放,因为只要他们拒不承认,警方无法给他们定罪.但警方也明白这一点,所以他们就给了这两个囚犯一点儿刺激:如果他们中的一个人背叛,即告发他的同伙,那么他就可以被无罪释放,同时还可以得到一笔奖金.而他的同伙就会被按照最重的罪来判决,并且为了加重惩罚,还要对他施以罚款,作为对告发者的奖赏。
当然,如果这两个囚犯互相背叛的话,两个人都会被按照最重的罪来判决,谁也不会得到奖赏。
那么,这两个囚犯该怎么办呢?是选择互相合作还是互相背叛?从表面上看,他们应该互相合作,保持沉默,因为这样他们俩都能得到最好的结果:自由。
但他们不得不仔细考虑对方可能采取什么选择。
A犯不是个傻子,他马上意识到,他根本无法相信他的同伙不会向警方提供对他不利的证据,然后带着一笔丰厚的奖赏出狱而去,让他独自坐牢。
这种想法的诱惑力实在太大了.但他也意识到,他的同伙也不是傻子,也会这样来设想他。
所以A犯的结论是,唯一理性的选择就是背叛同伙,把一切都告诉警方,因为如果他的同伙笨得只会保持沉默,那么他就会是那个带奖出狱的幸运者了。
而如果他的同伙也根据这个逻辑向警方交代了,那么,A犯反正也得服刑,起码他不必在这之上再被罚款。
所以其结果就是,这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应:坐牢。
企业在信息化过程中需要与咨询企业、软件供应商打交道的。
在与这些企业打交道的过程中,我们不可避免地也会遇到类似的两难境地,这个时候需要相互之间有足够的了解与信任,没有起码的信任做基础,切不可贸然合作.在对对方有了足够的信任之后,诚意也是必不可少的,如果没有诚意或者太过贪婪,就可能闹到双方都没有好处的糟糕情况,造成企业之间的双输。
管理经济学5第五讲 博弈论
(三)从静态博弈到动态博弈
静态博弈是指双方同时决策,或者在决 策时不知道对方决策的结果
动态博弈是指一方先决策,另一方后决 策
(三)从静态博弈到动态博弈
先发优势与后发优势
乙 a 0 A 甲 100 B 10 5 0 10 5 b 4
(三)从静态博弈到动态博弈
乙 a b c 10 3 12 B 3 2 10 1
12
A 甲
12 2
11
4
(三)从静态博弈到动态博弈
到后推理的基本思想 防鲨网的突破 避免恶意收购的防鲨网:董事会共有5位成员, 按目前选举办法,一年只能更换一位。要改变 选举程序,可以提交建议,按规定,投票以顺 时针次序沿着董事会圆桌进行,一份提议必须 获得50%以上支持(缺席算反对),且任何人 若是提交一份建议而未获得通过,他及其赞同 者都将失去自己的董事席位和股份,由其他人 平分
如果某一信息是所有参与人都知道的 如果每个参与人都知道所有参与人知道这一信息 如果每个参与人都知道所有参与人都知道所有参 与人知道这一信息 如此这般以至无穷 这一信息就成为共同知识
(二)纳什均衡及其判断方法
一个博弈的纳什均衡不一定只有一个, 可能有两个,也可能更多
(二)纳什均衡及其判断方法
情侣博弈
女 拳击 拳 击 芭 蕾 1 2 0 0 1 0 2 芭蕾 0
男
(二)纳什均衡及其判断方法
如果出现两个以上的均衡应该如何选择
乙 a 2 A 甲 -1 B -1 1 1 2 -1 b -1
(一)基本概念
以囚徒困境为例
囚徒 A
坦白 不坦白 -1,-10 -2,-2
囚徒 B
博弈论 第5讲
博 弈 论 讲 义 完 全 信 息 动 态 博 弈
一些说明
现实中不具完美回忆的一个例子是扑克 比赛。在扑克比赛中,参与人常常忘记 别人曾出过些什么牌。
——
博 弈 论 讲 义 完 全 信 息 动 态 博 弈
一些说明
“完美回忆”的数学描述
若x1和x2属于同一个信息集,即x2∈h(x1), x∈P(x1), x是x1的前列结(排在x1前面的决 策结),且均属于同一参与人i。 那么,存在一个x‘(可能是x本身),满足 x’∈h(x); x‘是x2的前列结;在x到达x1的行 动与x‘到达x2的行动完全一致。
{开发,开发}
{开发,不开发} {不开发,开发} 开发 B
——
A 不开发 B
{不开发,不开发}
开发
不开发 开发 (1,0) (0,1)
不开发
(0,0)
(-3,-3)
图2-8 房地产开发博弈
博 弈 论 讲 义 完 全 信 息 动 态 博 弈
动态博弈的策略式表述
B的纯策略为
{开发,开发} {开发,不开发} A 开发 B 不开发 B
开发,开发 开发,不 开发 不开发, 开发 不开发, 不开发
(不开发,{开发,开 发})
开发 不开发
-3,-3 0,1
1,0 0,0
1,0 0,1
1,0 0,0
博 弈 论 讲 义 完 全 信 息 动 态 博 弈
动态博弈的策略式表述
A
在扩展式表述博弈中, 所有n个参与人的一 个纯战略组合 s=(s1,…,sn)决定了博 弈树上的一个路径。
动态博弈的策略式表述
给出了扩展式表述的战略式表述转换,就可 以像静态博弈那样,定义纯战略纳什均衡或 混合战略纳什均衡。 按照Von Neumann观点,将动态博弈模型转化 成策略式表述形式后,按照静态博弈分析方 法,即可处理动态博弈问题。 近来研究表明,存在策略式表述相同,但却 有本质差别的,不同扩展式表述的动态博弈。 说明上述观点具有一定的局限性。因此,策 略式表述并不能取代扩展式表述。
博弈论的九本经典入门书籍
博弈论的九本经典入门书籍博弈论的九本经典入门书籍有哪些呢?下面是店铺精心为您整理的博弈论的九本经典入门书籍,希望您喜欢!博弈论的九本经典入门书籍1、《博弈的智慧》柏拉图说:“我们背对着山洞口静坐,对于在我们背后绵延展开的壮丽世界,我们充满想像,却一无所知。
”职场上的员工就如这些盲目的静坐者,而职场生涯则是他们背后深邃幽暗的隧道。
面对复杂的职场关系,人们应避免误入歧途,掉进职业发展中的陷阱。
博弈是双方“斗智斗勇”的过程,也是当事人谋求长期利益最大化的基本手段。
在一种较为完善的经济制度下,对博弈双方来说都是公平的,这时要看谁更技高一筹,正所谓优胜劣汰,败者出局。
这也是商界的生存法则。
不知道从什么时候开始,“协作”、“团队精神”这样的名词开始频频出现在我们的生活之中。
我们也越来越深刻地认识到了协作的效果。
事实证明,1+1>2。
针对于这种现象,博弈论为它起了一个有趣的名字——猎鹿博弈。
2、《每天学点博弈论全集》本书共分三篇,主要介绍了博弈的一些基本原理,以及博弈在生活、营销、投资、管理、谈判、处世、人际、职场、爱情、生存等方面给予人们的指导,通过一个个生动鲜活的事例向人们展示经验教训,从而使人们能够感悟到生存的智慧和方略。
3、《博弈一点通》由北京原创天下出版社出版,陆晓燕编著的《博弈一点通》一书:如果用一种最简单的现象来帮助人们理解零和博弈,其实就是赌博,在赌场里,赢家赢得钱与输家输掉的一样多。
同样的一群人,面对的是同样的处境,可他们的结果却是相差甚大。
事实上,由于人类所过的是一种群体生活,人只要生活在这个社会里,就离不了与其他人的交往,而这就形成了一种特定的关系。
4、《左手博弈论右手心理学大全集》博弈论原是数学运筹中的一个支系,是一门用严谨的数学模型研究冲突对抗条件下最优决策问题的理论,它是对世事的一种有效的分析方法。
常言道:世道如棋,博弈论的伟大之处在于其通过规则,身份、信息、行动、效用,平衡等各种量化概念对人情世事进行了精妙的分析,清晰地揭示了人们的各种互动行为、互动关系,从理性的角度为人们获得自身最大利益提供了正确的决策方案。
张维迎博弈论class5
二、有限范围博弈的一阶段偏离准则
• 定义:策略组合s满足一阶段偏离条件是 指:在每一个子博弈上,没有一个局中 人i通过在某单阶段偏离然后再与s一致而 获利。
• 定理:在可观察行动的有限多阶段博弈 中,策略组合 s是子博弈完美 s满足一阶段偏离条件
三、无限多阶段博弈
• 在无穷远处连续定义:对于任意的两个 无限水平历史h1与h2,记
Y
N
Y
N (R,R)
(R,R) (2R-D,D) (D,2R-D)
1 Y 2 N (D,2r-D) Y (2r-D,D) Y (R,R) (Y,Y)
(Y,Y) (Y,N)
N N
Y
策略型表示
1 N 2 N Y (D,2R-D) (N,Y) (D,2r-D) (D,2r-D) (R,R) (D,2R-D) N (R,R) (N,N) (D,2r-D) (D,2r-D) (2R-D,D) (R,R)
v
F(t)
0
t
L(t)
-1/(1-)
纯策略非对称Nash均衡
• 纯策略:“决不停止” • 纯策略:“总是停止” • 纯策略组合:“决不停止,总是停止”
混合策略对称Nash均衡
• 局中人 1 :在每个阶段以概率 p 选择停止, 以概率1-p选择不停止。 • 局中人 2 :在每个阶段以概率 q 选择停止, 以概率1-q选择不停止。
(-1-+2v -1-)
1
(1-p)t-1(1-q)t-1p 2 (1-p)t-1(1-q)t-1q
第t阶段
(1-p)t-1(1-q)t-1(1-p)
(1-p)t-1(1-q)t-1(1-q)
(L1(t),L2(t))
(L1(t),L2(t)+tv) (L1(t) +tv,L2(t))
博弈论-入门
人接受了这五十万,其中的一个人说:“自己没有钱
,父母苦了一辈子了,临老了生病没钱医治,为了父
母,放弃了爱情吧。”
男人接着开出了第三个价格“500万!”
现场更静了,男人的第一个动作都是看身边的女
人,也许是在权衡什么。一半的男人沉默了,另一半
的男人怯生生的说:“我要爱情。”身边的女友也有
点呆住了,一个女孩子站起来说:“如果一个男人肯
去年七八月间,陈某儿子与赖某离婚;同年9月17日,陈某也 与王某办理了事实婚姻的离婚手续。仅仅四天后,陈某就与原 儿媳赖某登记结婚。结婚当天,他就向高新区公安分局户籍管 理部门申请办理儿媳、孙女的户籍迁移,欲将她们的户口迁到 上王村。工作人员将陈某的申请材料退了回来,口头告知他说 ,要迁户口,需先取得所在村委会的同意,并开具证明。
博弈 game—— “下棋”、“玩牌”,赌博和其他许 多智力游戏在内的对抗性游戏、对抗性体育竞 赛。博弈就是策略性的互动决策,通俗的说就 基于交叉效应的有意识的行为互动 交叉效应 参与人意识到交叉效应
博弈论,英文为Game theory,是研究相互依 赖、相互影响的决策主体的理性决策行为以及 这些决策的均衡结果的理论。
以利交者,利尽则散!以色交者,色衰则疏! 以貌交者,久之则腻!唯有以心交者,方能永恒!
理性
每个参与人均以获取最大支付为目标 理性内涵:对自己利益完全了解并能完美计算出何种
行动可最大化其利益 理性不意味着:
参与人自私 着眼于短期利益 与其他参与人有相同价值体系
男人无所谓忠诚,忠诚是因为背叛的砝码太低; 女人无所谓忠贞,忠贞是因为受到的引诱不够.
2
田忌策略:
结 果:
谋士孙膑 策略: 结 果:
五讲博弈论基础 共72页
第一节 博弈论导论
博弈的四要素: 1.博奕的参加者,即博奕方或参与人。
2.各博奕方可选择的全部策略或行为的集合。
3.进行博奕的次序。
4.博奕方的得益。 例:囚徒困境
囚徒A
坦白 抵赖
囚徒B
坦白
-8,-8 -10,0
抵赖
0,-10 -1,-1
均衡结果为:A、B都选择坦白,各判8年刑
第一节 博弈论导论
比如说:夜间唱歌
科斯定理图示
农场主的边际净损失
牧羊的边际利润
S
P
O
社会最优量
牧养人放牧的数量
说明
如果产权归农场主,农场主可以禁止放牧(点0),小于 社会最优量S;但此时,增加放牧给牧羊人带来的边际利 润大于给农场主造成的损失,牧羊人将有积极性贿赂农场 主,直到放牧量达到S为止;
如果产权归牧羊人,牧羊人的利润最大点是P,大于社会 最优量S;但此时,减少放牧量对牧羊人的边际利润损失 小于给农场主节约的边际成本,所以,农场主将有积极性 贿赂牧羊人,直到S;
博奕论前提假设:博弈的参与者都是理性人 所谓理性人是指有一个很好定义的偏好,在面临给定的约束 下最大化自己的偏好。 理性人可能是利己主义者,也可能是利它主义者。
第一节 博弈论导论
例:囚徒困境
囚徒A
坦白 抵赖
囚徒B
坦白
-8,-8 -10,0
抵赖
0,-10 -1,-1
均衡结果为:A、B都选择坦白,各判8年刑
革命通常不是一个帕累托改进。
外部性与科斯定理
个人收益与社会收益:一项活动的社会收 益等于决策者个人得到的收益加社会其他 成员得到的收益,如养花;
个人成本与社会成本:社会成本等于决策 者的个人承担的成本加社会其他成员承担 的成本,如环境污染,交通堵塞;
博弈论基础5
27
4
第一节 矩阵型表示与展开型表示
垄断者
{容忍,容忍} {抵抗,抵抗} {抵抗,容忍} {容忍,抵抗}
进 入 者
进入
5 1 -2 10 0 0
2 -2 4 0
2 1 10 0
5 4
不进
5
第一节 矩阵型表示与展开型表示
矩阵型表示→ 矩阵型表示→展开型表示
囚徒困境中分开关押的囚犯决策 把参与者1、2之间的同时行动博弈表示如下:
13
第二节 同时决策 与序贯决策的混合博弈
例:联想和方正两家计算机公司,彼此就新产品研发展开 联想和方正两家计算机公司, 两家计算机公司 博弈竞争。博弈持续时间为一年。假设两家公司致力 博弈竞争。博弈持续时间为一年。 推出的新产品类型相同,并且双方都知道对方要这样 推出的新产品类型相同, 做,但他们没有向公众公开他们的研发预算。了解研 但他们没有向公众公开他们的研发预算。 发投入决策的唯一方法,是通过在产业年度交易展商 发投入决策的唯一方法, 观察其产品的性能来推断最终产品情况。在交易展上 观察其产品的性能来推断最终产品情况。 观察到对手的新产品后,双方对各自新产品进行定价。 观察到对手的新产品后,双方对各自新产品进行定价。 假定两家公司的研发决策有大投入和小投入两种,定 假定两家公司的研发决策有大投入和小投入两种, 价决策有高价和低价两种。 价决策有高价和低价两种。
I.
始于单节信息集的决策节点n(不包括博弈的初始决策 节点); 包含博一书中n之下所有的决策节点和末端节点(不在 n下的节点除外); 没有对任何信息集形成分割。
II.
III.
21
第三节 展开型博弈的子博弈
1 D 2 B E A F C G 3 4 5 6 7 8
博弈论知识点总结完整版
博弈论知识点总结完整版博弈论是研究决策者在互相影响的情况下做出最佳决策的数学模型和方法。
在博弈论中,决策者被称为玩家,他们的决策会受到其他玩家的影响。
以下是博弈论的一些重要知识点的总结:1.资料和约定-玩家:博弈论中的决策者。
-策略:玩家可以采取的行动。
-支付:玩家根据博弈结果获得的效用或价值。
-最优策略:在给定博弈条件下,可以使玩家获得最大效用的策略。
-纯策略和混合策略:纯策略是指玩家在每次博弈中都采取相同的行动;混合策略是指玩家以一定概率采取不同的行动。
2.标准形博弈-扩展形式:博弈者按照时间次序做出决策,每个决策节点有多个玩家可以选择的动作。
-纳什均衡:在标准形博弈中,如果所有玩家都不愿意单方面改变他们的策略,则该策略组合是纳什均衡。
-最优反应函数:针对每个玩家的策略组合,最优反应函数给出了该玩家的最佳策略。
-支配策略:一个策略在任何情况下都能够给出玩家更好的结果,那么我们可以说这个策略是支配的。
3.矩阵博弈-矩阵:博弈论中描述玩家策略和效用的表格。
-矩阵博弈的解:通过找到纳什均衡,我们可以得出矩阵博弈的解决方案。
-互动博弈:双方玩家的效用都取决于对方的策略选择。
4.博弈树-博弈树:根据博弈的时间顺序和玩家之间的相互影响,构建的树形结构。
-极小极大算法:用于确定博弈树上的最佳策略。
- alpha-beta剪枝:通过剪枝,减少博弈树的节点数量,从而提高效率。
5.进化博弈论-重复博弈:博弈过程被连续重复进行,玩家可以根据之前的结果来调整策略。
-演化稳定策略:一个策略集合中的策略,在当前环境下被所有玩家采纳并且难以被其他策略取代。
6.合作博弈论-合作博弈:玩家可以自由选择与其他玩家联合合作,并共享所获得的效用。
-特征函数:描述合作博弈的效用分配。
-核心:合作博弈中所有合法的效用分配的集合。
- Shafer值:一种用于将效用分配给个体的方法,使得每个个体的效用都能够得到公平分配。
博弈论是多学科交叉的研究领域,应用广泛,涉及经济、管理、政治等多个领域。
博弈论基础
博弈论基础
博弈论是一门多学科交叉学科,它结合经济学、哲学、数学、计算机科学和心理学等学科,研究决策定者之间彼此博弈的结果。
弈论的最初出现是在20世纪40年代,它的主要研究动因也跟当时的历史环境有关系。
由于当时的政治环境紧张,许多国家都在考虑如何在竞争环境中实现最优的结果。
在博弈论的研究过程中,研究者会研究各种策略,确定一个最优的策略,以实现最优的结果。
例如,它可以用来研究两个竞争者之间的博弈,以确定哪一个会是最佳策略。
在政治层面,它也可用来研究各国之间的军事战略,以此来保护每一方的最大利益。
博弈论的研究也和心理学有关系,它可以用来研究决策者的决策行为,了解决策者会采取怎样的策略,从而可以为决策者提供有效的决策建议,以实现最佳结果。
此外,博弈论也可以用于研究公司之间的竞争关系,通过研究公司所拥有的资源及其竞争优势,以及如何利用这些资源,实现最佳结果。
在博弈论的研究过程中,数学也是十分重要的,它需要研究者拥有良好的数学背景,以便更好地理解博弈论的基本概念,以及如何正确分析和解决博弈中遇到的问题。
博弈论是一门复杂的学科,不仅要求研究者拥有良好的数学背景,还要求研究者对经济学、社会学、心理学等学科有所了解,以及对复杂决策问题有一定的洞察力。
可以说,博弈论研究的结果有着深远的影响,它不仅可以用来研究决策者之间的博弈,还可以用于政治、军事、经济、社会及其他领域,以实现最优的结果。
因此,对博弈论的研究具有重要意义,虽然它是一门复杂的学科,但是它也可以为政治、经济、社会及其他领域提供有效的决策建议,以实现最佳结果。
博弈论基础
博弈论博弈论(Game Theory),亦名“对策论”、“赛局理论”,属应用数学的一个分支,博弈论已经成为经济学的标准分析工具之一。
目前在生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。
博弈论主要研究公式化了的激励结构间的相互作用。
是研究具有斗争或竞争性质现象的数学理论和方法。
也是运筹学的一个重要学科。
博弈论考虑游戏中的个体的预测行为和实际行为,并研究它们的优化策略。
生物学家使用博弈理论来理解和预测进化论的某些结果。
参见:行为生态学(behavioral ecology)。
约翰·冯·诺依曼博弈论是二人在平等的对局中各自利用对方的策略变换自己的对抗策略,达到取胜的目的。
博弈论思想古已有之,中国古代的《孙子兵法》就不仅是一部军事著作,而且算是最早的一部博弈论著作。
博弈论最初主要研究象棋、桥牌、赌博中的胜负问题,人们对博弈局势的把握只停留在经验上,没有向理论化发展。
博弈论考虑游戏中的个体的预测行为和实际行为,并研究它们的优化策略。
近代对于博弈论的研究,开始于策墨洛(Zermelo),波雷尔(Borel)及冯·诺伊曼(von Neumann)。
1928年,冯·诺依曼证明了博弈论的基本原理,从而宣告了博弈论的正式诞生。
1944年,冯·诺依曼和摩根斯坦共著的划时代巨著《博弈论与经济行为》将二人博弈推广到n人博弈结构并将博弈论系统的应用于经济领域,从而奠定了这一学科的基础和理论体系。
1950~1951年,约翰·福布斯·纳什(John Forbes Nash Jr)利用不动点定理证明了均衡点的存在,为博弈论的一般化奠定了坚实的策墨洛(Zermelo)基础。
纳什的开创性论文《n人博弈的均衡点》(1950),《非合作博弈》(1951)等等,给出了纳什均衡的概念和均衡存在定理。
此外,塞尔顿、哈桑尼的研究也对博弈论发展起到推动作用。
《博弈论入门》课件
博弈论的研究方法与工具
了解博弈论的研究方法和工具对于深入理解和应用博弈论至关重要。
博弈论中的常见概念与术语
学习博弈论需要了解一些常见的概念和术语,例如博弈矩阵、纳什均衡、最 优策略等。
博弈论的经典案例分析
通过分析博弈论的经典案例,我们可以更好地理解和应用博弈论的原理。
博弈论在实际决策中的应用
实际决策中经常涉及到多个参与者的利益博弈,博弈论可以帮助我们找到最优决策策略。
总结与展望
通用于实 际生活和决策中。
《博弈论入门》PPT课件
博弈论是一门研究决策和策略的学科,适用于各种领域,从经济学到政治学, 从生物学到计算机科学。
博弈论基础知识介绍
在这一部分中,我们将探讨博弈论的基本概念和原理,包括博弈模型、策略 和解的概念。
博弈论的应用领域
博弈论在现实生活中有许多应用,包括经济学、政治学、社会学、生物学、 医学等领域。
《博弈论》精品讲义
7
➢长街上的超市 (海滩占位模型)
*********************
0
1/4 A’ 1/2 O’
3/4
1
✓资源浪费还是理性的必然?
✓其它相似情形:旅行社的热门路线;黄金时间 的电视节目;总统竞选。
博弈论20092009
正大光明 公正無私
8
➢狩猎与投资 狩猎:
两个猎人围住一头鹿,各卡住两个关口中的 一个,齐心协力即可成功获得并平分猎物。此时 有一群兔子跑过,任何一人去抓兔子必可成功, 但鹿会跑掉。
博弈论20092009
正大光明 公正無私
5
1.博弈现象
➢田忌赛马:正确的策略可以反败为胜。 ➢囚徒困境:
乙 甲
理性的人是自私自利的; 理性选择不是全局最优。
博弈论20092009
正大光明 公正無私
6
➢经济合作:
乙 甲
诚信的价值; 一报还一报策略; 人类生存环境启示。
博弈论20092009
正大光明 公正無私
如两人写的一样, 就 认为他们讲真话, 并 按 所 写数额赔偿;如果两人写的不一样,就认定低 者讲真话,并照此价格赔偿。同时,对讲真话的 旅客奖励2元钱,对讲假话的旅客罚款2元。
理性原则下,他们会写多少价格呢?
博弈论20092009
正大光明 公正無私
11
2. 博弈概念
➢什么是博弈:
个人或团体间在依存和对抗、合作和冲突 中的决策问题。
正大光明 公正無私
43
∴I的最优混合策略为
(1,2)
(1, 4
3) 4
同理,II的最优混合策略为
G=8
(1,2)
(1, 2
1) 2
博弈论第五讲
( )
∈ Θ ,信号 m ∈ M ,行动 a ∈ A ,参 与人i获得支付 u i (m, a, θ ) ,i = 1,2 。
4
教育如何传递能力信号
Spence (1973); 假定一个人的生产率是100,另一个人的生 产率是200; 假定高能力接受教育的成本是40,低能力 接受教育的成本是120;此时, 教育就可以 成为传递能力的信号; 如果低能力接受教育的成本低于100, 就 会出现混同均衡.
Signaling Games 信号博弈
信号传递
信息不对称可能导致潜在的交易不能进行; 但在许多情况下,为了获得交易带来的收 益,拥有私人信息的一方会主动揭示自己 的私人信息; 信号传递:拥有私人信息的一方通过一定 的行为选择来告诉没有私人信息的一方自 己的真实类型.
2
信号传递博弈 信号传递博弈中,有两个参与人,参与人1称为信号发送者,参 与人2称为信号接收者。参与人1具有私人类型θ , 的概率分布 θ 是共同知识。海萨尼转换下的信号传递博弈时序如下: 1)自然首先按概率分布 p(θ ) 选择参与人1的私人类型θ 此处 Θ = {θ1 , L,θ I } 是参与人1的类型空间。自然将θ 值告诉参与 的概率分布 p(θ ) 。
大学
7
作为传递个人信号的社会规范
在信息不完全的情况下,如何让别人知道 或认为自己的一个值得信任、愿意合作的 人? 贴现率是决定合作的重要因素;低贴现率 是“好消息”。 任何有成本的、可观察的行为都可以成为 传递合作(低贴现率)的信号(Eric Posner, 2000);
8
送礼
人们遵守规范是为了显示自己是合作型的;以 送礼为例; 假定未来的价值是10, 一个人的贴现率是10%, 另一个人的贴现率是30%;显然,前者愿意送成 本为8的礼物,后者不愿意; 重要的是送礼对送者的成本,而不是礼物对接 受者的价值; 穷人的礼物与富人的礼物 “千里送鹅毛,礼轻仁义重”; 了解别人的偏好;
博弈论5
子博弈完美纳什均衡
• 1965年塞尔顿(Selten)给出了子博弈完美纳什 均衡的概念。它需要包含两点:1.是纳什均衡.2. 不包含不可信的承诺和威胁。 • 定义:若动态博弈中各博弈方的策略在动态博弈 本身和所有子博弈中都构成纳什均衡,则该策略 组合称为子博弈完美纳什均衡。 • 用这个概念来看前面的借钱投资问题。在前面的 那个问题中,乙选借(不分就打)、甲选分是子 博弈完美纳什均衡。而当乙打官司成本提高后, 打的威胁不可信时,在从甲开始的子博弈中不是 纳什均衡。因此,(借,分)不是稳定的。 • 就是说,在静态博弈中要用纳什均衡,在动态博 弈中要用子博弈完美纳什均衡概念。二者是同等 2013-5-12 22 重要的。
2013-5-12 15
子博弈和逆推归纳法
•
为了把动态博弈问题简化,或分析的方便, 我们把动态博弈的某一阶段开始的后续所有阶段 构成的博弈称为子博弈。比如,在借钱投资问题 中,乙选择借以后,从甲开始决策起的博弈,就 称为原博弈的子博弈。当然,当甲选择不分时, 乙又开始决策,从这时起的博弈既是原博弈的子 博弈,也是从甲开始的子博弈的子博弈。 • 原博弈并不作为特殊的子博弈。也并不是每一个 博弈方开始决策时都能形成子博弈。
2013-5-12 19
• 再看法律保障不足时的借钱投资问题:
乙 借 不借
甲 不分 分 乙
(1,0)
(2,2)
打 不打
(-1,0)
2013-5-12
(0,4)
20
分析
• 只是稍微改动,结果却大不相同。甲不分时, 乙的打官司威胁变为是不可信的。因此,乙第 一阶段应该选不借,博弈结束。但是,用静态 博弈中纳什均衡概念对照,发现(借(不分则 打),分)仍是纳什均衡。因为谁单独离开这 个组合将不会增加收益。这两种分析的结论是 矛盾的。原因在于,实现(借(不分则打), 分)的纳什均衡策略包含一个不可信的威胁— 即乙在第三阶段选打。就是说,一般的纳什均 衡概念在分析动态博弈时,不能排除不可信的 承诺和威胁。纳什均衡概念不能完全照搬。21 2013-5-12
博弈论第五讲
与生活中的经济学
河南工程学院 主讲 陈海堂
E-mail: haitangchen@
LOGO
第五讲 让策略混合起来
1、策略混合动机 2、如何寻找混合策略均衡
LOGO
3、随机的好处
小结 4、 如何认识混合策略
5、 混合策略的麻烦 6、小 结
Game Theory & Life
haitangchen@
6.1 策略混合动机
LOGO
这样,司机乙以2/3的概率选择转向,以1/3的概率选择向 前,就可以使你在两个策略间无差异而无法采取纯策略 (同学们可计算,你选择转向的预期赢利是0,选择向前 的预期赢利也是0)。由此,我们可以记下司机乙采取的 混合策略:(2/3,1/3)。(它是混合策略的表示方法, 括号中第一个数字表示选择第一个策略的概率,第二个数 字表示第二个策略的概率,依此类推,在这里(2/3,1/3) 表示司机乙以2/3的概率选择转向《策略一》,以1/3的概 率选择向前《策略二》) 。 反过来,司机乙对你的选择也有着概率判断,而为了保持 这种判断信念的后果与信念本身一致,你也以一定概率 (比如P)随机选择你的策略,且p需要满足使司机乙在他 的两个策略之间没有差异。此时他两种策略预期赢利为: ·司机乙选择转向的预期赢利:1×p+(-2) ×(1-p)=3p-2; ·司机乙选择向前的预期赢利:2×p+(-4) ×(1-p)=6p-4.
6.1 策略混合动机
LOGO
6.1.2 会发生车毁人亡的情况吗 既然你和司机乙都采用了(2/3.1/3) 的混合策略,那就 意味着结果是你看出现的。我们可以计算各种情况出现的 概率,见图6-2,懦夫博弈各情况出现的概率。
司机乙
005(博弈论基础)
作为博弈,三要素齐了没有?
H
T
• 参与人
✔
H -1,+1 +1,-1 • 策略(概率)
✔
T +1,-1 -1,+1 • 回报
?
此时的策略是在两种固定(纯)策略上选择的概率,每一组 纯策略是对应有固定收益的。因而,从概率意义出发,此时 的收益应该体现一种在两种纯策略上的“平均”(期望)。
他 H(0.3) T(0.7) 你 H(0.6) -1,+1 +1,-1 T(0.4) +1,-1 -1,+1
• 实战统计得到的数据:q=0.42, p=0.40
–对应前面的示意数据表中的什么数据?
小世界问题探索历程
实验 现象
(1967)
重复 实验
(…)
理论 模型 how
(1998)
what
how & “must be q=2”
模型 改善
(2000)
confirm
测量 验证
(2005)
why
根源 探究
(2015)
网络、群体与市场 社会网络中的计算思维方法
关于第五周学习内容的延伸讨论
博弈论基础 要素,类型,解法
做一个“游戏”
• 出6个同学,每人发两张扑克牌,一张红, 一张黑
• 规则
– 每人独立决定出哪一张牌,不让其他人看见 – 如果你出的是红牌,无论别人出什么,都得到1
元钱奖励回报; – 如果你出的是
• 若其他所有人都出黑牌,你就得4元钱回报; • 若有任何一人出红牌,则你就必须支付赔偿2元钱
简单博弈的典型种类
• 囚徒困境、鹰鸽博弈、协调博弈、零和博 弈,…
来自网络中一些的例子
博弈论入门5
0.4 估价100
两种估价:50,100,概率分别为0.6和0.4。 出价以10为单位递增。 一个对称的简单策略:若估价50就出价40, 若估价100就出价60
出价40时的期望收益: 0.6*0.5*(50-40)+0.4*0=3 若估价50,出价40最优吗? 出价60时的期望收益: 0.6*(100-60)+0.4*0.5*(100-60)=32 若估价100,出价60最优吗?
当另外两位投票相同时 当另外两位投票分歧时
若委员不知道哪个政策更好 …… (投票,弃权?)
1.
三种对称策略组合: 当委员了解新政策时,选自己认为更好的; 当不了解时,选现政策。
当委员1不了解,同时委员2、3有分歧时,委员1将做出错误决策。
2.
3.
当委员不了解时,反对现政策;当了解时, 投票最好的策略。 当委员不了解时,弃权;当了解时,选择最 好的策略。 前两个都不是贝叶斯纳什均衡!
博弈论中的交流
消息和语言一样吗? 消息的信息内容要与字面意思一致?
成功交流的两个条件
对消息的字面意义必须有共同认识 发送消息者没有欺骗接收者的动机
说谎
一个人必须成功地误导了他人才算“说谎”
6.1 不完全信息时
6.2 完全信息时
“夫妻战”中合作的可能性 无事前沟通 有事前沟通
理论
从大学到科举
进入实习期后……
工作40小时还是加班到60小时? 员工:长期雇佣得益130,不聘用得益70 经理:雇佣勤奋型得100,懒惰型得25,不雇佣得60
给定一个策略组合和信念集
实习生:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
经理的信念:
工作40h——懒100% 工作60h——懒60%,勤40% 工作80h——勤100%
5.2 理智与情感
两汉:大赋、乐府诗 三国:五言诗、小赋 六朝:五言诗、小赋、骈体文 唐:古体诗(复兴)、近体诗、新乐府、复古文 晚唐五代:词 宋:词、诗、古文(中兴) 元:杂剧 明:小说、戏剧 清:小说、诗词(中兴)、古文(中兴) 民国:白话文 ……
通过改革,陪审团制度在美国得到了比英国更 好的发展。
投票程序
每个陪审员在陪审之前已经有一个大体 的判断 他们的类型 非专业性——从众行为
如果评判有罪的人数多于无罪,则投有罪 如果评判无罪的人数多于有罪,则投无罪 如果双方人数相等,则依照自己的评判结果 投票
陪1:假设投有罪 陪2:若评判有罪,则投有罪;若评判无 罪,则投无罪 陪3:若陪1和陪2投票不同,陪3根据自 己的评判结果投;若陪1和陪2投票相同 ,则陪3投相同票。 ……
法律保障? 钻石戒指? 甜言蜜语?
5.3 信号传递的实例
三类商品:
搜索产品 体验商品 信任商品
如何广告才能分离优劣?
资本市场
Ross(1977):在一定条件下,企业的负债水平 越高,企业的盈利能力越强。
不同企业的破产可能
好企业 负债70% 负债30%
差企业 30% 5%
5% 1%
情感体验 更多地感到担心、后悔、羞耻等 更多地感到愉悦、幸福、满足等 说不清楚或没有特别地感觉 合计
恋爱博弈
恋爱博弈
如何满足出现分离均衡的条件
重要的不是礼物价格昂贵,而是与杰克 爱罗斯时相比,杰克认为不爱罗斯时送 礼物更贵。不同类型的杰克之间差别化 损失才是关键 二手车市场Vs相亲大会 分手or悔婚
实验
37.5%
41%
49.9%
55%
单向交流被证明是最高效的,可 以使合作的概率达到95%
一个作业
格雷格正在考虑 是否邀请马西娅 ,但不确定对方 是否喜欢他。 博弈如图所示。 求解他们之间博 弈的贝叶斯均衡
又一个作业
现有某家医院为解决看病难而尝试改革 病人的排队规则:(1)在护士站分诊时 ,护士依照患者口述及其病征来确定病 情的严重程度;护士站将依照候诊者病 情的严重程度来确定先为谁诊治,而不 是“先来后到”。你能想象最后的结果 如何吗?用博弈模型描述并给出分析
黑暗中的舞者
1. 2. 3. 4. 5. 6.
慕尼黑协定 贝叶斯均衡:三步转换 当所有人都拥有私人信息时 委员会和陪审团的投票 信号传递 说谎及说谎者的信息
1. 慕尼黑协定
60%40%Fra bibliotek2. 贝叶斯均衡:三步转换
1.
在一个不完全信息博弈中,这个参与者 是谁?
参与者所拥有的私人信息成为参与者的类型 所有类型的集合成为类型空间 不同类型对应不同的收益
当另外两位投票相同时 当另外两位投票分歧时
若委员不知道哪个政策更好 …… (投票,弃权?)
1.
三种对称策略组合: 当委员了解新政策时,选自己认为更好的; 当不了解时,选现政策。
当委员1不了解,同时委员2、3有分歧时,委员1将做出错误决策。
2.
3.
当委员不了解时,反对现政策;当了解时, 投票最好的策略。 当委员不了解时,弃权;当了解时,选择最 好的策略。 前两个都不是贝叶斯纳什均衡!
第五章 不完全信息博弈
本章讨论至少有一个博弈方不完全清楚其 他某些博弈方的得益的不完全信息博弈,也称 “贝叶斯博弈”。得益信息不充分和博弈进程 信息不充分是有差异的,因此不完全信心博弈 与不完美信息博弈有不同的表示和分析方法。 但不完全信息与不完美信息也有很强的内在联 系,可通过一定的方式统一起来,因此不完全 信息博弈和不完美信息博弈也可以用相同的方 法进行研究。
开枪
厄普
僵持 4,1
8,4
开枪
僵持
5,2
6,3
3. 当所有人都拥有私人信息时
2012年5月3日,1.19亿$《呐喊》 ,12 分钟惊心动魄的争夺战 这幅名画引发了长达12分钟的竞价大战 ,最终被一位匿名电话竞买人拍下。4
千万起拍,1百万为单位递增
参与角逐的至少有四位藏家,其中有中 国、美国的藏家,以及奥斯陆 K画廊交 易商 Ben Frija,他在拍卖大厅内一直 压着所有的电话竞买人,但在7,300万 这道坎上放弃了。 在被问及对最终的价格是否感到意外时
,Frija抛下一个“不”字,随即离开了
简化的暗标拍卖
密封递交标书 统一时间公正开标 标价最高者以所报标价中标 中标博弈方的得益不仅取决于标价,还取决于他对拍 卖标的物的带有很大主观性的估计 每个博弈方的估价通常是自己的私人信息
0.6 估价50 0.6 0.4 估价50 估价100
国有企业适用吗?
融资顺序:自有资本、债权融资、股权融资
显示信息 VS 隐瞒信息
显示:扎哈维(1975)——累赘原理
隐瞒:没有消息就是好消息 隐瞒:没有消息就是坏消息
你能理解这些现象吗?
互送礼品 婚姻契约 浪费性消费 “三好学生” 千奇百怪的求爱行为
6 消息:说谎和事前沟通
2. 3.
确定每个参与者的类型,引入“自然” 定义策略集。策略和自然,哪个先?
狂野西部枪战
1875年某个非同寻常的一天,警长马歇 尔﹒怀特﹒厄普去维持秩序,突然一个 陌生人拉住他的手,好像要开枪……
枪战博弈
陌生人(熟练枪手) 开枪 厄普 开枪 僵持 2,3 1,4 僵持 3,1 8,2
陌生人(普通牛仔)
陪审团制度
现代之后,美国对陪审团制度进行了一系列的 改革。
首先是在陪审团组成人员上,逐渐对妇女和黑人开 放,对性别和种族的排斥度降低。 其次,历史上陪审团的人数是12人,改革之后组成 人数可以根据各州的情况在6-12人间组成。 再次,陪审团裁决原则上的变化。传统的陪审团裁 决是全体一致通过原则,现在开始应用多数主义。
当一个委员了解新政策时,是否投票, 如何投票?当不了解时又是否投票,如 何投票? 考虑这样一个对称策略:给定其他两个 委员采取相同策略,以及对于其他成员 拥有哪个政策更好的知识的信念,不论 这个参与者什么类型,采取这个策略都 使他收益最大。
自然决定四项:哪个政策更好,以及三 个委员的类型。 当一个委员了解新政策时:投票给自己 认为更好的策略是一个弱占优策略。
40: 0.6*0.5*(100-40)+0.4*0=18 50: 0.6*(100-50)+0.4*0=30 70: 0.6*(100-70)+0.4*(100-70)=30
隐藏你的出价
共同价值和赢者的诅咒
两家代理:1个积极估价,1个消极估价
1/ 2 v s 2 prob(v / s) 1/ 2 v s 2 v均匀分布
0.4 估价100
两种估价:50,100,概率分别为0.6和0.4。 出价以10为单位递增。 一个对称的简单策略:若估价50就出价40, 若估价100就出价60
出价40时的期望收益: 0.6*0.5*(50-40)+0.4*0=3 若估价50,出价40最优吗? 出价60时的期望收益: 0.6*(100-60)+0.4*0.5*(100-60)=32 若估价100,出价60最优吗?
从大学到科举
进入实习期后……
工作40小时还是加班到60小时? 员工:长期雇佣得益130,不聘用得益70 经理:雇佣勤奋型得100,懒惰型得25,不雇佣得60
给定一个策略组合和信念集
实习生:
若懒则工作40h;若勤则工作80
经理策略:
若实习生工作40或60h,则不雇佣;若工作80h则雇佣。
博弈论中的交流
消息和语言一样吗? 消息的信息内容要与字面意思一致?
成功交流的两个条件
对消息的字面意义必须有共同认识 发送消息者没有欺骗接收者的动机
说谎
一个人必须成功地误导了他人才算“说谎”
6.1 不完全信息时
6.2 完全信息时
“夫妻战”中合作的可能性 无事前沟通 有事前沟通
理论
出价b=?(一家和两家出价时有不同吗) 考察b=s-1这样一个对称策略 德士古公司的例子
几种常见的拍卖形式
英式公开叫价拍卖 荷式公开叫价拍卖 一价密封拍卖 二价密封拍卖
我校的某次人大投票
4. 委员会和陪审团的投票
4.1 弃权票策略 每个委员有两个类型:了解新政策和不 了解新政策。 一个委员了解新政策的概率为q,即其类 型为“了解新政”的概率为q 如果不了解新政策,就不能确定哪个政 策更好。现政策更好的概率为p (1/2<p<1)
有成本的行动 VS 无成本的行动 一个零成本的行动被称为消息。以消息 为载体的博弈被称为廉价谈话博弈。
发送错误的消息(说谎)没有成本 正确的消息呢?有收益吗? 不对真假做鉴别,重要的是有无信息量
消息在以下两个不同的场景中 产生重大影响
不完全信息:信号传递与声明 完全信息:事前沟通 例如:打电话博弈
生产工具与生产方式的关系
性关系的作用和出现时机
大学生非婚性行为-2013