第1讲:博弈论基础
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
21
(1)Agent/Player(博弈方)
博弈中独立决策、独立承担博弈结果的个人或组织。 为简单计,将博弈中的每个独立决策参加者称为“博 弈方”。
例:“囚徒困境”中的两个犯罪嫌疑人是“博弈方”,但制定规 则、自身不参与决策活动的警察不是“博弈方”。
囚徒2 坦白 抵赖 坦白 (-5,-5) (0,-8) 囚徒1 抵赖 (-8,0) (-1,-1)
博弈发生在相互影响、相互作用的“一些人、团队 或其他组织”中间。 看到“相互影响、相互作用”,可以想到“系统” 概念。
5
系统
系统是由相互联系、相互作用着的一些
事物组成的总体。也可以概括地说,系 统是由部分组成的总体。(王浣尘,1986)
6
博弈系统?
博弈发生在相互影响、相互作用的“一些人、 团队或其他组织”中间。 这些相互影响、相互作用的“一些人、团队 或其他组织”可以构成一个系统。
12
系统的边界
讨论系统的“组成性”,必须弄清楚系统的 “边界”。 但是,明确系统的边界不是一件容易的事情。 在博弈系统中,更是如此。
13
Classical Examples of Games
(1)Prisoner’s Dilemma(囚徒困境) (2)Battle of the sexes(性别之争博弈) (3)Hawk–Dove game(鹰鸽博弈)
1
第1讲:博弈论基础
2
博弈论强调经济主体之间的直接相互联系和影响。
博弈论(Game Theory)是研究决策主体的 行为发生直接相互作用时的决策以及这种决 策的均衡问题,因此也被称为“对策论 (Theory of Interactive Decision)”。这 一理论最重要的特点是强调了经济主体之间 的直接相互联系和影响。(董保民等,2008, 第1页)
抵赖
坦白 (-5,-5) (0,-8) 囚徒1 抵赖 (-8,0) (-1,-1)
23
(2)Strategies/ Actions
Each player in a game faces a choice among two or more possible strategies.
A strategy is a predetermined “programme of play” that tells her what actions to take in response to every possible strategy other players might use.
30
“纯策略”vs.“混合策略”
纯策略(pure strategy)
“囚徒困境”问题中的每个博弈方(犯罪嫌疑人)的可选 策略集合均为{坦白,抵赖}。 在“囚徒困境”问题中,假设每个博弈方(犯罪嫌疑人) 选择策略“坦白”的概率为 p,选择策略“抵赖”的概率 为q。 那么,我们可以将每个博弈方(犯罪嫌疑人)的策略表示 为(p,q)。 (p,q)表示博弈方以一定的概率分布在可选策略集合中 随机选择。
如果他们两人都拒不认罪,则他们会被以较轻的妨碍公 务罪各判1年徒刑;
如果两人中有一人坦白认罪,则坦白者从轻处理,立即 释放,而另一人则将重判8年徒刑;
如果两人同时坦白认罪,则他们将被各判 5年监禁。
15
Prisoner’s Dilemma(囚徒困境)
如果他们两人都拒不认罪,则他们会被以较轻的妨碍公务罪 各判1年徒刑; 如果两人中有一人坦白认罪,则坦白者从轻处理,立即释放, 而另一人则将重判8年徒刑; 如果两人同时坦白认罪,则他们将被各判5年监禁。
7
Multiagent Systems
Multiagent Systems: Algorithmic, GameTheoretic, and Logical Foundations, by Yoav Shoham and Kevin Leyton-Brown; Cambridge University Press, 2009.
囚徒2 坦白 抵赖 坦白 (-5,-5) (0,-8) 囚徒1 抵赖 (-8,0) (-1,-1)
29
古诺模型 (The Cournot model)
当市场出清价格是投放到市场上产品数量的 减函数时,假设销售相同产品的 n 个厂商 (寡头)可自由选择自己有能力生产的任何产 量,厂商之间既不存在相互的协商,也不受相 互的制约,并且他们是在同一时间决定生产的 产量。那么,这 n 个厂商(寡头)该如何选 择自己的产量决策呢?
22
(2)Strategies/ Actions
各博弈方的可选策略(Strategies)或行为(Actions) 的集合。
每个博弈方在进行决策时,可以选择的方法、做法或经济活动 的水平、量值等。 “囚徒困境”问题中的每个博弈方(犯罪嫌疑人)的可选策略 集合均为{坦白,抵赖}。
囚徒2
坦白
混合策略(mixed strategy)
31
“纯策略”vs.“混合策略”
纯策略(pure strategy)
在“囚徒困境”问题中,每个博弈方(犯罪嫌疑人) 的可选纯策略为 “坦白”或者“抵赖”。 在“囚徒困境”问题中,假设每个博弈方(犯罪嫌 疑人)的混合策略为(p,q)。
混合策略(mixed strategy)
坦白 抵赖 坦白 (-5,-5) (0,-8) 囚徒1 抵赖 (-8,0) (-1,-1)
19
Agents involved in games are referred to as players.
If all agents have optimal actions regardless of what the others do, as in purely parametric situations or conditions of monopoly or perfect, we can model this without appeal to game theory; otherwise, we need it.
8
系统
系统是由相互联系、相互作用着的一些事物组 成的总体。也可以概括地说,系统是由关联部 分组成的总体。
显然,构成一般系统的要素就只有两种:“部分” (parts)和“关联”(interaction)。
9
系统 环境
部分 关联 系统边界 系统的环境
10
系统的“组成性”
系统不是单一的一个质点,也不是铁板一块 的一个“整体”事物,而是由一些关联的“部分” 组成的一个总体。
囚徒2 坦白 抵赖 坦白 (-5,-5) (0,-8) 囚徒1 抵赖 (-8,0) (-1,-1)
20
Basic Elements of Games
(1)Agent/Player(博弈方) (2)Strategies/ Actions (3) Orders(次序) (4)Utility/Payoffs(效用/得益)
35
博弈指的是一些人、团队或其他组织,面对 一定的环境条件,在一定的规则下,同时或 先后,一次或多次,从各自允许选择的行为 或策略中进行选择并加以实施,各自取得相 应结果的过程。
博弈方有“允许选择的行为或策略中进行选择”。
(4)Matching pennies(猜硬币博弈)
(5)Stag Hunt game(猎鹿博弈)
14
Prisoner’s Dilemma(囚徒困境)
警察抓住了两个合伙犯罪的罪犯,但缺乏足够的证据 指证他们所犯的罪行。如果其中至少有一个人供认犯 罪,就能确认罪名成立。为了得到所需的口供,警察 将这两名罪犯分别关押以防止他们串供或结成攻守同 盟,并给他们同样的选择机会:
囚徒2 坦白 抵赖 坦白 (-5,-5) (0,-8) 囚徒1 抵赖 (-8,0) (-1,-1)
24
在博弈论中,给出各博弈方可以选择的全部 策略或策略选择的范围(也称“策略空 间”),是定义一个博弈时需要确定的最重 要的基本方面之一。
25
根据所研究问题的内容和性质,不同博弈中 各博弈方可选策略的数量有多有少,差异还 可能会非常大。
囚徒2 坦白 抵赖 坦白 (-5,-5) (0,-8) 囚徒1 抵赖 (-8,0) (-1,-1)
16
战略式表述(strategic form representation) 扩展式表述(extensive form representation)
在博弈论里,一个博弈可以用两种不同的方式来表 达,一种是战略式表述(strategic form representation),另一种是扩展式表述(或译为 “展开式表述”)(extensive form representation)。尽管从理论上讲,这两种表述 形式几乎是完全等价的,但从分析的方便性的角度 看,战略式表述更适合于静态博弈,而扩展式表述 更适合于动态博弈。(张维迎,2012,第31页)
32
“纯策略”vs.“混合策略”
纯策略是混合策略的特例。 混合策略是纯策略的扩展。
在“囚徒困境”问题中,纯策略 “坦白”可表示 为(1,0),纯策略 “抵赖”可表示为(0,1)。
33
“纯策略”vs.“混合策略”
如果给一个博弈的每个博弈方的纯策略空间 赋予不同的概率分布,就形成了不同的混合 策略。
17
Agent/Player(博弈方)
明确博弈系统的边界,界定博弈的参与人。
18
Agent/Player(博弈方)
博弈中独立决策、独立承担博弈结果的个人或组织。 为简单计,将博弈中的每个独立决策参加者称为 “博弈方”。
例:“囚徒困境”中的两个犯罪嫌疑人是“博弈 方”,但制定规则、自身不参与决策活动的警察不 是“博弈方”。 囚徒2
26
囚徒困境(The Pri
坦白 囚徒1
坦白 (-5,-5) 抵赖 (-8,0)
抵赖
(0,-8) (-1,-1)
27
Matching pennies (猜硬币博弈)
Different Head Tail Head (1,-1) (-1,1) Same Tail (-1,1) (1,-1)
28
(2)Strategies/ Actions
Each player in a game faces a choice among two or more possible strategies.
A strategy is a predetermined “programme of play” that tells her what actions to take in response to every possible strategy other players might use.
构成各个博弈方混合策略的概率分布是连续 的,可以取无限多组值,因此混合策略的数 量肯定是无限多的。 所有这些混合策略构成了一个混合策略的空 间。
34
“纯策略”vs.“混合策略”
把博弈方的策略从纯策略扩展到混合策略, 把策略空间从纯策略空间扩展到混合策略空 间,对于博弈的分析具有重要的意义。
3
博弈?
博弈指的是一些人、团队或其他组织,面对 一定的环境条件,在一定的规则下,同时或 先后,一次或多次,从各自允许选择的行为 或策略中进行选择并加以实施,各自取得相 应结果的过程。
4 这个概念包含的意义非常丰富
博弈指的是一些人、团队或其他组织,面对 一定的环境条件,在一定的规则下,同时或 先后,一次或多次,从各自允许选择的行为 或策略中进行选择并加以实施,各自取得相 应结果的过程。(谢识予,2008)
例如,把一个小组不看作为一个混同不可分的 “事物”,而看作为一个系统时,就应该看到组 成这个小组的各个成员和他们各自的特点、能力、 脾气和爱好。 总之,如果不看它们的组成部分,那么它们也就 不成为系统。
11
博弈系统的组成性
博弈发生在相互影响、相互作用的“一些人、 团队或其他组织”中间。 这些相互影响、相互作用的“一些人、团队 或其他组织”可以构成一个系统。 也就是说,博弈系统的组成部分的集合就是 “一些人、团队或其他组织”。