数学建模博弈模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
双方完全理性(最大化自己的期望效用 ).
以上为双方的共同知识.
模型假设与建立
信息非对称(不完全信息)
不完全信息静态博弈(静态贝叶斯博弈)
双方战略 卖方报价ps= ps(vs) 买方报价pb= pb(vb) 战略组合( ps(vs), pb(vb)) 何时构成均衡? 定义在[0,1]区间上、取值也 在[0,1]区间上的非减函数.
λ↑,报童利润↑ ,报社利润↓ 利润的任意分配比例都可达到
回收协议模型
模型一 回收价格协议 回收价b (p>w>b>v) 整体最优
pw F (Qr ) p b
原订货量
pw F (Qr ) pv
pc F (Q ) pv
*
达到协调
pc pw p v p b
cv w wb (b) b ( p b) pv
回收协议模型
模型二 回收数量协议
I1 (Q)
(1 ) Q 0
按批发价回收,比例为α
Q (1 ) Q
报社回收 报童回收 报童利润
Qf ( x)dx
0
(Q x) f ( x)dx
Q
(1 ) Q
F ( x)dx
I 2 (Q) I (Q) I1 (Q)
盟军的混合战略集
S1={p=(p1, p2, p3) | 0 pi 1, pi 1}
i 1 2
3
德军的混合战略集
S2={ q=(q1, q2) | 0 qi 1, qi 1 }
i 1
期望收益
U 1 ( p, q ) pMqT pi mij q j
i 1 j 1
U r (b) U s (b) ( p v) S (Q * ) (c v)Q * p b [U r (b) U s (b)] pv bv U s (b) [U r (b) U s (b)] pv U r (b)
b↑,报童利润↓ ,报社利润↑
利润的任意分配比例都可达到
3
2
U 2 ( p, q ) U 1 ( p, q )
•盟军
max pMq
pS1
T
•德军
min pMqT
qS 2
完全信息 有限博弈 零和博弈
静态博弈 矩阵博弈 (2人) 常数和博弈
模型求解
max pMq
pS1
T
min pMqT
qS 2
理性推理:不管自己怎么做,另一方总是希望使自 己得分尽量低. (二人零和博弈,完全竞争) 从一个给定的战略中期望得到的赢得,总是 采用该策略时他们可能得到的最坏的赢得! 盟军可以用min pM来衡量策略p的好坏 德军可以用max MqT来衡量策略q的好坏 •盟军 •德军
0 0
xF ( x) |0 F ( x)dx Q (1 F (Q )) Q F ( x)dx
期望存货量
I (Q) Q S (Q) F ( x)dx
0
Q
期望利润 G(Q) pS(Q) vI (Q) wQ ( p v)S (Q) (w v)Q 最优订购量Qr
M {mij }3 2
1 0 2 0 2 1
1,1 1,1 ' M 2,2 2,1 2,2 1,1
非常数和 博弈(双矩 阵表示)
不存在(纯)NE
(纯)NE: a*=(a1*, a2*) =(2, 2)
混合战略(策略:Strategy)
w wq ( ) v
( p v)(c v) (c v) ( p v)(1 ) F ((1 )Q* )
模型评述
•协议参数的确定: 不能单方决定 双方谈判(合作博弈)
•一种更简单的协议
批发价w=成本c
收取一定加盟费
•还有很多其他类型的协议,也可以达到协调
(1 ) Q
F ( x)dx
U r ( w, , Q) pS (Q) wI1 (Q) vI 2 (Q) wQ Q Q F ( x)dx ( p v) (1 )Q F ( x)dx ( p w) (1 )Q 0
U r ( w, , Q) 0 Q Qr
• 双方总能成交吗?(效率估计)
模型假设与建立
• 卖方知道物品对自己的价值,但买方不知道. • 买方知道物品对自己的价值,但卖方不知道. • 双方都知道(如猜出)对方价值的分布信息. 卖方价值vs, 买方价值vb, 均服从 [0,1] 上的均匀分布
卖方报价ps, 买方报价pb, pb ≥ ps时成交价p= (pb+ps)/2 成交效用:卖方U1=p- vs, 买方U2= vb –p; 不成交: 0
东进
原地 待命
盟 军 (美三)
双方应该如何决策 ?
模型假设
• 博弈参与者为两方(盟军和德军) • 盟军有3种使用其预备队的行动:强化缺口,原地 待命,东进;德军有2种行动:向西进攻或向东撤退. • 博弈双方完全理性,目的都是使战斗中己方获得 的净胜场次(胜利场次减去失败场次)尽可能多.
德军 盟军 强化缺口 原地待命 东进 向西进攻 盟军胜1场 盟军胜2场 盟军败2场 向东撤退 无战斗 无战斗 盟军胜1场
•占优(dominate):盟军的行动2占优于1 (前面的非常数和博弈M’类似)
•混合策略似乎不太可行! 但概率可作为参考. ----现实:盟军让预备队原地待命(行动2),而德军 没有选择撤退(行动2),结果德军大败. • 博弈规则至关重要的,如参与人决策的时间顺序、 决策时拥有哪些信息等. •多人(或非常数和)博弈问题,一般不能用上面的线性 规划方法求解,而通过纳什均衡的定义求解.
博弈的解的概念:纳什均衡 (NE: Nash Equilibrium) Nash: 1994年获诺贝尔经济学奖
NE: 单向改变战略不能提高自己效用,即每一方的战略 对于他方的战略而言都是最优的, 称为最优反应.
* * * u1 (a1 , a2 ) u1 (a1 , a2 ), a1 {1,2,3}, (纯战略)纳什均衡 * * * u2 (a1 , a2 ) u2 (a1 , a2 ), a2 {1,2}.
假设报社与报童联合,整体期望利润
U s r (Q) ( p v) S (Q) (c v)Q
达到协调
U r ( wd (Q)) U s r (Q)
wd (Q) c (1 )[v ( p v) S (Q) / Q]
0 1
关于Q的减函数(非线性)
pc 假设报社与报童联合,整体利润最大 F (Q ) pv pw *>c Q (w*) <Q* F (Qr ) 一般w r pv 整体利润有损失 能否改善(协调)?
*
价格折扣协议模型
折扣方案wd(Q) 下,报童效用(期望利润)
U r ( wd (Q)) ( p v)S (Q) ( wd (Q) v)Q
优化模型
(Optimization)
博弈模型
(Game Theory)
静态、动态 信息完全、不完全
军事、政治、经济、企业管理和社会科学中应用广泛
11.1 进攻与撤退的抉择
背 景
• 1944年6月初,盟军在诺曼底登陆成功. • 到8月初的形势:
盟军(加)
盟军(英)
盟军(美一) 强 化 盟军 缺口 (预备队) 德军 进攻 撤退
给定战略组合,能够实际发生的交易的期望价值与有利 的全部交易的期望价值的比值称为该战略的交易效率.
vb
1 交易 x vb=vs
单一价格战略效率为
1
x
x 0 1 vb
(vb vs )dvs dvb (vb vs )dvs dvb
3x(1 x) 3 / 4
0 0
x=0.5
O
x
1
vs
效率最大(3/4)
线性价格战略
买方:
卖方报价ps(vs) = as+csvs;
•如何评价/比较协议的优缺点?
-是否能达到协调 -协议执行成本有多高
-是否能任意分配利润
11.3 ―一口价”的战略
背景 • ―讨价还价”很浪费买卖双方的宝贵时间.
• 为了节省“讨价还价”时间,考虑“一口价” 模式. • 双方同时报价:若买价≥卖价,则以均价成交;
否则不成交.
问题
• 双方应如何报价?
( p w)[1 F (Qr )] (w v)(1 ) F ((1 )Qr ) 0
( p w)[1 ( p c) /( p v)] ( w v)(1 ) F ((1 )Q* )
pc F (Q ) pv
*
达到协调 α↑,报童利润↓, 报社利润↑; 利润任意分配都可达到
• 双方同时做出决策
• 共同知识(以上信息双方共有)
完全信息 静态博弈
博弈模型
• 博弈参与者集合N={1,2}(1为盟军,2为德军) • 盟军行动a1 A1={1,2,3}(强化缺口/原地待命/东进); 德军行动a2A2={1,2}(进攻/撤退). (行动:即纯战略)
• 用u1(a1,a2)表示对盟军产生的结果,即净胜场次, 称为盟军的效用函数.
max U1(p) = min pM
min U2(q) = max MqT
p2*=3/5,p3*=2/5 线性 规划 q1*=1/5,q2*=4/5 最优值均为2/5
(p*, q*): 混合(策略)纳什均衡(Mixed NE)
Hale Waihona Puke Baidu
模型评述
0 0 M 1 0 1 1
pw F (Qr ) pv
Qr(w)
问题
假设报社报纸成本价为c,w≥c>v
Max ( w c)Qr ( w) (w c) F 1 p w
w c
pv
w*
完全信息动态博弈:常称Stackelberg Game (两阶段) 子博弈完美均衡: (w*,Qr(w))
盟军 德军 向西进攻 强化缺口 盟军胜1场 原地待命 盟军胜2场 东进 盟军败2场 向东撤退 无战斗 无战斗 盟军胜1场
M {mij }3 2
支付矩阵 (Payoff Matrix)
1 0 2 0 2 1
完全竞争: 零和博弈 (常数和博弈)
u2(a1,a2)对应 –M
第十一章
博弈模型
11.1 进攻与撤退的抉择
11.2 让报童订购更多的报纸
11.3 ―一口价”的战略
11.4 不患寡而患不均 11.5 效益的合理分配 11.6 加权投票中权力的度量
决策问题(Decision Problem)
单一决策主体
三要素
多个决策主体 博弈模型 合作博弈
决策变量 目标函数 约束条件 决策主体的决策 行为发生直接相 互作用 (相互影响) 非合作博弈
单向改变战略不能 提高自己效用.
贝叶斯纳什均衡
模型假设与建立
卖方:
均衡条件
ps E[ pb (vb ) | pb (vb ) ps ] vs * Pr{ pb (vb ) ps } max 2 ps
pb E[ ps (vs ) | pb ps (vs )] max vb * Pr{ pb ps (vs )} 2 pb
小结:博弈模型的基本要素
• 参与人
• 行动空间(及战略空间) • 效用函数
理性假设 纳什均衡 参与者完全理性(最大化效用) 单向改变战略不能提高自己效用
其他因素
• 行动顺序(静态、动态)
• 信息结构(完全、不完全)
11.2 让报童订购更多的报纸
报 订购价w,零售价p,处理价v(p>w>v>0) 童 需求量:密度函数f(x)、分布函数F(x), F(0)=0 模 型 订购Q份报纸,期望销售量为 Q 回 S (Q) xf ( x)dx Qf ( x)dx 0 Q 顾 Q Q Q
买方:
具体战略(函数)形式不同,均衡就可能不同.
单一价格战略
x , vs x p s ( vs ) 1, vs x
x, vb x pb (vb ) 0, vb x
双方战略互为最优反应,所以构成贝叶斯纳什均衡!
单一价格战略
对给定的(vs, vb),当vs<vb时称交易是有利的; 交易给双方带来的效用之和(即vb–vs)称为交易价值.
以上为双方的共同知识.
模型假设与建立
信息非对称(不完全信息)
不完全信息静态博弈(静态贝叶斯博弈)
双方战略 卖方报价ps= ps(vs) 买方报价pb= pb(vb) 战略组合( ps(vs), pb(vb)) 何时构成均衡? 定义在[0,1]区间上、取值也 在[0,1]区间上的非减函数.
λ↑,报童利润↑ ,报社利润↓ 利润的任意分配比例都可达到
回收协议模型
模型一 回收价格协议 回收价b (p>w>b>v) 整体最优
pw F (Qr ) p b
原订货量
pw F (Qr ) pv
pc F (Q ) pv
*
达到协调
pc pw p v p b
cv w wb (b) b ( p b) pv
回收协议模型
模型二 回收数量协议
I1 (Q)
(1 ) Q 0
按批发价回收,比例为α
Q (1 ) Q
报社回收 报童回收 报童利润
Qf ( x)dx
0
(Q x) f ( x)dx
Q
(1 ) Q
F ( x)dx
I 2 (Q) I (Q) I1 (Q)
盟军的混合战略集
S1={p=(p1, p2, p3) | 0 pi 1, pi 1}
i 1 2
3
德军的混合战略集
S2={ q=(q1, q2) | 0 qi 1, qi 1 }
i 1
期望收益
U 1 ( p, q ) pMqT pi mij q j
i 1 j 1
U r (b) U s (b) ( p v) S (Q * ) (c v)Q * p b [U r (b) U s (b)] pv bv U s (b) [U r (b) U s (b)] pv U r (b)
b↑,报童利润↓ ,报社利润↑
利润的任意分配比例都可达到
3
2
U 2 ( p, q ) U 1 ( p, q )
•盟军
max pMq
pS1
T
•德军
min pMqT
qS 2
完全信息 有限博弈 零和博弈
静态博弈 矩阵博弈 (2人) 常数和博弈
模型求解
max pMq
pS1
T
min pMqT
qS 2
理性推理:不管自己怎么做,另一方总是希望使自 己得分尽量低. (二人零和博弈,完全竞争) 从一个给定的战略中期望得到的赢得,总是 采用该策略时他们可能得到的最坏的赢得! 盟军可以用min pM来衡量策略p的好坏 德军可以用max MqT来衡量策略q的好坏 •盟军 •德军
0 0
xF ( x) |0 F ( x)dx Q (1 F (Q )) Q F ( x)dx
期望存货量
I (Q) Q S (Q) F ( x)dx
0
Q
期望利润 G(Q) pS(Q) vI (Q) wQ ( p v)S (Q) (w v)Q 最优订购量Qr
M {mij }3 2
1 0 2 0 2 1
1,1 1,1 ' M 2,2 2,1 2,2 1,1
非常数和 博弈(双矩 阵表示)
不存在(纯)NE
(纯)NE: a*=(a1*, a2*) =(2, 2)
混合战略(策略:Strategy)
w wq ( ) v
( p v)(c v) (c v) ( p v)(1 ) F ((1 )Q* )
模型评述
•协议参数的确定: 不能单方决定 双方谈判(合作博弈)
•一种更简单的协议
批发价w=成本c
收取一定加盟费
•还有很多其他类型的协议,也可以达到协调
(1 ) Q
F ( x)dx
U r ( w, , Q) pS (Q) wI1 (Q) vI 2 (Q) wQ Q Q F ( x)dx ( p v) (1 )Q F ( x)dx ( p w) (1 )Q 0
U r ( w, , Q) 0 Q Qr
• 双方总能成交吗?(效率估计)
模型假设与建立
• 卖方知道物品对自己的价值,但买方不知道. • 买方知道物品对自己的价值,但卖方不知道. • 双方都知道(如猜出)对方价值的分布信息. 卖方价值vs, 买方价值vb, 均服从 [0,1] 上的均匀分布
卖方报价ps, 买方报价pb, pb ≥ ps时成交价p= (pb+ps)/2 成交效用:卖方U1=p- vs, 买方U2= vb –p; 不成交: 0
东进
原地 待命
盟 军 (美三)
双方应该如何决策 ?
模型假设
• 博弈参与者为两方(盟军和德军) • 盟军有3种使用其预备队的行动:强化缺口,原地 待命,东进;德军有2种行动:向西进攻或向东撤退. • 博弈双方完全理性,目的都是使战斗中己方获得 的净胜场次(胜利场次减去失败场次)尽可能多.
德军 盟军 强化缺口 原地待命 东进 向西进攻 盟军胜1场 盟军胜2场 盟军败2场 向东撤退 无战斗 无战斗 盟军胜1场
•占优(dominate):盟军的行动2占优于1 (前面的非常数和博弈M’类似)
•混合策略似乎不太可行! 但概率可作为参考. ----现实:盟军让预备队原地待命(行动2),而德军 没有选择撤退(行动2),结果德军大败. • 博弈规则至关重要的,如参与人决策的时间顺序、 决策时拥有哪些信息等. •多人(或非常数和)博弈问题,一般不能用上面的线性 规划方法求解,而通过纳什均衡的定义求解.
博弈的解的概念:纳什均衡 (NE: Nash Equilibrium) Nash: 1994年获诺贝尔经济学奖
NE: 单向改变战略不能提高自己效用,即每一方的战略 对于他方的战略而言都是最优的, 称为最优反应.
* * * u1 (a1 , a2 ) u1 (a1 , a2 ), a1 {1,2,3}, (纯战略)纳什均衡 * * * u2 (a1 , a2 ) u2 (a1 , a2 ), a2 {1,2}.
假设报社与报童联合,整体期望利润
U s r (Q) ( p v) S (Q) (c v)Q
达到协调
U r ( wd (Q)) U s r (Q)
wd (Q) c (1 )[v ( p v) S (Q) / Q]
0 1
关于Q的减函数(非线性)
pc 假设报社与报童联合,整体利润最大 F (Q ) pv pw *>c Q (w*) <Q* F (Qr ) 一般w r pv 整体利润有损失 能否改善(协调)?
*
价格折扣协议模型
折扣方案wd(Q) 下,报童效用(期望利润)
U r ( wd (Q)) ( p v)S (Q) ( wd (Q) v)Q
优化模型
(Optimization)
博弈模型
(Game Theory)
静态、动态 信息完全、不完全
军事、政治、经济、企业管理和社会科学中应用广泛
11.1 进攻与撤退的抉择
背 景
• 1944年6月初,盟军在诺曼底登陆成功. • 到8月初的形势:
盟军(加)
盟军(英)
盟军(美一) 强 化 盟军 缺口 (预备队) 德军 进攻 撤退
给定战略组合,能够实际发生的交易的期望价值与有利 的全部交易的期望价值的比值称为该战略的交易效率.
vb
1 交易 x vb=vs
单一价格战略效率为
1
x
x 0 1 vb
(vb vs )dvs dvb (vb vs )dvs dvb
3x(1 x) 3 / 4
0 0
x=0.5
O
x
1
vs
效率最大(3/4)
线性价格战略
买方:
卖方报价ps(vs) = as+csvs;
•如何评价/比较协议的优缺点?
-是否能达到协调 -协议执行成本有多高
-是否能任意分配利润
11.3 ―一口价”的战略
背景 • ―讨价还价”很浪费买卖双方的宝贵时间.
• 为了节省“讨价还价”时间,考虑“一口价” 模式. • 双方同时报价:若买价≥卖价,则以均价成交;
否则不成交.
问题
• 双方应如何报价?
( p w)[1 F (Qr )] (w v)(1 ) F ((1 )Qr ) 0
( p w)[1 ( p c) /( p v)] ( w v)(1 ) F ((1 )Q* )
pc F (Q ) pv
*
达到协调 α↑,报童利润↓, 报社利润↑; 利润任意分配都可达到
• 双方同时做出决策
• 共同知识(以上信息双方共有)
完全信息 静态博弈
博弈模型
• 博弈参与者集合N={1,2}(1为盟军,2为德军) • 盟军行动a1 A1={1,2,3}(强化缺口/原地待命/东进); 德军行动a2A2={1,2}(进攻/撤退). (行动:即纯战略)
• 用u1(a1,a2)表示对盟军产生的结果,即净胜场次, 称为盟军的效用函数.
max U1(p) = min pM
min U2(q) = max MqT
p2*=3/5,p3*=2/5 线性 规划 q1*=1/5,q2*=4/5 最优值均为2/5
(p*, q*): 混合(策略)纳什均衡(Mixed NE)
Hale Waihona Puke Baidu
模型评述
0 0 M 1 0 1 1
pw F (Qr ) pv
Qr(w)
问题
假设报社报纸成本价为c,w≥c>v
Max ( w c)Qr ( w) (w c) F 1 p w
w c
pv
w*
完全信息动态博弈:常称Stackelberg Game (两阶段) 子博弈完美均衡: (w*,Qr(w))
盟军 德军 向西进攻 强化缺口 盟军胜1场 原地待命 盟军胜2场 东进 盟军败2场 向东撤退 无战斗 无战斗 盟军胜1场
M {mij }3 2
支付矩阵 (Payoff Matrix)
1 0 2 0 2 1
完全竞争: 零和博弈 (常数和博弈)
u2(a1,a2)对应 –M
第十一章
博弈模型
11.1 进攻与撤退的抉择
11.2 让报童订购更多的报纸
11.3 ―一口价”的战略
11.4 不患寡而患不均 11.5 效益的合理分配 11.6 加权投票中权力的度量
决策问题(Decision Problem)
单一决策主体
三要素
多个决策主体 博弈模型 合作博弈
决策变量 目标函数 约束条件 决策主体的决策 行为发生直接相 互作用 (相互影响) 非合作博弈
单向改变战略不能 提高自己效用.
贝叶斯纳什均衡
模型假设与建立
卖方:
均衡条件
ps E[ pb (vb ) | pb (vb ) ps ] vs * Pr{ pb (vb ) ps } max 2 ps
pb E[ ps (vs ) | pb ps (vs )] max vb * Pr{ pb ps (vs )} 2 pb
小结:博弈模型的基本要素
• 参与人
• 行动空间(及战略空间) • 效用函数
理性假设 纳什均衡 参与者完全理性(最大化效用) 单向改变战略不能提高自己效用
其他因素
• 行动顺序(静态、动态)
• 信息结构(完全、不完全)
11.2 让报童订购更多的报纸
报 订购价w,零售价p,处理价v(p>w>v>0) 童 需求量:密度函数f(x)、分布函数F(x), F(0)=0 模 型 订购Q份报纸,期望销售量为 Q 回 S (Q) xf ( x)dx Qf ( x)dx 0 Q 顾 Q Q Q
买方:
具体战略(函数)形式不同,均衡就可能不同.
单一价格战略
x , vs x p s ( vs ) 1, vs x
x, vb x pb (vb ) 0, vb x
双方战略互为最优反应,所以构成贝叶斯纳什均衡!
单一价格战略
对给定的(vs, vb),当vs<vb时称交易是有利的; 交易给双方带来的效用之和(即vb–vs)称为交易价值.