博弈论-game-theory-两人轮流进行游戏
博弈论作业——精选推荐
博弈论作业1.海盗分金中如果假设需要同意的人超过半数提议才能通过,则理性结局又会是什么?如果200个人参加(只要半数即可通过)又将如何?500人呢?解:半数即可通过——倒推分析结果如下(1000,0)(999,0,1)(999,0,1,0)(998,0,1,0,1)下一步的分钱方案中,只需要把上一步得钱非0的强盗的得钱数改为0,而其它强盗则反之。
进而有非0和0的间隔分布,除了提出方案的强盗外,其它得钱非0的强盗得到1块钱。
因此有200个强盗分1000个金币的情形为 ( X, 0, 1, …, 0 )可得X=901因此有500个强盗分1000个金币的情形为 ( X, 0, 1, …, 0 )可得X=751超过半数才可通过——倒推结果如下(0,1000)(999,1,0)(997,0,2,1)(997,0,1,0,2)因此,5个强盗分1000个金币的情形为(997,0,1,0,2)2.在无限期的鲁宾斯坦模型中,假设分割只能是0.01的整数倍,即X只能为0,0.01;0.02;…….0.99或1,求δ=0.5和δ非常接近于1时的子博弈完美均衡(假设两个人的折现因子相同)两个人要分一块冰淇淋,甲将分得冰淇淋的x份额(x ≥ 0),乙将得到1-x的份额(1-x ≥ 0)。
两人进行轮流出价。
首先,甲提出一个划分方法(x,1-x),乙可以接受或拒绝这个提议,如果他接受了,则博弈结束,他们按照这种划分去切割冰淇淋;如果乙拒绝这个提议,那么他会提出一个划分方法(y,1-y),甲可以接受或者拒绝,博弈过程将这个方式持续进行下去,直到他们达成一个协议。
每当协议的达成拖延时,他们的得益会有一个折扣(贴现),两人的贴现因子由iδ (0<iδ<1)表示。
这种折扣代表了讨价还价的成本。
其它条件相同,对参与者而言,达成一个协议所需的时间越长,冰淇淋就会越小。
两人贴现相同,如果假定1δ=2δ=δ的话,上述讨价还价博弈的唯一的均衡结果将会是(1 / (1 + δ), δ / (1 + δ))。
博弈论
博弈论是一种处理竞争与合作问题的数学决策方法;研究竞争中参加者为争取最大利益应当如何做出决策的数学方法;根据信息分析及能力判断,研究多决策主体之间行为相互作用及其相互平衡,以使收益或效用最大化的一种对策理论;研究决策主体的行为发生直接相互作用时候的决策以及这种决策的均衡问题。
博弈论是二人在平等的对局中各自利用对方的策略变换自己的对抗策略,达到取胜的目的。
博弈论思想古已有之,我国古代的《孙子兵法》就不仅是一部军事著作,而且算是最早的一部博弈论著作。
博弈论最初主要研究象棋、桥牌、赌博中的胜负问题,人们对博弈局势的把握只停留在经验上,没有向理论化发展。
博弈论考虑游戏中的个体的预测行为和实际行为,并研究它们的优化策略。
近代对于博弈论的研究,开始于策墨洛(Zermelo),波雷尔(Borel)及冯·诺伊曼(von Neumann)。
1928年,冯·诺依曼证明了博弈论的基本原理,从而宣告了博弈论的正式诞生。
1944年,冯·诺依曼和摩根斯坦共著的划时代巨著《博弈论与经济行为》将二人博弈推广到n人博弈结构并将博弈论系统的应用于经济领域,从而奠定了这一学科的基础和理论体系。
1950~1951年,约翰·福布斯·纳什(John Forbes Nash Jr)利用不动点定理证明了均衡点的存在,为博弈论的一般化奠定了坚实的基础。
纳什的开创性论文《n人博弈的均衡点》(1950),《非合作博弈》(1951)等等,给出了纳什均衡的概念和均衡存在定理。
此外,塞尔顿、哈桑尼的研究也对博弈论发展起到推动作用。
今天博弈论已发展成一门较完善的学科。
博弈的分类根据不同的基准也有所不同。
一般认为,博弈主要可以分为合作博弈和非合作博弈。
它们的区别在于相互发生作用的当事人之间有没有一个具有约束力的协议,如果有,就是合作博弈,如果没有,就是非合作博弈。
从行为的时间序列性,博弈论进一步分为两类:静态博弈是指在博弈中,参与人同时选择或虽非同时选择但后行动者并不知道先行动者采取了什么具体行动;动态博弈是指在博弈中,参与人的行动有先后顺序,且后行动者能够观察到先行动者所选择的行动。
博弈论答案(Gametheoryanswer)
博弈论答案(Game theory answer)Game theory, exercises, reference answers (second assignments)First, the multiple-choice question1.B,2.C,3.A,4.A,5.B,6.ABCD7.C 8.B 9.CTwo, judge and explain the reason1.F best balance is an equilibrium more rigorous than the Nash equilibrium2.T best balance is an equilibrium more rigorous than the Nash equilibrium3.T game types are divided into single game, double game and multiplayer game according to the number of players in the gameUnder the condition that both sides of the 4.F game have different preferences, there may be 2 Nash equilibria in a game model, such as the sex war5.T zero sum game refers to the participation of all parties in the game, under strict competition, one side of revenue is equal to the other party's loss, the sum of gains and losses of the game is always zero, so there is no possibility of cooperation between the two sides6.T is strictly dominated equilibrium through the worstelimination method (excluding repeat decision) the dominant strategy, there is only one Nash equilibrium7.F Nash equilibrium is a collection of best policies, which means that in the case of a given strategy, the game side always chooses a relatively large strategy, and does not guarantee the outcome to be the best.In the 8.F game, people always choose their own strategies to maximize their interests and not aim at the change of the other's earnings9.T Nash equilibrium is a collection of best policies, which means that when given someone else's strategy, no one changes his strategy to reduce his earningsIn the 10.F game, people always choose their own strategies to maximize their interests and not aim at the change of the other's earningsIn the 11.F game, people always choose their own strategies to maximize their interests and not aim at the change of the other's earnings12.T although Berg Stagg model profit is less than the sum of the Cournot model, but the profit model of high Bigunuo leaderThree, calculation and analysis questions1, (1) draw A, B two enterprise profit and loss matrix.B enterpriseAdvertise without advertisingA enterprises advertise 20, 825, 2No advertising 10, 1230, 6(2) pure strategy Nash equilibrium.(advertising, advertising)2, draw two enterprise profit and loss matrix, seek Nash equilibrium.(1) draw the profit and loss matrix of A and B two enterprisesPepsi ColaOriginal price increaseCoca-Cola's original price is 10, 10100, -30Price increases -20, 30140, 35(2) seeking Nash equilibrium.Two: (the original price, the original price), (prices, prices)3, suppose the payoff matrix of a game is as follows:Methyl ethylLeft and rightOn a, B, C, DNext, e, F, G, H(1) if (on, left) is the best balance, then, a>, b>, g<, f>?Answer: a>e, b>d, f>h, g<c(2) what inequalities must be satisfied if (upper, left) is the Nash equilibrium?Answer: a>e, b>d4, answer: (1) this market is represented by the game of prisoner's dilemma.Northern AirlinesCooperative competitionXinhua Airlines cooperation 500000500000090000Competition 900000, 06000060000(2) explain why the equilibrium result may be that both companies choose competitive strategies.Answer: if Xinhua chooses "competition", then the north will choose "60000>0"; if Xinhua chooses "cooperation", the north will still choose "900000>500000".If the North chooses "competition", Xinhua will choose "60000>0"; if the North chooses "cooperation", Xinhua will still choose "900000>0".Because the competition is the dominant strategy of both sides, the equilibrium result is that both companies choose competitive strategy.5. The payoff matrix of the game is shown as follows:BLeft and rightA, a, B, C, DNext, e, F, G, H(1) if the (top, left) is the dominant policy equilibrium, what relation must be satisfied between a, B, C, D, e, F, G, and H?Answer: starting from the definition of dominant strategy equilibrium:For the one, the strategy "g" (a) is better than "C" (E);For B., the policy "left" (B, f) is superior to the policy"right" (D, H).So the conclusions are: a>e, b>d, f>h, c>g(2) if the (upper, left) is Nash equilibrium, what relation must be satisfied in (1)?Answer: Nash equilibrium only needs to meet: a>e, b>d,(3) if the (top, left) is the best balance, then is it necessarily a Nash equilibrium? Why?Answer: the equilibrium of dominant strategy must be Nash equilibrium, because the equilibrium condition of dominant strategy contains the condition of Nash equilibrium.(4) under what circumstances does the pure strategy Nash equilibrium exist?A: when each of these strategies does not satisfy the Nash equilibrium, the pure strategic Nash equilibrium does not exist.7, seek the Nash equilibrium.PigPress waitBig pigs press 5, 14, 4Wait 9, -1 0, 0The Nash equilibrium is: big pig, press, pig, etc., namely (press, etc.)6,BLow priceA low price of 10080050, 50High priced -20, -30 900600(1) what are the results of Nash equilibrium?Answer: (low price, low price), (high price, high price)(2) what is the result of the cooperation between the two firms?Answer: (high price, high price)8. The pure Nash equilibrium of the following games is obtained by using the reaction function method and the marking method.Participants 1 participants 2A, B, C, DingA, 2,3, 3,2, 3,4, 0,3B, 4,4, 5,2, 0,1, 1,2C, 3,1, 4,1, 1,4, 10,2D, 3,1, 4,1, -1,2, 10,1Participant 1's response function:R1 (2) =B, if 2 chooses a=B, if 2 chooses B.=A, if 2, choose C=C or D, if 2, choose DingParticipant 2's response function:R2 (1) = C, if 2, select A= a, if 2, select B= C, if 2, select C= C, if 2, select DFor the common set, the pure strategy Nash equilibrium is (B, a) and (A, c)9, the following game Nash equilibrium (including pure strategyand mixed strategy).Methyl ethylL RU 5,0 0,8D 2,6 4,5Solution: (1) pure strategy Nash equilibrium: we can see from the scratch method that there is no pure strategy Nash equilibrium in the matrix game.(2) mixed strategy Nash equilibriumThe probability of setting a "U" is P1, and the probability of "D" is 1-P1B. the probability of selecting "L" is P2, and the probability of "R" is 1-P2For a, the best policy is to choose "U" and "D" by a certain probability, so that the second choice of "L" and "R" is equal to the expected valueThat is, P1*0+ (1-P1), *6=, P1*8+ (1-P1), *5Xie P1=1/9That is, (1/9,8/9) Nash policy is chosen according to 1/9probability, U and 8/9 probability, and D is chosen as a mixed strategyFor B, the best strategy is to choose "L" and "R" by a certain probability, so that the second is equal to the expected value of "U" and "D"That is, P2*5+ (1-P2), *0=, P2*2+ (1-P2), *4Xie P2=4/7That is, (4/7,3/7) according to the probability of 4/7, "L", "3/7", "R" is chosen as "B", the mixed strategy Nash equilibrium10, answer the question according to the profit and loss matrix of two player game:Methyl ethylLeft and rightGo to 2,3 0,0Lower 0,0 4,2(1) write out all the strategies of the two men.Answer: all strategies: (upper, left), (upper, right), (lower, left), (lower, right)(2) find all the pure strategy Nash equilibrium of the game.A: by the scratch method, we can see that the matrix game is purely strategic and the Nash equilibrium is(upper, left) and (lower, right) two(3) the mixed strategy Nash equilibrium of the game is obtained.Solution: the probability of setting a "up" is P1, and the probability of selecting "down" is 1-P1B. the probability of "left" is P2, and the probability of "right" is 1-P2For a, the best strategy is to choose "upper" and "lower" according to a certain probability, so that the left and right of the second are equal to the expected valueThat is, P1*3+ (1-P1), *0=, P1*0+ (1-P1), *2Xie P1=2/5That is, (2/5,3/5) a mixed strategy Nash equilibrium based on the "2/5 probability", "upper", "3/5" probability, and "next"For b.,The best strategy is to choose "left" and "right" according to a certain probability, so that the candidate's "upper" and "lower" expectations are equalThat is, P2*2+ (1-P2), *0=, P2*0+ (1-P2), *4Xie P2=2/3That is, (2/3,1/3) Nash policy is chosen by the 2/3 probability "left" and "1/3", and the "right" is b11, an oligopoly market has two manufacturers, the total cost is 20 times the output of their own, the market demand letterThe number is Q=200-P.Answer: (1) if two manufacturers decide the output at the same time, how much is the output?(2) if the two firms reach an agreement to monopolize the market and arrange production together, what about their respective profits?(3) use the case to explain the prisoner's dilemma.Answer: (1) by the known conditions Q=200-P, P=200-QTC1=20q1, TC2=20q2, q1+q2=QThe profit functions obtained by 1,2 manufacturers are:K1=Pq1-TC1= (200- (q1+q2)) q1-20q1=180q1-q12-q1q2K2=Pq2-TC2= (200- (q1+q2)) q2-20q2=180q2-q22-q1q2The dK/dq1=0's 1 response function is 180-2Q1-Q2=0,The dK/dq2=0's 2 response function is 180-Q1-2Q2=0,The joint solution can be obtained by q1=q2=60K1=K2=3600(2) by the known condition Q=200-P, P=200-QTC=TC1+TC2=20q1+20q2 =20QThe total profit function of the 1,2 manufacturer is:K=PQ-TC= (200-Q) Q-20Q=180Q-Q2Order dK/dQ=0, Q=90, q1=q2=45K=PQ-TC= (200-Q) Q-20Q=180Q-Q2=8100K1=K2=4050(3) q1=45, q2=60 and q1=60, q2=45, respectively, into the profit function of 1,2 manufacturersThe profits of the 1,2 manufacturers are:K1 (q1=45, q2=60) =Pq1-TC1= (200- (q1+q2))q1-20q1=180q1-q12-q1q2=3375K1 (q1=60, q2=45) =Pq1-TC1= (200- (q1+q2))q1-20q1=180q1-q12-q1q2=4500K2 (q1=45, q2=60) =Pq2-TC2= (200- (q1+q2))q2-20q2=180q2-q22-q1q2=4500K1 (q1=60, q2=45) =Pq1-TC1= (200- (q1+q2))q1-20q1=180q1-q12-q1q2=3375Vendor 2Cooperation (q2=45), non cooperation (q2=60);Vendor 1 Cooperation (q1=45) 4050405033754500Non cooperative (q1=60) 4500337536003600According to the marking method, the best way for the manufacturer is 1.2 (non cooperation, non cooperation), that is, (36003600)The profits of both sides were lower than (cooperation, cooperation). (40504050) obviously it belonged to the prisoner's dilemma"13, consider the following (market deterrence) a dynamic game: first of all, the potential in a market entrants to choose whether or not to enter, and then on the market for enterprise (incumbent) is selected to compete with the new enterprise. The incumbent may have two types of gentle type (left) and cruel type (right), answer the following questions..Left: gentle right: cruel type(1) find the corresponding Nash equilibrium for two types of incumbent, and the sub game perfect Nash equilibrium(1) the Nash equilibrium of the gentle type of incumbent is (access, acquiescence)The Nash of the cruel type is balanced (not entering, entering, struggling)(2) when the existing enterprise is tender, at least how many times will the new enterprise be willing to enter?Four. Discussion questions1, explain the prisoner's Dilemma and explain the business case.(1) assumptions for example: two prisoners were accused of a crime is an accomplice. They were kept in separate cells, unable to communicate information. Prisoners are required to confess crimes. If two prisoners confess, each shall be sent to prison for 5 years; if two men do not confess, two prisoners may expect to be sent from prison to prison for 2 years; if a prisoner confesses, another prisoner does not confess,Frankly, the prisoner will only go to prison for 1 years, and the prisoner without confession will be sentenced to 10 yearsin prison.(2) the strategy matrix of prisoners' dilemma. Each prisoner has two strategies: to confess or not to confess. The numbers in the table represent the benefits of prisoner a and B.Prisoner BConfessPrisoner frank, -5, -5, -1, -10Don't confess, -10, -1, -2, -2(3) analysis: through the marking method, we can see that in the model of prisoner's dilemma, Nash equilibrium is that both sides confess". Given a frank case, the best strategy for B. is to confess; the optimal policy given by B. is also frank. And here both sides confess, not only is the Nash equilibrium, but also is a best balance, that is, regardless of how the other side of the choice, the individual's best choice is to confess. As a result, both sides confess.(4) business cases: oligopoly firms often find themselves ina prisoner's dilemma. When the oligarchic manufacturer chooses the output, every manufacturer can gain more profits if the oligopoly firms combine to form cartels and choose monopoly profits to maximize the output. But the cartel agreement is not a Nash equilibrium, because given both comply with the agreement, each firm to increase production, the result is that each vendor has only been Nash equilibrium yield profits, itis far less than the yield of profit under the cartel.2. Explain and discuss the Nash equilibrium of Cournot duopoly model. Why is balance a prisoner's dilemma?See class notesOr calculation questions eleventh3, use the game of thief and guard to explain the paradox of encouragement (regulation)".(1) assume the conditions for example: stealing and preventing theft is a game between thieves and guards. The guard can sleep or sleep. Thieves can take two tactics: stealing and stealing. If the thief knows that the guard is sleeping, his best bet is to steal. If the guard doesn't sleep, he'd better not steal. For the doorman, if he knows the thief wants to steal, his best choice is not to sleep, and if the thief take it without stealing, he'd better go to sleep.(2) the payment matrix of the thief and the doorman (assuming that the thief must have succeeded in stealing when the guard sleeps, and that the thief will be caught when the guard does not sleep.):GuardGo to bed without sleepThieves steal 1, -1 -2, 0Do not steal 0, 20, 0(3) analysis: through the marking method, we can see that there is no Nash equilibrium in this game. The thieves do not steal, do not sleep, neither gains nor loss; the guard did not sleep, the thief, because the job is not to reward, the thief was sentenced to 2 unit failure loss; guard sleeping, thieves do not steal, the sleeping happily get 2 utility unit, the thief did not return no loss of sleep; the guard, the thief, the guard was punished because of dereliction of duty and his failure in 1 units, 1 units of utility thieves to steal success.(4) "incentive (regulatory) paradox" shows: in reality, we can see that when the doorman without sleep, stealing a crackdown of the convergence of molecules; time, molecular theft began to make waves, the thief can not tolerate when too rampant, the guard had to begin again. The more the thief, so the guard will not sleep more, steal the thief less, not sleeping guard will be less; in turn, the more don't sleep, steal the thief less, do not sleep the less, the more the thief stole. If you steal group selection is out in force, so the guard all don't sleep, but the once all don't sleep, the best choice not to steal all the thief, the thief stole all the guard once chose not to, all the best choose to sleep.(5) conclusion: increasing penalties for thieves can not prevent theft in the long run (but only to make the guard lazy); Aggravating Punishment, dereliction of duty is just to reduce the probability of theft. This game of gatekeeper and thief reveals that the unexpected relationship between policyobjectives and policy outcomes is often called the paradox of motivation".。
「算法笔记」博弈论入门
「算法笔记」博弈论⼊门⼀、公平组合游戏 ICG1. 公平组合游戏的定义若⼀个游戏满⾜:1. 游戏有两个⼈参与,⼆者轮流做出决策。
2. 在游戏进程的任意时刻,可以执⾏的合法⾏动与轮到哪名玩家⽆关。
3. 不能⾏动的玩家判负。
则称该游戏为⼀个公平组合游戏。
2. ⼀些说明我们把游戏过程中⾯临的状态称为局⾯,整局游戏第⼀个⾏动的为先⼿,第⼆个⾏动的为后⼿。
我们讨论的博弈问题⼀般只考虑理想情况,即两⼈均⽆失误,都采取最优策略⾏动时游戏的结果。
定义必胜态为先⼿必胜的状态,必败态为先⼿必败的状态。
注意,在⼀般确定操作状态的组合游戏中,只会存在这两种状态,如果先⼿和后⼿都⾜够聪明,不会出现介于必胜态和必败态之间的状态。
⼀个重要的性质:⼀个状态是必败态当且仅当它的所有后继都是必胜态。
⼀个状态是必胜态当且仅当它⾄少有⼀个后继是必败态。
特别地,没有后继状态的状态是必败态(因为⽆法操作则负)。
⼆、Nim 博弈\(\text{Nim}\) 游戏是⼀个公平组合游戏。
⼤概是这样的:现在有 \(n\) 堆⽯⼦,第 \(i\) 堆有 \(a_i\) 个。
两⼈轮流操作,每⼈每次可以从任选⼀堆中取⾛任意多个⽯⼦,但是不能不取。
取⾛最后⼀个⽯⼦的⼈获胜(即⽆法再取的⼈就输了)。
结论:\(\text{Nim}\) 博弈先⼿必胜,当且仅当 \(a_1\oplus a_2\oplus \cdots \oplus a_n\neq 0\)。
证明:为了证明这个结论,我们需要证明:1. 所有⽯⼦都被取⾛是⼀个必败局⾯。
2. 对于任意⼀个局⾯,若 \(a_1\oplus a_2\oplus \cdots \oplus a_n\neq 0\),⼀定能得到⼀个 \(a_1\oplus a_2\oplus \cdots \oplusa_n=0\) 的局⾯。
3. 对于任意⼀个局⾯,若 \(a_1\oplus a_2\oplus \cdots \oplus a_n=0\),⼀定不能得到⼀个 \(a_1\oplus a_2\oplus \cdots \oplusa_n=0\) 的局⾯。
范里安-微观经济学现代观点(第7版)-28博弈论(含习题解答)
Chapter 28: Game TheoryIntermediate Microeconomics:A Modern Approach (7th Edition)Hal R. Varian(University of California at Berkeley)第28章:博弈论(含习题解答)含习题解答)中级微观经济学:现代方法(第7版)范里安著(加州大学伯克利)曹乾译(东南大学caoqianseu@)简短说明:翻译此书的原因是教学的需要,当然也因为对现行中文翻译版教材的不满。
市场中的翻译版翻译生硬错误百出。
此次翻译的错误是微不足道的,但仍欢迎指出。
仅供教学和学习参考。
28博弈理论我们在上一章阐述的寡头理论,是企业间策略性互动的经典经济理论解释。
但这只是冰山一角。
经济行为人(agents)的策略性互动有多种方式,经济学家借助博弈理论(game theory)这个工具已研究了很多种策略性互动的行为。
博弈理论关注的是策略性互动的一般分析。
人们可使用博弈理论研究室内游戏(parlor games)、政治协商和经济行为(一)。
在本章,我们将简要分析这一迷人的学科,目的是让你感受一下它是如何运行的,以及让你初步知道如何使用博弈理论分析寡头市场中的经济行为。
28.1博弈的收益矩阵策略性互动可能涉及很多选手和很多策略,但是我们仅限于分析两个选手之间的博弈,而且限于分析策略的数量有限的情形。
这样做的好处是可以用收益矩阵(payoff matrix)描述博弈。
最好举例进行分析。
假设两人玩一种简单的游戏。
选手A在纸上写出“上”或“下”。
与此同时,选手B独立地写出“左”或“右”。
在两人写好后,经过分析,将他们的收益标记于表28.1中。
若A 选上且B选左,我们看矩阵的左上角的小方格。
在该小方格中,A的收益是第一个数,B 的收益是第二个数。
类似地,如果A选下B选右,则A得到收益为1,B得到的收益为0.表28.1:一个博弈的收益矩阵选手A有两个策略:上或下。
博弈论板子
博弈知识汇总有一种很有意思的游戏,就是有物体若干堆,可以是火柴棍或是围棋子等等均可。
两个人轮流从堆中取物体若干,规定最后取光物体者取胜。
这是我国民间很古老的一个游戏,别看这游戏极其简单,却蕴含着深刻的数学原理。
下面我们来分析一下要如何才能够取胜。
(一)巴什博奕(Bash Game):只有一堆n个物品,两个人轮流从这堆物品中取物,规定每次至少取一个,最多取m个。
最后取光者得胜。
显然,如果n=m+1,那么由于一次最多只能取m个,所以,无论先取者拿走多少个,后取者都能够一次拿走剩余的物品,后者取胜。
因此我们发现了如何取胜的法则:如果n=(m+1)r+s,(r为任意自然数,s≤m),那么先取者要拿走s个物品,如果后取者拿走k(≤m)个,那么先取者再拿走m+1-k个,结果剩下(m+1)(r-1)个,以后保持这样的取法,那么先取者肯定获胜。
总之,要保持给对手留下(m+1)的倍数,就能最后获胜。
这个游戏还可以有一种变相的玩法:两个人轮流报数,每次至少报一个,最多报十个,谁能报到100者胜。
(二)威佐夫博奕(Wythoff Game):有两堆各若干个物品,两个人轮流从某一堆或同时从两堆中取同样多的物品,规定每次至少取一个,多者不限,最后取光者得胜。
这种情况下是颇为复杂的。
我们用(ak,bk)(ak ≤ bk ,k=0,1,2,…,n)表示两堆物品的数量并称其为局势,如果甲面对(0,0),那么甲已经输了,这种局势我们称为奇异局势。
前几个奇异局势是:(0,0)、(1,2)、(3,5)、(4,7)、(6,10)、(8,13)、(9,15)、(11,18)、(12,20)。
可以看出,a0=b0=0,ak是未在前面出现过的最小自然数,而 bk= ak + k,奇异局势有如下三条性质:1。
任何自然数都包含在一个且仅有一个奇异局势中。
由于ak 是未在前面出现过的最小自然数,所以有ak > ak-1 ,而 bk= ak + k > ak-1 + k-1 = bk-1 > ak-1 。
第三节博弈论(GameTheory)
第三节博弈论(Game Theory)在国际关系的研究过程中,我们时常会运用到博弈论这样一个工具。
博弈论在英语中称之为“Game Theory”。
很多人会认为这是一种所谓的游戏理论,其实不然,我们不能把Games 与Fun 同论,而应该将博弈论称之为是一种“Strategic interaction”(策略性互动)。
“博弈”一词现如今在我们的生活中出现的已经很频繁,我们经常会听说各种类型的国家间博弈(如:中美博弈),“博弈论”已经深刻的影响了世界局势和地区局势的发展。
在iChange创设的危机联动体系中,博弈论将得到充分利用,代表也将有机会运用博弈论的知识来解决iChange 核心学术委员会设计的危机。
在这一节中,我将对博弈论进行一个初步的介绍与讨论,代表们可以从这一节中了解到博弈论的相关历史以及一些经典案例的剖析。
(请注意:博弈论的应用范围非常广泛,涵盖数学、经济学、生物学、计算机科学、国际关系、政治学及军事战略等多种学科,对博弈论案例的一些深入分析有时需要运用到高等数学知识,在本节中我们不会涉及较多的数学概念,仅会通过一些基本的数学分析和逻辑推理来方便理解将要讨论的经典博弈案例。
)3.1 从“叙利亚局势”到“零和博弈”在先前关于现实主义理论的讨论中,我们对国家间博弈已经有了初步的了解,那就是国家是有目的的行为体,他们总为了实现自己利益的最大化而选择对自己最有利的战略,其次,政治结果不仅仅只取决于一个国家的战略选择还取决于其他国家的战略选择,多种选择的互相作用,或者策略性互动会产生不同的结果。
因此,国家行为体在选择战略前会预判他国的战略。
在这样的条件下,让我们用一个简单的模型分析一下发生在2013年叙利亚局势1:叙利亚危机从2011年发展至今已经将进入第四个年头。
叙利亚危机从叙利亚政府军屠杀平民和儿童再到使用化学武器而骤然升级,以2013年8月底美国欲对叙利亚动武达到最为紧张的状态,同年9月中旬,叙利亚阿萨德政府以愿意向国际社会交出化学武器并同意立即加入《禁止化学武器公约》的态度而使得局势趋向缓和。
英语第一章阅读 game theory 原文及翻译
The essence of a game is the interdependence of player strategies. There are two distinct types of strategic interdependence: sequential and simultaneous. In the former the players move in sequence, each aware of the others’ previous actions. In the latter the players act at the same time, each ignorant of the others’ actions.
Game theory was pioneered by Princeton mathematician john von Neumann. In the early years the emphasis was on games of pure conflict (zero-sum games). Other games were considered in a cooperative form. That is, the participants were supposed to choose and implement their actions jointly. Recent research has focused on games that are neither zero sum nor purely cooperative. In these games the players choose their actions separately, but their links to others involve elements of both competition and cooperation.
帕隆多悖论
博弈论中的悖论:输的战略可能组合出赢的结果一位西班牙物理学家发现了一个新的自然定律。
这项定律可以解释很多东西,包括生命如何从原汤中产生,以及为什么投资于亏损的股票有时可以取得巨大的资本收益。
这个定律称为帕隆多(Parrondo)悖论。
该定律说,如果交替进行两个肯定会使参与者损失全部金钱的博弈,有可能产生一种获胜的模式。
该定律以发现者胡安.帕隆多(Dr. Juan Parrondo)的名字命名。
帕隆多博士在马德里的Complutense大学教授物理。
他受棘轮的力学性质的启发发现了这个悖论。
棘轮是常见的锯齿状的工具,用于汽车的千斤顶以及自动上弦的手表中。
通过将棘轮的性质对应到博弈论(博弈论是试图从游戏的输赢结果中找出自然规律的学科)中,帕隆多博士发现两个输的博弈可以结合产生获胜的结果。
“我们将看到这个悖论在实际生活中的重要性,“CharlesDoering博士说。
CharlesDoering博士是密歇根大学的数学家。
他很熟悉这项研究。
“对很多现象,它给我们提供了一个新的未曾预料的视角,“他说,“谁知道呢?有时候,找对拼图中的一片,会让整个图像突然变得清楚了,“Doering博士说。
Derek Abbott博士是澳大利亚Adelaide大学生物医学工程中心主任(director)。
他说这个悖论正激起很多科学家的兴趣,他们开始把它应用到工程学,种群动力学,财务风险和其他学科。
Abbott博士和他的中心的一位同事,GregoryHarmer博士,最近作了若干试验,以检验并解释帕隆多悖论是如何起作用的。
他们的研究发表在最近一期《自然》杂志上。
(译注:本文中,“game”一词指学科的翻译为“博弈”,而以下则翻译为“游戏”)。
用两个游戏来说明这个悖论。
这两个游戏都使用不均匀的硬币,因此正面和反面出现的概率不相等。
(译注:两个游戏都只有一个游戏者)。
游戏A中,游戏者掷一个不均衡的硬币,在每一轮下注,并且赢的概率低于一半。
博弈论game theory
1.2.4石头、剪刀、布
A
石头 剪刀
布
石头 0,0 1,-1 -1,1
B
剪刀 -1,1 0,0 1,- 1
布
1,-1 -1,1 0,0
§1.3按局中人的数量对博弈分类
1.3.1单人博弈 退化为一般的最优化问题 (1)单人迷宫
入口
A左B左
0
局
A左B右
M
A
B
中
A右B左
0
人
出口(奖金M)
A右B右
0
单人迷宫
田忌 上中下 上下中 中上下 中下上 下上中 下中上 上中下 3,-3 1,-1 1,-1 1,-1 -1,1 1,-1 上下中 1,-1 3,-3 1,-1 1,-1 1,-1 -1,1 齐 中上下 1,-1 -1,1 3,-3 1,-1 1,-1 1,-1 威 王 中下上 -1,1 1,-1 1,-1 3,-3 1,-1 1,-1 下上中 1,-1 1,-1 1,-1 -1,1 3,-3 1,-1 下中上 1,-1 1,-1 -1,1 1,-1 1,-1 3,-3
局中人的得益(payoffs)——支付 博弈结果的量化 局中人在博弈中得到的效用 策略组合的函数
博弈的次序(orders) 局中人决策是否同时
1.1.3博弈的表示方法 (1)正规型(策略型)——Payoff Matrix
A坦 B
白不 坦 白
坦
白 -8,-8
0,-10
不 坦 白 -10,0
-1,-1
例子 三人决斗,开枪射杀对手,以保存自己。命中率和
每一轮的开枪次序如下。
命中率
次序
A
30%
1
B
70%
2
C
game-theory1--博弈论-英文PPT课件
playersknowactionstakenotherplayersactionsknowngamesclassificationintroductioneconomicmodelsgametheorymodelsgamessummary38previewperfectinformationstaticgamesnashequilibriumdynamicgamesbackwardinduction倒推归imperfectinformationdynamicgamessubgame子博弈perfectneincompleteinformationstaticgamesauctions拍卖dynamicgamessignalinggamesclassificationintroductioneconomicmodelsgametheorymodelsgamessummaryeconomicmodelsgoodenoughapproximationrealworldmanyusefulpurposesgametheorymodelseconomicmodelssituationswheredecisionmakersinteractsummaryintroductioneconomicmodelsgametheorymodelsgamessummarystrategicgameconsistseachplayerseteachplayersetpreferencesoveractionprofilespreferencesrepresentedpayofffunctionsolvinggamesiterative重复的elimination消去strictlydominatedstrategiesnextlecturenashequilibriumnextlectureothermethodslatercoursesummaryiiintroductioneconomicmodelsgametheorymodelsgamessummary
博弈问题总结(基础篇)
博弈问题总结(基础篇)博弈问题总结(基础篇)前⾔最近做的博弈问题的题⽐较多,所以我就汇总了⼀下博弈问题的⼏种题型,⽅便之后的做题博弈论定义博弈论就是指有若⼲个⼈进⾏⼀些对弈,并且默认每个⼈都是最聪明的,不会失误,都可以找到当前的最优解,然后来寻找有没有哪个⼈有必胜/必败的的策略。
A、尼姆博弈为什么叫尼姆博弈呢?因为这是尼姆(英⽂名:Nimm Game)发明的数学游戏。
博弈模型有n堆各若⼲个物品,两个⼈轮流从某⼀堆取任意多的物品,规定每次⾄少取⼀个,多者不限,最后取光者得胜。
分析我们先考虑简单的情况1、n=1这时先⼿必胜,因为他只需要把唯⼀的这⼀堆⽯⼦取⾛就可以了2、n=2若a[1]=a[2],先⼿必败,因为⽆论先⼿在哪⼀堆⽯⼦中取⾛⼏个,后⼿总能在另⼀堆⽯⼦中取⾛相同的个数若a[1]!=a[2],我们假设a[1]>a[2],此时先⼿必胜,因为先⼿可以在第⼀堆⽯⼦中取⾛a[1]-a[2]个,这时两堆⽯⼦的个数相同,下⼀次⽆论后⼿取⾛多少个,先⼿都可以在另⼀堆取⾛同样多个,因此先⼿必胜若a[1]<a[2],同上,先⼿必胜3、要是n=3或者更⼤呢?我们显然不能像上⾯⼀样去枚举每种情况,所以我们要得出⼀个更为⼀般的结论我们设总共有n堆⽯⼦,每⼀堆⽯⼦的个数分别为a[1]、a[2]、a[3]……a[n]若a[1] ^ a[2] ^ a[3] ^ …… ^ a[n] =0先⼿必败,反之先⼿必胜下⾯是证明如果异或和的最⾼位为i,那么必定有⼀堆⽯⼦的第 i 位为1我们设这⼀堆⽯⼦的个数为k,其它所有⽯⼦的异或和为m,总异或和为x则必定有k ^ m=x,我们把这⼀堆⽯⼦变成k^x(k ^ x) ^ m=0这时,所有⽯⼦的异或和都变成了0举个例⼦:11001 ^ 11100=00101,则有(11001 ^ 00101)^ 11100=0如果当前所有数字的异或和为0,那么下⼀次⽆论你怎么取⽯⼦,异或和⼀定不会为0这样我们可以得出结论:如果先⼿异或和不为0,可以⼀步让后⼿的情况为异或和为0;如果先⼿异或和为0,那么后⼿异或和就不为0这样,我们不断进⾏游戏,最终⼀定会达到所有的数都为0的情况,⽽最后⾯对这种情况的⼀定会输所以我们可以得出结论:若a[1] ^ a[2] ^ a[3] ^ …… ^ a[n] =0先⼿必败,反之先⼿必胜例题洛⾕P2197模板题(好裸的板⼦)题意甲,⼄两个⼈玩 Nim 取⽯⼦游戏。
组合博弈
组合博弈入门
(Simple Game Theory)
2013-1-6
2
导引游戏(巴什博弈(Bash Game))
(1) 玩家:2人; (2) 道具:23张扑克牌; (3) 规则:
游戏双方轮流取牌; 每人每次仅限于取1张、2张或3张牌; 扑克牌取光,则游戏结束; 最后取牌的一方为胜者。
2013-1-6
10
例1(kiki’s game)
Sample Input 53 54 66 00 Sample Output What a pity! Wonderful! Wonderful!
2013-1-6 11
例1(kiki’s game)
PN状态图
2013-1-6
12
第二部分
Nim游戏
2013-1-6
18
Nim游戏的变形1
两名参与者交替从一堆石子中取出若干数 目,其个数由参与者自已决定.但是要求参与者 每次至少取出一个,至多取出一半,然后另一名 参与者继续.拿到最后一个石子的参与者将输 掉该游戏. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 PNPNNNPNNN N N N N P N
2013-1-6
22
练习(北大ACM)
1067 2505 1082 2960 2425 2068 1740 1704 1067
2013-1-6
23
2013-1-6 14
初步分析
(0, 0, 0)
P-position
(0, 0, x)
(0, 1, 1) (0, k, k) (14, 35, 46)
博弈论介绍 Game Theory
1996年,两位将博弈论应用于不对 称信息下机制设计的经济学家莫里斯 (Mirrlees)和维克里(Vickrey)、以及2001 年三位经济学家阿克洛夫(Akerlof)、斯 蒂格利茨(Stiglitz)和斯宾塞(Spence)因运 用博弈论研究信息经济学所取得的成就 而成为这两个年度的诺贝尔经济学奖得 主。专家预计,近几年还会有更多的博 弈论专家可能获得诺贝尔经济学奖。
三、动态博弈与承诺行动
如果局中人在进行行动选择时有先后顺序 之分,这种博弈就被称为“动态博弈”。 例子3 欧共体在空中客车与波音公司的竞 争中对空中客车公司的战略性补贴。 欧共体为了打破美国波音公司对全球民航 业的垄断,曾放弃欧洲传统的自由竞争精神 而对与波音公司进行竞争的空中客车公司进 行补贴。
大人物、大公司为了避免这种无端的 损失,干脆花钱请常年律师,律师费用 已经一次性支付,打官司不会带来额外 的花费。这是一个承诺行动,它告诉潜 在的诽谤者,大人物、大公司一旦受到 无端诽谤必定会让他们吃官司。这样, 大人物、大公司因此承诺行动而使自己 得到保护,避免了许多无端指控的发生。
我们可以运用“承诺行动”的原理来 分析许多经济及军事现象。 例子 项羽的“破釜沉舟”。 项羽的“破釜沉舟” 例子
2. 生活中的“囚徒困境”例子
例子1 商家价格战 例子1
出售同类产品的商家之间本来可以 通过共同将价格维持在高位而获利,但 实际上却是相互杀价,结果都赚不到钱。 当一些商家共谋将价格抬高,消费 者实际上不用着急,因为商家联合维持 高价的垄断行为一般不会持久,可以等 待垄断的自身崩溃,价格就会掉下来。
表1 囚徒困境博弈 乙
招 招 甲 不招 -10,0 -8,-8
不招 0,-10 -1,-1
(问题1:甲、乙如何选择?)
二人博弈问题中单一纳什均衡的搜索算法
第44卷 第3期吉林大学学报(理学版)Vol.44 No.3 2006年5月JOURNAL OF J I L I N UN I V ERSI TY(SC I E NCE E D I TI O N)M ay 2006研究简报二人博弈问题中单一纳什均衡的搜索算法孙舒杨,刘大有,孙成敏(吉林大学计算机科学与技术学院,长春130012;吉林大学符号计算与知识工程教育部重点实验室,长春130012)摘要:给出计算二人博弈问题中单一纳什均衡的一种搜索算法,用支付矩阵的秩数和条件占优行的个数限定待搜索策略对空间,将该空间按一定规则排序,通过对有序有限策略对空间进行搜索得到一个简单的纳什均衡.关键词:二人博弈;纳什均衡;支撑集;条件占优策略中图分类号:TP301.4 文献标识码:A 文章编号:167125489(2006)0320418203A Search M ethod for Fi n di n g a Si m ple Nash Equili bri u mi n Two2pl ayer GamesS UN Shu2yang,L I U Da2y ou,S UN Cheng2m in(College of Co m puter Science and Technology,J ilin U niversity,Changchun130012,China;Key L aboratory of Sym bolic Co m putation and Kno w ledge Engineering of M inistry of Education,J ilin U niversity,Changchun130012,China)Ab s trac t:Nash Equilibria computing is one of the most i m portant p r oble m s in non2cooperative ga mes.I n this paper,we give a searching algorithm f or finding a si m p le Nash equilibrium in t w o2p layer ga mes.W e li m it the searching strategy s pace according t o rank and the conditi onally dom inant r ows of the payoff matrix,order the s pace,and seach the li m ited and ordered strategy s pace f or finding a si m p le Nash equilibrium.Key wo rd s:t w o2p layer ga mes;Nash equilibrium;support set;conditi onally dom inant博弈论的研究日益成为计算机科学研究的重要内容[1].根据参与者人数不同,博弈问题有二人博弈和n人博弈[2];根据表示形式不同,有一般形式博弈和扩展形式博弈[3];根据计算要求不同,有计算单一纳什均衡和计算全部纳什均衡[3].一般形式二人博弈问题中的单一纳什均衡计算是非合作博弈问题中相对简单、容易解决的问题,但其求解算法目前仍是非合作博弈理论中的一个难题,现有的算法虽然可以求得单一纳什均衡,但时间复杂性或是指数的,或根本无法准确给出[4].另外,如果得到的纳什均衡较复杂,则实现难度也相对大[5].即达到均衡的混合策略越简单,对参与者该混合策略就越容易实现.因此,需解决两个问题: (1)由简单策略构成的纳什均衡存在于哪类二人博弈问题中;(2)如何计算得到这样的纳什均衡. L i p t on等人[4]给出并证明了如下结论:对于一个二人博弈问题,如果存在纳什均衡,则必存在相对简单的纳什均衡,其简单程度可以通过支付矩阵的秩数确定.收稿日期:2005204228.作者简介:孙舒杨(1975~),女,汉族,博士研究生,讲师,从事数据挖掘、模糊集、粗集和纳什均衡计算的研究,E2mail: shuyangsun1975@.基金项目:国家自然科学重大项目基金(批准号:60496321)、国家自然科学基金(批准号:60373098;60573073)、国家863高技术研究发展计划项目基金(批准号:2003AA118020)、吉林省科技发展计划重大项目基金(批准号:20020303)和吉林省科技发展计划项目基金(批准号:20030523).如何更快更有效地计算出一个由简单策略构成的纳什均衡是本文要解决的问题.通过利用L i p t on 等人的证明结果,将构成混合策略的纯策略数目限制在一定的范围内,在此基础上,对Porter等人[6]提出的算法进行改进,给出一个计算二人博弈问题单一纳什均衡的搜索算法.1 基本概念记N={1,2}为参与者集合;1和2的纯策略集合分别记作S1={s11,s12,…,s1m}和S2={s21,s22,…,s2n},1和2的支付矩阵分别记为(U1)m×n和(U2)n×m;p为m维向量,q为n维向量,∑m i=1p i=1,∑ni=1q i=1,0≤p i,q j≤1,i=1,…,m,j=1,…,n.用p和q分别表示1和2的混合策略.Support(p)={s1i∈S1p i≠0,i=1,…,m}称为混合策略p的支撑集;Support(q)={s2i∈S2|q i≠0,i=1,…,n}称为混合策略q的支撑集;Support(p)和Support(q)分别称为p和q的支撑度.定义1[6] 如果Support(p)=Support(q),则称策略对(p,q)为平衡策略对, ABS(Support(p)-Support(q))称为(p,q)的支撑差.定义2[6] 设U为m×n维的矩阵,若存在行j,满足uik ≤ujk(k=1,…,m),且存在t∈{1,…,m},使得uit <ujt,则称U的行i为条件占优行.记S′1={s1iu(1)i是矩阵U1的条件占优行},称为1的条件占优策略集;记S′2={s2i u(2)i是矩阵U2的条件占优行},称为2的条件占优策略集.定理1[6] 对于任何纳什均衡(x3,y3),都有Suppo rt(x3)∩S′1= , Suppo rt(y3)∩S′2= . 证明:用反证法易证.2 算 法首先给出固定策略对空间上的纳什均衡求解问题的形式化描述.固定策略对空间的纳什均衡求解问题(1):常量:支付矩阵(U1)m×n,(U2)n×m,策略对空间(SM1,SM2),其中SM iΑS i,i=1,2.变量:混合策略(p1)m×1和(p2)n×1,c i∈R,i=1,2.限制:Πi=1,2,要求满足如下条件:1)∑s ij∈SM i p±i(s ij)=1,且0<p±i(sij)≤1,s ij∈SM i;p±i(s ij)=0,s ij∈S i-SM i;2)pi ≠p-i;3)p T1・Ui ・p2=ci;4)p T(-1)i・1Ui ・p(-1)i+1・2≤ci.问题(1)的求解方法请参见文献[7].下面给出计算二人博弈问题中单一纳什均衡算法.设S t1ΑS1-S′1,S t2ΑS2-S′2,x′=S t1,y′=S t2,其中S′1和S′2是标记中已说明的条件占优策略集.算法思想:通过对策略对空间(S t1,S t2)的搜索,找到一个相对简单平衡的策略对,使之满足纳什均衡的要求.所谓平衡,是指x′=y′;所谓简单,是指x′,y′越小越好.基于此,将所有的(x′,y′)按如下方式排序,记为序(2):1)按x′-y′从小到大排序;2)当x′-y′相等时,按m in(x′,y′)从小到大排序.算法如下:S′1←{s1i u(1)i是矩阵U1的条件占优行},S′2←{s2i u(2)i是矩阵U2的条件占优行};a←矩阵U1的秩数,b←矩阵U2的秩数;x←m in{a+1,m-S′1},y←m in{b+1,n-S′2}(以a+1和b+1作为下限之一[4]).F OR all(x′,y′),其中x′≤x,y′≤y,并且(x′,y′)按序(2)排列914 第3期 孙舒杨,等:二人博弈问题中单一纳什均衡的搜索算法 024 吉林大学学报(理学版) 第44卷 F OR all S t1ΑS1-S′1,满足S t1=x′DO F OR all S t2ΑS2-S′2,满足S t2=y′DO I F对于策略对空间(S t,S t2),ϖ(p,c)是问题(1)的解THEN1 RET URN p.//p=(p,p2)即为一个纳什均衡13 算法评估采纳Porter等人[6]的评估方法,将本算法与经典的纳什均衡求解算法(Le mke2Hows on算法)[8]进行比较.用G AMUT生成24类博弈,从每个博弈类中选择100个二人博弈作为实验样本(即共2400个博弈样本),将本算法和Le mke2Hows on算法(用Ga mbit[9]实现)分别运行于每个样本,通过比较两个算法在这24个博弈类上的平均运行时间以及样本获解比例,发现本算法在每个博弈类上的平均运行时间都远远小于Le mke2Hows on算法的平均运行时间,而且本算法在23个博弈类中的样本获解比例也远远大于Le mke2Hows on算法,仅在一个博弈类上本算法的样本获解比例略低于Le mke2Hows on算法.由此可见,本算法具有Porter算法[6]运行时间短、获解比例大的优点.本算法与Porter算法的不同之处在于:我们将支付矩阵的秩数也作为支撑度的上限之一,如果矩阵秩数远远小于该矩阵中非条件占优行的个数,则待求解的纳什均衡的支撑度就会大大降低,从而极大地缩小了搜索空间的规模.综上可见,本文给出的搜索算法,是用矩阵的秩数和矩阵中条件占优行的个数来限定待搜索的策略对空间,通过搜索有序策略对空间可以得到一个简单的纳什均衡.本算法在Porter算法的基础上,进一步缩小了搜索空间的规模.参考文献[1] Papadi m itri ou C H.A lgorith m s,Games,and the I nternet[C]//Pr oceedings of the33rd Annual AC M Sy mposiu m on theTheory of Computing(ST OC).New York:AC M Press,2001:7492753.[2] Von Stengel puting Equilibria for T wo2pers on Ga mes[C]//Handbook of Ga me Theory:Vol.3.Am sterda m:North2Holland Press,2002:172321759.[3] McKelvey R,M clennan putati on of Equilibria in Finite Ga mes[C]//Handbook of Computati onal Econom ics:Vol.1.Am sterda m:Elsevier Science,1996:872142.[4] L i p t on R J,M arkakis E,M ehta A.Playing Large Ga mes U sing Si m p le Strategies[C]//AC M Conference on Electr onicCommerce.Ne w York:AC M Press,2003:36241.[5] Rubinstein A.Modeling Bounded Rati onality[M].Ca mbridge,M ass:M I T Press,1998.[6] Porter R,Nudel m an E,Shoha m Y.Si m p le Search M ethods f or Finding a Nash Equilibriu m[C]//Pr oceedings of theN ineteenth Nati onal Conference on A rtificial I ntelligence.Menl o Park,California:AAA I Press,2004:6642669.[7] Chvatal V.L inear Pr ogra mm ing[M].Ne w York:Freeman,1983.[8] Le mke C,Hows on J.Equilibriu m Points of B i m atrix Games[J].Journal of the Society f or I ndustrial and App liedMathe matics,1964,12:4232431.[9] McKelvey R,M c Lennan A,Tur ocy T.Gambit:Soft w are Tools for Ga me Theory[CP/OL].[2005201220].htt p://econ /ga mbit/.(责任编辑:赵立芹)。
博弈论 Game Theory
• •
信息是博弈论中重要的内容。 完全博弈是指在博弈过程中,每一位博弈 者对其他博弈者的特征、策略空间及收益函数 有准确的信息。严格地讲,完全信息博弈是指 博弈者的策略空间及策略组合下的支付,是博 弈中所有博弈者的“公共知识”(Commom Knowledge)的博弈。 • 完美信息是指博弈者完全清楚到他决策时 为止时, 所有其他博弈者的所有决策信息,或者 说,了解博弈已进行过程的所有信息。
• 2 . 猜硬币游戏
猜方 正面 盖 正面 方 反面 -1,1 1,-1 反面 1,-1 -1,1
• 3. “田忌赛马” • “田忌赛马”是我国古代一个非常有名的故 事,讲的是发生在齐威王与大将田忌之间的赛 马的故事。田忌在谋士孙膑的帮助下,运用谋 略帮助田忌以弱胜强战胜了齐威王。这个故事 讲的其实是一个很典型的博弈问题。
田 上 中 下 上中下 上下中 齐 中上下 威 中下上 王 下上中 下中上 3,-3 1,-1 1,-1 -1,1 1,-1 1,-1 上 下 中 1,-1 3,-3 -1,1 1,-1 1,-1 1,-1 中 上 下 1,-1 1,-1 3,-3 1,-1 1,-1 -1,1
忌 中 下 上 1,-1 1,-1 1,-1 3,-3 -1,1 1,-1 下 上 中 -1,1 1,-1 1,-1 1,-1 3,-3 1,-1 下 中 上 1,-1 -1,1 1,-1 1,-1 1,-1 3,-3
•
动态博弈是指在博弈中,博弈者的行动有 先后顺序(Sequential-Move),且后行动者能 够观察到先行动者所选择的行动或策略,因此, 动态博弈又叫做序贯博弈。
•
2.如果按照博弈者对其他博弈者所掌握的 信息的完全与完备程度进行分类,博弈可以划 分为完全信息博弈(Game with Complete Information)与不完全信息的博弈(Game with Incomplete Information),以及完美信息的博弈 (Game with Perfect Information)与不完美信息 的博弈(Game with Imperfect Information),确定 的博弈(Game of Certainty)与不确定的博弈 (Game of Uncertainty),对称信息的博弈(Game of Symmetric Information)与非对称信息的博弈 (Game of Asymmetric Information)等。
博弈论game theory ppt课件
按产品性质:
纯粹寡头垄断
P=f(Q1+Q2)
差别寡头垄断
P1=f(Q1,Q2) P2=f(Q2,Q1)
按决策变量 :
联合定产模型(Cournot) 联合定价模型(Bertrand)
Cournot模型的假定:同时决策;决策变量是产量;对手 的反应方式保持不变;产品相同,线性需求曲线,MC=0。
ppt课件
智猪博弈(剔除博弈)
大猪 小猪 按钮 不按
按钮 4,8 -4,20 不按 10,6 0,0
ppt课件
18
2.1.3划线法
A 坦 白不 坦 白 B
坦
白 -8,-8 0,-10
不 坦 白 -10,0 -1,-1
猜硬币者
正 盖硬币者
面反 面
正
面 -1,1 1,-1
反
面 1,-1 -1,1
注A:并非所有的博弈均有稳定的解。如右图所示抛硬币博弈
R2 q1
q1
30
2.3.4公地的悲剧 (1968年,哈丁) 外部性往往是产权界定不清的结果 一个乡村,村民在公地上放牛。两种放牧机制: (1)让私人拥有这块土地;私人决定放牧规模 (2)让村民共同拥有这块地免费放牧没有限制 结论:公共牧地一定是过度放牧。 例子:土地承包责任制,永佃权
ui qiV Q qiC
A坦 B
白不 坦 白
坦
白 -8,-8
0,-10
不 坦 白 -10,0
-1,-1
(2)扩展型——博弈树 由棱和节点构成
outcome
B
A
root
ppt课件
5
§1.2一些典型博弈
1.2.1 Tucker的囚徒困境
B
Nim游戏-博弈论
1
等”,而且这两种状态之间存在某种依赖关系,从而能给某个玩家的必胜制造 了契机。 我们不妨设这两个状态分别为“V状态”和“L状态”,那么这两个状态必然满 足以下关系: 条件1 目标状态p ∈V , 无论如何操作V 状态都会变成L状态, 条件2 一定存在某种操作使得状态L能变成状态V, 条件3 譬如在n=2的时候V状态就是两堆相等,L状态就是两堆不相等。目标状态是两 堆均为0,是V状态中的一种(条件1)。如果两堆相等,从一堆中取出一些石 子,两堆必然不等。(条件2) 如果两堆的石子不等,可以从多的一堆中取出两 堆的差值,使两堆相等(条件3)。 这两种状态之间的逻辑关系如下图所示:
浅析Nim游戏
武钢三中 吴豪
一、引言 Nim游戏是一个非常经典的组合游戏,它具有很强的趣味性与数学性,而且其 解法也蕴含了一些比较具有启发性的思维方式。在本文中,我们将探讨Nim游 戏中渗透的一些数学思想。希望读者通过本文,能对Nim游戏有更加深入的认 识,并能对其中的数学思想有进一步的体会。
二、Nim游戏 Nim游戏是一个由两个玩家轮流进行的游戏:一开始,有n堆硬币,每堆分别 有p1, p2, ..., pn 枚硬币。每个回合,玩家都可以选择一堆硬币,并从中取走k枚 硬币(1 k ni ),取完最后一枚硬币的玩家获得胜利。试问,对于先手玩家是 否有必胜策略?
四、结论的抽象与泛化 在前一部分,我们分析了Nim游戏在n=2时的规律与策略。但仅凭这个特例的 结论,还不足以解决一般的Nim游戏。因此,在这里,我们需要对原结论进行 进一步抽象与泛化,来给一般Nim游戏的解决提供切入点。我们不难注意到, 必胜判定的关键在于“状态”,例如在n=2时,这个状态就是“相等”与“不相
该二进制数与各位剩余’1’的数目如下: b1 , b2 , b3 , ..., bm−1 , bm a1 , b1 , a2 , b2 , ..., am , bm 从pi 中取出一些石子,则其对应二进制数中必然存在一位bj 的值发生变化(否则 没取),那么该位上的数字和由(aj − bj ) + bj = aj 变 为(aj − bj )+(1 − bj )=aj +1−2bj 。因为取之前是V状态,有aj 是偶数,故取走 之后该位数字和aj + 1 − 2bj 是奇数,转变成了L状态。因此无论玩家如何操 作,V状态都只能转移到L状态。 接着来看条件3: 对于上述二进制数,由于当前是L状态,我们可以选择一个最高的和为奇数的 数位j,然后任意选择一堆该位为1的石子堆i,把这一位上的1改为0,接着对于 低位,无论怎么改,都比原数小,因此我们一定可以通过调整低位使得每一位上 的数字和均为偶数,所以我们一定可以通过取出一些石子,从L状态转移到V状 态。 至此,我们已经说明了这种猜想的完备性。因此我们可以认为对于一般Nim问 题,其必胜的判定,可以以石子数在二进制中每一位上1的个数的奇偶性为依 据。 我们可以把Nim游戏的结论表述如下: 对于n堆石子p1 , p2 ...pn 1. 若p1 xor p2 xor ... pn = 0 (二进制每一位上的数字和是偶数),那么后手必 胜。 2. 否则先手必胜。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
当k∞时 x 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 …… g(x) 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 …… 这有啥用
游戏的联合
定义:对于n个给定的公平组合博弈G1, G2, …, Gn,定义他 们集的合联 ;合对为于G一=个G1局+G面2+x…i属+G于n.X对i,于设游F戏i(xGi)i表Байду номын сангаас示设xXi的i为后它继的局局面面集 合对。于G那的么一G个的局局面面x集=合{x1X,x=2,X…1*,xXn2}*,…它*X的n(后其继中局*为面笛集卡合儿积);
gn(x1,x2,…,xn) = g(x1)⊕g(x2)⊕…⊕g(xn)
= x1⊕x2⊕…⊕xn
经典Nim游戏
图的游戏
3
0
2 0
1
3 ⊕0 ⊕0=3
0 0
1 0
1
Anti-Nim
有n堆石子,每堆ai个,两个人轮流游戏,每次游戏者 取走某一石碓中至少1枚,至多k枚的石子。谁取走最 后一颗石子算谁输。
一方算输 无论游戏如何进行,总可以在有限步之内结束。(the
Ending Condition)
N局面,P局面
N局面——先手必胜局面
winning for the Next player
P局面——后手必胜局面
winning for the Previous player
定义:
每一个最终局面都是P局面 对于一个局面,若至少有一种操作使它变成一个P局面,
还扩展
游戏4:游戏有n堆石子,第i堆有ai枚,两人轮流进行 游戏,每次游戏者可以从任意一堆取走任意多枚石子, 也可以将任意的一堆石子任意的分成两堆。谁取走最 后一颗石子为胜。
继续扩展
……
我们需要理论!
公平组合博弈
Impartial Combinatorial Game
它是两人参与的游戏 游戏局面的状态集合是有限的 对于同一个局面,两个游戏者的可操作集合完全相同 游戏者轮流进行游戏 当无法进行操作时,游戏结束,此时不能进行操作的
F(x) = F(x1, x2, … , xn ) = F1(x1)*{x1} *{x2} *... *{xn}
U {x1} *F2(x2) *{x3} *... *{xn}
U…
U {x1} *{x2} *... *{xn-1} *Fn(xn)
也就是说,每一次每一个游戏者只能选择其中一个子游戏
进行一步操作。
姚金宇
先玩一个游戏☺
游戏0:有10枚石子组成的石碓,两人轮流进行游戏。 每次游戏者可以取走石碓中不超过3枚的石子。谁取走 最后一颗石子为胜。
你会选先取还是后取? 为什么?
抽象
游戏1:有n枚石子组成的石碓,两人轮流进行游戏。 每次游戏者取走石碓中至少1枚,至多k枚的石子。谁 取走最后一颗石子为胜。
一般性的结论?
n = a(k+1)时,先手必败。
扩展
游戏2:有n堆石子,每堆ai个,两个人轮流游戏,每 次游戏者取走某一石碓中至少1枚,至多k枚的石子。 谁取走最后一颗石子为胜。
怎么办?
再扩展
游戏3:有n堆石子,每堆ai个,两个人轮流游戏,每 次游戏者取走某一石碓中至少1枚石子。谁取走最后一 颗石子为胜。
Problems from POJ
2960 1704 2975 2068
Thanks for your attention!
Sprague-Grundy 定理
定理2(Sprague-Grundy 定理):设gi(x)为Gi的SG函 数(1≤i≤n),则G=G1+G2+…+Gn的SG函数g(x1, x2, …, xn)=g1(x1)⊕g2(x2)⊕…⊕gn(xn)(其中⊕为抑或运算)
如何证明?
游戏2的解决
x 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 …… g(x) 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 ……
则它是一个N局面 对于一个局面,无论如何操作都必然变成一个N局面,
则它是一个P局面
Sprague-Grundy函数
定义:在非负整数集上定义局面x的SG函数g(x)如下:
其中F(x)表示x的后继局面集合
定理1:对于任意的局面x,若g(x)=0则x是P局面,否 则x是N局面.
再看游戏1
以k=3为例 x 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 …… g(x) 0 1 2 3 0 1 2 3 0 1 2 3 0 1 2 3 0 ……