博弈论的假定与博弈分类
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二章 博弈论的假定与博弈分类 第 1 节 博弈的定义及构成要素 先看一个例子。 例 2-1.囚徒困境.两个共同作案偷窃的小偷被警察抓住,被带进警察局单独关押。他 们面临的“政策”是“坦白从宽,抗拒从严”,具体的政策是:如果一方与警方合作,招认 并供出自己与对方以前所做违法之事,而对方不招认,招认方无罪释放,不招认的另一方则 会被判重刑 10 年;如果双方都与警方合作共同招认,各被判刑 5 年;而如果双方均不承认 有罪,因警察找不到他们以前违法的证据,只能对他们的小偷行为进行惩戒,各被判刑 3 个月。这两个小偷如何作出选择? 甲 乙 不招认 招认 不招认 各被判刑 3 个月 甲:被判刑 10 年 乙:当场释放 招认 甲:当场释放 乙:被判刑 10 年, 各被判刑 5 年
思考题: 1. 给出一个身边的博弈,给出它的博弈要素。 2. 分别给出动态博弈与静态博弈、 零和博弈与非零和博弈、 合作与非合作的博弈例子。
Fra Baidu bibliotek
这个博弈便称为囚徒困境博弈(prisoners’ dilemma ) 。普遍认为,囚徒困境最先是 由普林斯顿大学的塔克(AlbertTucker)教授于 20 世纪 50 年代提出的。这个博弈模型是一 类现实原型的抽象,该博弈被广泛地讨论;在后面我们将详细地分析它。 上述直观的博弈表述方式被称为支付矩阵, 用之可表示 2 人博弈。 该矩阵为诺贝尔奖获 得者托马斯•谢林最先使用的,该发明对于博弈论的普及意义重大。 我们说过, 一个博弈是其收益相关的两个或两个以上的参与人的策略互动。 在博弈的标 准式表示中, 每个参与人同时选择一个策略, 所有参与人选择策略的组合决定每个参与人的 收益。形式地,一个博弈可定义为: 定 义 2.1. 在一 个 n 人博 弈的 标准 式中 ,一 个博 弈可 定义 为: G={S1,S2 , „,Sn; u1,u2,„,un},其中 S1,S2,„,Sn 为参与人的策略空间;u1,u2,„,un 为参与人的收益函数。 因此,简单地说,一个博弈涉及:第一,两个或两个以上的参与人;第二,参与人的策 略空间;第三,收益。 对于以上述形式描述或定义的博弈,其“解”是什么?为了得到“解”概念,我们得先 给出博弈论基本假定。 第 2 节 博弈论中的基本假定 基本假定:在博弈中每个参与人是理性的是博弈参与人之间的公共知识。 这里涉及两个问题:第一,什么是理性;第二,什么是公共知识。 我们先回答第二个问题。我们说:一个命题 p 是公共知识是指,每个人知道 p,且每个 人知道 p,每个人都知道 p,„„或者 p 是公共知识指,每个人知道 p 且每个人知道 p 是公共 知识。在下面的章节中我们会详细地讨论这个概念。 但对于第一个问题“什么是理性的” ,我们很难给出准确回答。理性本指推理要符合逻 辑规则。在决策中,这里的逻辑规则是广义的,它不仅包括形式逻辑的推理要求,而且包括 决策规则。 对之,迈尔森说: “如果一个决策者在追逐其目标时能够前后一致地做决策,我们就称 他是理性的(rational) 。 ”这样,理性意味着逻辑一致性或无矛盾性。同时他说: “在基于
S1 相对于 S2 是严格被占优策略,S2 相对于 S1 是严格占优策略。 注意: (1)某策略是占优的或被占优的是相对于另外一个策略而言的;因此占优策略或 被占优策略是相对的。 (2)该定义不要求策略下的效用是可计算的,但要求效用是可比较的 (可计算的当然是可比较的,反之不成立) 。 定理:理性人是不会采取严格被占优策略的。 这样,在决策中我们可以剔除或偿付剔除严格被占优策略来进行理性选择。 在实际中我们常用“策略排序法”来进行策略选择,这与剔除严格被占优策略是一致。 我们通常说, “两害相权取其轻,两利相权取其重”便是策略决策法。 《孙子兵法》中所体现 的背后的决策原则也是策略排序法。如孙子曰: “上兵伐谋,其次伐交,其次发兵,其下攻 城”,再比如“百战百胜非善之善者也,不战而屈人之兵,善之善者也”等,体现了孙子的 从多种可选的策略中尽可能地确定上策。 第 4 节 多标准下的博弈分类 根据不同的标准,博弈分为静态与动态;完全信息与非完全信息;合作与非合作博弈。 零和与非零和。 静态博弈和动态博弈。 静态博弈指参与人同时采取行动, 或者尽管参与人行动的采取有 先后顺序, 但后行动的人在行动时不知道先采取行动的人采取的是什么行动。 动态博弈指参 与人的行动有先后顺序, 并且后采取行动的人在行动决策时可以观察到先采取行动的人所采 取的行动。
合作性博弈和非合作性博弈。根据参与人能否形成约束性的协议、以便集体行动,博弈 可分合作性博弈和非合作性博弈。纳什等博弈论专家研究得更多的是非合作性博弈。 所谓合作性博弈是指参与人从自己的利益出发与其他参与人谈判达成协议或形成联盟, 其结果对联盟形成方均有利; 而非合作性博弈是指参与人在行动选择时无法或没有达成约束 性的协议。企业的形成、政治联盟的构建等都是合作性的博弈,而囚徒困境以及本书后面所 讨论的公共资源悲剧都是非合作性的博弈。 从知识的拥有程度来看, 博弈分为完全信息博弈和不完全信息博弈。 信息是博弈分析所 要涉及到的重要的内容。 完全信息博弈指参与人对所有参与人的策略空间及策略组合下的支 付有“完全的了解” ,否则是不完全信息博弈。严格地讲,完全信息博弈是指这样的博弈, 参与人的策略空间及策略组合下的支付是博弈中所有参与人的“公共知识” ,否则是不完全 信息博弈。 零和博弈与非零和博弈。所谓“零和博弈”是指,博弈各方在各种可能性下的得益之和 均为一常数零; 常和博弈是指, 博弈各方在各种可能性下的所得之和为一个非零常数; 而 “变 和博弈”指的是博弈各方在不同情况下的所得之和为变数或变量。
1
任何一个赌博都至少与一个不确定事件相关。一个公平的赌博是一个可交换位置的赌博。由于不同的
人对于同一个不确定事件的配置的概率不同,对于一个人是确定性事件,对于另外一个人是不确定事件的 赌博不可能是公平的。存在这样的情况,对两个人而言都有利的赌博。人们可通过设计涉及多个不确定事 件的赌博而从中获利。
有两个钱包,甲乙知道,其中一个人钱包中的钱的数量是另外一个的两倍;并且他们已 知道,钱的范围为 5-160 元。老师将钱包分给了甲和乙。甲和乙打开钱包后看到了自己钱包 中钱数(看不到对方钱包中的钱的多少) ,假定甲钱包中的数量为 20 元;乙钱包中的钱包中 的数量为 40 元。老师说:现在允许你们进行交换。问:甲、乙交换合算还是不交换合算? 分析: 对于甲,对方钱包中为 40 的概率为 1/2,为 10 的概率为 1/2。因此,若交换的话获得 40× 1/2+10× 1/2=25>20。因此,交换是合理的。 对于乙:若交换,80× 1/2+20× 1/2=50>40.因此,交换是合理的。 但是,他们钱包中的总数是一定的,不可能通过交换双方的收益增加了。 定义。占优与被占优。对于两个策略 S、S’,如果,采取 S 的效用在任意一个可能状 态下都“不低于”采取 S’的策略的效用,那么,我们说 S 与 S’相比,S 是占优策略,S’ 为被占优策略。 严格占优与严格被占优。如果采取 S 的效用在任意一个可能状态下都“大于”采取 S’ 的策略的效用,那么,我们说 S 与 S’相比,S 是严格占优策略,S’为严格被占优策略。 例子: C1 S1 S2 100 200 C2 200 300 C3 0 50
决策理论的基本结论而建立起来的博弈论中, 我们假设每个局中人的目标是追求其个人期望 支付值的最大化,支付则是用某个效用尺度来度量的。 ” (P2)这样,理性决策者应该按使自 己的期望支付最大化的方式去做决策。 由于一个博弈涉 及多个理性主体,由此 , 博弈论是研究交互理 性( Interactive Rationality) 。 第 3 节 参与人的目标:最大化期望效用 人们采取行动是为了获得收益, 在不同行动进行权衡其目的在于获得最大收益。 我们如 何刻画收益呢?我们往往用效用来刻画收益。 效用是某个物品或行动结果给主体所带来的满足程度。 这个满足程度与物品的量或刻画 行动结果的参数之间是一个函数关系,这便是效用函数。 然而,我们所采取的行动与结果及效用之间往往是不确定性关系。我进行房产投资,是 否能够从房价上涨中获益, 这是不确定的; 我将钱存入银行, 获得本金及利息的确定性稍高, 但没人能够保证这种确定是百分之百。如何刻画这种不确定性决策? 参与人决策的类型:确定性决策与不确定性决策。从上世纪 20 年代开始,拉姆齐 (F.Ramsey) 、萨维奇(Savage)萨维奇和冯诺依曼等人发展了决策的期望效用理论。在确 定性条件下, 参与人的目标是效用最大化; 在不确定性条件下决策者的目标是期望效用最大 化。 博弈论的逻辑基础是贝叶斯决策理论,或主观主义决策理论。贝叶斯决策理论认为,理 性决策者的行为被认为是对某个物品或结果的效用值与实现这个效用者的盖然性之间乘积 的盘算。这里理性决策者所盘算或考虑的便是期望效用。这里,所涉及的两个概念效用与概 率都是对主体的主观行为的度量,它们是主观值。我们说它们是主观的,指的是不同的人对 同样的物品的效用评价及对同一个事件的发生盖然性能够是不同的。 效用与货币支付不成线性比例。 帮助我们理解效用概念的两个决策悖论圣彼得堡悖论与 交换悖论。 例 2.2.圣彼得堡悖论。你和庄家进行这样一个投掷硬币的赌博。你给予庄家一定数量 的赌金以进行如下赌博:若第一次硬币出现反面,游戏终止,你无所得,而若出现正面,庄 家输 2 元给你,且赌博投继续进行;若第二次投掷硬币,硬币出现反面,游戏终止;而若出 1 现正面,则庄家输给你 4 元,游戏继续进行„„ 似乎是,对你而言,预先付给庄家任何数量的金钱 M 进行这样的游戏,均是合算的。因 为: U1=2× 1/2+4× 1/4+„n× 1/n+„=∞>M 是吗? 例 2.3.他人的钱包总是诱人的。
思考题: 1. 给出一个身边的博弈,给出它的博弈要素。 2. 分别给出动态博弈与静态博弈、 零和博弈与非零和博弈、 合作与非合作的博弈例子。
Fra Baidu bibliotek
这个博弈便称为囚徒困境博弈(prisoners’ dilemma ) 。普遍认为,囚徒困境最先是 由普林斯顿大学的塔克(AlbertTucker)教授于 20 世纪 50 年代提出的。这个博弈模型是一 类现实原型的抽象,该博弈被广泛地讨论;在后面我们将详细地分析它。 上述直观的博弈表述方式被称为支付矩阵, 用之可表示 2 人博弈。 该矩阵为诺贝尔奖获 得者托马斯•谢林最先使用的,该发明对于博弈论的普及意义重大。 我们说过, 一个博弈是其收益相关的两个或两个以上的参与人的策略互动。 在博弈的标 准式表示中, 每个参与人同时选择一个策略, 所有参与人选择策略的组合决定每个参与人的 收益。形式地,一个博弈可定义为: 定 义 2.1. 在一 个 n 人博 弈的 标准 式中 ,一 个博 弈可 定义 为: G={S1,S2 , „,Sn; u1,u2,„,un},其中 S1,S2,„,Sn 为参与人的策略空间;u1,u2,„,un 为参与人的收益函数。 因此,简单地说,一个博弈涉及:第一,两个或两个以上的参与人;第二,参与人的策 略空间;第三,收益。 对于以上述形式描述或定义的博弈,其“解”是什么?为了得到“解”概念,我们得先 给出博弈论基本假定。 第 2 节 博弈论中的基本假定 基本假定:在博弈中每个参与人是理性的是博弈参与人之间的公共知识。 这里涉及两个问题:第一,什么是理性;第二,什么是公共知识。 我们先回答第二个问题。我们说:一个命题 p 是公共知识是指,每个人知道 p,且每个 人知道 p,每个人都知道 p,„„或者 p 是公共知识指,每个人知道 p 且每个人知道 p 是公共 知识。在下面的章节中我们会详细地讨论这个概念。 但对于第一个问题“什么是理性的” ,我们很难给出准确回答。理性本指推理要符合逻 辑规则。在决策中,这里的逻辑规则是广义的,它不仅包括形式逻辑的推理要求,而且包括 决策规则。 对之,迈尔森说: “如果一个决策者在追逐其目标时能够前后一致地做决策,我们就称 他是理性的(rational) 。 ”这样,理性意味着逻辑一致性或无矛盾性。同时他说: “在基于
S1 相对于 S2 是严格被占优策略,S2 相对于 S1 是严格占优策略。 注意: (1)某策略是占优的或被占优的是相对于另外一个策略而言的;因此占优策略或 被占优策略是相对的。 (2)该定义不要求策略下的效用是可计算的,但要求效用是可比较的 (可计算的当然是可比较的,反之不成立) 。 定理:理性人是不会采取严格被占优策略的。 这样,在决策中我们可以剔除或偿付剔除严格被占优策略来进行理性选择。 在实际中我们常用“策略排序法”来进行策略选择,这与剔除严格被占优策略是一致。 我们通常说, “两害相权取其轻,两利相权取其重”便是策略决策法。 《孙子兵法》中所体现 的背后的决策原则也是策略排序法。如孙子曰: “上兵伐谋,其次伐交,其次发兵,其下攻 城”,再比如“百战百胜非善之善者也,不战而屈人之兵,善之善者也”等,体现了孙子的 从多种可选的策略中尽可能地确定上策。 第 4 节 多标准下的博弈分类 根据不同的标准,博弈分为静态与动态;完全信息与非完全信息;合作与非合作博弈。 零和与非零和。 静态博弈和动态博弈。 静态博弈指参与人同时采取行动, 或者尽管参与人行动的采取有 先后顺序, 但后行动的人在行动时不知道先采取行动的人采取的是什么行动。 动态博弈指参 与人的行动有先后顺序, 并且后采取行动的人在行动决策时可以观察到先采取行动的人所采 取的行动。
合作性博弈和非合作性博弈。根据参与人能否形成约束性的协议、以便集体行动,博弈 可分合作性博弈和非合作性博弈。纳什等博弈论专家研究得更多的是非合作性博弈。 所谓合作性博弈是指参与人从自己的利益出发与其他参与人谈判达成协议或形成联盟, 其结果对联盟形成方均有利; 而非合作性博弈是指参与人在行动选择时无法或没有达成约束 性的协议。企业的形成、政治联盟的构建等都是合作性的博弈,而囚徒困境以及本书后面所 讨论的公共资源悲剧都是非合作性的博弈。 从知识的拥有程度来看, 博弈分为完全信息博弈和不完全信息博弈。 信息是博弈分析所 要涉及到的重要的内容。 完全信息博弈指参与人对所有参与人的策略空间及策略组合下的支 付有“完全的了解” ,否则是不完全信息博弈。严格地讲,完全信息博弈是指这样的博弈, 参与人的策略空间及策略组合下的支付是博弈中所有参与人的“公共知识” ,否则是不完全 信息博弈。 零和博弈与非零和博弈。所谓“零和博弈”是指,博弈各方在各种可能性下的得益之和 均为一常数零; 常和博弈是指, 博弈各方在各种可能性下的所得之和为一个非零常数; 而 “变 和博弈”指的是博弈各方在不同情况下的所得之和为变数或变量。
1
任何一个赌博都至少与一个不确定事件相关。一个公平的赌博是一个可交换位置的赌博。由于不同的
人对于同一个不确定事件的配置的概率不同,对于一个人是确定性事件,对于另外一个人是不确定事件的 赌博不可能是公平的。存在这样的情况,对两个人而言都有利的赌博。人们可通过设计涉及多个不确定事 件的赌博而从中获利。
有两个钱包,甲乙知道,其中一个人钱包中的钱的数量是另外一个的两倍;并且他们已 知道,钱的范围为 5-160 元。老师将钱包分给了甲和乙。甲和乙打开钱包后看到了自己钱包 中钱数(看不到对方钱包中的钱的多少) ,假定甲钱包中的数量为 20 元;乙钱包中的钱包中 的数量为 40 元。老师说:现在允许你们进行交换。问:甲、乙交换合算还是不交换合算? 分析: 对于甲,对方钱包中为 40 的概率为 1/2,为 10 的概率为 1/2。因此,若交换的话获得 40× 1/2+10× 1/2=25>20。因此,交换是合理的。 对于乙:若交换,80× 1/2+20× 1/2=50>40.因此,交换是合理的。 但是,他们钱包中的总数是一定的,不可能通过交换双方的收益增加了。 定义。占优与被占优。对于两个策略 S、S’,如果,采取 S 的效用在任意一个可能状 态下都“不低于”采取 S’的策略的效用,那么,我们说 S 与 S’相比,S 是占优策略,S’ 为被占优策略。 严格占优与严格被占优。如果采取 S 的效用在任意一个可能状态下都“大于”采取 S’ 的策略的效用,那么,我们说 S 与 S’相比,S 是严格占优策略,S’为严格被占优策略。 例子: C1 S1 S2 100 200 C2 200 300 C3 0 50
决策理论的基本结论而建立起来的博弈论中, 我们假设每个局中人的目标是追求其个人期望 支付值的最大化,支付则是用某个效用尺度来度量的。 ” (P2)这样,理性决策者应该按使自 己的期望支付最大化的方式去做决策。 由于一个博弈涉 及多个理性主体,由此 , 博弈论是研究交互理 性( Interactive Rationality) 。 第 3 节 参与人的目标:最大化期望效用 人们采取行动是为了获得收益, 在不同行动进行权衡其目的在于获得最大收益。 我们如 何刻画收益呢?我们往往用效用来刻画收益。 效用是某个物品或行动结果给主体所带来的满足程度。 这个满足程度与物品的量或刻画 行动结果的参数之间是一个函数关系,这便是效用函数。 然而,我们所采取的行动与结果及效用之间往往是不确定性关系。我进行房产投资,是 否能够从房价上涨中获益, 这是不确定的; 我将钱存入银行, 获得本金及利息的确定性稍高, 但没人能够保证这种确定是百分之百。如何刻画这种不确定性决策? 参与人决策的类型:确定性决策与不确定性决策。从上世纪 20 年代开始,拉姆齐 (F.Ramsey) 、萨维奇(Savage)萨维奇和冯诺依曼等人发展了决策的期望效用理论。在确 定性条件下, 参与人的目标是效用最大化; 在不确定性条件下决策者的目标是期望效用最大 化。 博弈论的逻辑基础是贝叶斯决策理论,或主观主义决策理论。贝叶斯决策理论认为,理 性决策者的行为被认为是对某个物品或结果的效用值与实现这个效用者的盖然性之间乘积 的盘算。这里理性决策者所盘算或考虑的便是期望效用。这里,所涉及的两个概念效用与概 率都是对主体的主观行为的度量,它们是主观值。我们说它们是主观的,指的是不同的人对 同样的物品的效用评价及对同一个事件的发生盖然性能够是不同的。 效用与货币支付不成线性比例。 帮助我们理解效用概念的两个决策悖论圣彼得堡悖论与 交换悖论。 例 2.2.圣彼得堡悖论。你和庄家进行这样一个投掷硬币的赌博。你给予庄家一定数量 的赌金以进行如下赌博:若第一次硬币出现反面,游戏终止,你无所得,而若出现正面,庄 家输 2 元给你,且赌博投继续进行;若第二次投掷硬币,硬币出现反面,游戏终止;而若出 1 现正面,则庄家输给你 4 元,游戏继续进行„„ 似乎是,对你而言,预先付给庄家任何数量的金钱 M 进行这样的游戏,均是合算的。因 为: U1=2× 1/2+4× 1/4+„n× 1/n+„=∞>M 是吗? 例 2.3.他人的钱包总是诱人的。