博弈行为中的演绎与归纳推理及其问题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文章编号:1000-8934(2003)03-0039-05
博弈行为中的演绎与归纳推理及其问题
潘 天 群
(南京大学 哲学系,江苏 南京 210093)
摘要:博弈逻辑(game logic )是随着博弈论的迅速发展而形成的一个新的学科,它是一行动逻辑。博弈逻辑研究的是理性的人在互动行动中即博弈中的推理问题。在博弈行为中存在演绎推理和归纳推理。正如在传统逻辑中存在逻辑悖论一样,博弈逻辑中同样存在悖论或者“问题”。博弈参与人运用演绎推理时存在逆向归纳法悖论,而运用归纳推理时存在归纳是否有效的问题。
关键词:博弈逻辑;演绎推理与归纳推理;逆向归纳法悖论;归纳推理的合理性中图分类号:B812 文献标识码:A
收稿日期:2002-11-13
作者简介:潘天群(1965-),江苏盐城人,南京大学哲学系逻辑学教研室教授,博士,主要研究方向:哲学、逻辑学、博弈论。
1 一种新的逻辑:博弈逻辑
博弈论研究人类活动中的互动行为,在经济学中得到广泛的运用。在博弈论中,人类的所有活动,只要是互动行为,均可以看成是博弈行动。在此基
础上,一种新的逻辑“博弈逻辑”
(game logic )得以兴起,它是一种特殊的行动逻辑(action logic )。
博弈论研究多个理性人在互动过程中如何选择自己的策略。理性的人是使自己的目标或得益最大化的人,在经济活动中理性的人即是使经济目标最大化的人———经济人。理性人如何使得自己的“得益”最大?关键是“推理”。
博弈逻辑中存在着两种研究纲领。第一种研究纲领是结合模态逻辑系统,建立新的博弈逻辑系统。在这方面,日本筑波大学的金子守(Mamoru Kaneko )教授是这方面的权威。近几年,他在国际刊物上发表了大量有关博弈逻辑方面的论文。他不仅在模态逻辑系统的基础上建立了多个博弈逻辑(game logic )系统,而且,建立了与博弈逻辑密切相关的公共知识逻辑(common knowledge logic )系统。第二种研究纲领是研究博弈活动中的实际“推理问题”,许多博弈论专家在此方面做了大量的工作。对博弈逻辑做整体的分析不是这里的任务,本文的目的是简要论述博弈活动中的推理问题,属于第二种研究纲领。
根据博弈论,人们在实际的博弈活动中涉及到
两种推理:演绎推理与归纳推理。然而,正如传统逻辑中存在着悖论(演绎悖论和归纳悖论),在博弈逻辑中同样存在着悖论。
2 博弈逻辑中的演绎推理与归纳推理
博弈论有两个假定:第一,博弈参与人是理性的;第二,博弈参与人的得益不仅取决于自己的行动,同时取决于其他人的行动。
每个理性的参与人在策略选取,使自己得益最大时,要充分考虑局中其他人的策略选取。同时,每个参与人知道其他参与人与他有同样的想法。在博弈中,“每个人是理性的”是公共知识(common knowledge ),它是每个参与人进行策略选择或者推理的前提。
博弈参与人的推理表现在他对策略的选取上。决定参与人的策略选取一方面是博弈结构,另一方面是其他参与人的策略。博弈结构是不同策略组合下的支付函数或者得益函数。按照博弈的次序来分,博弈分动态与静态博弈;按照信息的分布来分,博弈分为完全信息与不完全信息博弈。在不同的博弈结构下,参与人所用的推理不同。
根据参与人推理前提与结论之间的关系,在博弈中推理分为演绎推理和归纳推理。我们来分析博弈参与人是如何运用演绎推理与归纳推理的。
(1)静态博弈的演绎推理 让我们来分析典型
的“囚徒博弈”的例子。
第19卷 第3期2003年 3月
自然辩证法研究Studies in Dialectics of Nature Vol.19,No.3
Mar.,2003
警察抓到了两个共同偷窃的小偷,对他们进行单独关押。囚徒面临这样的“政策”:如果一方“招认”,供出自己与对方以前所做违法之事,而对方“不招认”,“招认”方将无罪释放,对方会被判重刑10年;如果双方都与警方合作,选择“招认”策略,各被判刑5年;而如果双方均“不招认”,因警察找不到其他证明他们以前违法的证据,只能对他们的小偷行为进行惩戒,各判刑1年。这两个小偷如何做出选择?
囚徒困境的支付矩阵为:
乙
甲
不招认招认
不招认各判刑1年甲:判刑10年乙:当场释放
招认
乙:判刑10年,
甲:当场释放
各判刑5年囚徒困境支付矩阵
“囚徒困境”是一个被广泛谈论和研究的博弈。在这个囚徒困境中,小偷的最终“得益”是当场释放还是被判刑(10年、5年、1年),不仅取决于该囚徒的决定,而且取决于另外的小偷的决定。
在这个例子中,每个小偷都作这样的推理:
如果对方“招认”,
我“不招认”的结果是判刑10年,“招认”的结果是判刑5年;
“招认”的结果好于“不招认”的结果
此时,我应当选择“招认”
如果对方“不招认”,
我“不招认”的结果是判刑1年,“招认”的结果是当场释放;
当场释放比判刑1年要好
此时,我应当选择“招认”
因此,无论对方采取“招认”还是“不招认”,我最好的策略是“招认”。
无论是甲,还是乙,他们均推理得出最好的策略是“招认”。双方均招认是“纳什均衡”———这是一个稳定的结果。
在囚徒博弈中存在惟一的纳什均衡①点,即两个囚犯均选择“招认”策略。一旦人们处于囚徒困境,“囚徒困境有惟一的纳什均衡点”构成参与人的“公共知识”,双方均毫不犹豫地选择“招认”。
这是静态博弈的例子。在这个推理过程中,双方的推理均是演绎的。
(2)动态博弈中的演绎推理 动态博弈过程如同静态博弈,也是一个推理过程。我们来看一下动态博弈中人们是如何进行演绎推理的。先看一个例子。
有两个企业A、B。企业B独占一个行业的市场,企业A
要进入这个领域,想与企业B瓜分该市场。企业B不愿意A与它一起瓜分该市场,它发出“威胁”:“如果你进入,我将打击”。当然,对B进行打击,双方均有损失。———这是双方的“公共知识”。该博弈用博弈树表示,即为:
“如果你进入,我将进行打击”
———这是一个不可信的威胁
上图中的数字表明:如果A“不进入”,A的得益为0,B的得益为10;如果A“进入”,B“不打击”的话,A与B平分10,各得到5,而如果“打击”的话,A 的收益为-3,B的收益为4。
这个博弈的结果是,A选择“进入”,B选择“不打击”。———它们构成“子博弈精炼纳什均衡”。对于这个博弈,B的威胁“如果A进入,我将打击”是“不可信的”威胁。
在这个动态博弈中,理性的参与人所用的推理方法被称为“逆向归纳法”又称“倒推法”(backward induction)。虽然被称为逆向归纳法,但它是完全归纳法,即它是演绎性的。
逆向归纳法是求解动态博弈的方法。它是演绎性的,因为它的推理是必然的。在上面的例子,我们看到,企业A作这样的推理:
假定我(A)进入,B如果“打击”,它的得益为4;“不打击”的得益为5。B是理性人。它将选择“不打击”。既然我预测到B将“不打击”,我在“进入”和“不进入”间进行选择时,“进入”的得益为5,“不进入”的得益为0,我作为理性人,将选择“进入”。
①纳什均衡,简单地说就是,一策略组合中,所有的参与者面临这样的一种情况:当其他人不改变策略时,他此时的策略是最好的;也就是说,此时如果他改变策略,他的支付将会降低。在纳什均衡点上,每一个理性的参与者都不会有单独改变策略的冲动。
自然辩证法研究 第19卷 第3期