囚徒困境 - 复旦大学经济学院

Transcript 囚徒困境 - 复旦大学经济学院

复旦大学2010年秋本科选修课程
当代西方经济学流派
方钦
复旦大学经济学院
复旦大学经济思想与经济史研究所
联系方式：[email protected]
第十四讲博弈：从个人决策到制度生成
2015年4月13日星期一
1
从理性选择到交往行为
2
经典博弈理论
3
演化博弈论
4
囚徒困境
2
一、从理性选择到交往行为
*强盗分金
有100块金子，5个强盗决定如何进行分配。5个强
盗有利害的有弱小的，最厉害的是强盗头子。现
在按强盗的强弱程度排序，分别是1、2、3、4、5
号强盗。
强盗规定：由最厉害的1号强盗开始提出分配方案
，如果该方案得不到1/2的人同意，那么该强盗会
被杀死，由接下来2号强盗提方案，一直到最后。
那么1号强盗会提出何种方案，保证能让至少1/2
的强盗能接受，自己又获得最多的金子？
2015年4月13日星期一
3
新古典体系的基本假设是“理性选择”理论：消费者
最求效用最大化；生产者最求利润最大化。
在这一前提下，新古典体系所构建的是一种“鲁滨逊
”经济：与世隔绝的一个人的经济。个人面对有限的
资源，选择如何最有效地利用资源最大程度的满足自
身的效用。
然而，现实中我们生活在一个有着无数和我们自己一
样寻求最大化自身效用（利润最大化）的行为人的社
会中。在一个社会中，个人的行为会相互影响。此时
，我们不仅需要考虑自身的效用最大化（利润最大化
）问题，我们还需要考虑我们在追求自身效用最大化
（利润最大化）的同时，他人也同样在追求他们自身
的效用最大化（利润最大化），行为人与行为人之间
2015年4月13日星期一
4
同样的理性选择是否会相互影响，又如何影响，进而
在这种相互影响下，个人又应该如何行动？
研究个人之间的交往行为问题，这就是博弈论（Game
Theory）的主题。
博弈理论本属于应用数学的一个分支，早在20世纪初
便有数学家开始关注博弈理论，例如Zermelo（1913）
和Borel（1921）。但是随着冯·诺伊曼和摩根斯坦将
这一理论系统化并应用于经济学研究之后，博弈理论
正式诞生。随后便有一大批杰出学者投身于这一领域
，使得博弈论研究迅速普及经济学界并在生物学、国
际关系、计算机科学、政治学、军事战略和其他很多
学科都产生了广泛的应用。其对社会科学研究的影响
不容忽视。
2015年4月13日星期一
5
二、经典博弈理论
（一）《博弈论与经济行为》（Theory of Games and
Economic Theory, 1944）
该书的出版代表着博弈理论的正式诞生。

John von Neumann,

1903-1957


Oskar Morgenstern,

1902-1977
该书建立了基本合作博弈模型，奠定了博弈论基础。
2015年4月13日星期一
6
（二）博弈论的基本要素
1、参与人（Player）
参与博弈的人。
2、策略（Strategy）
参与人在何种情况下采取何种行动。
3、支付/收益（Payoff）
参与人所获得的效用。
4、博弈形式（Game Form）
每一位参与人可能的策略和每个可能的策略组合所产
生的结果。
可以分为基本型（Normal form）和扩展型（Extensive
form）。
2015年4月13日星期一
7
*一个简单博弈：“钞票博弈”
两个人，A和B，被带到不同的房间，且不允许相互沟
通。组织者提供一张面值5英镑的钞票和一张面值10英
镑的钞票来玩这次游戏。参与人必须说明想要获得哪
张钞票。如果一位参与人想要的钞票和另一位参与人
想要的是同一张，那么两人什么也得不到；但是如果
想要的是与另一位参与人不同的钞票，那么两人将得
到各自想要的钞票。
B 的策略
要 5 英镑
要 10 英镑
要 5 英镑
（0，0）
（5，10）
要 10 英镑
（10，5）
（0，0）
A
的
策
略
2015年4月13日星期一
8
5、均衡
1）占优策略（Dominant Strategy）
无论对方参与人选择什么样的策略，对自己来说都是
最优的策略。占优策略是一种博弈的均衡。
*守诺博弈
乙
守约
守约
(500,500)
违约
(250,250)
违约
(250,250)
(0 , 0)
甲
2015年4月13日星期一
9
2）纳什均衡（Nash equilibrium）
“钞票博弈”的均衡点在哪里？
John Forbes Nash Jr., 1928普林斯顿大学的“幽灵”。1950年，
纳什在他仅仅27页的博士论文中提出
了现在被称为“纳什均衡”的概念。
非正式定义：
If each player has chosen a strategy and no player can
benefit by changing his or her strategy while the other
players keep theirs unchanged, then the current set of
strategy choices and the corresponding payoffs constitute
a Nash equilibrium.
2015年4月13日星期一
10
*性别战
看
男球
逛
街
女
看球
逛街
(2 , 1) (0 , 0)
(0 , 0)
(1 , 2)
纳什均衡可能不是唯一的，存在多重纳什均衡的情况
时，如何解？
 强盗分金答案：1号：98，3号：1，5号：1。
 思路：先考虑只剩4、5号的情况。4号：100，5号：0；剩
3、4、5号情况。3号：99，4号：0，5号：1；剩2、3、4
、5号情况。2号：99，3号：0，4号：1，5号：0。
2015年4月13日星期一
11
（三）博弈论群英
1994年诺贝尔经济学奖：
John Forbes Nash；

John C. Harsanyi,
1920-2000；
Reinhard Selten, 19302005年诺贝经济学奖：
Robert J. Aumann, 1930-
2015年4月13日星期一
12
Thomas C. Schelling, 1921-
2007年诺贝尔经济学奖：
Leonid Hurwicz, 1917-2008

Eric S. Maskin, 1950
Roger B. Myerson, 1951-
2015年4月13日星期一
13
三、演化博弈论
 经典博弈论之风愈行愈盛，但是其弊端也逐渐显露。传
统的经典博弈理论在一些情况下对于理性的假设如此之
高，而对于最终的均衡却又模棱两可，使得其丧失了本
应具有的实用性。
 自上个世纪70年代中后期开始，一批生物学家致力于运
用博弈理论研究生物行为，研究生物种群的演化规则。
这一研究却意外地拓展出博弈理论的一项新分支：演化
博弈论（Evolutionary Game Theory）。
 梅纳德·史密斯（John Maynard Smith,
1920-2004），被称为演化博弈论之父，
他的《演化与博弈论》（Evolution and the
Theory of Games, 1982）奠定了这一学科
2015年4月13日星期一
14
领域的基础。
当代博弈理论已经接受了演化博弈理论的思想——更
弱的理性假设、更关注趋向均衡的过程而不是均衡的
结果、更注重现实的交往行为而不是假设的模型。但
是与经典博弈理论注重经济激励行为的初衷不同，演
化博弈理论更适合于回答另一重大的问题：我们所生
活的社会是如何可能的？
社会由个人所构成，更确切地说，由人与人之间的交
往行为所构成。在交往中我们演化出特定的行为规范
——规则、秩序、习俗、惯例，演化出制度。社会的
变迁亦即制度的变迁。一项制度即演化稳定均衡中的
某一种均衡。因此，研究社会制度的生成、演化与发
展，成为演化博弈论的一项重要课题。
2015年4月13日星期一
15
 （一）演化博弈视角下的制度分析
 自从肖特（Andrew Schotter, 1947-）的《社会制度的经济
理论》（The Economic Theory of Social Institutions, 1981）
出版以来，博弈理论已经被愈来愈广泛地应用于研究制度
分析，而演化博弈理论俨然已经成为其中最为重要的一个
分支（其他两股分支分别为以科斯为代表的新制度经济学
和以Kenneth Arrow等为代表的主流经济学分析）。其代
表人物有： H. Peyton Young， Ken Binmore, 1940
Robert Sugden,

1949

2015年4月13日星期一
16
（二）演化博弈的基本思想
演化博弈中的均衡被称为“演化稳定策略”（
evolutionarily stable strategy，简称ESS）。即“在严
格的演化选择的压力下也是稳健的”策略。简单来说
就是“入乡随俗”：为什么大家都做相同的选择，因
为所有其他人也都这么做。
从数学表达上看，ESS与纳什均衡可以表达相似的含
义，不过其规定了“一套行为模式，如果在一个群体
中该行为模式得到了普遍地遵从，那么偏离该模式的
少数人与其他人相比会处于劣势”。因此，我们就可
以使用ESS来表达“制度”，制度是诸多ESS中的一
种（如果只有一项ESS，那么要么不存在制度，要么
该制度就不是演化出来的，而是建构出来的）。
2015年4月13日星期一
17
（三）一个简明的制度演化的分析
1、协调博弈
人类交往行为首先要解决的问题是“协调”，例如交
通规则。
*交通博弈（The crossroads game）
对手的策略
减速保持原速
参与人的策略
减速
0
2
保持原速
3
-10
均衡在哪里？
p=0.8【p表示行为人选择减速的概率】
 3 p  (1  p)10  0 p  2(1  p)
2015年4月13日星期一
18
这是一项ESS，但是却不存在任何制度。
非对称形式的博弈：
B 的策略
减速保持原速
A 的策略
减速
0，0
2，3
保持原速 3，2 -10，-10
均衡在哪里？
对参与人A而言，根据q是否小于、等于或者大于0.8
，“减速”将是比“保持原速”更成功、一样成功或
者劣于后者的策略【q是参与人B选择减速的概率】。
最终的均衡会演化为：如果你是A，选择减速；如果
你是B，选择保持原速。或者相反。【这就是一项交
通规则。】
2015年4月13日星期一
19
2、产权博弈
产权制度是社会制度的基石。同样，产权也可以是演
化出来的。
“鹰-鸽博弈”（The hawk-dove game）
对手的策略
鸽鹰
参与人的策略鸽
1
0
鹰
2
-2
同样，在非对称形式的博弈下，也会演化出某种产权
规则。【注意：强盗规则也是一种产权规则。】
然而，人类社会之存在，还需要最重要的规则：互惠
。而在互惠博弈中，就出现了“囚徒困境”。
2015年4月13日星期一
20
四、囚徒困境
“囚徒困境”（Prisoner’s Dilemma）在经典博弈理论
中就存在。一个典型表达：
B
坦白不坦白
坦 (-3 , -3) (0 , -6)
A 白
不 (-6 , 0) (-1 , -1)
坦
白
均衡在哪里？
本应是（-1,-1）是最优结果，但是均衡却在（-3,-3）
，这就是囚徒困境。
2015年4月13日星期一
21
 自从这一悖论发现以后，囚徒困境引起无数理论家的注
意，也提出了无数解决囚徒困境的方法。最著名的是阿
克塞罗德（Robert Axelrod, 1943-）先后组织的两次竞赛
，邀请数十位全世界的专家编写应对囚徒困境的策略程
序，然而相互竞赛。两次竞赛结果一致，胜利者是最简
单的“针锋相对”（tit-for-tat）策略，由Anatol Rapoport
（1911-2007）提交。
 囚徒困境实际上揭示了人类社会存在的最大难题，一个
社会如何解决囚徒困境，决定了一个社会的命运。“针
锋相对”策略只是众多均衡策略中的一种，我们发现这
一策略，并不能保证我们能够生活在一个良序发展的社
会中。那么如何才能保证“针锋相对”策略成为现实的
均衡？或者，还有更好的均衡？
 囚徒困境，究竟是理性的困境还是道德的困境，还是人
性的困境？
2015年4月13日星期一
22

囚徒困境 - 复旦大学经济学院

Transcript 囚徒困境 - 复旦大学经济学院

Directory