Transcript m11

博弈模型
第一部分、博弈论基本概念
一、引言
宇宙间处处存在矛盾、冲突、争斗、合作、共生等
现象,这些现象很很早就引起各类学者的重视。数学被
认为是科学的语言,能否用数学语言描述各种带有矛盾
因素的模型或现象?博弈论便是这样一种处理各类带有
矛盾因素的模型的数学工具,现在已被数学、经济学、
社会学、军事学、生物学等专家广泛应用于讨论各类带
有冲突、矛盾、合作、竞争、进化等问题及相关模型之
中。博弈论已成为人们分析复杂系统与作重大决策时的
有力工具。
数学研究的方法是从大量的同类现象中抽象出基
本要素,进步构造出能描述这类现象的模型。许多冲
突模型在游戏中就存在,博弈论早期就是由研究国际
象棋开始的,所以被命名为Game Theory。人们很
快认识到此种理论可用于经济、政治、军事等领域,
所谓“世事纷争一棋局”,正说明其中一些道理。
1944年冯·诺曼(John,Von Neumann)和奥·摩根
斯特恩(Osker Mor-gentern)合著的《竞赛论与
经济行为》(Theory Of GSmes and Economic
Behavior)问世,总结了初期研究成果,奠定了博
弈论的基础。由于该理论主要讨论在复杂的矛盾冲突
等活动中,局中人(Player)采取何种合理的策略
(strategy)而能处于“优越”的地位,以便取得较
好效益,所以将它译为博弈论。
博弈论(Game theory)可以被定义为是对智能
的理性决策者之间冲突与合作的数学模型的研究。
博弈论为分析那些涉及两个或更多个参与者且其决
策会影响相互间的福利的局势提供了一般的数学方
法。就此而论,博弈论便为社会科学各分支的学者
和实际的决策者提供了非常重要的视角。博奕理论
家所研究的局势,不仅仅是“游戏(Game)”一词所
不幸表示的消遣活动,“冲突分析”或“相互影响
的决策理论”或许是描述博弈论更为准确的术语。
常见的游戏如棋类,两人对奕,此两人便称为
局中人,他们各有一套棋路,或善于用马,或长于
用炮。在每次轮到一方走子时,他可能有许多走法,
这些走法依赖于当时棋局形势以及棋手想要达到的
目的,以及他惯用的走法,从而形成他走棋的指导
思想。对奕时指导棋手行动的思想便称为策略。对
局终了可能有三种结局:甲胜;乙胜;和局。如果
用数量表示各种结局,例如胜家赢得彩金若干(设
所得彩金由输家付给,则输家当然失去若干),和
局时都不能取得彩金,此种表示结局的数称为支付
(payoff)。局中人、策略、支付是博弈论中常见
的基本概念。
有些游戏中并无“机会”(chance)因素,而
是全凭局中人的技艺。但某些游戏如“桥牌”、“打
百分”等,“机会”却有较大作用,分发到游戏者手
中的牌是随机的,它们情况要复杂一些。
游戏并非只有双方,可以有多方,如三人玩的跳
棋便有三个局中人。一般只有两个局中人的称为两人
博奕(或二人对策),有二个局中人的称为n人博弈。
在博弈论的语言中,一个博弈(game)指的是
涉及到两个或更多个参与人的某个社会局势。博弈所
涉及的参与人被称为局中人(players)。正如前面
博弈论的定义所述,博弈理论家一般要对局中人做两
个基本的假设:他们都是理性的和他们都是智能的。
这两个形容词在这里都是技术性术语,所以需要对其
逐一解释。
如果一个决策者在追逐其目标时能前后一致地做
决策,我们就称他是理性的(rational)。在基于决
策理论的基本结论而建立起来的博弈论中,我们假设
每个局中人的目标是追求其个人期望支付值的最大化,
支付则是用某个效用(Utility)尺度来度量的。理性
决策者应该按使自己的期望支付最大化的方式去做决
策的思想,至少可以追溯到伯努里(Bernoull,
1738),但这个思想在近代被辨明为是正当的,则应
归功于冯·诺依曼和摩根斯特恩(1947)。借助关于理
性决策者应该如何行动方面所做的一些非常弱的假设,
他们证明了,对任一理性的决策者,一定存在某种方
式对他所关心的各种可能结果赋予效用数值,使其总
是选择最大化自己的期望效用。我们称这一结论为期
望效用最大化定理(expected-utility maximization
theorem)。
二、 博弈论概述
• 1、博弈论几个经典的例子
• 2、博弈论的基本概念
• 3、博弈论与经济学
1、博弈论几个经典的例子
例一 囚徒困境
两个共同作案的犯罪嫌疑人被捕,并受到指控。
除非至少一个人招认犯罪,否则警方无充分证据将他
们按罪判刑。警方把他们关入不同的牢室,并对他们
说明不同行动带来的后果。如果两人都采取沉默的抗
拒态度,因警方证据不足,两人将均被判为轻度犯罪
入狱1个月;如果双方都坦白,根据案情两人将被判
入狱6个月;如果一个招工而另一个拒不坦白,招认
者因有主动认罪立功表现将立即释放,而另一人将被
判入狱9个月(所犯罪行判6个月,干扰司法加判3个
月)。
囚徒困境问题可以用图1-1所示的双变量矩阵
的形式来描述。
在此博弈中,每个囚徒有两种战略可供选择:
坦白(或招认)、不坦白(或沉默)。图1-1的矩
阵中每一个单元的两个数字表示一组特定的战略
组合下两个囚犯的收益(或支付、效用,这里已
经开始引用经济学的术语了),其中第1个数字是
囚徒1(习惯上是位于矩阵横行上的参与者)的收
益,第2个数字是囚徒2(位于竖行上的参与者)
的收益。如果囚徒1选择沉默,而囚徒2选择坦白,
那么囚徒1的收益是-9(表示判刑9个月),囚
徒2的收益为0(表示马上释放)。
博弈论囚徒困境问题提供的解是战略组合(坦白,
坦白)。严格的定义与详细的阐述留到第2章讨论。这
个战略组合是个占优战略组合,因为无论对方如何选
择,自己的最优选择都是坦白。如果囚徒2不坦白,囚
徒1坦白的话他就会马上获释,不坦白的话还得坐一个
月的牢,所以坦白比不坦白好;如果囚徒2坦白,囚徒
1坦白的话要判6个月,不坦白的话则要判9个月,这样
对囚徒1来说,还是坦白比不坦白好。因此坦白是囚徒
1的占优战略。同样的分析表明,坦白也是囚徒2的占
优战略。均衡的结果是每个囚徒都选择坦白,各判刑6
个月。
初次接触博弈论的人,难免会提出这样的问题:
战略组合(沉默,沉默),即如果两个人都不坦白,
各人只判刑一个月,不是比战略组合(坦白,坦白)
带来的各判刑6个月要好吗?如果经济学中的“有效”
的术语,(沉默,沉默)是一个有效结局。有效结
局并不是囚徒问题的博弈解,与此相关的理论问题
在第2章里可以找到答案。
与囚徒困境类似的博弈问题在经济、社会领域有
许许多多的版本,下面再举几个例子。
A,B两个公司以高低两种价格向市场竞相销售
同一种产品。双方协定以高价格垄断市场,可以
使彼此获得满意的利润收益,至少要好于双方都
以低价格出售产品的情形。但如果某一方坚持高
价,而另一方为了独占市场却将产品以低价格推
销(协定不受遵守而不受处罚),那么后者将获
高盈利而前者将损失惨重。市场上商品的价格战,
常常出现的结局一般是以低价格销售商品,消费
者从中得到好处,这种结果正是博弈论预测的合
理结局,你们不妨自己设计一个类似于图1-1的
A,B公司的收益矩阵。
公司产品的供给也是一个类似囚徒困境的问
题。每个人可供选择的战略是:出钱、不出钱。
如果大家都出钱兴办公共事业,所有人的福利都
会增加。问题是,如果我出钱,你不出钱,我得
不偿失;如果我不出钱你出钱,我就可以占你的
便宜。结果是每个人的最优选择都是不出钱。
再有个例子是军备竞赛问题。美苏冷战期间,
两个超级大国构成博弈的两方,可供选择的战略
是:扩军(增加军费运算)、裁军(减少军费运
算)。如果双方都热衷于扩军,两国都要为此付
出高额军费(从社会福利角度来看这是一笔庞大
的付收益);如果双方都选择裁军,则可省下这
笔钱;如果一方面裁军而另一方面进行扩军,扩
军的一方到时候就会以武力相威胁甚至发动战争,
这是,战争胜败双方的收益与支付将出现难以估
量的差异。我们可以给出一个假象的双变量收益
矩阵,如图1-2所示。
博弈论给出军备竞赛问题的是战略组合(扩军,
扩军),博弈理论预测双方都扩军可以达到对抗中
的相对稳定,这是一个符合现实的合理结局。
例二 海滩占位
甲乙两个冷饮摊贩,他们在一个直线状的海
滩上,以同样的价格、相同的质量向均匀分布在
海滩上的众多游客(他们来此享受海水和阳光,
进行日光浴或游泳活动)销售冷饮。既然是做生
意,目的总是希望尽可能多赚点钱,甲乙两人又
是在同一地点做同样的生意,竞争就是不可避免
的事情了。这两个冷饮摊贩应该如何安置自己的
摊位,才能相安无事地做各自的生意呢?
假定游客总是到距离自己最近的摊位购买冷饮,
这也是合乎常情的。为了叙述方便,不妨将海滩长
度标准化为1。按通常的想法,如果海滩左端定为0,
甲在1/4处设摊,乙在3/4处设摊(见图1-3),这
样既方便了顾客,又照顾到甲乙二人各占约一半顾
客的生意,可谓公平合理。问题不是简单的解决了
吗?
博弈论对海滩占位问题的解是甲乙二人均选择在
海滩中点(1/2处)设摊,而不是原先想象的甲乙分
别在1/4和3/4处占位,即使集中在一起营业会给海滩
两端的顾客带来不便。
社会经济领域内,就有不少与海滩占位博弈类似
的现象。比如,在城市商业网点的布局上,常常会出
现相同行业的多家商店都挤在一起,形成“电子一条
街”、“装饰城”、“饮食广场”等。只要把这个城
市想象成东西或南北方向的一个“海滩”,从博弈论
中就不难找到答案。
又如,同一城市的不同航空公司经营的飞往同一
目的地的航班,常常出现起飞时刻几乎相同的现象。
就是在文化娱乐方面,也能运用海滩占位的
博弈结论予以解释。如果把电视中高雅艺术节目
与较低档的节目比作海滩的两端,那么众多的电
视观众就可以看作是散布在海滩上的游客。电视
台常常将黄金时段的电视节目定位在中等档次,
以提高收视率。
例三 智猪争食
猪圈里喂养两头猪,一头大猪,一头小猪。猪圈的
一边有一个猪食槽,对面的一边装有控制开关。只要猪
用鼻头去拱控制开关,就会一次有6个单位的饲料流进
猪食槽。如果大猪和小猪都不去拱开关,那么它们都吃
不到饲料。如果小猪去拱开关,那么等它跑到另一边的
猪食槽时,大猪已将流出的饲料全部都吃光了。如果大
猪去拱开关,那么等它跑到猪食槽旁边,小猪差不多已
吃掉了5个单位的饲料,结果大猪只能吃到1个单位的饲
料。如果大猪、小猪一起去拱开关,再一起跑去吃食,
那么大猪可抢到4个单位的饲料,小猪也只能吃掉2个单
位的饲料。假定每拱一次开关需要消耗0.5个单位饲料
的能量。大猪和小猪长期在一起进食,上面所说的情况
(信息、知识)已为它们所掌握。仿照例一囚徒困境的
情形,就可以画出如图1-4所示的双变量矩阵。
在这个博弈中,大猪与小猪都有两种战略选择:
拱、不拱。在这个例子中可以发现,不论大猪选择拱
还是不供,小猪的最优选择总是不拱。这是因为,如
果大猪去拱开关,小猪不拱(等在猪食槽旁边)比拱
后再跑回去争食要划算(5>1.5);如果大猪不去拱
开关,小猪不拱顶多都不得食,而去拱就要白白消耗
能量,不划算(0>-0.5)。所以,不拱是小猪的占优
战略。给定小猪总是选择不拱,大猪的最优选择总是
拱。这样,智猪争食问题的博弈论解是战略组合(拱,
不拱)。
智猪争食模型在社会经济领域也可以找到许多实例。
比如股份公司中就有大股东和小股东之分。股东
都有监督经理的职能,他们从监督中得到的收益并不
一样。在监督成本相同的情况下,大股东从监督中得
到的好处显然多于小股东。通常在股份公司里,总是
由大股东担当监督任务,而小股东则搭大股东的便车。
股票市场上也有类似现象。一般大户总是重视搜
集信息,积极进行行情分析。对小户而言,跟大户是
常见现象。
进行产品研究、开发以及新产品广告宣传时,对
大企业而言,其资金实力及可望的收益会使大企业有
投资的积极性,而小企业往往会得不偿失。小企业通
常采取与大企业建立协作生产或移植部分技术的做法。
介绍上面三个博弈论的例子,首先,是让你们
对博弈论有一个初步的感性认识。虽然在阐述中也
涉及了专业术语,诸如理性、有效、战略、占优战
略、博弈解等,但是这些术语的含义是你们可以接
受的。其次,通过这些例子想给你们留下一个深刻
印象:博弈论与社会经济等诸多领域的联系是如此
广泛、如此密切。下面章节对囚徒困境博弈在不同
的理论的高度还要进行研究和分析,这个例子还会
在不同地方被引用。
二、博弈论的基本概念
什么是博弈论?简而言之,博弈论是研究多人
谋略和决策问题的理论。要较深入地理解这句话,
还需要关注以下一些问题。首先,一个博弈问题必
须至少有两个参与博弈的主体(可能是个人,也可
能是团体,如企业、国家),他们在博弈过程中都
有各自的切身利益。由于利益的驱动,他们在作出
自己的决策时,总想使出最好的招数(最优战略)。
其次,博弈中的各个主体之间总不可避免地存在着
竞争。竞争自然贯穿博弈的全过程,竞争又将博弈的主
体紧紧地联系在一起,相互依存,相互较量(说得通俗
一些就是“钩心斗角”)。再者,既然主体间要进行较
量,每一个博弈主体就不会闭目塞听,靠灵机一动想出
高招去赢得对手,而是需要“眼观六路,耳听八方”。
尽量掌握博弈中对手的特点和已经采取或可能采取的行
动的知识和信息。最后,就是博弈主体最为关心的博弈
结果了。博弈结果随主体之间使出招数(战略)的不同
而不同。博弈结果通俗的说就是输赢的大小,博弈论用
收益(或效用)来描述博弈的结果。博弈论就是从理论
上进行研究和分析,为博弈预测出一个理想的结局。预
测结局的正确性体现在博弈主体各方面都能自愿选择理
论给他推导出的战略,并且没有博弈主体愿意独自偏离
他依照博弈理论所选定的战略。可想而知, 每个博弈
主体所选战略一定是针对其他主体所选战略的最优反应。
以上只是对博弈论粗线条的描述,为了后面对博
弈理论进行深入的讨论,下面对博弈论的几个重要的
基本概念给出明确的定义。
(1)参与者。参与者指的是一个博弈中的决策主体,
通常又称为参与人或局中人。参与者参加博弈的目的
是通过合理选择自己的行动,以期取得最大化自己的
收益(或效用)水平。参与者可以是自然人,也可以
是企业、团体、国家,甚至是国家组成的集团(如欧
盟、OPEC等)。对参与者而言,在博弈过程中,他
必须有不同的行动可作应对选择。在博弈的结局中,
他能知道或计算出各参与者不同的行动组合产生的效
益(或效用)。
在博弈论中,为了分析研究问题的需要,还有
一个虚拟参与者——“自然”。这里,“自然”就是
指不以博弈参与者的意志为转移的外生事件。“自
然”选择的是外生事件的各种可能现象,并且用概
率分布来描述“自然”的选择肌理。
例四 房地产开发博弈
现有开发商A(按博弈论说法是参与者1)正在
考虑是否要投资开发一座商住楼。他面临的行动选
择是开发或不开发。如果要开发,就必须投入1亿
元资金;如果不去开发,投资就是0。房地产开发
市场总是存在风险的。首先,风险来自市场需求的
不确定性,需求可能大,也可能小。其次,风险来
源是竞争对手——房地产开发商B(参与者2)。开
发商B也面临与开发商A相同的决策问题。
假定市场上有两座楼出售,需求大时,每座售价
可达1.4亿元;需求小时,售价为7千万元。如果市场
上只有一座楼出售,需求大时,售价高达1.8亿元;
需求小时,也能卖出1.1亿元可以用图1-5所示的双变
量矩阵描述这个博弈问题。
在这个例子中,市场需求就是作为虚拟参与者
“自然”出现在博弈问题之中。“自然”(市场需
求)是以一定的概念表现出不同的状态(需求大还
是小)。不言而喻,“自然”直接关系到博弈的决
策结果。这个例子几乎涉及到博弈论讨论的重要问
题的方方面面。相关的研究分析将在后面有关章节
阐述。
在博弈论的讨论中,一般都是用i=1,2,…,n 代
表参与者,用N代表“自然”。
(2)信息。信息指的是参与者在博弈过程中能了解到
和观察到的知识。这些知识包括“自然”的选择,其
他参与者的特征和行动等。信息对参与者是至关重要
的,因为一个参与者在每一次进行决策之前,必须根
据观察到的其他参与者的行动和了解的有关情况作出
自己的最佳选择。
由于信息内涵的不同,派生出各种有关信息的概
念将博弈论划分成不同的类型,因此寻求博弈间的方
法也不同。本着由浅入深认识事物的规律,这里不打
算把这些概念一股脑儿和盘托出,而是分散到以后的
章节中,逐步予以介绍。这里只就信息有关的两个基
本的、重要的概念进行讨论。
首先,关于“共同知识”的概念。一个博弈问题
所涉及的“自然”的不同选择、参与者的行动以及相
应产生的效用(效果、收益)都是一种知识(信息)。
比如,房地产开发商博弈问题,市场需求的大小,开
发商A、B是开发还是不开发,不同情况下的利润和亏
损,都是知识。开发商A、B知道这些知识也是一种信
息,开发商A知道开发商B知道这些知识也是一种信息,
如此等等。博弈论所谓的共同知识指的是“所有参与
者知道,所有参与者知道所有参与者知道,所有参与
者知道所有参与者知道所有参与者知道……”的知识。
可以联想到市场需求大小是一种知识。可能开发商A、
B都知道市场需求有大与小两种状态,但是开发商A并
不知道开发商B知道市场需求,这时市场需求就不构成
共同知识,而只能说是A与B“共同”享有的知识。
为了说明共同知识的重要性,我引用一个众所周
知的寓言。故事发生在一个村庄,村里有100对已婚
夫妇,他们都是地道的逻辑学家,但也有一些多少有
点奇特的社会风俗。每天晚上,村里的男人们都将点
起篝火,绕圈围坐举行一个会议,且每个人都谈论自
己的妻子。在会议开始时,如果一个男人有理由认为
他的妻子对他总是守贞的,那么他就对在坐的男人们
赞扬她的美德。另一方面,如果在当前会议之前的任
何时间,只要他发现了他妻子不贞的证据,那他就会
悲鸣恸哭,并祈求神灵严厉地惩罚她。再则,如果一
个妻子曾有不贞,那她和她的情人将会立即通知村里
除她丈夫外所有的男人。所有这些传统都是村民们的
共同知识。
事实上,每个妻子都已对自己的丈夫不忠。于是,
每个丈夫都知道除自己的妻子外都是不贞的女人,而
对自己的妻子每晚都要赞扬。
这种状况持续了很多年,直到一个传教徒走访到这
个村庄。他坐在髯火旁参加了一次会议并听到每个男
人都赞扬自己的妻子之后,他站到丈夫们围坐的圆中
心,大声地说:“这个村里有一个妻子已经不贞了。”
在此后的99个晚上丈夫们继续开会并赞扬他们的妻子,
但在第100个晚上,他们全都悲鸣偷哭并祈求严厉地惩
罚他们的妻子。
为了理解在这个寓言中发生了什么,首先注意到
若只有一个妻子不贞,则因为(知道没有另外的不贞
女人,且若有的话他是知道的)她丈夫能够立刻知道
这个不贞的女人是他的妻子,所以在传教徒访问后的
第一天晚上就会悲鸣恸哭。而且,由归纳法可以证明,
对于1与100之间的任一正整数,如果恰有个不贞的妻
子,那么在传教徒访问后的连续个晚上,所有的丈夫
仍全都赞扬自己的妻子,但在第个晚上,个不贞妻子
的丈夫会悲鸣恸哭。于是,在99个赞扬之夜过后的第
100个晚上,每个丈夫都知道一定有100个不贞的妻子,
包括他自己的妻子在内。
现在,让我们试问一下,这个传教徒告诉了这些丈
夫们他们所不知道的什么?每个丈夫都已经知道了99
个不贞的妻子,故这对任何人来说都不是新闻。但
“这个传教徒对所有男人做了一个声明”是共同知识,
从而这个传教徒所声明的内容,即有一个不贞的妻子,
也就成了所有男人中间的共同知识。在传教徒宣告之
前,每个形如“(每个丈夫知道)有一个不贞的妻子”
的判断对于99都是正确的,但对100就不正确了。例如,
若从1到100对丈夫们编号,则1已经知道2已经知道3已
经知道…99已经知道100的妻子是不贞的,但1不知道2
已经知道3已经知道…99已经知道100已经知道1的妻子
是不贞的。因而,从这个寓言中引申出的含义是,从
一个共同知识的事实推出的结果与从(例如)只知道
每个人已经知道每个人已经知道的一个事实推出的结
果可以非常不同。
其次,关于“完全信息”的概念。完全信息
是博弈论非常重要的基本概念,有了上述的共同
知识概念,这里就可以给出完全信息的严格定义。
完全信息指的是所有参与者各自选择的行动的不
同组合所决定的各参与者的收益对所有参与者来
说是共同知识。简单通俗地说,完全信息是指每
一个参与者对自己以及其他参与者的行动,以及
各参与者选择的行动组合产生的收益等知识有完
全的了解。
(3)战略。战略是参与者如何对其他参与者的行动
作出反应的行动规则,它规定参与者在什么时候该选
择什么行动。或者说。战略是参与者“相机行动方
案”。
博弈论中,常用小写 s i 表示参与者 i 的一个战略,
用大写 Si  { si } 表示参与者 i 的所有可选择的战略集合
(又称为参与者 i 的战略空间)。如果 n 个参与者每个
选择一个战略,那么 n 维向量 S  ( s1 , s2 , , sn ) 称为一个
战略组合,其中 s i 是参与者 i 选择的战略。
如果博弈过程中所有参与者同时行动,没有任何人
获得他人行动的信息,那么战略选择就变成简单的行动
选择。这时,战略与行动是相同的,也就不用区分。在
房地产开发问题中,如果市场需求大,开发商 A、B 同
时行动,这时每个人只有两种战略,也就是两种可能的
行动。战略空间也就是行动空间,即 S A  SB  {开发,不
开发}。
如果开发商 A、B 行动有先后次序,那么个人的战
略以及战略组合就不一样了。比如,A 行动在先,A 有
两个战略,即 SA={开发,不开发}。B 在得知 A 的行动
后再选择自己的行动,B 就有四个战略,即 SB={(开
发,开发)
,
(开发,不开发),(不开发,开发),(不开发,
不开发)}。
B 的四个战略中的第一个行动是针对 A 的“开
发”的行动作出的选择,
而第二个行动是针对 A 的“不开
发”的行动作出的选择。如果把 A 的两种战略和 B 的四
个战略组合起来,就能形成八种战略组合。比如,战略
组合 S=(开发,
(不开发,开发)
)就表示 A 的战略是
“开发”,B 的战略是“A 开发,我不开发;A 不开发,
我开发”。
战略是一个与过程有关的概念,行动是与时序无关
的动作。打个比方,行动好比拳术中的一招一式,战略
就是一招一式构成的套路。
(4)收益。在博弈论中,收益指的是在一个特定的战
略组合下参与者得到的确定效用或期望效用。效用通
常表现为博弈结果中 的输赢、得失、盈亏。效用必须
能用数值刻画其大小。收益是博弈参与者真正关心的
问题。
博弈论的一个基本特征是一个参与者的收益不仅
取决于自己的战略选择,而且取决于所有参与者的战
略选择。或者说,收益是所有参与者各选定一个战略
形成的战略组合的函数。在博弈论中,通常用ui表示
参与者i的收益,一个战略组合是,每个参与者的收益
可以表示为
ui  ui ( s1 , s2 ,
, sn ), i  1, 2,
,n
例如,在囚徒困境博弈中,记囚徒 1 为参与者 1,
其他 2 为参与者 2 ,他们的收益是被判刑的月数,就
有 u1(坦白,坦白)=-6,u2(坦白,沉默)=-9 等 8 个收益值。
又如,在房地产开发博弈中,开发商 A、B 分别记
为参与者 1、2,他们的收益是利润水平(单位:亿元)。
如果市场处于需求大的状态就有 u1(开发,开发)=u2(开发,
开发)=0.4,u1(开发,不开发)=u2(不开发,开发)=0.8,u1(不
开发,开发)=u2(开发,不开发)=u1(不开发,不开发)=u2(不
开发,不开发)=0。假定 A 知道市场需求选择大小的概率
分布为 p=P(需求大)=0.6,1-p=P(需求小)=0.4,那
么,给定参与者 1(开发商 A)选择开发,参与者 2(开
发商 B)选择开发的期望收益为
E[u2(开发,开发)]=0.6×0.4+0.4×(-0.3)=0.12
(5)均衡。在博弈论中,均衡指的是所有参与者的最
优战略的组合,通常记为
s  (s , s ,
*
*
1
*
2
*
n
,s )
*
s
其中, i 是参与者 i 在均衡状态下的最优战略,它是参
与者 i 所有可能的战略中使 ui 或 E[ui]最大化的战略。通
常 ui 是所有参与者的战略组合的函数,而参与者 i 的最
*
s
优战略又是依赖于其他参与者的战略选择。所以说 i 是
在给定其他参与者的战略选择[记为 s-i=(s1,…,si-1 ,si +
1,…,sn)]条件下参与者 i 的最优战略,即
ui ( s1 , s2 ,
, si 1 , si* , si 1 ,
, sn )  ui ( s1 , s2 ,
, si 1 , si, si 1 ,
, sn )
*


s

S
,
s

s
对一切 i
i
i 。显然,如果对所有的 i=1,2,…,n 上
式同时成立,就产生一个均衡。
例如,在囚徒困境博弈中,由于
u1(坦白,坦白)=-6>-9=u1(沉默,坦白)
u1(坦白,沉默)=0>-1=u1(沉默,沉默)
*
s
因此,“坦白”是囚徒 1 的最优战略,即 1 =坦白。同
*
s
样可以验证,囚徒 2 的最优战略是 2 =坦白。因此,囚
*
*
*
徒困境问题的均衡是 s  ( s1 , s2 ) =(坦白,坦白)。
这里再提出一个“均衡结果”的概念。通过一个例子
可以很容易理解,这里就不再给出均衡结果的定义了。
例如,在房地产开发博弈过程中,开发商 B 在开发商 A
之后选择行动。假定市场需求大,开发商 A 的最优战略
是“开发”,开发商 B 的最优战略是(开发,开发),即“如
果 A 开发,我开发;如果 A 不开发,我还是开发”。所
以均衡是战略组合(开发, (开发,开发)),而均衡结果
是(开发,开发)。这个均衡结果表示开发商 A 先作出开
发的决策,开发商 B 在观察到 A 决定开发之后,又作出
开发的决策。这里 B 选择的开发是均衡情况下 B 的最优
行动,而不是 B 本身的最优战略。
均衡是博弈论最重要、最基础的一个概念,对于
不同类型、不同条件的博弈问题又形成各种各样特定
的均衡的概念,它们构成博弈论五彩缤纷的预测结果。
各种均衡在社会经济等不同的领域都展现出广阔的应
用前景。读者充分、深刻地理解这些均衡概念是非常
重要的。
有了上面完全信息的概念,再结合参与者行动的
先后次序的界定,就可以对博弈论的类型作出划分。
如果参与者同时选择各自的行动,则这类博弈称为
静态的。值得注意的是,这里所说的“同时”具有
双层含义。一种含义就是“同时”的字面解释,也
就是参与者在同一时间一起行动;另一种含义是参
与者行动虽然有先后,但后行动者并不知道先行动
者采取了什么具体行动。
动态博弈指的是参与者的行动有先后顺序,并
且后行动者能够观察到先行动者所选择的行动。后
行动者就可以依据获得的信息,采取自己认为最有
力的战略。凭直观理解,完全信息总要比不完全信
息要好一些,静态的情形又要比动态的情形要简单
一些。如果将信息的完全与不完全、状态的静与动
交叉组合,就构成了四种不同类型的博弈。从简单
到复杂排列,就是完全信息静态博弈——完全信息
动态博弈——不完全信息静态博弈——不完全信息
动态博弈。
3、博弈论研究著名学者简介
(1)、计算机之父、博弈论创始人——冯·诺伊曼
约翰·冯·诺伊曼(John Von Neumann,
1903—1957),美籍匈牙利人。1921—1923年在
苏黎世大学学习。很快又在1926年以优异的成绩
获得了布达佩斯大学数学博士学位,此时冯·诺伊
曼年仅22岁。冯·诺伊曼是20世纪最优秀的数学家
之一,因1946年发明电子计算机而被西方人誉为
“计算机之父”。
1927—1929年冯·诺伊曼相继在柏林大学和汉堡大学
担任数学讲师。1930年接受了普林斯顿大学客座教授的职
位,西渡美国,1931年成为该校终身教授。他是美国国家
科学院、秘鲁国立自然科学院和意大利国立林且学院的院
士。
冯·诺伊曼建立了算子代数这门新的数学分支。在格
论、连续几何、理论物理、动力学、连续介质力学、气象
计算、原子能和经济学等领域都做过重要的工作。然而,
冯·诺伊曼对人类的最大贡献是对计算机科学、计算机技
术和数值分析的开拓性工作。
冯·诺伊曼于20世纪20年代开始创立博弈理论,1944
年他与经济学家奥斯卡·摩根斯特恩合作出版的巨著《博
弈论与经济行为》,标志着现代系统博弈理论的初步形成。
冯·诺伊曼和摩根斯特恩在该书中提出的标准型、扩展型
和合作型博弈模型解的概念和分析方法,奠定了这门学科
的理论基础。
(2)、博弈论大师——纳什
纳什(John Nash),1928年6月13日出生于美国弗吉尼亚
西部的“布鲁菲尔德”(Bluefield),高中毕业后进入卡内基
-梅隆大学学习化学工程专业, 由于对数学的喜好和天赋,
一年后正式转到数学系。在毕业时,他取得数学学士和理学
学士两个学位。
1950年纳什22岁时通过论文答辩获得普林斯顿大学的博
士学位。正是这篇天才论文,奠定了他博弈论大师的地位,
并为他铺垫了通向诺贝尔经济学奖的道路。1951年纳什又发
表了第二篇题为“非合作博弈”(Non—CooperativeGames,
Annals of Mathematics1951)的论文。在此之前,他还撰写
了“讨价还价问题”。1958年《财富》杂志把纳什评为新一
代
天才数学家中最出色的人物。也许是天妒英才,正当麻省理
工学院准备提升他为正教授时,年方30岁的纳什得了严重的
“妄想型精神分裂症”,从此他从学术界销声匿迹,饱受精
神病的折磨长达30多年。
纳什的主要贡献是1950年和1951年发表的两篇关
于非合作博弈论的重要论文,他的研究彻底改变了人们
对竞争和市场的看法。1950年纳什发表的“非合作对策”
博士论文提出了与诺伊曼的合作对策论相对立的观点。
纳什在论文中引入了著名的“纳什均衡”理论,对有混
合利益的竞争者之间的对抗进行了数学分析。他证明了
非合作博弈及其均衡解,并证明了均衡解的存在性,即
著名的纳什均衡。从而揭示了博弈均衡与经济均衡的内
在联系。纳什的研究奠定了现代非合作博弈论的基石,
他是继冯·诺伊曼之后最伟大的博弈论大师之一,他提
出的著名的纳什均衡的概念在非合作博弈理论中起着核
心作用。后续的研究者对博弈论的贡献,都是建立在这
一概念之上的。纳什均衡的提出和不断完善为博弈论广
泛应用于经济学、管理学、社会学、政治学、军事科学
等领域奠定了坚实的理论基础。
(3)、动态博弈理论的开创者——泽尔腾
泽尔腾(R.Selten)1930年10月10日出生于德国
的布雷斯劳(二战后,此地归于波兰),1951—1957
年,他在法兰克福大学学习数学。1961年在马恩
法兰克福大学获得了数学博士学位。1967—1968
年,泽尔腾到加州大学伯克利分校做客座教授,
1969—1972年在柏林大学做经济学教授,而后在
比勒菲尔德大学工作了12年。1984年泽尔腾离开
比勒菲尔德大学,到波恩大学从教,致力于实验经
济学的研究。
泽尔腾的主要贡献是在纳什均衡的基础上深入研
究了动态博弈问题。泽尔腾通过研究发现,“纳什均
衡”概念在实际应用中存在缺陷。纳什均衡的缺陷是,
一般情况下能够保证存在性,但不能保证唯一性。大
多数情况下纳什均衡有多个,由此带来的问题就是,
多个纳什均衡中究竟哪一个才是博弈的理性结局?泽
尔腾认为“纳什均衡”概念只适用于分析一些静态的
“重复性博弈”,而不适用于分析动态博弈问题。他
对“纳什均衡”概念进行了精心的研究,先后提出了
两个著名均衡新概念:子博弈完美均衡,颤抖手完美
均衡。他采用“逆向归纳法”,在多个纳什均衡中剔
除了一些按照一定规则不合理的均衡点,从而形成了
纳什均衡的“精炼”概念,在扩展型博弈分析方面取
得了重大成果。
(4)、不完全信息博弈理论的奠基者——海萨尼
约翰·海萨尼(John C.Harsanyi),美国人,由于受到纳
什成果的影响,从20世纪50年代开始潜心于博弈论的研究。海
萨尼的研究成果非常丰富:(1)在合作博弈论研究上,给出了合
作博弈的通解——N人议价模型,建立了一个合作博弈论的非
合作博弈模型;(2)在不完全信息博弈研究上,提出了以类型为
基础的不完全信息博弈建模方法,引入了贝叶斯技术求解方法,
对混合策略进行了重新解释,提出了基于随机变量的变动收益
博弈模型;(3)在均衡选择研究上,与泽尔腾合作完成了《博弈
论均衡选择的一般理论》。
约翰·海萨尼通过多方面的研究将自己的思想构成了一个
完整的体系,他提出的不完全信息博弈思想及贝叶斯纳什均衡
概念,对博弈论和经济学产生了重大影响。
(5)、米尔利斯
詹姆斯·亚历山大·米尔利斯(J.Y.Morlis),出生于1936年7
月5日苏格兰柯库布里郡明尼加大。1996年10月8日,由于对
不对称信息条件下的激励经济理论做出了基础性贡献,与威
廉·维克里分享诺贝尔经济学奖。
米尔利斯对不对称信息经济学的贡献包括:在最优所得
税机制设计问题上,探讨了政府在面临信息不完全的情况下如
何去设计出一种“激励性相容”的最优税收体制,提出了显示
原则:解决激励问题的关键是要通过一种与个人利益相容的方
式,引导所有人如实表露自己的信息;在最优契约设计问题上,
以“委托人一代理人方法”对道德危险问题进行了重新阐
述,得出的结论是:为了使代理人有足够的激励去自动选择有
利于委托人的行动,就必须在合同的设计中让代理人也承担一
部分结果不确定的风险;在信号筛选理论方面,提出了区分
不同信号的“斯彭斯一米尔利斯条件”。
第二部分、完全信息静态博弈
•
•
•
•
•
•
博弈的标准式表述
严格占优战略均衡
逐步剔除严格战略均衡
纳什均衡应用举例
混合战略纳什均衡
纳什均衡的存在性
一、博弈的标准式表述与纳什均衡
本部分重点介绍完全信息静态博弈,它是一种最基
本的最简单的博弈。上一部分给出了完全信息和静态博
弈的概念,这里简要回顾一下。完全信息指的是博弈的
每一个参与者对自己以及其他参与者的行动空间、收益
函数等知识是完全了解的。静态博弈指的是博弈的参与
者同时选择各自的行动,如果选择行动有先后的话,那
么后行动者也不知道先行动者采取了什么行动。博弈论
入门的两个最基本问题是:如何描述一个博弈问题和如
何求得博弈问题的解。本章对完全信息静态博弈的标准
式表述、寻求均衡(博弈预测的结果)方法以及纳什均
衡的有关定义、理论与方法进行讨论。
(一)、博弈的标准式表述
博弈的标准式表述又称为战略式表述。标准式表
述含有以下 3 个要素:
(1)博弈参与者集合 i  ,   {1, 2, , n} ;
(2)每个参与者的战略空间 Si , i  1, 2, , n ;
(3)每个参与者的收益函数
ui ( s1 , s2 ,
, si ,
, sn ), i  1, 2,
,n
定义
在一个有个参与者的博弈中,参与者的战略空
间为 S1 , S 2 , , S n ,收益函数为 u1 , u2 , , un ,标准式
表述用 G  { S1 , S 2 , , S n ; u1 , u2 , , un } 表示此博弈。
如果一个博弈的参与者的个数 n 是有限的,并且
每个战略空间Si 均只包含有限个战略si ,这种博弈就
称为有限博弈。第 1 章所举的囚徒困境博弈和智猪争
食的博弈都是有限博弈。两个参与者的有限博弈的标
准式表述就可以用双变量矩阵直观地表示出来。习惯
上,参与者 1 及其战略(行动)S1 放置在矩阵行的位
置;参与者 2 与其战略(行动)S2 放置在矩阵列的位
置。参与者 1 的收益总是矩阵中双变量的第一个分量;
参与者 2 的收益由双变量的第 2 个分量给出。
(二)、严格占优战略均衡
博弈分析的目的是预测博弈的均衡结果。简言之,
就是求解博弈问题。这里需要假定“参与者是理性的”
是共同知识。经济学对理性的描述是,在给定的约束条
件下追求效用最大化。参与者在博弈过程中,在每一步
斟酌的取舍(选优剔劣)时,都应依据这个假定行事。
一般说来,由于每个参与者的收益是博弈中所有参与者
所选战略的函数,因此,每个参与者的最优战略选择必
须考虑所有其他参与者的战略选择。但在一些特殊的博
弈中,一个参与者的最优战略可能不需要考虑其他参与
者如何选择战略,就是说,不论其他参与者选择什么战
略,该参与者有唯一一个最优战略,这个最优战略称为
严格占优战略。下面给出严格占优战略定义。



s

S
,
s

s
i
i ,下式
定义 如果对任一 i

ui s1 ,
, si 1 , si , si 1 ,

, sn  ui  s1 ,
, si 1 , si , si 1 ,
, sn 
对其他参与者由其战略空间 S1, ,Si1,Si 1, , Sn 中的战
略形成的每一种可能的战略组合  s1, , si1, si1, , sn  都

s
成立,那么战略 i 称为参与者 i 的严格占优战略。
严格占优战略的定义隐含其唯一性。不难检验,

s
在囚徒困境问题中, i =坦白是囚徒 1 的严格占优战

s
略; 2 =坦白是囚徒 2 的严格占优战略。在智猪争食

s
问题中, 2 =不拱是小猪的严格占优战略,但是对大
猪来说,却不存在严格占优战略。
显然,在一个博弈问题中,如果所有参与者都有一
个严格占优战略,那么每一个理性的参与者谁也不会放
弃他的严格占优战略。这样,由全部严格占优战略就构
成博弈的解——严格占优战略均衡。
定义
在博弈的标准表述式中,如果对所有参与者
i  , s1是i 的 严 格 占 优 战 略 , 那 么 , 战 略 组 合
s    s1 ,
, sn  称为严格占优战略均衡。



s

s
,
s
 1 2  =(坦白,
例如,在囚徒困境博弈问题中,
坦白)是严格占优战略均衡。
应该指出的是,严格占优战略只要求每个参与者是
理性的,而并不要求每个参与者知道其他参与者是理性
的(即不要求“理性”是共同知识)。这是因为,不论
知道与否,严格占优战略总是一个理性参与者的最佳选
择。
值得注意的是,囚徒困境博弈暴露了个人理性与
团体理性的冲突问题。因为囚徒1与囚徒2都选择沉默,
每人只判刑1个月,这显然要比(坦白,坦白)都判刑
6个月有利。(沉默,沉默)不是一个均衡,因为它不
满足个人理性的要求。换个角度考虑,即使两个囚徒
在被捕前订立了攻守同盟(拒不坦白),这个同盟也
没有用,因为没有人会严格遵守同盟协定(这时,只
要谁一坦白,他就立即获得释放)。
(三)、逐步剔除严格劣战略均衡
寻求博弈问题的解的过程就是参与者选择战略的
过程。选择有两种途径:选优与去劣。上面寻求严格
占优战略均衡走的就是选优的路子。下面介绍的逐步
剔除严格劣战略寻求均衡走的就是去劣的路子。
定义 在标准式表述的博弈中,设 si 和 si 是参与者
i 的两个可选战略。若下式
ui  s1 , , si 1 , si, si 1 , , sn   ui  s1 , , si 1 , si, si 1 , , sn 
对其他参与者由其战略空间
S1, ,Si 1,Si 1 ,
, Sn 中的战
略形成的每一种可能的战略组合  s1 , , si 1 , si 1 , , sn  都
成立,那么称 si 相对于 si 是严格劣战略。
研究图2-1所示的一个博弈问题。
图 2-1
参与者 2
左
中 右
参与 上 1,0 1,2 0,1
者 1 下 0,3 0,1 2,0
在这个博弈问题中,参与者 1 的战略空间为 S1={上,
下},参与者 2 的战略空间 S2={左,中,右}。不难看出,
对参与者 1 和参与者 2 来说,都不存在严格占优战略。
但参与者 2 发现,战略“右”严格劣于战略“中”(因
为 1<2,且 0<1)。因此,理性的参与者 2 是不会选择“右”
的。这时,如果参与者 1 知道参与者 2 是理性的,他就
可以把“右”从参与者 2 的战略空间 S2 中剔除。
这样一来,参与者1就可以将图2-1所示的博弈视
同为图2-2所示的博弈。
图 2-2
参与者 2
左
中
参与 上 1,0 1,2
者 1 下 0,3 0,1
在图2-2中,对参与者1来说,战略“下”相对于战
略“上”是严格劣战略(因为0<1,且0<1)。于是,如
果参与者1是理性的(并且参与者1知道参与者2是理性
的,原博弈才能简化为图2-2),那么参与者1就不会
选择“下”。这时,如果参与者2知道参与者1是理性的,
并且参与者2知道参与者1知道参与者2是理性的(只有
这样,参与者2知道原博弈已被简化为图2-2所示博
弈),那么参与者2就可以把“下”从参与者1的战略空
间S1中剔除。
这样一来,参与者2又可以进一步将图2-2所示
博弈简化为图2-3所示博弈
图 2-3
参与者 1 上
参与者 2
左
中
1,0 1,2
在图 2-3 中,对参与者 2 来说,战略“左”相对于
战略“中”是严格劣战略(因为 0<2),于是,理性的参

与者 2 不会选择“左”,结果仅剩的 s =(上,中)就
成为原博弈问题的解。
上面的过程是一个逐步剔除严格劣战略最终找到均
衡的过程,这就形成下面的概念。

 是逐步剔除严格劣战略后最终
定义
剩下的唯一的战略组合,则该战略组合被称为逐步剔除
严格劣战略均衡。如果这种唯一的战略组合是存在的,
则称该博弈是逐步剔除严格劣战略可解的。


s

s
,
1
如果
, sn
注意上述定义中“唯一”这个限定词。如果逐步剔
除后剩下的战略组合不唯一,那么这个博弈是逐步剔除
严格劣战略不可解的。正如只有少数特殊的博弈问题可
以找到严格占优战略均衡一样,逐步剔除严格劣战略的
方法也不是总能奏效的,很多博弈问题是无法用逐步剔
除严格劣战略的方法找到均衡的。图 2-4 所示的博弈,
既找不到严格占优战略均衡,也找不到逐步剔除严格劣
战略均衡(可以看出,一开始在两个参与者各自的战略
空间 S1={上,中,下}与 S2={左,中,右}中就找不出
严格劣战略)。
那么,图2-4的博弈有没有均衡结果呢?后面
我们还会讨论。
图 2-4
参与者 2
左
中
右
参与 上 3,3 4,1 1,2
中 4,0 0,2 1,1
者 1 下 2,4 2,3 2,4
另外,严格占优战略均衡和逐步剔除严格劣战略均
衡对参与者理性的要求是不同的。前者只要每个参与
者是理性的,而后者却要求理性是参与者的共同知识。
只有在“参与者2是理性的,且参与者1知道参与者2是
理性的”条件下,图2-1的博弈才能简化为图2-2的
情形。一共用了三步剔除得到了结果。显然,参与者
的战略空间越大,剔除的步骤就越多,对共同知识的
要求就越严格。
大家可能提出这样的问题:严格劣战略是一个相对
概念,从剔除开始甚至到某一步,若干参与者都存在
不止一个严格劣战略,那么剔除严格劣战略先后顺序
不同是否影响均衡结果?答案是不影响。因为,如果
战 略 si ' 严 格 劣 于 战 略 si″ 对 所 有
( s1 ,
, si 1 , si 1 ,
( s1 ,
, si 1 , si 1 ,
, sn ) 都 成 立 , 那 么 自 然 对
, sn ) 的一部分也成立。
定义 在标准式的博弈中,设si'和si″是参与者i的两个
可行战略。若下式
ui  s1 ,
, si 1 , si, si 1 ,
, sn   ui  s1 ,
, si 1 , si, si 1 ,
, sn 
对其他参与者由其战略空间 S1 , , Si 1 , Si 1 , , Sn 中的战略
形成的每一种可能的战略组合 ( s1 , , si 1 , si 1 , , sn ) 都成
立,则称 si'相对于 si″是弱劣战略,且对于某些战略组
合 ( s1 , , si 1 , si 1 , , sn ) 上式严格不等式成立。
类似于运用逐步剔除严格劣战略去寻求一个均衡
结果,自然想到运用逐步剔除劣势战略也是求解博弈
问题的一种方法。
考察下面图2-5所示的博弈问题。
图 2-5
参与者 2
B1 B2 B3
参与 A1 2,5 1,3 1,5
者 1 A2 0,5 0,3 1,4
A3 0,5 0,3 0,6
不难检验,用逐步剔除严格劣战略的方法,这个博弈
是不可解的。如果改用逐步剔除弱劣战略的方法,就会
发现,如果按 A3→B3→B2→A2 顺序逐步剔除弱劣战略,
产生的均衡结果是(A1,B1);如果按 B2→A2→B1→A3 顺
序逐步剔除弱势战略,产生的均衡结果是(A1,B3)下面
将会看到(A1,B1)和(A1,B3)都是图 2-5 所示博弈的解。
这说明运用逐步剔除弱劣战略的方法,产生的均衡结果
可能与剔除的先后顺序有关。
(四)、纳什(Nash)均衡
纳什均衡是完全信息静态博弈的解的一般概念,它是对非
常广泛博弈问题给出更加严格的结果。首先,许多不存在严格
占优战略均衡或逐步剔除严格劣战略均衡的博弈,却存在纳什
均衡。其次,严格占优战略均衡一定就是博弈问题的惟一的纳
什均衡。再者纳什均衡一定不会被逐步剔除严格劣战略所剔除。
可以这么说,没有任何一个战略组合严格优于纳什均衡。
为了理解纳什均衡的含义,设想博弈理论对一个n个参与者
博弈中的每一个参与者选定的一个战略,预测的博弈结果为s*
=(s1*,…,si*,…,sn*)。其中,si*是理论上导出的参与者i的战略。
首先,理论上确定的每个参与者要选择的战略必须是针对其他
参与者选择战略的最优反应。其次,遵循理论结果产生的效用
不会小于偏离理论结果时的效用,也就是没有参与者愿意单独
偏离理论给他选定的战略,这种理论导出的结果时一种“战略
相对稳定”状态。我们就把这种状态称为一个纳什均衡。
定义 在 n 个参与者标准式博弈 G={S1,…,Sn;u1,…,un}
中,如果对于每一个参与者 i(i=1,2,…,n),si*是针对其
他 n-1 个参与者所选战略(s1*,…,s*i-1, s*i+1,…,sn*)的最
优反应战略,即
ui ( s1* , , si*1 , si* , si*1 , , sn* )  ui ( s1* , , si*1 , si , si*1 , , sn* ) ,
(NE)
对 Si 中所有的 si 都成立,亦即 si*是最优问题
max ui ( s1* ,
si Si
, si*1 , si , si*1 ,
*
*
s

(
s
的解,则战略组合
1,
衡。
, sn* ), i  1, 2,
, si* ,
,n
, sn* ) 称为一个纳什均
可以从另外一个侧面来认识纳什均衡。考察一个战
略组合 s  ( s1 , , si, , sn ) ,如果说 s'不是 G 的一个纳什
均衡,就意味着存在若干参与者 i,其战略 si'不是针对
( s1 , , si1 , si , si1 , sn ) 的最优反应战略,即在 Si'中存在 si ,
使得
ui  s1 ,
, si1 , si, si1 ,
, sn   ui  s1 ,
, si1 , si, si1 ,
, sn 
这就表明,如果一个战略组合 ( s1 , , si, , sn ) 不是纳什均
衡,那么至少有一个参与者有动因偏离这个结果。
和纳什均衡的导出密切相关的是协议的理念。对
给定的博弈,如果参与者之间要商定一个协议决定博
弈如何进行,那么一个有效的协议中的战略组织必须
是纳什均衡的战略组合,否则至少有一个参与者会不
遵循该协议。
运用上述定义中不等式(NE)的条件,就可以检
查一个特定的战略组合是不是纳什均衡。比如,在囚
徒困境中,对参与者1(囚徒1)选s1*=坦白,对参与
者2(囚徒2)选s2*=坦白。
对 i=1 有
u1(s1*,s2*)=-6=-6=u1(坦白,s2*)
u1(s1*,s2*)=-6>-9=u1(沉默,s2*)
对 i=2,有
u2(s1*,s2*)=-6=-6=u2(s1*,坦白)
u2(s1*,s2*)=-6>-9=u2(s1*,沉默)
即 s*=(s1*,s2*)=(坦白,坦白)满足定义不等式(NE)
的条件,故 s*=(坦白,坦白)是囚徒困境博弈的一个纳什
均衡。但是战略组合 s'=(沉默,沉默),由于 s*=(s1*,s2*)
对 i=1,有 u1(沉默,沉默)=-1<0=u1(坦白,沉默)。这表
明 s'=(沉默,沉默)不满足定义中不等式(NE)的条件,
因此 s'=(沉默,沉默)不是纳什均衡。同样可以用定义
中的不等式(NE)检测智猪争食博弈中 s*=(s1*,s2*)=
(拱,不拱)是一个纳什均衡。
显然,当参与者数目 n 和每个参与者的战略空间都较
大时用定义中不等式(NE)的条件去检验一个战略组
合是不是纳什均衡是一件十分繁琐费时的工作。对于两
人有限博弈,参与者的收益函数由双变量矩阵给出时,
寻求纳什均衡有一个简单方法——划线法。首先,考察
参与者 1 的战略。对于参与者 2 一个给定的战略,也就
是在双变量矩阵每一列中,找出参与者 1 的最优战略,
并在相应的收益下面划一道横线(即在双变量矩阵的每
一列中,找出双变量中第一分量的最大者,在其下面划
一道横线)。然后,用类似的方法找出参与者 2 的最优
战略(即在双变量矩阵的每一行中,找出双变量中第二
分量的最大者,在其下面划一道横线)。最后,如果双
变量矩阵中某个单元的两个收益值下面都被划线,那么
这个单元对应的战略组合就是一个纳什均衡。
考察图2-4所示的博弈。
图 2-4
参与者 2
左
中
右
参与 上 3,3 4,1 1,2
中 4,0 0,2 1,1
者 1 下 2,4 2,3 2,4
首先,在双变量矩阵的三列中,分别找出第一个分量
的最大值 4、4、2,并在它们下面划一道横线。其次,在
双变量矩阵的三行中,分别分别找出第二个分量最大值
3、2、4,再在它们下面划一道横线(注意到,第三行中
双变量的第二个分量有两个 4 是最大值,在它们下面都应
划上一道横线)。最后由形成的图 2-6 发现,右下角单元
(2,4)两个收益值下面都被划上横线,则对应的 s*=(下,右)
就是一个纳什均衡。
图 2-6
参与者 2
左 中 右
参与 上 3,3 4,1 1,2
者 1 中 4,0 0,2 1,1
下 2,4 2,3 2,4
从图2-6可以看出,一个单元中只有一个数值下
面划了横线,表明只有一方的战略上针对另一方战略
的最优反应,而另一方的战略却表示针对对方战略的
最优反应。因此该单元对应的战略组合就不是双方同
时愿意接受的结果,因而也就构不成纳什均衡。
通过上面阐述,读者已经接触了各种博弈均衡的
概念和寻求均衡结果的方法,现在着重分析一下它们
之间的关系。
(1) 每一个严格占优战略均衡一定是纳什均衡,反之不
然。
这是因为,从定义中看出,任一参与者 i 的严格占优战
略 si*是对于所有其他参与者的任何战略组合的最优选
择,它也是对于所有其他参与者的均衡战略组合
( s1* ,
, si*1 , si , si*1 ,
, sn* ) ,的最优选择。
在两人博弈的双变量矩阵中,更可以直观理解上
述含义。如果用划横线的方法去寻求纳什均衡,严格
占优战略均衡将出现某一行(参与者 1 的严格占优战
略所在行)的收益的第一分量全被划上横线,而某一
列(参与者 2 的严格占优战略所在行)的收益的第二
分量也全被划上横线。这时该行与该列的交叉单元的
收益,量数值下面都划上了横线,由此产生了纳什均
衡。在囚徒困境博弈中,s*=(坦白,坦白)既是严格占优
战略均衡,也是纳什均衡。划横线就是上面说的情形,
反之,在图 2-6 看出,s*=(下,右)是纳什均衡,但博
弈中根本不存在严格占优战略,当然也就谈不上存在
严格占优战略均衡。
(2) 每一个逐步剔除严格占优战略均衡是纳什均衡,反
之不然。
这里就不作严格的论证了。回顾智猪争食博弈和
图2-1所示的博弈,对逐步剔除严格劣战略过程和划
横线方法寻求纳什均衡的过程的比较,可以领会上述
结论的含义。反例可以从图2-6所示博弈看出。s*=
(下,右)是纳什均衡,但该博弈逐步剔除严格劣战略却
一步也不能施行。
(3) 如果战略组合是纳什均衡,那么它一定不会被逐
步剔除严格劣战略剔除。
可以通过反证法论证这个结论的正确性。假定在纳
*
*
(
s
,
,,
s
什均衡 1
那
n ) 中 si*是首先被剔除的严格劣战略,
么 Si 中一定存在尚未被剔除的 si″严格优于 si*,应有

ui s1 ,
, si 1 , si* , si 1 ,

, sn  ui  s1 ,
, si 1 , si, si 1 ,
, sn 
上式对所有其他参与者尚未被剔除的战略空间中可能
形成的战略组合  s1 , , si 1 , si 1 , , sn  都成立。由于 si*是纳
什均衡中第一个被剔除的战略,其他参与者的战略尚未
被剔除,作为上式的特例,不等式
ui ( s1* ,
成立。
, si*1 , si* , si*1 ,
, sn* )  ui ( s1* ,
, si*1 , si, si*1 ,
, sn* )
*
(
s
上式与纳什均衡 1 ,
, sn* ) 应满足不等式(NE)的条
件式矛盾的。但是上述结论并不适用于逐步剔除弱劣战
略的情况,这就是说,逐步剔除弱劣战略可能剔除掉纳
什均衡。在图 2-5 所示博弈中,不难检验(A1,B1)与(A1,B3)
都是纳什均衡。如果按 A3→B3→B2→A2 顺序剔除弱劣
战略,产生均衡结果(A1,B1),而(A1,B3)被剔除了。如果
按 B2→A2→B1→A3 顺序剔除弱劣战略,产生均衡结果
(A1,B3),而(A1,B1)又被剔除了。
通过上面的分析,确立了纳什均衡是一个比逐步剔除
严格劣战略均衡条件更强的解的概念。严格占优战略均
衡、逐步剔除严格劣战略均衡并不一定能找到,读者很
自然会提出这样的问题:纳什均衡作为博弈的解,条件
更强了,那么一个博弈的纳什均衡是否一定存在呢?已
经看到,一个博弈的纳什均衡可能不是唯一的。这给实
际博弈问题寻求预测结果带来了困惑。这又会使读者提
出第二个问题:在一些有多个纳什均衡的博弈中,能不
能找出一个均衡作为预测结果更加合理呢?这两个问题
的解决,将有助于博弈理论应用于各种不同的实际领域。
有关问题的解答将在后面的相关章节予以阐述。
不在同一地方工作的帕特和克瑞丝都希望两人能在一
起度过一个周末的夜晚,而不愿分开。他们必须在听歌
剧和看职业拳击赛两种娱乐活动中选择其一。帕特希望
能一起看拳击比赛,克瑞丝则希望能一起欣赏歌剧。其
效用函数如图 2-7 双变量矩阵所示。
图 2-7
帕特
性别战博弈 歌剧 拳击
克瑞 歌剧
2,1
0,0
丝
拳击
0,0
1,2
这个例子得出的是:(歌剧,歌剧)和(拳击,拳击)都是纳什均衡。
这个博弈既不存在严格的占优战略均衡,也不存在逐步剔除严
格劣战略均衡。并且对该博弈的两个纳什均衡(歌剧,歌剧)
和(拳击,拳击)不论实际实施哪一个均衡结果,总有一方感到有
点委屈。遇到这样一类博弈问题,纳什均衡用于预测博弈将任
何进行的作用就大大减弱了。
二、 纳什均衡应用举例
本节集中研究分析经济学中几个博弈问题,这些也
是博弈论的经典之作。通过对这些例题的模型的讨论,
要达到两个目的:①如何把一个实际问题的一般性描述
转化为一个博弈的标准式表述。②如何通过计算解出博
弈的纳什均衡。由此揭开博弈的纳什均衡在经济学领域
应用的序幕。注意到这些例题中的战略空间Si都是一个
区间,战略si都是在区间上取值的连续变量。实际上,
第一章开始的海滩占位问题介绍属于这类情形。
(一)、库诺特(Cournot)双寡头垄断竞争模型
库诺特(1838)早在一个多世纪之前,在特定的双寡
头垄断竞争模型中就提出了纳什(1950)所定义的均衡。
库诺特的研究成果已理所当然地成为博弈论的经典文献
之一,同时也是产业组织理论发展的重要里程碑。这里
只讨论库诺特模型的一种非常简单的情况。模型里有两
家企业,分别称为企业 1 和企业 2,它们生产相同质量
的产品投放市场。设企业 1,企业 2 的产量分别为 q1、
q2,总供给 Q=q1+q2。令 P(Q)=a-Q 表示市场逆需求
函数[更为精确一些的表述为:Q<a 时,P(Q)=a-Q;
Q>a 时,P(Q)=0]。设企业 I 生产 qi 的总成本为 Ci(qi)
=cqi(i=1,2),即企业不存在固定成本,且生产每单位
产品的边际成本为常数 c,这里假定 c<a。根据库诺特
的假定,两个企业同时进行产量决策。
为求出库诺特博弈中的纳什均衡,首先要将其转化
为标准博弈。按上一节所阐述的内容,博弈的标准式表
述包含下列三个要素:①博弈的参与者。②每一参与者
可以选择的战略。③针对每一个参与者可能选择的战略
组合,每个参与者的收益。双寡头垄断竞争模型中当然
只有两个参与者,即模型中企业 1 和企业 2。每个参与
者(企业)可以选择的战略是其产品产量。假定产品是
连续可分割的,由于产出不可能为负,因此每个企业的
战略空间就可表示为 S1=S2=[0,+∞)。其中,一个具体的
战略 si 就是所选择的产量 q1≥0,q2≥0。也许有的读者会
提出,特别大的产量是不可能的,因而不应包括在战略
空间之中。不过,由于 Q≥a,价格 P(Q)=0,任何企业都
不会有 qi>a 的产出。
接下来就需要把企业1、企业2的收益表示为它自己
和另一企业所选战略的函数。假定企业的收益就是其
利润额,这样在一般的两个参与者标准式博弈中,企
业1和企业2的收益函数就可表示为

 u1  q1 , q2   q1  P  q1  q2   c   q1 a   q1  q2   c 


u2  q1 , q2   q2  P  q1  q2   c   q2 a   q1  q2   c 
…….. (2.2.1)
上节讲过,在一个标准式两人博弈中,如果战略组
*
*
(
q
,
q
合 1 2 ) 是纳什均衡,那么按照纳什均衡定义不等式
(NE)的条件,对企业 1 和企业 2 应有






 u1 q1 , q2  u1 q1 , q2





u
q
,
q

u
q
,
q

2
1
2
2
1
2



对所有 q1∈ S1=[0,+∞]和 q2∈ S2=[0,+∞)都成立。
上述不等式组等价于对企业 1 和企业 2,q1*,q2*应为下
面最优化问题








 max u1 q1 , q2  max q1  a  q1  q2  c 


0  q1 
 q1S1




max u2 q1 , q2  max q2  a  q1  q2  c 
0  q2 
 q2  S 2
……………………..(2.2.2)
的解。
利用微积分求极值的办法,对每个企业的收益函
数求一阶导数并令其等于零,即可求出纳什均衡。
 u1

 q  a  2q1  q2  c  0
 1

 u2  a  q  2q  c  0
1
2
 q2
…….. (2.2.3)
那么,要使产量成为纳什均衡,由式(2.2.3)可知,
两个企业的产量选择必须满足方程组
  1

 q1  2  a  q2  c 

q  1  a  q  c 
2
1

2
……. (2.2.4)
解方程组(2.2.4),得均衡解为
1


q1  q2   a  c 
3
这时,将上式代入式(2.2.1)。每个企业的纳什均
衡利润为
1
2
u1  q , q   u2  q , q    a  c 
9

1

2

1

2
还可以将双寡头垄断竞争与寡头垄断情况作一比
较。设寡头垄断企业的最优产量为q*,这时最优化问
题是
max q  a  q  c 
0 q 
容易算出,最优产量 q*=(a-c)/2。垄断利润应为
2
2
22
u=(a-c) /4。相比之下,(a-c) /4>(a-c) /9,这就是
说寡头垄断获得的利润要高。在市场上出现两家企业
时,要使两家企业总的利润最大化,两企业的产量和应
等于 q*,即 q1+q=q*。比如, q1=q2=q*/2=(a-c)/4
就可以满足这一条件。但这样安排存在一个问题,就是
每家企业都有动机偏离它。因为寡头垄断产量 q 较低,
相应的市场价格 p(q)就比较高,在这一价格下每家企业
都会倾向于提高自己的产量,而不顾这种产量的增加会
降低市场价格。这又出现了在囚徒困境问题中的个人理
性与团体理性冲突的现象。
库诺特模型还可以用几何图形的方法找出均衡

q
解。这里先对式(2.2.4)稍做更改,将式(2.2.4)中 1

q
和 2 分别用 q1 与 q2 替代,产生两个函数
1

q1  R1  q2   2  a  q2  c  ,  q2  a  c 

q  R q   1 a  q  c,q  a  c
2
1
1
1
 2
2
………. (2.2.5)
这两个函数称为该博弈最优反应函数,事实上,最
优反应函数 q1=R1(q2)与 q2=R2(q1)分别是由收益函数
u1  q1 , q2 
u1  q1 , q2 
0
0
的优化问题的一阶条件 q1
和 q1
定
义的。最优反应函数 q1=R1(q2)表示企业 2 的战略(产
量)满足 q2<a-c 时,企业 1 选择战略(产量)q1 的
最优反应是(a-q2-c)/2。类似的,如果 q1<a-c 时,
企业 2 选择战略(产量)q1 的最优反应是(a-q1-c)/2。
在图形上,两个最优反应函数只有一个交点(见图 2-
8 )。 这 个 交 点 就 是 最 优 产 量 组 合 —— 纳 什 均 衡
(q1*,q2*)。
求解库诺特模型的纳什均衡还有的三种方法,
即运用逐步剔除严格劣战略的方法。
首先证明对两个企业来说,垄断产量 q*=(a-c)/2
严格优于其他任何更高的产量。对企业 1 来说,如果它
选择产量 q1=q*=(a-c)/2,而企业 2 选择产量 q2,当
Q=q*+q2<a 时,企业 1 的收益(利润)为
a c   a c
  a c  a c

u1  q , q2  
a 
 q2   c  
 q2 


2   2
2  2
 


q

q
 x  x  0  ,企业 2 选择
如果企业 1 选择产量 1

Q

q
 q2  a 时,企业 1 的利润为
产量 q2,当

 a c
  a c
 
u1  q  x, q2   
 x  a  
 x  q2   c 
 2
  2
 

 u1  q  , q2   x  x  q2 
比较上面两式结果,就能得出
u1 (q* , q2 )  u1 (q*  x, q2 )
对于企业2 来说,类似可导出
u2 (q1 , q* )  u2 (q1 , q*  x)
*
Q

q
 x  q i  a ,则 p(Q)+0。这时,
并且,如果
生产较低的产量利润不会降低。
这样,第一步就可以从两企业的原战略空间 S1=
S2= [0,+∞]剔除严格劣战略,剩下的战略空间记为
S 1( 1 )  S 2( 1 )  [ 0 , q * ] 。
其次,由于企业 1 知道企业 2 不会选产量
,
由企业 1 最优反应函数 q1  R1 (q 2 ) 可知,企业 1 将不会
(1)
*
*
q
q

R
(
q
)

R
(
q
)

R
[(
a

c
)
/
2
)]

(
a

c
)
/
4
选择 1 2
[记为1 ]。
2
2
这样,第二步剔除较低的产量,就可将 S  [0, q ] 剔除
(2)
(1)
*
S

[
q
,
q
] 。类似地,可将企业 2
1
严格劣战略,剩下 1
(1)
*
S

[
0
,
q
] 剔除严格劣战略,
的战略空间 2
剩下 S  [q , q ] ,
q2  q *  (a  c ) / 2
(1 )
1
*
(2)
2
(1)
(1)
q

q
 ( a  c ) / 4 (见图 2-9)
2
这里 1
。
(1)
2
*
q
再者,由于企业 1 知道企业 2 不会选择低于
的产
(1)
2
量(这里因为企业 2 知道企业 1 不会选择高于 q*的产
量),由企业 1 的最优反应函数 q1  R1 (q2 ) 可知,企业 1
(2)
q
将不会选择产量 q1  R1 ( q )  3( a  c ) / 4 [记为 1 ]]。
(1)
2
(2)
(1)
*
S

[
q
,
q
] 中剔除严格劣战略,形成
这样又可以从 1
1
S1( 3 )  [q1(1) , q1( 2 ) ] 。类似可以从 S 2( 2 )  [q2(1) , q * ] 中剔除严格劣战
略,形成
S 2( 3 )  [q2(1) , q2( 2 ) ]
图 2-9)。
( 2)
( 2)
q

q
 3(a  c ) / 8(见
1
,这里 2
如此不断逐步剔除,每次剔除严格劣战略后剩下的
战略空间不断缩小,经 n 步剔除,企业 1 与企业 2 剩下
( n)
(n)
(n)
S
S

S
的战略空间 1
2 。而且可以推导出,战略空间 1
( n)
S
和 2 ,从 n=2 开始,每两步其区间的左端点坐标以
2k
a

(
a

c
)(
1

1
/
2
) / 3 逐步递增(k=1,2,…);从 n
数列 k
=1 开始,每两步其区间的右端点坐标以数列
bk  (a  c )(1  1 / 22 k 1 ) / 3 逐步递减(k=1,2,…)。
( n)
(n)
( n 2 )
( n 1 )
( n 2 )
( n 1 )
S

S

[
q
,
q
]

[
q
,
q
] ,因为总
当空间 1
2
1
1
2
2
( n 2 )
( n 2 )
( n 1 )
( n 1 )
q

q
q

q
2
有 1
且 1
,可以推导出战略空间S1
2
(n)
和
S 2( n ) 的 左 端 点 是 以 数 列 a k  (a  c )(1  1 / 2 2k ) / 3 逐 步 递
2 k 1
b

(
a

c
)(
1

1
/
2
) / 3 逐步递减。
增,而右端点是以数列 k
当 n? +? 时,k? +? ,且有 a k  (a  c ) / 3, bk  (a  c ) / 3 。
这表明企业 1 和企业 2 连续的战略空间 S1 和 S2 经无穷
多次逐步剔除严格劣战略,最后收敛于极限
q  q  (a  c ) / 3 。战略组合
*
1
*
2
( q1* , q2* )
即为纳什均衡。
对库诺特模型稍作扩充,逐步剔除严格劣战略的程
序就不能得到惟一解。比如考虑 3 个企业的情形,令Q i
表示除企业 i 之外的另两家企业选择的产量之和,各企
业收益函数为 ui (qi , Q i )  qi (a  qi  Q i  c ), i  1,2,3 。这
时,垄断产量 q*=(a-c)/2 还是严格优于更高产量,即
*
*
Qi  0
x

0
,
u
(
q
,
Q
)

u
(
q

x
,
Q
)
i

i
i

i
对
对所有
都成立。这
和双寡头垄断竞争模型的第一步完全一样,即 3 家企业
的战略空间从原来的 [0,+? ]都可经剔除高于 q*的产
量部分,简缩为[0,q*]。
但剔除工作也只能到此止步了。这是因为对 0 到 q*=
(a-c)/2 之间的任意产量 qi,只需 Q i  a  c  2qi ( a  c ) ,就可
以使 qi 成为企业 i 针对Q i 的最优反应战略,从而无法再对
其战略空间做进一步剔除。库诺特双寡头垄断竞争模型的
逐步剔除严格劣战略的过程是一个无限缩短战略空间的过
程。这个过程由企业 1 与企业 2 不断地相互了解对方的选
择,交替进行的。读者从中可以更加深刻地理解 1.2 节中
提出“共同知识”缩概念是有裨益的。
(二)、伯川德(Bertrand)双寡头垄断竞争模型
下面介绍的仍然是双寡头垄断中两个企业相互竞争
的模型。伯川德(1883)模型中两企业在竞争时选择
的是产品价格,而库诺特模型中选择的是产量。
考虑企业1和企业2生产有差异的产品,它们为自己
的产品选择的价格分别为p1和 p2。设消费者对企业产品
的需求为
qi ( pi p j )  a  pi  bpj , (i , j  1,2, i  j )
其中 b>0 反应了企业 i 的产品替代企业 j 的产品的
程度(后面将会看到,只有 b<2 时问题才有意义=。和
前面讨论过的库诺特模型一样,仍假定企业生产没有固
定成本,并且边际成本为常数 c(c<a)。两个企业同时行
动选择各自的价格。
要寻找纳什均衡首先需要不其他转化为博弈的标准
式表述。这时参与者仍为两个企业。它们的战略空间可
以表示为S1=S2=[0,+∞],其中企业i的一个特定战略
si时所选择的价格pi≥0(i=1,2)。
仍假定每个企业的收益函数等于其利润,收益函数
可表示为
ui ( pi , p j )  qi ( pi , p j )( pi  c)  (a  pi  bpj )( pi  c), (i , j  1,2, i  j
*
*
(
p
,
p
这样,寻求纳什均衡 i j ) ,也就是求解最优化问题






 max u1 p1 , p2  max a  p1  bp2
0 p1 
 0 p1 



max
u
p
,
p

max
a

p

bp
0 p  2 1 2 0 p 
2
1
 2
2
  p  c
  p  c
1
2
*
*
(
p
,
p
利用微积分求极值的方法,要使价格组合 i j ) 成
*
i 和
为纳什均衡, p
p*j 应满足方程组
  1

 p1  2 a  bp2  c

 p  1 a  bp  c
1
 2 2




解此方程组,得均衡解为
ac
p  p 
2b

1

2
(三)、最后要价仲裁模型
• 较为重要的仲裁有两类:协议仲裁和最后
要价仲裁。在最后要价仲裁中,争议双方
各自就工资水平要价,仲裁人选择其中之
一作为仲裁结果。这里介绍的是法伯
(Farber,1982)建立的最后要价仲裁模
型。
假定参与争议的双方一方为企业,一方为工会,争
议由工资而起。令企业为参与者 1,工会为参与者 2,它
们同时选择自己的战略,即开出自己希望的工资水平,
这里分别用 wf 和 wu 表示,一般由 wf<wu。进一步假定
仲裁人本身对工资水平有自己认为合理的方案,用 x 来
表示这一理想值。仲裁人在观测到双方要价 wf 和 wu 后,
只是简单选择距 x 最为接近的要价为仲裁结果。如果 x
<(wf+wu)/2,仲裁人将选定 wf;如果 x>(wf+wu)/2,
则选定 wu,图 2-10 给出一个直观的解释[至于出现如
果 x=(wf+wu)/2 的情形,选择哪一个无关紧要,不妨设
仲裁人掷硬币决定]。
仲裁人知道理想值 x,但参与者双方都不知道,但
他们相信 x 是一个随机变量,其分布函数为 F(x),相应
的概率密度函数为 f(x)。根据对仲裁人行为的假定,参
与者 1(企业)推断 wf 被选中的概率为 p{wf 被选中}=
p{x<(wf+wu)/2==F{( wf+wu)/2}},而参与者 2(工会)
推断 wu 被选中的概率为 p{wu 被选中}=1-F{( wf +
wu)/2}}。据此,就可以用期望工资水平
w  w f p{ w f 被选中 }  w u p{ w u 被选中 }

 w f  wu 
 w f  wu 
  w u 1  F 
 
 w f F 
2
2





 w f  wu 
  w u
 ( w f  w u )F 
2


来构建参与者的收益函数 ui (w f , wu ) 。对于参与者 1(企
业)来说,其目标是使期望工资水平 w 最小化作为仲裁
结果,为了保证博弈中收益函数最大化的一般要求,因
此就取
 w f  wu 
  wu
u1 ( w f , wu )   w  ( wu  w f )F 
2


对于参与者 2(工会)来说,其目标应是使期望工
资水平 w 最大化,因此就取
 w f  wu 
  wu
u2 ( w f , wu )  w  ( w f  wu )F 
2


*
*
(
w
,
w
如果双方要价 f u ) 构成企业和工会之间博弈的纳
*
w
什均衡,那么 f 应为最优化问题

max u1 w f , wu
wf
的解。

 

 w f  wu 

 max  wu  w f F 
 wu 



wf
2






*
w
且 u 应为最优化问题

max u2 w f , wu
wu

 

 w f  wu 
 max  w f  wu F 
 wu 



wu
2






*
*
(
w
,
w
利用微积分求极值的办法,要使双方要价 f u ) 成
*
*
w
为纳什均衡, f 和 wu 应满足方程组

1


 wu  w f 
2


1
 

 wu  w f  2 f





 w f  wu 
 w f  wu 
f
F





2
2




 w f  wu 
 w f  wu 

  1  F 

2
2




(2.2.6)
由上述方程组可得
 wf  wu  1
F



 2
2


(2.2.7)
上式表明,双方要价的平均值一定等于仲裁人偏好
方案的中值。将(2.2.7)代入式(2.2.6)中任何一个
方程,可得
1


w

w
 u f 
w w
f
 2


f

u



上式表示双方要价之差等于仲裁人偏好方案中值
点概率密度的倒数。
为了更好地从直观理解这一静态结果,现在讨论一
个具体的例子。设仲裁人的偏好方案服从均值为m,方
差为б2的正态分布,其概率密度函数为
2
xm


1
f  x 
e
2
2 2
因为正态分布是对称的,所以其中值等于均值m。
由式(2.2.7)可得
w f  wu
2
m
又由式(2.2.8)可知
1
w w 
 2
f  m

u

f
于是,纳什均衡的要价为

u
w  m

2

和

f
w  m

2

由此可见,双方的均衡要价以仲裁人偏好方案的
均值(即m)为中心对称,且要价之差随仲裁人偏好
方案的离散程度(即б2)的加大而增大。
对这一均衡结果的直观理解也很简单,博弈的每一
方都需要进行权衡。一个更为激进的要价(即工会更高
的要价或企业更低的出价)一旦被仲裁人选中,就会给
自己带来更高的效益,但其被选中的可能性却会相应降
低。当相信仲裁人的偏好方案的离散程度增加(即 б2
变大)时,双方的要价就可能变得更为激进,因为一个
更激进的要价与仲裁人理想值 x 的均值 m 有较大差别,
其概率仍然不小。相反,如果仲裁人的偏好方案几乎不
存在任何不确定性(即б2 很小),那么双方都不敢开出
一个离均值 m 很远的要价,因为仲裁人选中离 m 最近
的要价的可能性非常大。
(三)、公共地的悲剧
哈丁(Hardin,1968)的研究公共地悲剧的论文
曾引起非经济学者的广泛关注。早在16世纪,从休谟
(Hume,1739)开始,包括政治、社会、经济学各方
面的学者已经认识到如果公民只关注个人福利,公共
物品就会出现短缺,并且公共资源也会过度使用。观
察一下现今地球从陆地到海洋的环境和资源的种种问
题,公共地悲剧模型揭示了事物的本质。
假设一个有 n 个村庄的村庄,村民共同拥有一片草
地,每个村民都有在草地上放牧的自由。每年春天,每
个村民要决定自己养多少头羊,用 gi∈[0,+∞]表示村
民 i 放养的羊头数(i=1,2,…,n)。那么村庄里放羊的总头
数 G  g1  g2    gn 。用 v 表示每头羊的平均价值,
一个重要的假设数 v 是 G 的函数。羊要生存,需要一定
数量的青草,这片草地可以放羊的羊的总量的上限为
Gmax。当 G<Gmax 时,v(G)>0;当 G≥Gmax 时,v(G)=0。
当最初草地上的羊不太多时,再增加一头不会对已经放
养的羊产生太大的影响,但当草地上羊的数量不断增加
时,每头羊的平均价值就会急剧下降,因此可以假定当 G
<Gmax 时,v(G)  0, v(G)  0 。v(G)的图形如图 2-11 所示。
在这个博弈里,村民 i(博弈的参与者 i)所选择的战
略就是他放养的羊的头数 gi。假定购买一只羊羔和照看一
头羊的成本为 c,当其他村民养羊的数量为
( g1 , g2 ,, gi 1 , gi 1 ,, gn ) 时,村民 i 放养 gi 头羊的收益函数
为
ui ( g1 , g2 ,, gn )
 gi  v( g1  g2    gi 1  gi 1    gn )  cgi
-----------(2.2.9)
*
*
*
(
g
,
g
,

,
g
这样,如果 1 2
n ) 为博弈的纳什均衡,那么对村民 i
*
*
*
*
*
*
g
(
g
,
g
,

,
g
,
g
,

,
g
)
来说,当其他村民选择 1 2
i 1
i 1
n 时, i 必须使
式(2.2.9)最大化。这一最优化问题的一阶微分条件为




ui g1 , , gi 1 , gi , gi 1 , , gn
0
g i


也就是
v ( g1*  g 2*    g i*1  g i*1    g n* )
 g i v ( g1*  g 2*    g i*1  g i*1    g n* )  c  0
(2.2.10)
*
g
将村民 i 的最优战略 i 代入式(2.2.10),就有
v(G* )  gi*v(G* )  c  0, (i  1,2,, n)
(2.2.11)
再把式(2.2.11)全部相加,并除以 n,可得
v (G * ) 
1 *
Gi v (G * )  c  0
n
(2.2.12)
*
*
*
*
g



g

g

G
其中,
n ,即纳什均衡的总放养量。
2
1
从全村放养总量 G 的最优选择考虑,则应最大化全
村养羊的总收益,即
max Gv  G   Gc 
0G 
它的一价微分条件为
v  G    G v  G    c  0
(2.2.13)
**
G
其中, 是全村最优的养羊的总量。
现在可以对上面的一些结果作必要的分析。首先,
*
*
*
g

g



g
从式(2.2.11)的 n 个等式,容易得出 1
2
n,
也就是在纳什均衡结果中,各村民放养的数量都应该是
一样的,这 正体现“均衡”概念的一般含义。其次,
式(2.2.11)表示村民 i 已经放养 gi* 头羊对全村已养的羊
*
*
*

g
v
(
G
)( 0) 抵消了。
G
的数量 造成的损害 i
这时如果他再多养一只羊(更严格地说是再多养
“一点儿”羊),其边际收益将为负,这就得不偿失了。
再者,由于每个村民只考虑他自己的利益,看到对自己
*
*

G
v
(
G
) / n ,比起从全村放养总量产生的边际
的损害只有
**
**

G
v
(
G
) 要小,联系到(2.2.12)与式(2.2.13)
损害
,就
有 v(G )  v(G ) 。由于 v(G)  0 ,表明 v(G)是一个减函数,因
此,得到 G *  G ** (此不等式严格的证明可参阅书后所列
参考文献[2])。和全村最优条件相比,纳什均衡时放养
的羊的总量太多了,全村的草地被过度使用,这就是公
共地的悲剧。现在,对一些没有排他性使用权的资源和
环境,群体(某些个人。某些地区、某些国家)对资源
和环境使用的均衡结果远远超过全社会总体的最优使
用的结果,从而导致的“公共地的悲剧”形象的发生。
*
**