第12章博弈论课件 - 经济管理学院

Download Report

Transcript 第12章博弈论课件 - 经济管理学院

云南农业大学经济管理学院
主讲:佘迎红
Page 1
第12章 博 弈 论
game theory
12.1 引 言
12.2 纳什均衡
Nash Equilibrium
12.3 反应函数法
Method of reaction function
12.4 有限二人零和博弈
Two person finite zero-sum game
12.5 有限二人非零和博弈
Two person finite non-zero-sum game
12.1 引 言
12.1.1 博弈论概述
博弈论(game theory)亦称对策论,是研究具有
对抗或竞争性质现象的数学理论和方法,它既是数
学、也是运筹学的一个重要分支。
博弈行为是博弈论中一个重要的概念。博弈行为
是指具有竞争或对抗性质的行为,在这类行为中,
参加斗争或竞争的各方各自具有不同的利益和目标,
各方需考虑对手的各种可能的行动方案,如何采取
行动以及与对手互动对自己最为有利 。
Page 3
12.1.1 博弈论概述
【例12-3】齐威王田忌赛马
Page 4
齐王:上
中
下
田忌:下
上
中
12.1.1 博弈论概述
【补充例1】囚徒的困境
囚徒2
囚徒1
Page 5
坦白
抵赖
坦白
(-5,-5)
(-1/4,-10)
抵赖
(-10,-1/4)
(-1,-1)
12.1.1 博弈论概述
博弈:
是一些个人、团队或其它组织,面对一定的环境条
件,在一定的规则下,同时或先后从各自允许的行为
或策略中进行选择并加以实施,各自取得相应结果的
过程。
博弈行为具有的共同特征:
(1)有一定的规则
(2)有一个明确的结果
(3)有可供选择的策略
(4)策略与利益相互依存
Page 6
12.1.1 博弈论概述
在现实社会、经济生活中很多活动都具有博弈的特
征,例如:市场竞争、经营决策、投资分析、价格制
定、费用分摊、财政转移支付、投标与拍卖、对抗与
追踪、资源利用、谈判、竞选、战争等。
又如,三国时代的曹不兴溅墨画蝇、曹操兵败华容
道、北宋时期的丁渭挖河修皇宫等都是博弈论成功应
用的例子。
Page 7
12.1.1 博弈论概述
博弈论研究的问题:
参与博弈的各方是否存在最合理的策略以及如何
找到合理的策略。
博弈论是研究决策主体的行为发生直接相互作用时
的决策及这种决策的均衡问题。即它是研究聪明而又
理智的决策者在冲突或合作中的策略选择理论。它将
成为当代经济管理学科的前沿领城。
著名法国经济学家泰勒尔(Jean Tirole )说:
“正如理性预期使宏观经济学发生革命一样,博弈论
广泛而深远地改变了经济学家的思维方式”。
Page 8
12.1.1 博弈论概述
1944 年 美 国 普 林 斯 特 大 学 教 授
冯·诺伊曼、摩根斯坦的著作《博弈
论和经济行为》的出版,是博弈论
诞生的标志。
普林斯特大学对博弈论作出重大
贡献的还有塔克、库恩、纳什等。
要想在现代社会做 一个有文化的人,你必须对博
弈论有一个大致的了解。
——萨缪尔森
Page 9
12.1.1 博弈论概述
约翰·纳什(John F. Nash )
1928年生于美国,1994年获得诺贝尔经济学奖。
在非合作博弈的均衡分析理论方面做出了开创性的贡献,
对博弈论和经济学产生了重大影响。
Nash对博弈论的主要贡献有:(1)合作博弈中的讨价还
价模型,称为Nash讨价还价解;(2)非合作博弈的均衡
分析。
Page 10
12.1.1 博弈论概述
博弈论发展史上的五次诺贝尔经济学奖

Page 11
1994年,纳什、海萨尼、塞尔顿,非合作博弈理论
12.1.1 博弈论概述
博弈论发展史上的五次诺贝尔经济学奖
1996年,莫里斯和维克瑞,不对称信息条件下激
励机制问题

Page 12
12.1.1 博弈论概述
博弈论发展史上的五次诺贝尔经济学奖
2005年,罗伯特.奥曼,托马斯.谢林,合作博弈
理论

Page 13
12.1.1 博弈论概述
博弈论发展史上的五次诺贝尔经济学奖
2007年,三名美国经济学家莱昂尼德.赫维奇,埃
里克.马斯金,罗杰.迈尔森,“机制设计理论”

Page 14
12.1.1 博弈论概述
博弈论发展史上的五次诺贝尔经济学奖
2012年,美国经济学家阿尔文.罗思(Alvin E.
Roth)和劳埃德.沙普利(Lloyd S. Shapley),“稳
定匹配理论和市场设计实践”。

Page 15
12.1.2 博弈三要素
博弈模型的3个基本要素:
(1)局中人(players):博弈的参加者,可以是一个
人、一个团队、一个企业、交战的一方等。假设每一个
局中人都是“理智”的。
(2)策略集(strategies):策略是可供局中人选择的
实际可行的完整的行动方案。每个局中人的策略集(S)
至少应包括两个策略。
(3)得益(赢得)函数(payoffs):当每个局中人的
策略确定后,他们就会得到相应的收益或损失称为局中
人的得益,不同的策略会导致不同的得益,因此,得益
是策略的函数。
Page 16
12.1.2 博弈三要素
局势:每一个局中人各选择一个策略形成的对局(策略组合)。
 ,  
n人博弈 s  ( s1 , s 2 , , s n )
两人博弈
i
j
全体局势的集合S可用各局中人的策略集的迪卡尔集表示
S  S1  S 2   S n
二人博弈的矩阵型表示:
囚徒2
坦白
抵赖
囚 坦白 -5,-5
-1/4,-10
徒
-1,-1
1 抵赖 -10,-1/4
Page 17
12.1.3 博弈的结构和分类
分类依据
类
型
局中人数量
两人博弈,多人博弈,单人博弈
策略数量
有限博弈,无限博弈
得益情况
零和博弈,常和博弈,变和博弈
局中人间是否允许合作 非合作博弈,合作博弈
信息结构
博弈过程
18
完全信息博弈,不对称信息博弈
静态博弈,动态博弈,重复博弈
12.1.3 博弈的结构和分类



完全理性

按博弈方式 非合作博弈 有限理性





合作博弈



二人零和博弈

二人博弈 
博弈分类 按博弈人数 
二人非零和博弈


多人博弈



完全信息静态博弈

静态博弈 


不完全信息静态博弈
按博弈状态 

动态博弈 完全信息动态博弈



不完全信息动态博弈


Page 19
12.1.3 博弈的结构和分类
【例12-2】1943年2月,日本统帅山本五十六大将计划
由南太平洋新不列颠群岛的拉包尔出发,3天穿过俾
斯麦海,开往新几内亚的莱城,支援困守的日军。有
两条路线:北线和南线。
盟军统帅麦克阿瑟命令他麾下的太平洋战区空军司
令肯尼将军组织空中打击。侦察机重点搜索有两个方
案:北线和南线。
当时未来3天中:北线阴雨,能见度差;南线晴天,
能见度佳。日美双方各自应采用哪种方案。
Page 20
北线
南线
12.1.3 博弈的结构和分类
两人有限零和博弈
【解】局中人:盟军、日军
双方策略:北线、南线
S1=1, 2 
S2=1, 2 
盟军的赢得矩阵如下:
日军
盟军
北线(  1)
北线
( 1 )
2
南线
( 2 )
2
南线(  2)
1
3
双方选择策略的思路:
在最不利中选择最有
利的策略。
最优局势是: (1 ,  1 )
即都选择北线。日军舰队受到重创,但未全歼。
*
Page 22
*
12.1.3 博弈的结构和分类
【补充例2】双寡头削价竞争(两个厂商)
两人有限非零和博弈
中南
高价
亚贸
高价
低价
低价
(100,100) (30,150)
(150,30)
(70,70)
类似地,广告投资、采用新技术等方面,厂商之间常常耗
资巨大,但不一定有利可图的争夺战;对公共资源的掠夺式
使用等问题。
我们的目的是如何利用这种困境达到有利于社会,合理利
用和开发公共资源,保护环境。
Page 23
12.1.3 博弈的结构和分类
多寡头削价竞争(3个厂商:亚贸,中南,中北)
中南
高价
低价
高价
(100,100,100)
(20,150,20)
低价
(150,20,20)
(130,130,20)
高价
低价
高价
(20,20,150)
(20,130,130)
低价
(130,20,130)
(70,70,70)
亚贸
中北采用高价
中南
亚贸
中北采用低价
Page 24
12.1.3 博弈的结构和分类
【补充例3】动态博弈:甲向乙借一万元钱经营,甲许诺经营成功
完全信息动态博弈
后分给乙总利润(4万)的一半,乙是否借给甲?
乙
不借
借
甲
分
不分
乙
(2,2)
打
乙
(1,0)
有法律保障
Page 25
(1,0)
不打
(0,4)
(-1,0)
法律保障不足
12.2 纳 什 均 衡
12.2.1 纳什均衡定义
纳什均衡(Nash Equilibrium):
假定有n个博弈方参加博弈,在给定其他博弈方策略的
条件下,每个人选择自己的最优策略(个人最优策略可能
依赖也可能不依赖他人策略),从而使自己利益最大化,
所有局中人的策略一起构成一个策略组合。而Nash均衡是
这样一种策略组合,由所有参与人的最优策略组成,给定
别人策略的条件下,没有任何单个参与人有积极性选择其
他策略,从而没有任何人有积极性打破这种均衡,Nash均
衡是一种“ 僵局”:给定别人不动的情况下,没有人有兴
趣动。
Page 28
12.2 纳 什 均 衡
另一种解释:
假定所有博弈方事先达成一项协议,规定每个人的
行为规则,在没有外在的强制力约束时,当事人会自
觉遵守这个协议,等于说这个协议构成一个纳什均衡:
假定别人遵守协议的情况下,没有人有积极性偏离协
议规定的自己的行为规则。换句话说,如果一个协议
不构成纳什均衡,它就不可能自动实施,因为至少有
一个参与人会违背此协议,不满足Nash均衡要求的协
议是没有意义的。
Page 29
12.2 纳 什 均 衡
你正在图书馆枯坐,一位陌生美女主动过来和你搭
讪,并要求和你一起玩个数学游戏。美女提议:“让
我们各自亮出硬币的一面,或正或反。如果我们都是
正面,那么我给你3元,如果我们都是反面,我给你1
元,剩下的情况你给我2元就可以了。”那么该不该和
这位姑娘玩这个游戏呢?
Page 31
12.2 纳 什 均 衡
用G表示一个博弈,若一个博弈中有n个局中人,则
每个局中人可选策略的集合称为策略集,分别用
S1,S2,…,Sn
表示
sij表示局中人 i 的第 j 个策略,其中 j 可取有限个值
(有限策略博弈),也可取无限个值(无限策略博
弈);博弈方 i 的得益则用hi 表示;hi 是各博弈方策略
的多元函数,n个局中人的博弈G常写成:
G={S1,…,Sn;h1,…hn}
Page 32
12.2 纳 什 均 衡
纯策略纳什均衡
【定义12.1】 在博弈G={S1,S2…,Sn;h1,h2…hn}中,如果由各
个博弈方各选取一个策略组成的某个策略组合(s1*,s2*…,sn* )
中,任一博弈方 i 的策略si*,都是对其余局中人策略的组合
(s1*,…,s*i-1,s*i+1…,sn*)的最佳选择,即
hi ( s1* , , si*1 , si* , si*1 , , sn* )  hi ( s1* , , si*1 , sij , si*1 , , sn* )
对 任 意 sij∈Si 都 成立 ,则称 (s1*,…,sn* ) 为G的 一 个纯策略
“纳什均衡”(Nash Equilibrium)。
各选取一个策略组成的某个策略组合构成一个局势,其最
优局势称为纯策略意义下的最优局势(纳什均衡)。
Page 33
12.2 纳 什 均 衡
【例12-1】 假设有三个厂商在同一市场上生产销售完全相同
的产品,它们各自的产量分别用m1、m2和m3表示,再假设
m1、m2和m3只能取1、2、3……等正整数值。市场出清价格
一定是市场总产量Q=m1+m2+m3的函数,假设该函数为:
20  (m1  m2  m3 ),
P=P(Q)  20  Q  
0,
Q  20
Q  20
不妨先假设三个厂商开始时分别生产3单位,9单位和6单位
产量,这时三厂商是否满意各自的产量,要从利润进行分析,
由于产量不能超过20,则第i个厂商的利润函数为
 i  pmi  [20  (m1  m2  m3 )]  mi
Page 34
12.2 纳 什 均 衡
可算出在产量组合为(3,9,6)时,市场价格为2,三厂
商的利润分别为6,18和12,再作其它产量组合时亦会有不同
的结果。
最稳定的产量组合,是一个纳什均衡
表12-2 三厂商离散产量组合对应价格和利润
Page 35
m1
m2
m3
p
π1
π2
π3
3
9
6
2
6
18
12
3
8
6
3
9
24
18
5
5
6
4
20
20
24
5
5
5
5
25
25
25
5
5
4
6
30
30
24
3
3
3
11
33
33
33
6
3
3
8
48
24
24
12.2 纳 什 均 衡
混合策略纳什均衡
【定义12.2】 在博弈G={S1,…,Sn;h1,…,hn}中,
局中人i的策略集为Si={si1 ,…,sik},则他以概率分布
pi=(pi1,…,pik)随机在其k个可选策略中选择的“策
略”称为一个混合策略,其中0≤pij≤1对j=1,…,k都
成立,且pi1+…+pik=1。
纯策略是混合策略的特殊情形,只是选择相应纯策
略的概率服从(0-1)分布。 一个混合策略可理解为:
如果进行多局博弈G的话,局中人i分别选取纯策略的频
率;若只进行一次博弈,则反映了局中人i对各纯策略
的偏爱程度。
Page 36
12.2 纳 什 均 衡
【定义12.3】 如果一个博弈G={S1,…,Sn,h1,…,hn}
中,参予者i的策略集为Si={si1 ,…,sik},如果由各个博
弈方的策略组成策略集合G*={s1*,s2*,…,sn*},其中
mi


mi
*
si   xi  E | xi  0, i  1, 2, , mi ,  xi  1
i 1


都是对其余博弈方策略组合的最佳策略,即
hi(s1*,s2*,…,si-1*,si*, si+1*…sn*)≥hi(s1*,s2*,…,si-1*,sij,si+1*,…sn*)
对任意sij∈Si都成立,则称(s1*,…,sn*)为G的一个混合策略
纳什均衡.
Page 37
12.3 反应函数法
当得益是博弈的多元连续函数时,求出每个博
弈方的反应函数,而各个反应函数的交点就是纳什
均衡。
Page 39
12.3 反应函数法
【例12-4】设A,B两厂家生产同样产品,厂商A产量为q1,
B产量为q2,市场总产量为Q=q1+q2,市场出清价格是市场
总产量的函数P=6-Q。设产品产量的边际成本相等,
C1=C2=2。求解两厂商的纳什均衡(假设产量连续可分)。
分析:这是一个连续产量的古诺模型,不难看出,该博弈
中两厂商各自的利润分别为各自的销售收益减去各自成本,
即:
1  q1 p(Q )  C1q1  q1[6  (q1  q2 )]  2q1  4q1  q1q2  q12
 2  q2 p(Q)  C 2q2  q2 [6  (q1  q2 )]  2q2  4q2  q1q2  q22
max 1  max( 4q1  q1q2  q12 )
q1
Page 40
q1
12.3 反应函数法
1
q  (4  q 2 )
2
*
1
q 2* 
1
( 4  q1 )
2
作反应函数
1
R1 (q 2 )  (4  q 2 )
2
1
R2 (q1 )  (4  q1 )
2
纳什均衡:(4/3,4/3)
Page 41
(0,4)
R2
(0,2)
(4/3,4/3)
R1
(2,0)
(4,0)
12.3 反应函数法
【例12-6】设有3个农户一起放牧羊群,现有一可供大家自由
放牧的草地,由于草地面积有限,只能供有限只羊群吃饱,
否则就会影响到羊群的产出,假设每只羊的产出函数为
V  80  Q  80  (q1  q2  q2 )
成本C=8,且每个农户在决定自己放牧羊群数的时候并不知道
其它农户的决策,试求出该决策问题的纳什均衡。
【解】各农户的得益函数分别为
h1  q1[80  (q1  q2  q3 )]  8q1
h2  q2 [80  (q1  q2  q3 )]  8q2
h3  q3[80  (q1  q2  q3 )]  8q3
Page 44
12.3 反应函数法
反应函数
1
1
q1  R1 (q 2 , q3 )  36  q 2  q3
2
2
1
1
q 2  R1 (q1 , q3 )  36  q1  q3
2
2
1
1
q3  R1 (q1 , q 2 )  36  q1  q 2
2
2
因此该博弈的纳什均衡为(18,18,18)
Page 45
12.3 反应函数法
用反应函数法求纳什均衡的步骤:
1. 建立得益函数;
2. 求反应函数:即对得益函数求偏导数;
3. 解反应函数方程组。
反应函数方程组的解即为纳什均衡。
Page 46
12.4 二人有限零和博弈
两人有限零和博弈也称矩阵博弈,在众多博弈模型
中占有重要地位,也是最简单、理论和算法都比较完善
的一类。
齐威王田忌赛马,例12-2均为矩阵博弈。
Page 48
12.4 二人有限零和博弈
12.4.1 数学模型
模型:
G={S1,S2;A}
Ⅰ: S1={α1,α2,…,αm}——局中人Ⅰ的纯策略集
Ⅱ: S2={β1,β2,…,βn}——局中人Ⅱ的纯策略集
ai j——局中人Ⅰ在局势(αi ,βj)下的赢得值
 a11

 a21
A

a
 m1
Page 49
a12  a1n 

a22  a2 n  —— 局中人Ⅰ的得益矩阵

  
 (局中人Ⅱ的得益矩阵为-A)
a m 2  a mn 
12.4.1 数学模型
建立齐王田忌赛马的数学模型
S1={(上中下),(上下中),(中上下),(中下上),(下上中),(下中上)}
S2={(上中下),(上下中),(中上下),(中下上),(下上中),(下中上)}
田忌
上中下
上下中
中上下
中下上
下上中
下中上
3,-3
1,-1
1,-1
1,-1
-1,1
1,-1
上下中
1,-1
3,-3
1,-1
1,-1
1,-1
-1,1
中上下
1,-1
-1,1
3,-3
1,-1
1,-1
1,-1
中下上
-1,1
1,-1
1,-1
3,-3
1,-1
1,-1
下上中
1,-1
1,-1
1,-1
-1,1
3,-3
1,-1
下中上
1,-1
1,-1
-1,1
1,-1
1,-1
3,-3
齐王
上中下
Page 50
12.4.1 数学模型
齐王的赢得矩阵
1
1
1 1 1 
 3
1
3
1
1
1  1


 1 -1 3
1
1
1
A=

1
3
1
1
-1 1
1
1
1 1 3
1


1 1 1
1
3
1
Page 51
12.4.2 纯策略矩阵博弈
【例12-7】求解矩阵博弈,其中 G=S1,S2;A
S1={α1 ,
α4 }
α2 , α3 ,
 5
5
A=
7

 2
1
3
1
0
S2={β1 , β2 , β3 }
【解】 max min aij  min max aij  a22  3
i
j
j
9 
4 
 11

6 
i
博弈G的解(纳什均衡)为:( 2 ,  2 )
局中人Ⅰ的最优策略是α2 ,
是β2 的赢得为 V  3
局中人
G
Page 52
局中人Ⅱ的最优策略
12.4.2 纯策略矩阵博弈
【定义12.4】 设G={S1,S2;A}为矩阵博弈,其中
S1={α1,α2,…,αm},S2={β1,β2,…,βn},
A=(a ij ) mn
若等式
max min aij  min max aij  ai* j*
i
j
j
i
成立,V G ai * j* ,则称VG为博弈G的值,对应的策略组合
( i* ,  j* ) 称为该博弈的纯策略纳什均衡。
Page 53
12.4.2 纯策略矩阵博弈
【定理12.1】矩阵博弈G={S1 ,S2 ;A}在纯策略意义下
有纳什均衡的充要条件是:存在策略组合 (ai* ,  j* ) 使
得对一切i=1,…,m, j =1,…,n, 均有:
aij*  ai* j*  ai* j
意义:
当局中人Ⅰ选定纯策略αi* 后,局中人Ⅱ为了使其所失最
少,只能选择纯策略βj*,否则就可能损失得更多;反之,当
局中人Ⅱ选定纯策略βj*后,局中人Ⅰ为了得到最大的赢得也只
能选择纯策略αi* ,否则就会赢得更少,双方的竞争在局势
(αi*,, βj*)下达到了一个平衡状态。即纳什均衡。
Page 54
12.4.2 纯策略矩阵博弈
【定义12.5】设 f(x,y)为一个定义在x∈A及y∈B上的实
函数,如果存在x*∈A及y*∈B,使得对一切x∈A及y∈B有

 
 
f x, y *  f x * , y *  f x * , y

*
*
(
x
,
y
) 为函数 f 的一个鞍点。
则称
矩阵博弈在纯策略意义下有解且 V G ai* j* 的充要条
件是:
(αi* ,βj*) 是A的鞍点。
Page 55
12.4.2 纯策略矩阵博弈
【例12-9】 设有矩阵博弈G={ S1,S2;A },赢得矩阵为
S1={α1 ,
α4 }
α2 , α3 ,
S2={β1 , β2 , β3 ,
β4 }  8 5 8 5 
 2 3 2 1

A
9 5 6 5 


0 2 3 3 
求纳什均衡
Page 56
12.4.2 纯策略矩阵博弈
β1
α1
【解】
α2
A=
α3
α4
8

2
9

0
β2
β3
β4
5
8
3
2
5
6
2
3
5 

 1
5 

3 
纳什均衡为:(α1 ,β2 ), (α1 ,β4 ) , (α3 ,β2 ) , (α3 ,β4 )
博弈值VG=5
局中人Ⅰ的最优纯策略为α1 ,α3
局中人Ⅱ的最优纯策略为β2 ,β4
Page 57
12.4.2 纯策略矩阵博弈
【性质12.1】 无差别性。若( i1 ,  j1 ) 和( i2 ,  j2 ) 为G的两个
解,则:
a i1 j1  a i 2 j2
【性质12.2】 可交换性。若( i1 ,  j1 ) 和 ( i ,  j ) 为G的两个
解,则( i ,  j ) 和( i ,  j )也是博弈的解.
2
1
Page 58
2
2
1
2
12.4.2 纯策略矩阵博弈
应用举例:
某单位采购员在秋天时要决定冬季取暖用煤的采购
量。已知在正常气温条件下需要煤15吨,在较暖和较
冷气温条件下分别需要煤10吨和20吨。假定冬季的煤
价随天气寒冷程度而变化,在较暖、正常、较冷气温
条件下每吨煤的价格分别为100元、150元和200元。
又设秋季时每吨煤的价格为100元,在没有关于当年
冬季气温情况准确预报的条件下,秋季时应采购多少
吨煤能使总支出最少?试建立该问题的矩阵对策模型,
并求解。
Page 59
12.4.2 纯策略矩阵博弈
【解】
局中人I(采购员):S1={10吨,15吨,20吨}
局中人II(大自然):S2={较暖,正常,较冷}
  1000  1750  3000 


A    1500  1500  2500 
  2000  2000  2000 


纳什均衡为(α3 ,β3),博弈值VG=-2000
既采购员在秋天购煤20吨较好。
Page 60
12.4.3 混合策略矩阵博弈
矩阵博弈满足纯策略纳什均衡是指:
满足局中人Ⅰ有把握的至少赢得是局中人Ⅱ有把握
的至多损失,即
V1=max min ai j  min max ai j  V2
i
j
j
i
当V1≠V2 时,这时不存在纯策略意义下的纳什均衡 。
Page 61
12.4.3 混合策略矩阵博弈
齐王田忌赛马
1
1
1 1 1 
 3
1
3
1
1
1  1


 1 -1 3
1
1
1
A=

-
1
1
1
3
1
1


1
1
1 1 3
1


1 1 1
1
3
1
利用最小最大和最大最小原则,发现不存在使得
max min ai j  min max ai j
i
j
j
i
成立的点,即不存在纯策略纳什均衡。
Page 62
12.4.3 混合策略矩阵博弈
 
【定义12.6】设矩阵博弈 G=S1,S2;A,其中 A  aij
S1=1, 2,
, m ,S2= 1, 2,
, n 
m n
m


S1= x  ( x1 , x2 ,, xm ) | xi  0, i  1,2,, m ,  xi  1
i 1


n



S 2= y  ( y1 , y2 ,, yn ) | y j  0, j  1,2,, n,  y j  1
j 1


*
*
则分别称 S1和S2 为局中人Ⅰ、Ⅱ的混合策略集; x  S、
y

S
1
2
记
分别称为局中人Ⅰ、Ⅱ的混合策略,
( x , y为一个混合局势。
)
G *  S1* , S2* , E  称为G 的混合扩充。E是局中人Ⅰ的赢得期望值
m
n
E  E ( x, y )  xAyT   aij xi y j
i 1 j 1
Page 63
12.4.3 混合策略矩阵博弈
纯策略与混合策略的关系
纯策略是混合策略的特殊情形。一个混合策略
X=(x1, x2, …,xm)可理解为:如果进行多局博弈的话,
局中人I分别选取纯策略α1,α2,…,αm的频率;若只进
行一次博弈,则反映了局中人I对各纯策略的偏爱程
度。
Page 64
12.4.3 混合策略矩阵博弈
【定义12.6′】设G*={S1*,S2*,E}是矩阵博弈G={S1,S2,A}的混
合扩充,当 max
min* E ( x , y )  min* max* E ( x , y )  VG
*
xS1
yS 2
yS 2
xS1
时,称 ( x * , y * ) 为局中人Ⅰ、Ⅱ在混合策略中的纳什均衡。
E ( x, y )  xAT y 称为局中人Ⅰ的赢得函数,VG 称为G*的值。
【定理12.2】矩阵博弈G={S1,S2;A}在混合策略意义下有
解的充要条件是:存在x*∈S1*,y*∈S2*,使(x*,y*)为函数
E(x, y)的一个鞍点,即对一切x∈S1*,y∈S2*有
E(x,y*)≤E(x*,y*)≤E(x*,y)
Page 65
12.4.3 混合策略矩阵博弈
【例12-11】 考虑矩阵博弈G={ S1,S2;A },其中
y1 y2
x1 2 6 
试求纳什均衡
A x 

2 5 3 
【解】 纯策略纳什均衡不存在。设x=(x1,x2)为局中人Ⅰ
的混合策略,y=(y1,y2)为局中人Ⅱ的混合策略,则:
局中人Ⅰ的赢得期望值:
E  x, y   2 x1 y1  6 x1 y2  5 x2 y1  3x2 y2
 2 x1 y1  6 x1 (1  y1 )  5(1  x1 ) y1  3(1  x1 )(1  y1 )
1 
1

 6  x1   y1    4
3 
2

Page 66
12.4.3 混合策略矩阵博弈
取 x*  ( , ), y*  ( , ) ,E  x* , y*   4 ,则
1 2
3 3
1 1
2 2
E  x, y *   E  x * , y *   E  x * , y   4
满足


E ( x, y )  E x , y*  E ( x* , y)
*
*
该博弈的纳什均衡为: (x*, y*)
其中
1 2
1 1
x*  ( , ), y*  ( , )
3 3
2 2
局中人Ⅰ和Ⅱ的最优策略分别为: x*, y*
博弈值 VG=4
Page 67
12.4.4 纳什均衡存在定理
【定理12.3】 设x*∈S1*,y*∈S2*,则(x*,y*)为博弈G的纳什
均衡的条件是:对任意i=1,…,m,j=1,…,n,有
E(i , y*)≤E(x*, y*)≤E(x*, j)
【定理12.4】 设x*∈S1*,y*∈S2*,则(x*,y*)是博弈G的纳
什均衡的充要条件是:存在数V,使得x*,y*分别满足:
  a ij x i  V , j  1,2,  , n
 i

 xi  1
 i
 x  0, i  1,2,  , m
 i
且V=VG
Page 68
  a ij y j  V ,
i  1,2,  , m
 j

 y j  1
 j
 y  0,
j  1,2,  , n
 j
12.4.4 纳什均衡存在定理
【定理12.5】 对任一矩阵博弈G={S1,S2;A},一定存在混
合策略意义下的纳什均衡。
【定理12.6】 设(x*,y*)为矩阵博弈G的一个纳什均衡,
V=VG,则

*
a
y

ij
j V
(1)若 xi >0,则
j
(2)若
y j*
>0,则

aij xi  V
i

*
a
y

V
x
(3)若  ij j
,则 i  0
j
(4)若

*
y
aij x  V ,则 j  0

i
i
定理12.4-12.6说明了矩阵博弈总是有解的,并给出
了解所应满足的条件。
Page 69
12.4.4 纳什均衡存在定理
例12-11
y1
x1  2 6
A= 
x 2 5 3
 1 2
x   , ,
 3 3
*
Page 70
y2
1 1
y  , 
 2 2
*
VG  4
2 y1  6 y2  v
2 x1  5 x 2  v
5 y1  3 y2  v
6 x1  3 x 2  v
12.4.4 纳什均衡存在定理
【定理12.7】 设有两个矩阵博弈
G1={S1,S2;A}, G2={S1,S2;kA}
其中k>0为一常数。
则G1与G2有相同的解,且:
VG2  kVG1
【补充定理】 G1={S1,S2;A1=(aij)m×n}
G2={S1,S2;A2=(aij+d)m×n}
d为常数,则G1与G2有相同的解,且: VG  VG  d
2
1
【补充例】求解矩阵博弈
Page 71
 3600 1200 


 1200 1800 
12.4.5 矩阵博弈求解方法
1. 线性方程组法


若最优策略中 x i 和 y j 均不为零时,根据定理12.6,有
 aij xi  v
j  1, , n
 i

 xi  1,xi  0, i  1,2, , m
 i
  aij y j  v
i  1,  , m
 j

  y j  1, y j  0, j  1, 2,  n
 j
注意:(1)应用此方法的条件是所有策略的概率大于零。
(2)对于2×2的矩阵博弈当不存在纯策略鞍点时,
容易证明,各局中人的最优策略中xi,yj均大于零,
可采用此法求解。
Page 72
12.4.5 矩阵博弈求解方法
【例12-14】求解矩阵博弈 G  S1 , S 2 ; A
 1 2 1
A   5 4 1 
 2 2 1
【解】设x=(x1, x2, x3), y=(y1, y2, y3), xi>0, yj>0, i,j =1,2,3
建立方程组
 x1  5 x2  2 x3  V
2 x  4 x  2 x  V
 1
2
3

 x1  x2  x3  V
 x1  x2  x3  1
 y1  2 y2  y3  V
 5 y  4 y  y  V

1
2
3

 2 y1  2 y2  y3  V
 y1  y2  y3  1
x*=(0.525,0.275,0.2)
y*=(0.2,0.05,0.75)
该矩阵博弈的纳什均衡为 (x*, y* ), 搏弈值VG=-0.45
Page 73
12.4.5 矩阵博弈求解方法
2. 优超原则法(严格下策反复消去法)
优超原则:P311【定义12.7】, 【定理12.8】
【例12-12】 设赢得矩阵A为:
2 1 0 2 0 
3 0 1 4 8 


A  6 4 9 5 9


3
6
8
7
5


5 0 7 9 3 
求纳什均衡
Page 74
12.4.5 矩阵博弈求解方法
【解】
2 1 0 2 0 
3 0 1 4 8 


A  6 4 9 5 9


3 6 8 7 5 
5 0 7 9 3 
6 4 9
A2   3 6 5
 5 0 3
Page 75
6
A1  3
5
4
9
5
6
8
7
0
7
9
 6 4 9
A3  

3
6
5


9
5 
3
 6 4

A4  
 3 6
12.4.5 矩阵博弈求解方法
 6 4

A4  
 3 6
 6 x3  3 x4  v

 4 x3  6 x4  v
 x  x 1
 3 4
3  2
x  , x4 
5
5

3
6 y1  4 y2  v

3 y1  6 y2  v
 y  y 1
 1 2
y1 
该矩阵博弈的纳什均衡为:(x*, y*)
3 2
2 3


x  (0, 0, , , 0) y  ( , ,0,0,0)
5 5
5 5
Page 76
2  3
, y2 
5
5
VG=4.8
12.4.5 矩阵博弈求解方法
3.图解法
 5 35 

A  
 20 10 
【补充例1】用图解法求解
【解】设x=(x1,1-x1),y=(y1,1-y1)
v
对于局中人Ⅰ:
如果局中Ⅱ人选取 β1 ,则有 V=20-15x1
l1
如果局中Ⅱ人选取 β2 ,则有 V=25x1+10
点B(1/4, 65/4)为局中人Ⅰ的极值点
1 3
x  , 
4 4
*
Page 77
V  16
1
4
B
l2
A
o
C
x
1 1
12.4.5 矩阵博弈求解方法
同理
V=35-30y1
V=10+10y1
 5 3
y  , 
8 8
*
解得
该矩阵博弈的纳什均衡为:(x*, y*)
1 3
x  , 
4 4
*
VG=16.25
Page 78
 5 3
y  , 
8 8
*
12.4.5 矩阵博弈求解方法
【补充例2】某公司有甲、乙两个工厂,每年的税额是400万
元和1200万元。对于每个工厂,公司可如实申报税款,或者
篡改账目,声称税额为零,而税务局由于人力所限,每年只
能检查一个工厂的账目,如果税务局发现工厂偷税,则不但
要工厂如数缴纳税款,而且还要缴纳相当于一半税款的罚金。
(1)试将该问题表示为一个矩阵博弈模型;(2)求出税务
局和公司的最优策略及税务局从公司征收税款(含罚金)。
【解】税务局:S1={查甲工厂,查乙工厂}
公司:
S2={甲乙都实报,甲乙都报零,甲实报乙报零,甲报零乙实报}
 1600 600 400 1800 
A  

 1600 1800 2200 1200 
Page 79
利用定理12.7及补充定理化简
6 1 0 7
A1  

 6 7 9 4
设 x =(x1, 1-x1)
y=(y1, y2, y3, y4)
V=6
(1)
V=-6x1+7 (2)
V=-9x1+9 (3)
V=3x1+4
(4)
v
9
l3
l4
7
6
4
l1
B
A
C
 1 2
x  , 
 3 3
l2
1
o
点B(1/3, 5)为局中人Ⅰ的极值点
*
7
VG1  V =5
D 1
x1
同理可得
V=6y1+y2+7y4
V=6y1+7y2+9y3+4y4
(5)
(6)
点B(1/3, 5)不满足方程(1)、(3),由定理12.6
y1=y3=0
解(5) (6)组成的方程组
1
y2 
3
2
y4 
3
该矩阵博弈的纳什均衡为:(x*, y*)
 1 2
x *   , ,
 3 3
 1 2
y*   0, ,0,  VG*  ( 5  2) 200  1400
 3 3
税务局最优策略是以1/3的概率检查甲公司,
2/3的概率检查乙公司,这样至少能征收到1400万元
的税款
12.4.5 矩阵博弈求解方法
3. 线性规划方法
任意矩阵博弈 G=S1 , S2 , A  的求解均等价于一对互
为对偶的线性规划问题,而定理12.4表明,博弈G的解等
价于下面两个不等式组的解.
 aij xi  v
 i

  xi  1
 i
x  0
 i
j  1, , n
i  1,  m
  aij y j  v i  1,  , m
 j

 y j  1
 j
y  0
j  1,  n
 j
v  max* min* E ( x, y)  min* max* E ( x, y)
xS1
Page 84
yS2
yS2
xS1
12.4.5 矩阵博弈求解方法
【定理12.9】 设矩阵博弈的值为v,则:
v  max* min* E ( x, j )  min* max* E (i, y)
xS1
yS2
yS2
xS1
则局中人Ⅰ、Ⅱ的最优策略等价于线性规划问题:
Page 85
max Z  v
min Z  v
  aij xi  v , j  1, 2,  , n
 i

  xi  1
 i
 x  0, i  1, 2,  , m
 i
  aij y j  v , i  1, 2,  , m
 j

 y j  1
 j
 y  0, j  1, 2,  , n
 j
12.4.5 矩阵博弈求解方法
xi
xi 
v
令
i  1, , m
, 当 V>0 时,有
局中人Ⅰ:
max v 
1
 x
i
i
 aij xi  1, j  1, 2,
 i

1
( p )  xi 
v
 i
 xi  0, i  1, 2, , m

Page 86
,n
min Z   xi
i
 aij xi  1, j  1,2,  , n
 i
( p)
 xi  0, i  1,2,  , m
12.4.5 矩阵博弈求解方法
同理, 令 yj 
yj
v
j  1, , n 有
局中人Ⅱ:
min v 
1
 yj
j
 aij yj  1, i  1, 2, , m
 j

1

( D)  yj 
v
 j
 y  0, j  1, 2, , n
 j
Page 87
max w   yj
j
 aij yj  1, i  1,2,  , m
 j
( D)
 yj  0, j  1,2,  , n
12.4.5 矩阵博弈求解方法
注意:
(1)用线性规划法求解的必要条件是V>0。如何判断
V>0,可以证明,当aij≥0时,V >0。
(2)若某个aij≤0,可对A的各元素加上适当的数d>0,使
所有的aij≥0
Page 88
12.4.5 矩阵博弈求解方法
【例12-12】 利用线性规划方法求解赢得矩阵为
6  3 8 
A=4 7  2 
 5 7 10
的矩阵博弈的纳什均衡.
【解】 此问题可化为两个互为对偶的线性规划问题:
min z  x1  x 2  x3

6 x1  4 x 2  5 x3  1

 3 x1  7 x 2+7 x3  1
8 x  2 x  10 x  1
2
3
 1
 x1, x 2, x3  0
Page 89
max w  y1  y 2  y 3

6 y1  3 y 2  8 y 3  1

4 y1  7 y 2  2 y 3  1
 5 y  7 y  10 y  1
1
2
3

 y1 , y 2, y 3  0
12.4.5 矩阵博弈求解方法
最优解:x=(0.1065,0.1448,0.0437),
y=(0.1093,0.1038,0.0819);w=0.29508.
利用变换
1
1
1
*
x  x , y  y, v 
w
w
w
*
得到
x*=(0.36,0.49,0.15),y*=(0.37,0.35,0.28);
v=3.39
Page 90
12.4.5 矩阵博弈求解方法
解矩阵博弈的一般步骤
1.A2×n或Am×2,图解法。
有无纯
策略解
无
优超原则和
定理12.7化简
2.A2×2,图解法,方程组
法,代数法。
3.LP法(aij≥0)
Page 91
下一节:有限二人非零和博弈
Page 92
12.5 二人有限非零和博弈
12.5.1 数学定义
假设:彼此了解对方的纯策略集和赢得函数,但不合作,并
且局中人在选择自己策略时不知道对方的选择。
数学模型:Γ={S1,S2;(A1,A2)},其中
S1={α1,α2,…,αm},S2={β1,β2,…,βn}
A1=(aij)m×n , A2=(a′ij)m×n , A1+A2≠0
两人有限非零和博弈也称为双矩阵博弈。
记局中人Ⅰ的混合策略为 x=(x1,x2,…,xm),局中人Ⅱ的混合
策略为 y=(y1,y2, …,ym),相应的策略集分别记为 S1* , S2*
Page 93
12.5.1 数学定义
【补充例1】囚徒的困境
囚徒2
坦白
抵赖
坦白
(-5,-5)
(-1/4,-10)
抵赖
(-10,-1/4)
(-1,-1)
囚徒1
  5  1 / 4

A1  
  10  1 
  5  10 

A2  
 1/ 4 1 
( 1 / 4,10) 
 ( 5,5)

A  
( 1,1) 
 ( 10,1 / 4)
Page 94
12.5.1 数学定义
【例11.16】市场上有两企业生产同样商品,甲企业与乙
企业的赢得矩阵分别为
1  2
1  2 1 
A1  
 2  0 3
1  2
1  3 1 
A2  
 2  2 3
矩阵A1和A2合并为双矩阵
 (2,3) (1,1) 
A

(0,
2)
(3,3)


Page 95
12.5.1 数学定义
【定义12.8】 对于某个二人有限非零和博弈,其局中人Ⅰ
的赢得(混合策略下)为
m
n
e1 ( x , y)   aij xi y j  xA1 yT
i 1 j 1
局中人Ⅱ的赢得为
m
n
e2 ( x , y)   aij xi y j  xA2 yT
i 1 j 1
A1  (aij ) mn , A2  (aij ) mn
Page 96
12.5.2 二人有限非零和博弈纳什均衡
【定义12.9】在有限二人非零和博弈中,设 e1 ( x, y)和e2 ( x, y)
*
分别是局中人Ⅰ和Ⅱ的赢得, x  S1* , y  S为任意策略,如
2
果有一博弈
x*  S1* , y*  S2*满足
e1 ( x* , y* )  e1 ( x, y* )及e2 ( x* , y* )  e2 ( x* , y)
则称( x*, y*)为该博弈的纳什均衡,称
( u* , v* )  e1 ( x* , y* ), e2 ( x* , y*,) 
为博弈的赢得值。
【定理12.10】(纳什定理)任何矩阵博弈及有限二人非
零和博弈至少有一个纳什均衡。
Page 97
12.5.3 2×2二人有限非零和博弈的求解
3. 优超原则法
【例12.18】用优超原则求解下列双矩阵博弈
(2, 4) (8,3) (4,3) 
A

(5,
6)
(4,5)
(5,
7)


(2, 4) (4,3) 
A1  

(5,
6)
(5,
7)


A2  (5,6) (5,7 )
纳什均衡(纯策略)为:
( 2 ,  3 ),即x * (0,
1),y*  ( 0,0,1)
局中人Ⅰ、Ⅱ的最优策略分别是α2,β3
博弈值: (u*, v*)  (5, 7)
方法:局中人Ⅰ对A1进行行比较,删去数据小的行;
局中人Ⅱ对A2进行列比较,删去数据小的列。
Page 102
12.5.3 2×2二人有限非零和博弈的求解
4. 划线法
(1)局中人Ⅰ从A1的每列选取最大值划线。
(2)局中人Ⅱ从A2的每行选取最大值划线。
(3)如果某一策略组合值下都划了横线,则此策略组
合就是纳什均衡解,该组数字分别为两人的赢得值。否
则,不存在纯策略意义下的纳什均衡。
Page 103
12.5.3 2×2二人有限非零和博弈的求解
【例12-19】用划线法求解双矩阵博弈
(2, 4) (8,3) (4,3) 
A

 (5, 6) (4,5) (5, 7) 
 ) 下都已划线,则纳什均衡为 (α , β )
(a23 , a23
2
3
即:局中人Ⅰ、Ⅱ的最优策略分别是α2,β3
博弈值: (u*, v*)  (5, 7)
【补充例】用划线法求解囚徒的困境
Page 104
12.5.3 2×2二人有限非零和博弈的求解
【补充例】一对恋人商量周末的活动安排,是看足球赛
还是听音乐会。已知不同策略组合下的收益值如表所
示。
女方
足球
音乐会
足球
(3,1)
(-1,-1)
音乐会
(-1,-1)
(1,3)
男方
求解该博弈问题。
(足球,足球),(音乐会,音乐会)是该问题的两
个纳什均衡。
Page 105
12.5.3 2×2二人有限非零和博弈的求解
具有一个以上的纳什均衡时,根据博弈的背景、局
中人的一些信息或理性,判断或预测出的最终结局,称
为聚点。
当存在多重纳什均衡时,一般很难判断最终结局,
但在联系博弈背景及局中人习性后,一定条件下可以推
断聚点的出现。
Page 106
论
文
企业如何走出囚徒的困境
Page 110
12.5 有限二人非零和博弈
作业:教材P292 T2、7
The End of Chapter 12
Page 111