第12章博弈论课件 - 经济管理学院
Download
Report
Transcript 第12章博弈论课件 - 经济管理学院
云南农业大学经济管理学院
主讲:佘迎红
Page 1
第12章 博 弈 论
game theory
12.1 引 言
12.2 纳什均衡
Nash Equilibrium
12.3 反应函数法
Method of reaction function
12.4 有限二人零和博弈
Two person finite zero-sum game
12.5 有限二人非零和博弈
Two person finite non-zero-sum game
12.1 引 言
12.1.1 博弈论概述
博弈论(game theory)亦称对策论,是研究具有
对抗或竞争性质现象的数学理论和方法,它既是数
学、也是运筹学的一个重要分支。
博弈行为是博弈论中一个重要的概念。博弈行为
是指具有竞争或对抗性质的行为,在这类行为中,
参加斗争或竞争的各方各自具有不同的利益和目标,
各方需考虑对手的各种可能的行动方案,如何采取
行动以及与对手互动对自己最为有利 。
Page 3
12.1.1 博弈论概述
【例12-3】齐威王田忌赛马
Page 4
齐王:上
中
下
田忌:下
上
中
12.1.1 博弈论概述
【补充例1】囚徒的困境
囚徒2
囚徒1
Page 5
坦白
抵赖
坦白
(-5,-5)
(-1/4,-10)
抵赖
(-10,-1/4)
(-1,-1)
12.1.1 博弈论概述
博弈:
是一些个人、团队或其它组织,面对一定的环境条
件,在一定的规则下,同时或先后从各自允许的行为
或策略中进行选择并加以实施,各自取得相应结果的
过程。
博弈行为具有的共同特征:
(1)有一定的规则
(2)有一个明确的结果
(3)有可供选择的策略
(4)策略与利益相互依存
Page 6
12.1.1 博弈论概述
在现实社会、经济生活中很多活动都具有博弈的特
征,例如:市场竞争、经营决策、投资分析、价格制
定、费用分摊、财政转移支付、投标与拍卖、对抗与
追踪、资源利用、谈判、竞选、战争等。
又如,三国时代的曹不兴溅墨画蝇、曹操兵败华容
道、北宋时期的丁渭挖河修皇宫等都是博弈论成功应
用的例子。
Page 7
12.1.1 博弈论概述
博弈论研究的问题:
参与博弈的各方是否存在最合理的策略以及如何
找到合理的策略。
博弈论是研究决策主体的行为发生直接相互作用时
的决策及这种决策的均衡问题。即它是研究聪明而又
理智的决策者在冲突或合作中的策略选择理论。它将
成为当代经济管理学科的前沿领城。
著名法国经济学家泰勒尔(Jean Tirole )说:
“正如理性预期使宏观经济学发生革命一样,博弈论
广泛而深远地改变了经济学家的思维方式”。
Page 8
12.1.1 博弈论概述
1944 年 美 国 普 林 斯 特 大 学 教 授
冯·诺伊曼、摩根斯坦的著作《博弈
论和经济行为》的出版,是博弈论
诞生的标志。
普林斯特大学对博弈论作出重大
贡献的还有塔克、库恩、纳什等。
要想在现代社会做 一个有文化的人,你必须对博
弈论有一个大致的了解。
——萨缪尔森
Page 9
12.1.1 博弈论概述
约翰·纳什(John F. Nash )
1928年生于美国,1994年获得诺贝尔经济学奖。
在非合作博弈的均衡分析理论方面做出了开创性的贡献,
对博弈论和经济学产生了重大影响。
Nash对博弈论的主要贡献有:(1)合作博弈中的讨价还
价模型,称为Nash讨价还价解;(2)非合作博弈的均衡
分析。
Page 10
12.1.1 博弈论概述
博弈论发展史上的五次诺贝尔经济学奖
Page 11
1994年,纳什、海萨尼、塞尔顿,非合作博弈理论
12.1.1 博弈论概述
博弈论发展史上的五次诺贝尔经济学奖
1996年,莫里斯和维克瑞,不对称信息条件下激
励机制问题
Page 12
12.1.1 博弈论概述
博弈论发展史上的五次诺贝尔经济学奖
2005年,罗伯特.奥曼,托马斯.谢林,合作博弈
理论
Page 13
12.1.1 博弈论概述
博弈论发展史上的五次诺贝尔经济学奖
2007年,三名美国经济学家莱昂尼德.赫维奇,埃
里克.马斯金,罗杰.迈尔森,“机制设计理论”
Page 14
12.1.1 博弈论概述
博弈论发展史上的五次诺贝尔经济学奖
2012年,美国经济学家阿尔文.罗思(Alvin E.
Roth)和劳埃德.沙普利(Lloyd S. Shapley),“稳
定匹配理论和市场设计实践”。
Page 15
12.1.2 博弈三要素
博弈模型的3个基本要素:
(1)局中人(players):博弈的参加者,可以是一个
人、一个团队、一个企业、交战的一方等。假设每一个
局中人都是“理智”的。
(2)策略集(strategies):策略是可供局中人选择的
实际可行的完整的行动方案。每个局中人的策略集(S)
至少应包括两个策略。
(3)得益(赢得)函数(payoffs):当每个局中人的
策略确定后,他们就会得到相应的收益或损失称为局中
人的得益,不同的策略会导致不同的得益,因此,得益
是策略的函数。
Page 16
12.1.2 博弈三要素
局势:每一个局中人各选择一个策略形成的对局(策略组合)。
,
n人博弈 s ( s1 , s 2 , , s n )
两人博弈
i
j
全体局势的集合S可用各局中人的策略集的迪卡尔集表示
S S1 S 2 S n
二人博弈的矩阵型表示:
囚徒2
坦白
抵赖
囚 坦白 -5,-5
-1/4,-10
徒
-1,-1
1 抵赖 -10,-1/4
Page 17
12.1.3 博弈的结构和分类
分类依据
类
型
局中人数量
两人博弈,多人博弈,单人博弈
策略数量
有限博弈,无限博弈
得益情况
零和博弈,常和博弈,变和博弈
局中人间是否允许合作 非合作博弈,合作博弈
信息结构
博弈过程
18
完全信息博弈,不对称信息博弈
静态博弈,动态博弈,重复博弈
12.1.3 博弈的结构和分类
完全理性
按博弈方式 非合作博弈 有限理性
合作博弈
二人零和博弈
二人博弈
博弈分类 按博弈人数
二人非零和博弈
多人博弈
完全信息静态博弈
静态博弈
不完全信息静态博弈
按博弈状态
动态博弈 完全信息动态博弈
不完全信息动态博弈
Page 19
12.1.3 博弈的结构和分类
【例12-2】1943年2月,日本统帅山本五十六大将计划
由南太平洋新不列颠群岛的拉包尔出发,3天穿过俾
斯麦海,开往新几内亚的莱城,支援困守的日军。有
两条路线:北线和南线。
盟军统帅麦克阿瑟命令他麾下的太平洋战区空军司
令肯尼将军组织空中打击。侦察机重点搜索有两个方
案:北线和南线。
当时未来3天中:北线阴雨,能见度差;南线晴天,
能见度佳。日美双方各自应采用哪种方案。
Page 20
北线
南线
12.1.3 博弈的结构和分类
两人有限零和博弈
【解】局中人:盟军、日军
双方策略:北线、南线
S1=1, 2
S2=1, 2
盟军的赢得矩阵如下:
日军
盟军
北线( 1)
北线
( 1 )
2
南线
( 2 )
2
南线( 2)
1
3
双方选择策略的思路:
在最不利中选择最有
利的策略。
最优局势是: (1 , 1 )
即都选择北线。日军舰队受到重创,但未全歼。
*
Page 22
*
12.1.3 博弈的结构和分类
【补充例2】双寡头削价竞争(两个厂商)
两人有限非零和博弈
中南
高价
亚贸
高价
低价
低价
(100,100) (30,150)
(150,30)
(70,70)
类似地,广告投资、采用新技术等方面,厂商之间常常耗
资巨大,但不一定有利可图的争夺战;对公共资源的掠夺式
使用等问题。
我们的目的是如何利用这种困境达到有利于社会,合理利
用和开发公共资源,保护环境。
Page 23
12.1.3 博弈的结构和分类
多寡头削价竞争(3个厂商:亚贸,中南,中北)
中南
高价
低价
高价
(100,100,100)
(20,150,20)
低价
(150,20,20)
(130,130,20)
高价
低价
高价
(20,20,150)
(20,130,130)
低价
(130,20,130)
(70,70,70)
亚贸
中北采用高价
中南
亚贸
中北采用低价
Page 24
12.1.3 博弈的结构和分类
【补充例3】动态博弈:甲向乙借一万元钱经营,甲许诺经营成功
完全信息动态博弈
后分给乙总利润(4万)的一半,乙是否借给甲?
乙
不借
借
甲
分
不分
乙
(2,2)
打
乙
(1,0)
有法律保障
Page 25
(1,0)
不打
(0,4)
(-1,0)
法律保障不足
12.2 纳 什 均 衡
12.2.1 纳什均衡定义
纳什均衡(Nash Equilibrium):
假定有n个博弈方参加博弈,在给定其他博弈方策略的
条件下,每个人选择自己的最优策略(个人最优策略可能
依赖也可能不依赖他人策略),从而使自己利益最大化,
所有局中人的策略一起构成一个策略组合。而Nash均衡是
这样一种策略组合,由所有参与人的最优策略组成,给定
别人策略的条件下,没有任何单个参与人有积极性选择其
他策略,从而没有任何人有积极性打破这种均衡,Nash均
衡是一种“ 僵局”:给定别人不动的情况下,没有人有兴
趣动。
Page 28
12.2 纳 什 均 衡
另一种解释:
假定所有博弈方事先达成一项协议,规定每个人的
行为规则,在没有外在的强制力约束时,当事人会自
觉遵守这个协议,等于说这个协议构成一个纳什均衡:
假定别人遵守协议的情况下,没有人有积极性偏离协
议规定的自己的行为规则。换句话说,如果一个协议
不构成纳什均衡,它就不可能自动实施,因为至少有
一个参与人会违背此协议,不满足Nash均衡要求的协
议是没有意义的。
Page 29
12.2 纳 什 均 衡
你正在图书馆枯坐,一位陌生美女主动过来和你搭
讪,并要求和你一起玩个数学游戏。美女提议:“让
我们各自亮出硬币的一面,或正或反。如果我们都是
正面,那么我给你3元,如果我们都是反面,我给你1
元,剩下的情况你给我2元就可以了。”那么该不该和
这位姑娘玩这个游戏呢?
Page 31
12.2 纳 什 均 衡
用G表示一个博弈,若一个博弈中有n个局中人,则
每个局中人可选策略的集合称为策略集,分别用
S1,S2,…,Sn
表示
sij表示局中人 i 的第 j 个策略,其中 j 可取有限个值
(有限策略博弈),也可取无限个值(无限策略博
弈);博弈方 i 的得益则用hi 表示;hi 是各博弈方策略
的多元函数,n个局中人的博弈G常写成:
G={S1,…,Sn;h1,…hn}
Page 32
12.2 纳 什 均 衡
纯策略纳什均衡
【定义12.1】 在博弈G={S1,S2…,Sn;h1,h2…hn}中,如果由各
个博弈方各选取一个策略组成的某个策略组合(s1*,s2*…,sn* )
中,任一博弈方 i 的策略si*,都是对其余局中人策略的组合
(s1*,…,s*i-1,s*i+1…,sn*)的最佳选择,即
hi ( s1* , , si*1 , si* , si*1 , , sn* ) hi ( s1* , , si*1 , sij , si*1 , , sn* )
对 任 意 sij∈Si 都 成立 ,则称 (s1*,…,sn* ) 为G的 一 个纯策略
“纳什均衡”(Nash Equilibrium)。
各选取一个策略组成的某个策略组合构成一个局势,其最
优局势称为纯策略意义下的最优局势(纳什均衡)。
Page 33
12.2 纳 什 均 衡
【例12-1】 假设有三个厂商在同一市场上生产销售完全相同
的产品,它们各自的产量分别用m1、m2和m3表示,再假设
m1、m2和m3只能取1、2、3……等正整数值。市场出清价格
一定是市场总产量Q=m1+m2+m3的函数,假设该函数为:
20 (m1 m2 m3 ),
P=P(Q) 20 Q
0,
Q 20
Q 20
不妨先假设三个厂商开始时分别生产3单位,9单位和6单位
产量,这时三厂商是否满意各自的产量,要从利润进行分析,
由于产量不能超过20,则第i个厂商的利润函数为
i pmi [20 (m1 m2 m3 )] mi
Page 34
12.2 纳 什 均 衡
可算出在产量组合为(3,9,6)时,市场价格为2,三厂
商的利润分别为6,18和12,再作其它产量组合时亦会有不同
的结果。
最稳定的产量组合,是一个纳什均衡
表12-2 三厂商离散产量组合对应价格和利润
Page 35
m1
m2
m3
p
π1
π2
π3
3
9
6
2
6
18
12
3
8
6
3
9
24
18
5
5
6
4
20
20
24
5
5
5
5
25
25
25
5
5
4
6
30
30
24
3
3
3
11
33
33
33
6
3
3
8
48
24
24
12.2 纳 什 均 衡
混合策略纳什均衡
【定义12.2】 在博弈G={S1,…,Sn;h1,…,hn}中,
局中人i的策略集为Si={si1 ,…,sik},则他以概率分布
pi=(pi1,…,pik)随机在其k个可选策略中选择的“策
略”称为一个混合策略,其中0≤pij≤1对j=1,…,k都
成立,且pi1+…+pik=1。
纯策略是混合策略的特殊情形,只是选择相应纯策
略的概率服从(0-1)分布。 一个混合策略可理解为:
如果进行多局博弈G的话,局中人i分别选取纯策略的频
率;若只进行一次博弈,则反映了局中人i对各纯策略
的偏爱程度。
Page 36
12.2 纳 什 均 衡
【定义12.3】 如果一个博弈G={S1,…,Sn,h1,…,hn}
中,参予者i的策略集为Si={si1 ,…,sik},如果由各个博
弈方的策略组成策略集合G*={s1*,s2*,…,sn*},其中
mi
mi
*
si xi E | xi 0, i 1, 2, , mi , xi 1
i 1
都是对其余博弈方策略组合的最佳策略,即
hi(s1*,s2*,…,si-1*,si*, si+1*…sn*)≥hi(s1*,s2*,…,si-1*,sij,si+1*,…sn*)
对任意sij∈Si都成立,则称(s1*,…,sn*)为G的一个混合策略
纳什均衡.
Page 37
12.3 反应函数法
当得益是博弈的多元连续函数时,求出每个博
弈方的反应函数,而各个反应函数的交点就是纳什
均衡。
Page 39
12.3 反应函数法
【例12-4】设A,B两厂家生产同样产品,厂商A产量为q1,
B产量为q2,市场总产量为Q=q1+q2,市场出清价格是市场
总产量的函数P=6-Q。设产品产量的边际成本相等,
C1=C2=2。求解两厂商的纳什均衡(假设产量连续可分)。
分析:这是一个连续产量的古诺模型,不难看出,该博弈
中两厂商各自的利润分别为各自的销售收益减去各自成本,
即:
1 q1 p(Q ) C1q1 q1[6 (q1 q2 )] 2q1 4q1 q1q2 q12
2 q2 p(Q) C 2q2 q2 [6 (q1 q2 )] 2q2 4q2 q1q2 q22
max 1 max( 4q1 q1q2 q12 )
q1
Page 40
q1
12.3 反应函数法
1
q (4 q 2 )
2
*
1
q 2*
1
( 4 q1 )
2
作反应函数
1
R1 (q 2 ) (4 q 2 )
2
1
R2 (q1 ) (4 q1 )
2
纳什均衡:(4/3,4/3)
Page 41
(0,4)
R2
(0,2)
(4/3,4/3)
R1
(2,0)
(4,0)
12.3 反应函数法
【例12-6】设有3个农户一起放牧羊群,现有一可供大家自由
放牧的草地,由于草地面积有限,只能供有限只羊群吃饱,
否则就会影响到羊群的产出,假设每只羊的产出函数为
V 80 Q 80 (q1 q2 q2 )
成本C=8,且每个农户在决定自己放牧羊群数的时候并不知道
其它农户的决策,试求出该决策问题的纳什均衡。
【解】各农户的得益函数分别为
h1 q1[80 (q1 q2 q3 )] 8q1
h2 q2 [80 (q1 q2 q3 )] 8q2
h3 q3[80 (q1 q2 q3 )] 8q3
Page 44
12.3 反应函数法
反应函数
1
1
q1 R1 (q 2 , q3 ) 36 q 2 q3
2
2
1
1
q 2 R1 (q1 , q3 ) 36 q1 q3
2
2
1
1
q3 R1 (q1 , q 2 ) 36 q1 q 2
2
2
因此该博弈的纳什均衡为(18,18,18)
Page 45
12.3 反应函数法
用反应函数法求纳什均衡的步骤:
1. 建立得益函数;
2. 求反应函数:即对得益函数求偏导数;
3. 解反应函数方程组。
反应函数方程组的解即为纳什均衡。
Page 46
12.4 二人有限零和博弈
两人有限零和博弈也称矩阵博弈,在众多博弈模型
中占有重要地位,也是最简单、理论和算法都比较完善
的一类。
齐威王田忌赛马,例12-2均为矩阵博弈。
Page 48
12.4 二人有限零和博弈
12.4.1 数学模型
模型:
G={S1,S2;A}
Ⅰ: S1={α1,α2,…,αm}——局中人Ⅰ的纯策略集
Ⅱ: S2={β1,β2,…,βn}——局中人Ⅱ的纯策略集
ai j——局中人Ⅰ在局势(αi ,βj)下的赢得值
a11
a21
A
a
m1
Page 49
a12 a1n
a22 a2 n —— 局中人Ⅰ的得益矩阵
(局中人Ⅱ的得益矩阵为-A)
a m 2 a mn
12.4.1 数学模型
建立齐王田忌赛马的数学模型
S1={(上中下),(上下中),(中上下),(中下上),(下上中),(下中上)}
S2={(上中下),(上下中),(中上下),(中下上),(下上中),(下中上)}
田忌
上中下
上下中
中上下
中下上
下上中
下中上
3,-3
1,-1
1,-1
1,-1
-1,1
1,-1
上下中
1,-1
3,-3
1,-1
1,-1
1,-1
-1,1
中上下
1,-1
-1,1
3,-3
1,-1
1,-1
1,-1
中下上
-1,1
1,-1
1,-1
3,-3
1,-1
1,-1
下上中
1,-1
1,-1
1,-1
-1,1
3,-3
1,-1
下中上
1,-1
1,-1
-1,1
1,-1
1,-1
3,-3
齐王
上中下
Page 50
12.4.1 数学模型
齐王的赢得矩阵
1
1
1 1 1
3
1
3
1
1
1 1
1 -1 3
1
1
1
A=
1
3
1
1
-1 1
1
1
1 1 3
1
1 1 1
1
3
1
Page 51
12.4.2 纯策略矩阵博弈
【例12-7】求解矩阵博弈,其中 G=S1,S2;A
S1={α1 ,
α4 }
α2 , α3 ,
5
5
A=
7
2
1
3
1
0
S2={β1 , β2 , β3 }
【解】 max min aij min max aij a22 3
i
j
j
9
4
11
6
i
博弈G的解(纳什均衡)为:( 2 , 2 )
局中人Ⅰ的最优策略是α2 ,
是β2 的赢得为 V 3
局中人
G
Page 52
局中人Ⅱ的最优策略
12.4.2 纯策略矩阵博弈
【定义12.4】 设G={S1,S2;A}为矩阵博弈,其中
S1={α1,α2,…,αm},S2={β1,β2,…,βn},
A=(a ij ) mn
若等式
max min aij min max aij ai* j*
i
j
j
i
成立,V G ai * j* ,则称VG为博弈G的值,对应的策略组合
( i* , j* ) 称为该博弈的纯策略纳什均衡。
Page 53
12.4.2 纯策略矩阵博弈
【定理12.1】矩阵博弈G={S1 ,S2 ;A}在纯策略意义下
有纳什均衡的充要条件是:存在策略组合 (ai* , j* ) 使
得对一切i=1,…,m, j =1,…,n, 均有:
aij* ai* j* ai* j
意义:
当局中人Ⅰ选定纯策略αi* 后,局中人Ⅱ为了使其所失最
少,只能选择纯策略βj*,否则就可能损失得更多;反之,当
局中人Ⅱ选定纯策略βj*后,局中人Ⅰ为了得到最大的赢得也只
能选择纯策略αi* ,否则就会赢得更少,双方的竞争在局势
(αi*,, βj*)下达到了一个平衡状态。即纳什均衡。
Page 54
12.4.2 纯策略矩阵博弈
【定义12.5】设 f(x,y)为一个定义在x∈A及y∈B上的实
函数,如果存在x*∈A及y*∈B,使得对一切x∈A及y∈B有
f x, y * f x * , y * f x * , y
*
*
(
x
,
y
) 为函数 f 的一个鞍点。
则称
矩阵博弈在纯策略意义下有解且 V G ai* j* 的充要条
件是:
(αi* ,βj*) 是A的鞍点。
Page 55
12.4.2 纯策略矩阵博弈
【例12-9】 设有矩阵博弈G={ S1,S2;A },赢得矩阵为
S1={α1 ,
α4 }
α2 , α3 ,
S2={β1 , β2 , β3 ,
β4 } 8 5 8 5
2 3 2 1
A
9 5 6 5
0 2 3 3
求纳什均衡
Page 56
12.4.2 纯策略矩阵博弈
β1
α1
【解】
α2
A=
α3
α4
8
2
9
0
β2
β3
β4
5
8
3
2
5
6
2
3
5
1
5
3
纳什均衡为:(α1 ,β2 ), (α1 ,β4 ) , (α3 ,β2 ) , (α3 ,β4 )
博弈值VG=5
局中人Ⅰ的最优纯策略为α1 ,α3
局中人Ⅱ的最优纯策略为β2 ,β4
Page 57
12.4.2 纯策略矩阵博弈
【性质12.1】 无差别性。若( i1 , j1 ) 和( i2 , j2 ) 为G的两个
解,则:
a i1 j1 a i 2 j2
【性质12.2】 可交换性。若( i1 , j1 ) 和 ( i , j ) 为G的两个
解,则( i , j ) 和( i , j )也是博弈的解.
2
1
Page 58
2
2
1
2
12.4.2 纯策略矩阵博弈
应用举例:
某单位采购员在秋天时要决定冬季取暖用煤的采购
量。已知在正常气温条件下需要煤15吨,在较暖和较
冷气温条件下分别需要煤10吨和20吨。假定冬季的煤
价随天气寒冷程度而变化,在较暖、正常、较冷气温
条件下每吨煤的价格分别为100元、150元和200元。
又设秋季时每吨煤的价格为100元,在没有关于当年
冬季气温情况准确预报的条件下,秋季时应采购多少
吨煤能使总支出最少?试建立该问题的矩阵对策模型,
并求解。
Page 59
12.4.2 纯策略矩阵博弈
【解】
局中人I(采购员):S1={10吨,15吨,20吨}
局中人II(大自然):S2={较暖,正常,较冷}
1000 1750 3000
A 1500 1500 2500
2000 2000 2000
纳什均衡为(α3 ,β3),博弈值VG=-2000
既采购员在秋天购煤20吨较好。
Page 60
12.4.3 混合策略矩阵博弈
矩阵博弈满足纯策略纳什均衡是指:
满足局中人Ⅰ有把握的至少赢得是局中人Ⅱ有把握
的至多损失,即
V1=max min ai j min max ai j V2
i
j
j
i
当V1≠V2 时,这时不存在纯策略意义下的纳什均衡 。
Page 61
12.4.3 混合策略矩阵博弈
齐王田忌赛马
1
1
1 1 1
3
1
3
1
1
1 1
1 -1 3
1
1
1
A=
-
1
1
1
3
1
1
1
1
1 1 3
1
1 1 1
1
3
1
利用最小最大和最大最小原则,发现不存在使得
max min ai j min max ai j
i
j
j
i
成立的点,即不存在纯策略纳什均衡。
Page 62
12.4.3 混合策略矩阵博弈
【定义12.6】设矩阵博弈 G=S1,S2;A,其中 A aij
S1=1, 2,
, m ,S2= 1, 2,
, n
m n
m
S1= x ( x1 , x2 ,, xm ) | xi 0, i 1,2,, m , xi 1
i 1
n
S 2= y ( y1 , y2 ,, yn ) | y j 0, j 1,2,, n, y j 1
j 1
*
*
则分别称 S1和S2 为局中人Ⅰ、Ⅱ的混合策略集; x S、
y
S
1
2
记
分别称为局中人Ⅰ、Ⅱ的混合策略,
( x , y为一个混合局势。
)
G * S1* , S2* , E 称为G 的混合扩充。E是局中人Ⅰ的赢得期望值
m
n
E E ( x, y ) xAyT aij xi y j
i 1 j 1
Page 63
12.4.3 混合策略矩阵博弈
纯策略与混合策略的关系
纯策略是混合策略的特殊情形。一个混合策略
X=(x1, x2, …,xm)可理解为:如果进行多局博弈的话,
局中人I分别选取纯策略α1,α2,…,αm的频率;若只进
行一次博弈,则反映了局中人I对各纯策略的偏爱程
度。
Page 64
12.4.3 混合策略矩阵博弈
【定义12.6′】设G*={S1*,S2*,E}是矩阵博弈G={S1,S2,A}的混
合扩充,当 max
min* E ( x , y ) min* max* E ( x , y ) VG
*
xS1
yS 2
yS 2
xS1
时,称 ( x * , y * ) 为局中人Ⅰ、Ⅱ在混合策略中的纳什均衡。
E ( x, y ) xAT y 称为局中人Ⅰ的赢得函数,VG 称为G*的值。
【定理12.2】矩阵博弈G={S1,S2;A}在混合策略意义下有
解的充要条件是:存在x*∈S1*,y*∈S2*,使(x*,y*)为函数
E(x, y)的一个鞍点,即对一切x∈S1*,y∈S2*有
E(x,y*)≤E(x*,y*)≤E(x*,y)
Page 65
12.4.3 混合策略矩阵博弈
【例12-11】 考虑矩阵博弈G={ S1,S2;A },其中
y1 y2
x1 2 6
试求纳什均衡
A x
2 5 3
【解】 纯策略纳什均衡不存在。设x=(x1,x2)为局中人Ⅰ
的混合策略,y=(y1,y2)为局中人Ⅱ的混合策略,则:
局中人Ⅰ的赢得期望值:
E x, y 2 x1 y1 6 x1 y2 5 x2 y1 3x2 y2
2 x1 y1 6 x1 (1 y1 ) 5(1 x1 ) y1 3(1 x1 )(1 y1 )
1
1
6 x1 y1 4
3
2
Page 66
12.4.3 混合策略矩阵博弈
取 x* ( , ), y* ( , ) ,E x* , y* 4 ,则
1 2
3 3
1 1
2 2
E x, y * E x * , y * E x * , y 4
满足
E ( x, y ) E x , y* E ( x* , y)
*
*
该博弈的纳什均衡为: (x*, y*)
其中
1 2
1 1
x* ( , ), y* ( , )
3 3
2 2
局中人Ⅰ和Ⅱ的最优策略分别为: x*, y*
博弈值 VG=4
Page 67
12.4.4 纳什均衡存在定理
【定理12.3】 设x*∈S1*,y*∈S2*,则(x*,y*)为博弈G的纳什
均衡的条件是:对任意i=1,…,m,j=1,…,n,有
E(i , y*)≤E(x*, y*)≤E(x*, j)
【定理12.4】 设x*∈S1*,y*∈S2*,则(x*,y*)是博弈G的纳
什均衡的充要条件是:存在数V,使得x*,y*分别满足:
a ij x i V , j 1,2, , n
i
xi 1
i
x 0, i 1,2, , m
i
且V=VG
Page 68
a ij y j V ,
i 1,2, , m
j
y j 1
j
y 0,
j 1,2, , n
j
12.4.4 纳什均衡存在定理
【定理12.5】 对任一矩阵博弈G={S1,S2;A},一定存在混
合策略意义下的纳什均衡。
【定理12.6】 设(x*,y*)为矩阵博弈G的一个纳什均衡,
V=VG,则
*
a
y
ij
j V
(1)若 xi >0,则
j
(2)若
y j*
>0,则
aij xi V
i
*
a
y
V
x
(3)若 ij j
,则 i 0
j
(4)若
*
y
aij x V ,则 j 0
i
i
定理12.4-12.6说明了矩阵博弈总是有解的,并给出
了解所应满足的条件。
Page 69
12.4.4 纳什均衡存在定理
例12-11
y1
x1 2 6
A=
x 2 5 3
1 2
x , ,
3 3
*
Page 70
y2
1 1
y ,
2 2
*
VG 4
2 y1 6 y2 v
2 x1 5 x 2 v
5 y1 3 y2 v
6 x1 3 x 2 v
12.4.4 纳什均衡存在定理
【定理12.7】 设有两个矩阵博弈
G1={S1,S2;A}, G2={S1,S2;kA}
其中k>0为一常数。
则G1与G2有相同的解,且:
VG2 kVG1
【补充定理】 G1={S1,S2;A1=(aij)m×n}
G2={S1,S2;A2=(aij+d)m×n}
d为常数,则G1与G2有相同的解,且: VG VG d
2
1
【补充例】求解矩阵博弈
Page 71
3600 1200
1200 1800
12.4.5 矩阵博弈求解方法
1. 线性方程组法
若最优策略中 x i 和 y j 均不为零时,根据定理12.6,有
aij xi v
j 1, , n
i
xi 1,xi 0, i 1,2, , m
i
aij y j v
i 1, , m
j
y j 1, y j 0, j 1, 2, n
j
注意:(1)应用此方法的条件是所有策略的概率大于零。
(2)对于2×2的矩阵博弈当不存在纯策略鞍点时,
容易证明,各局中人的最优策略中xi,yj均大于零,
可采用此法求解。
Page 72
12.4.5 矩阵博弈求解方法
【例12-14】求解矩阵博弈 G S1 , S 2 ; A
1 2 1
A 5 4 1
2 2 1
【解】设x=(x1, x2, x3), y=(y1, y2, y3), xi>0, yj>0, i,j =1,2,3
建立方程组
x1 5 x2 2 x3 V
2 x 4 x 2 x V
1
2
3
x1 x2 x3 V
x1 x2 x3 1
y1 2 y2 y3 V
5 y 4 y y V
1
2
3
2 y1 2 y2 y3 V
y1 y2 y3 1
x*=(0.525,0.275,0.2)
y*=(0.2,0.05,0.75)
该矩阵博弈的纳什均衡为 (x*, y* ), 搏弈值VG=-0.45
Page 73
12.4.5 矩阵博弈求解方法
2. 优超原则法(严格下策反复消去法)
优超原则:P311【定义12.7】, 【定理12.8】
【例12-12】 设赢得矩阵A为:
2 1 0 2 0
3 0 1 4 8
A 6 4 9 5 9
3
6
8
7
5
5 0 7 9 3
求纳什均衡
Page 74
12.4.5 矩阵博弈求解方法
【解】
2 1 0 2 0
3 0 1 4 8
A 6 4 9 5 9
3 6 8 7 5
5 0 7 9 3
6 4 9
A2 3 6 5
5 0 3
Page 75
6
A1 3
5
4
9
5
6
8
7
0
7
9
6 4 9
A3
3
6
5
9
5
3
6 4
A4
3 6
12.4.5 矩阵博弈求解方法
6 4
A4
3 6
6 x3 3 x4 v
4 x3 6 x4 v
x x 1
3 4
3 2
x , x4
5
5
3
6 y1 4 y2 v
3 y1 6 y2 v
y y 1
1 2
y1
该矩阵博弈的纳什均衡为:(x*, y*)
3 2
2 3
x (0, 0, , , 0) y ( , ,0,0,0)
5 5
5 5
Page 76
2 3
, y2
5
5
VG=4.8
12.4.5 矩阵博弈求解方法
3.图解法
5 35
A
20 10
【补充例1】用图解法求解
【解】设x=(x1,1-x1),y=(y1,1-y1)
v
对于局中人Ⅰ:
如果局中Ⅱ人选取 β1 ,则有 V=20-15x1
l1
如果局中Ⅱ人选取 β2 ,则有 V=25x1+10
点B(1/4, 65/4)为局中人Ⅰ的极值点
1 3
x ,
4 4
*
Page 77
V 16
1
4
B
l2
A
o
C
x
1 1
12.4.5 矩阵博弈求解方法
同理
V=35-30y1
V=10+10y1
5 3
y ,
8 8
*
解得
该矩阵博弈的纳什均衡为:(x*, y*)
1 3
x ,
4 4
*
VG=16.25
Page 78
5 3
y ,
8 8
*
12.4.5 矩阵博弈求解方法
【补充例2】某公司有甲、乙两个工厂,每年的税额是400万
元和1200万元。对于每个工厂,公司可如实申报税款,或者
篡改账目,声称税额为零,而税务局由于人力所限,每年只
能检查一个工厂的账目,如果税务局发现工厂偷税,则不但
要工厂如数缴纳税款,而且还要缴纳相当于一半税款的罚金。
(1)试将该问题表示为一个矩阵博弈模型;(2)求出税务
局和公司的最优策略及税务局从公司征收税款(含罚金)。
【解】税务局:S1={查甲工厂,查乙工厂}
公司:
S2={甲乙都实报,甲乙都报零,甲实报乙报零,甲报零乙实报}
1600 600 400 1800
A
1600 1800 2200 1200
Page 79
利用定理12.7及补充定理化简
6 1 0 7
A1
6 7 9 4
设 x =(x1, 1-x1)
y=(y1, y2, y3, y4)
V=6
(1)
V=-6x1+7 (2)
V=-9x1+9 (3)
V=3x1+4
(4)
v
9
l3
l4
7
6
4
l1
B
A
C
1 2
x ,
3 3
l2
1
o
点B(1/3, 5)为局中人Ⅰ的极值点
*
7
VG1 V =5
D 1
x1
同理可得
V=6y1+y2+7y4
V=6y1+7y2+9y3+4y4
(5)
(6)
点B(1/3, 5)不满足方程(1)、(3),由定理12.6
y1=y3=0
解(5) (6)组成的方程组
1
y2
3
2
y4
3
该矩阵博弈的纳什均衡为:(x*, y*)
1 2
x * , ,
3 3
1 2
y* 0, ,0, VG* ( 5 2) 200 1400
3 3
税务局最优策略是以1/3的概率检查甲公司,
2/3的概率检查乙公司,这样至少能征收到1400万元
的税款
12.4.5 矩阵博弈求解方法
3. 线性规划方法
任意矩阵博弈 G=S1 , S2 , A 的求解均等价于一对互
为对偶的线性规划问题,而定理12.4表明,博弈G的解等
价于下面两个不等式组的解.
aij xi v
i
xi 1
i
x 0
i
j 1, , n
i 1, m
aij y j v i 1, , m
j
y j 1
j
y 0
j 1, n
j
v max* min* E ( x, y) min* max* E ( x, y)
xS1
Page 84
yS2
yS2
xS1
12.4.5 矩阵博弈求解方法
【定理12.9】 设矩阵博弈的值为v,则:
v max* min* E ( x, j ) min* max* E (i, y)
xS1
yS2
yS2
xS1
则局中人Ⅰ、Ⅱ的最优策略等价于线性规划问题:
Page 85
max Z v
min Z v
aij xi v , j 1, 2, , n
i
xi 1
i
x 0, i 1, 2, , m
i
aij y j v , i 1, 2, , m
j
y j 1
j
y 0, j 1, 2, , n
j
12.4.5 矩阵博弈求解方法
xi
xi
v
令
i 1, , m
, 当 V>0 时,有
局中人Ⅰ:
max v
1
x
i
i
aij xi 1, j 1, 2,
i
1
( p ) xi
v
i
xi 0, i 1, 2, , m
Page 86
,n
min Z xi
i
aij xi 1, j 1,2, , n
i
( p)
xi 0, i 1,2, , m
12.4.5 矩阵博弈求解方法
同理, 令 yj
yj
v
j 1, , n 有
局中人Ⅱ:
min v
1
yj
j
aij yj 1, i 1, 2, , m
j
1
( D) yj
v
j
y 0, j 1, 2, , n
j
Page 87
max w yj
j
aij yj 1, i 1,2, , m
j
( D)
yj 0, j 1,2, , n
12.4.5 矩阵博弈求解方法
注意:
(1)用线性规划法求解的必要条件是V>0。如何判断
V>0,可以证明,当aij≥0时,V >0。
(2)若某个aij≤0,可对A的各元素加上适当的数d>0,使
所有的aij≥0
Page 88
12.4.5 矩阵博弈求解方法
【例12-12】 利用线性规划方法求解赢得矩阵为
6 3 8
A=4 7 2
5 7 10
的矩阵博弈的纳什均衡.
【解】 此问题可化为两个互为对偶的线性规划问题:
min z x1 x 2 x3
6 x1 4 x 2 5 x3 1
3 x1 7 x 2+7 x3 1
8 x 2 x 10 x 1
2
3
1
x1, x 2, x3 0
Page 89
max w y1 y 2 y 3
6 y1 3 y 2 8 y 3 1
4 y1 7 y 2 2 y 3 1
5 y 7 y 10 y 1
1
2
3
y1 , y 2, y 3 0
12.4.5 矩阵博弈求解方法
最优解:x=(0.1065,0.1448,0.0437),
y=(0.1093,0.1038,0.0819);w=0.29508.
利用变换
1
1
1
*
x x , y y, v
w
w
w
*
得到
x*=(0.36,0.49,0.15),y*=(0.37,0.35,0.28);
v=3.39
Page 90
12.4.5 矩阵博弈求解方法
解矩阵博弈的一般步骤
1.A2×n或Am×2,图解法。
有无纯
策略解
无
优超原则和
定理12.7化简
2.A2×2,图解法,方程组
法,代数法。
3.LP法(aij≥0)
Page 91
下一节:有限二人非零和博弈
Page 92
12.5 二人有限非零和博弈
12.5.1 数学定义
假设:彼此了解对方的纯策略集和赢得函数,但不合作,并
且局中人在选择自己策略时不知道对方的选择。
数学模型:Γ={S1,S2;(A1,A2)},其中
S1={α1,α2,…,αm},S2={β1,β2,…,βn}
A1=(aij)m×n , A2=(a′ij)m×n , A1+A2≠0
两人有限非零和博弈也称为双矩阵博弈。
记局中人Ⅰ的混合策略为 x=(x1,x2,…,xm),局中人Ⅱ的混合
策略为 y=(y1,y2, …,ym),相应的策略集分别记为 S1* , S2*
Page 93
12.5.1 数学定义
【补充例1】囚徒的困境
囚徒2
坦白
抵赖
坦白
(-5,-5)
(-1/4,-10)
抵赖
(-10,-1/4)
(-1,-1)
囚徒1
5 1 / 4
A1
10 1
5 10
A2
1/ 4 1
( 1 / 4,10)
( 5,5)
A
( 1,1)
( 10,1 / 4)
Page 94
12.5.1 数学定义
【例11.16】市场上有两企业生产同样商品,甲企业与乙
企业的赢得矩阵分别为
1 2
1 2 1
A1
2 0 3
1 2
1 3 1
A2
2 2 3
矩阵A1和A2合并为双矩阵
(2,3) (1,1)
A
(0,
2)
(3,3)
Page 95
12.5.1 数学定义
【定义12.8】 对于某个二人有限非零和博弈,其局中人Ⅰ
的赢得(混合策略下)为
m
n
e1 ( x , y) aij xi y j xA1 yT
i 1 j 1
局中人Ⅱ的赢得为
m
n
e2 ( x , y) aij xi y j xA2 yT
i 1 j 1
A1 (aij ) mn , A2 (aij ) mn
Page 96
12.5.2 二人有限非零和博弈纳什均衡
【定义12.9】在有限二人非零和博弈中,设 e1 ( x, y)和e2 ( x, y)
*
分别是局中人Ⅰ和Ⅱ的赢得, x S1* , y S为任意策略,如
2
果有一博弈
x* S1* , y* S2*满足
e1 ( x* , y* ) e1 ( x, y* )及e2 ( x* , y* ) e2 ( x* , y)
则称( x*, y*)为该博弈的纳什均衡,称
( u* , v* ) e1 ( x* , y* ), e2 ( x* , y*,)
为博弈的赢得值。
【定理12.10】(纳什定理)任何矩阵博弈及有限二人非
零和博弈至少有一个纳什均衡。
Page 97
12.5.3 2×2二人有限非零和博弈的求解
3. 优超原则法
【例12.18】用优超原则求解下列双矩阵博弈
(2, 4) (8,3) (4,3)
A
(5,
6)
(4,5)
(5,
7)
(2, 4) (4,3)
A1
(5,
6)
(5,
7)
A2 (5,6) (5,7 )
纳什均衡(纯策略)为:
( 2 , 3 ),即x * (0,
1),y* ( 0,0,1)
局中人Ⅰ、Ⅱ的最优策略分别是α2,β3
博弈值: (u*, v*) (5, 7)
方法:局中人Ⅰ对A1进行行比较,删去数据小的行;
局中人Ⅱ对A2进行列比较,删去数据小的列。
Page 102
12.5.3 2×2二人有限非零和博弈的求解
4. 划线法
(1)局中人Ⅰ从A1的每列选取最大值划线。
(2)局中人Ⅱ从A2的每行选取最大值划线。
(3)如果某一策略组合值下都划了横线,则此策略组
合就是纳什均衡解,该组数字分别为两人的赢得值。否
则,不存在纯策略意义下的纳什均衡。
Page 103
12.5.3 2×2二人有限非零和博弈的求解
【例12-19】用划线法求解双矩阵博弈
(2, 4) (8,3) (4,3)
A
(5, 6) (4,5) (5, 7)
) 下都已划线,则纳什均衡为 (α , β )
(a23 , a23
2
3
即:局中人Ⅰ、Ⅱ的最优策略分别是α2,β3
博弈值: (u*, v*) (5, 7)
【补充例】用划线法求解囚徒的困境
Page 104
12.5.3 2×2二人有限非零和博弈的求解
【补充例】一对恋人商量周末的活动安排,是看足球赛
还是听音乐会。已知不同策略组合下的收益值如表所
示。
女方
足球
音乐会
足球
(3,1)
(-1,-1)
音乐会
(-1,-1)
(1,3)
男方
求解该博弈问题。
(足球,足球),(音乐会,音乐会)是该问题的两
个纳什均衡。
Page 105
12.5.3 2×2二人有限非零和博弈的求解
具有一个以上的纳什均衡时,根据博弈的背景、局
中人的一些信息或理性,判断或预测出的最终结局,称
为聚点。
当存在多重纳什均衡时,一般很难判断最终结局,
但在联系博弈背景及局中人习性后,一定条件下可以推
断聚点的出现。
Page 106
论
文
企业如何走出囚徒的困境
Page 110
12.5 有限二人非零和博弈
作业:教材P292 T2、7
The End of Chapter 12
Page 111