张博宇讲师:网络博弈

Download Report

Transcript 张博宇讲师:网络博弈

网络博弈:合作的进化
张博宇
北京师范大学数学科学学院
2014年6月30日
概述
1.社会困局
Social dilemma
2.演化动态
Evolutionary dynamics
3.网络博弈
Network game
4.网络上的合作
Cooperation on network
囚徒困境

囚徒困境博弈(Prisoner’s Dilemma game):
合作 C,支付c,对手获得b,其中b>c;
背叛 D,不支付。
D C
D 0
b 


C  c b  c 

背叛是唯一的纳什均衡对策,但是合作对于群体更加有利
。
公用品博弈


公共品博弈(Public goods game)
每名参与者可贡献他的一些私人资金作为公共经费,这些
资金乘以系数r后平均分给所有N名参与者。
如果参与者i贡献ci,他的收益为:

h(c )  c 
i


i
N
c
j 1 j
N
r , h '(ci )  1 
r
.
N
当1<r<N时,每名参与者的最优对策均为不贡献(D),尽管
贡献全部资金(C)对于整个群体更加有利。
社会困局(Social dilemma)
个体追求利益最大化导致了社会利益最小化。
演化动态



一些符号
nC, nD, pC, fC, fD, hC, hD, ω, 其中fX=1-ω +ωhX.
基本假设
(1) 种群充分大。
(2) 无性繁殖。
(3) 个体两两随机相遇。
(4) 个体间无差异。
复制方程 (Replicator dynamics)
 dnC
 dt  nC fC
dpC

 pC (1  pC )( fC  f D )  cpC (1  pC )

dt
 dnD  n f
D D
 dt

进化选择了背叛者。
演化和学习



个体并非完全理性,模仿其他有更高收益的个体的行为。
成对模仿 (Pairwise comparison)
从种群中随机挑选两个个体i 和j,i为模仿者,j为被模仿
者。若i个体观测到j个体有更高的收益,则他会以概率(fj fi)+模仿j个体的行为。
学习动态(Learning dynamics)
dpC
  pC (1  pC )( f D  fC )  (1  pC ) pC ( fC  f D ) 
dt
 pC (1  pC )( fC  f D )  cpC (1  pC ).

演化动态的性质
(1) 纳什均衡一定是复制方程/学习动态的平衡点。
(2) 复制方程/学习动态的稳定平衡点一定是纳什均衡。
有限种群中的合作



种群大小固定为N。
随机相遇:
nC  1
hC  c 
b,
N 1
n
hD  C b.
N 1
在完全随机相遇的固定大小种群中,合作者有更大的概率
遇到背叛者。
hC  hD  c 

小种群有利于背叛者的演化。
b
.
N 1
有限种群的演化动态

一步过程
每个时间步从种群中随机挑选一个个体i作为模仿者,再
随机挑选一个个体j作为被模仿者。若i个体观测到j个体有
更高的收益,则他会以概率(fj - fi)+模仿j个体的行为。
转移概率

演化动态

nD nC
1
Pr(pC  ) 
( fC  f D )  ,
N
N N 1
n n
1
Pr(pC   )  C D ( f D  f C )  .
N
N N 1
dpC
1
1
 Pr(pC  )  Pr(pC   )
dt
N
N
N
N
b

pC (1  pC )( fC  f D )  
pC (1  pC )(c 
).
N 1
N 1
N 1
合作的进化
亲缘选择
群体选择
直接互惠
网络博弈
Nowak MA
间接互惠
Sigmund K
网络博弈



有限种群
大小为N的种群分布在一张N个节点的网络上。每个节点
或者是合作者(C),或者是背叛者(D)。
网络博弈
每个个体只与他的邻居进行博弈。一个个体的收益是他和
所有邻居博弈获得收益的总和。
成对模仿
每个时间步从种群中随机挑选一个
个体i作为模仿者,再从他的邻居中
随机挑选一个个体j作为被模仿者。
i个体模仿j个体的行为的概率为
(1  exp( ( f 2  f1 ))) 1.
网络上的合作


为什么网络结构能够促进合作?
合作者聚集可以获得更高的收益,而背叛者聚集会降低收益。
网络博弈


网络特征:
网络节点集合 :I={1,…,N}.
节点i 的度数 :ki .
度数为k的节点的比例:p(k).
网络的平均度数:z   k kp(k ).
网络度数分布的方差:var(k )   k k 2 p(k )  z 2 .
博弈特征:
节点i的行为:si .
节点i的A邻居和B邻居的个数:ki,A , ki,B .
A行为个体在网络中所占的权重: A   s  A ki zN .
AA边的比例:φAA.
A节点的一个邻居为A和B的概率:qA|A, qA|B.
i
A B
A  a11 a12 


B  a21 a22 
网络博弈的演化动态


暂态均衡(Temporal equilibrium)
当选择强度ω较弱时,网络上会形成暂态均衡状态。在此
暂态均衡有qA|A-qA|B=1/(z-1),即度数为k的A个体平均比度
数为k的B个体多k/(z-1)个A邻居。
演化动态
网络上的囚徒困境博弈

囚徒困境博弈

演化动态



C
D
C  b  c c  .


D  b
0
规则网络(var(k)=0)不能促进合作。
合作(C)成为全局稳定的条件为
网络的方差越大越有利于合作的进化。当方差充分大时,
合作产生的条件为b/c>z-1.
网络上的合作
var(k)=187, var(k)=275
var(k)=15, var(k)=18
总结





完全随机相遇的种群中合作无法进化。
种群越小越不利于合作。
网络可以促进合作
网络的平均度数越小、方差越大,越有利于合作。
为什么网络可以促进合作?
由于网络结构的存在,合作者间和背叛者间都更容易聚集,
这种聚集会提高合作者的收益,降低背叛者的收益。
人类社会中,网络结构可以促进合作么?
实验结果



现有的几个网络博弈实验表明,网络结构对人类间的合作
没有明显促进作用。
条件合作(Conditional cooperation)
玩家每一轮的选择依赖于上一轮自身的选择和周围邻居的
选择。
当更新规则为条件合作时,网络不能促进合作。
网络对博弈的影响仍有很多未解
决的问题,需要进一步的研究。
谢谢大家!