Chapter 16 Reputations with Long

Download Report

Transcript Chapter 16 Reputations with Long

Chapter 16
Reputations with Long-Lived
Players
上田 俊
1
概要


15章に引き続き,Reputation (評判,信認) につ
いて議論する.
Player 2 (相手) が Long-Lived であるとき,



Reputation が有効でなくなる
Stackelberg action を取り続けても,均衡における利
得を bound できない
Reputation が有効になるための条件を分析し,
均衡における利得の bound を示す.
2
アウトライン







16.1 The Basic Issue
16.2 Perfect Monitoring and Minmax-Action
Reputations
16.3 Weaker Reputations for Any Action
16.4 Imperfect Public Monitoring
16.5 Commitment Types Who Punish
16.6 Equal Discount Factors
16.7 Temporary Reputations
3
アウトライン







16.1 The Basic Issue
16.2 Perfect Monitoring and Minmax-Action
Reputations
16.3 Weaker Reputations for Any Action
16.4 Imperfect Public Monitoring
16.5 Commitment Types Who Punish
16.6 Equal Discount Factors
16.7 Temporary Reputations
4
Reputation は有効か? (1/3)


Player 1 に加えて,player 2 も long-lived
player であるとする.
Player 2 の立場にたって考える.





Player 1は Stackelberg action をプレイしそう.
Best response をプレイすべきか否か.
取らない場合,損する.
もし,player 1 が Stackelberg type であれば,この
損を取り返す機会がない.
Player 2 は best response をプレイする.
5
Reputation は有効か? (2/3)

Player 1 の立場にたって考える.




Player 2 は stackelberg action に対する best
response をプレイしてくれる.
Stackelberg action を取ることで,stackelberg payoff
を得ることができる.
Player 1 の利得を bound できる.
結論
Stackelberg action をプレイするという
reputation は有効…?
6
Reputation は有効か? (3/3)

次の可能性を見逃している.




Player 2 が stackelberg action に対する best
response をプレイすることで punishment を引き起こ
す可能性がある
Player 2 は stackelberg action がプレイされるのは
確認できるが,player 1 が stackelberg player か否
かはわからない.
Player 2 は punishment を恐れ,best
response をプレイしない可能性がある.
Reputation が機能しない!
7
Failure of reputation effects (1/2)
Prior distribution μ
Normal
L
C
R
T
10, 10
0, 0
-z, 9
B
0, 0
1, 1
1, 0
Stackelberg
L
C
R
T
10, 10
10, 0
10, 9
B
0, 0
0, 1
0, 0
Punishment
L
C
R
T
0, 10
0, 0
5, 9
B
1, 0
2, 1
0, 0
80%
10%
10%
ただし,z ∈ (0, 8)
8
Failure of reputation effects (2/2)



このゲームの均衡は TL と TR を交互にプレイ
すること.
Normal type player 1 が得る利得は
(10 – z) / 2 (ただし,δ → 1)
z = 8 のとき,期待利得は 1



Stackelberg action の利得 10 より小さい
むしろ,pure minmax payoff 1 に近い
Reputation によって期待利得を bound できて
いない
9
アウトライン







16.1 The Basic Issue
16.2 Perfect Monitoring and Minmax-Action
Reputations
16.3 Weaker Reputations for Any Action
16.4 Imperfect Public Monitoring
16.5 Commitment Types Who Punish
16.6 Equal Discount Factors
16.7 Temporary Reputations
10
Conflict Interests





v 2 : mixed-action minmax utility
v1* (a1 ) : one-shot bound on player 1’s payoff
μ : probability distribution
ξ0 : normal type of player 1
ξ( a1' ) : pure action a1' をプレイし続ける type
Definition 16.2.1
The stage game has conflicting interests if a pure
Stackelberg action a1* mixed-action minmaxes player 2.
11
Main Proposition and Corollary
Proposition 16.2.1
Suppose μ(ξ( a1' )) > 0 for some pure action a1' that
mixed-action minmaxes player 2. There exist a value k,
independent of δ1 (but δ2), such that
v1 ( 0 ,  , 1 ,  2 )  1k v1* (a1' )  (1  1k ) min u1 (a)
a
Corollary 16.2.1
Suppose μ(ξ( a1' )) > 0 for some pure action a1' that
mixed-action minmaxes player 2. For any ε > 0,
there exist a 1  (0,1) such that for all 1  (1,1) ,
v1 (0 , , 1 ,  2 )  v1* (a1' )  
12
Lemma 16.2.1
Lemma 16.2.1
'
Fix δ2 ∈ (0, 1), η > 0, and an action a1  A1. There exists
L and ε ∈ (0, 1] such that for all Nash equilibria σ, pure
~t
~t
~
~
strategies  2 satisfying  2 (h )  sup  2 (h )
~t
for all (h )  H , and histories (ht )  H with positive
probability under Ω’ if
E[U 2 ((1,~2 ) |ht ) | ' ]  v2 
then there is a period τ, t ≦ τ ≦ t + L, such that if
~
'
player 1 has always played a1 and player 2 follows  2 ,
then player 2’s posterior probability of player 1’s action
being a1' in period τ is less than 1 – ε.
13
Corollary 16.2.2

直感的には…

Player 1 が a1 をプレイし続けるとき,均衡戦略の
player 2 に与える利得が minmax payoff より小さけ
'
a
れば,player 2 は player 1 が 1 をプレイし続けるこ
とはないと予想している.
~ ) | ) | ' ]  v 
E
[
U
((

,

Corollary 16.2.2 として, 2 1 2 h
2

'
t
を ~2 (ht )  B(a1' ) にかえたものが得られる.
14
Proof of Proposition 16.2.1





k = L × (ln μ(ξ( a1' )) / ln (1 - ε))
'
a
Ω’: player 1 が 1 をプレイし続ける
Ωk: player 2 が k 回以上 a2t  B(a1' ) をプレイす
る.
t
'
a2  B(a1 ) をプレイする任意の period t に対し
て, qτ < (1 - ε) となる period τ ∈ {t, …, t +
L} が存在 (Corollary 16.2.2)
つまり,毎 L 期間において,必ずqτ < (1 - ε) と
なる period が存在する.
15
Proof of Proposition 16.2.1


k 回以上 a2t  B(a1' ) をプレイするなら,k / L =
ln μ(ξ( a1' )) / ln (1 - ε) 回以上 qt < (1 - ε) とな
る.
Lemma 15.3.1 より,P(Ω’∩Ωk) = 0.
16
Example - chain store game

以下のゲームはconflicting interestsの条件を
満たす.



Stackelberg action A の best response は Out をプ
レイすること
Player 2 の minmax payoff 0 を達成
Corollary 16.2.1 よりナッシュ均衡において,
payoff 5 に近い利得を得ることができる.
In
Out
A
2, 2
5, 0
F
-1, -1
5, 0
17
アウトライン







16.1 The Basic Issue
16.2 Perfect Monitoring and Minmax-Action
Reputations
16.3 Weaker Reputations for Any Action
16.4 Imperfect Public Monitoring
16.5 Commitment Types Who Punish
16.6 Equal Discount Factors
16.7 Temporary Reputations
18
任意の action に対する reputation

Reputation が有効であった理由


Stackelberg action が player 2 の利得を minmax
する場合,最適反応以外の行動をプレイする回数を
bound できた.
そうでない場合に,player 1 の利得を bound で
きるか?

Conflicting Interest がある場合ほどではないが,任
意の行動に対して,player 1 の利得を bound できる.
19
Main Proposition
†
'
'
 v1 (a1 )  min' u1 (a1 ,  2 )
 2 D ( a1 )


ただし,D(a1' )  { 2  ( A2 ) | u2 (a1' , 2 )  v 2}
D は a1' に対して,少なくとも minmax utility を保証す
る行動の集合
Proposition 16.3.1
'
Fix δ2 ∈ [0, 1) and a1' ∈ A1 with μ(ξ( a))
1 > 0.
For any ε > 0, there exist a 1  1 such that
for all 1  (1,1) ,
v1 (0 , , 1,  2 )  v†1 (a1' )  
20
Example – battle of the Sexes



Player 2 の minmax utility は 3/4
Player 1 の Stackelberg action T に対して 3/4
の利得を達成するために,player 2 は R を少な
くとも 3/4 以上の確率でプレイする.
よって,player 1 の利得の bound は 9/4
L
R
T
0, 0
3, 1
B
1, 3
0, 0
21
アウトライン







16.1 The Basic Issue
16.2 Perfect Monitoring and Minmax-Action
Reputations
16.3 Weaker Reputations for Any Action
16.4 Imperfect Public Monitoring
16.5 Commitment Types Who Punish
16.6 Equal Discount Factors
16.7 Temporary Reputations
22
Imperfect Public Monitoring

Example 16.1.1 では,player 1 の利得を
Stackelberg payoff で bound できなかった.



Player 2 が best response をプレイしない.
Normal type か punishment type のどちらと対峙し
ているのか区別できない.
Imperfect monitoring では,均衡上か否かの
はっきりとした区別が消える.

Player 1 の振る舞いを学習する機会がある.
23
仮定

Full support assumption


player 2 の混合戦略 α2 ∈ Δ(A2) に関して,


ρ(y | a) > 0, for all y ∈ Y and a ∈ A1 × A2
ρ(・| (α1, α2) ) = ρ(・| (α’1, α2) ) ⇒ α1 = α’1
これらの仮定において,以下の性質を満たす.


Player 2 の行動は不完全にしか player 1 に観測さ
れない.
Player 2 は player 1 の type に関する belief を観測
に対応して更新できる.
24
Payoff target

Player 1 の戦略に関して複雑な戦略を許す.






例えば,tit-for-tat 等
GN(δ2) : 完全観測でN回の繰り返しゲーム
UN1(σN) : 戦略σNをプレイした時の期待利得
BN(σN1; δ2) : に対する最適反応
σN1をプレイした後,記憶を消去してさらにσN1を
プレイするという戦略を考える.
V1(δ2, Ξ) : player 1 の payoff
25
Proposition 16.4.1

v ( 2 , )  sup V1 ( 2 , )
‡
1
Proposition 16.4.1
For any η > 0 and δ2, there exist a 1  1 such that
for all1  (1,1) ,
v1 (0 , , 1,  2 )  v‡1 ( 2 , ) 
26
アウトライン







16.1 The Basic Issue
16.2 Perfect Monitoring and Minmax-Action
Reputations
16.3 Weaker Reputations for Any Action
16.4 Imperfect Public Monitoring
16.5 Commitment Types Who Punish
16.6 Equal Discount Factors
16.7 Temporary Reputations
27
Punish を行う commitment type
(1/2)




再び perfect monitoring game において,
player 1 の利得を bound する.
適切に行動しない player 2 に対して punish を
行う commitment type を考える.
p
a2' が u2 (a1' , a2' )  v 2 となる player 1 の行動を a1' と
する.
aˆ12 を player 2 を (pure-action) minmax する
player 1 の行動とする.
(player 1 の punishment )
28
Punish を行う commitment type
(2/2)

次の strategy ˆ1 を考える.
Phase k: aˆ12 を k 回プレイする.その後は,a1' をプレイ
ˆ12 をプレイした後,player 2 が a2' をプレイしな
 n 回 a
かった場合,次の phase (phase n + 1) に移る.
'
a
つまり, 2 をプレイしなかった場合,phase n で


あれば,n 回 punish するという戦略
29
Main Proposition
Proposition 16.5.1
Fix ε > 0. Let Ξ contains ˆ1 , for some action profile a’
p
with u2 (a' )  v2 . Then there exists a  2  1 such that
for all 2  ( 2 ,1), there exists a 1 such that for all1  (1,1),
v1 (0 , , 1 ,  2 )  u1 (a' )  
30
アウトライン







16.1 The Basic Issue
16.2 Perfect Monitoring and Minmax-Action
Reputations
16.3 Weaker Reputations for Any Action
16.4 Imperfect Public Monitoring
16.5 Commitment Types Who Punish
16.6 Equal Discount Factors
16.7 Temporary Reputations
31
Discount Factor に関する仮定

Player は異なる discount factor を持つと仮定



Player 2 は任意
Player 1 は player 2 より patient であれば任意
2人の player の discount factor が同じ場合に
reputation は有効となるか?

均衡における利得を bound するためには,より厳し
い条件が必要
32
Examples

Example 1: Common Interests


Example 2: Conflicting Interests


上と同様
Example 3: Strictly Dominant Action Games


Minmax payoff でしか bound できない
Stackelberg payoff で bound できる!
Example 4:Strictly Conflicting Interests

上と同様
33
Examples

Example 1: Common Interests


Example 2: Conflicting Interests


上と同様
Example 3: Strictly Dominant Action Games


Minmax payoff でしか bound できない
Stackelberg payoff で bound できる!
Example 4:Strictly Conflicting Interests

上と同様
34
Strictly Dominant Action Games
(1/3)


Stackelberg action が strict に他の action を
支配している.
Best response が純粋戦略の中で player 1 に
最も高い利得を実現する.


Conflicting interests である必要はない
Discount factor に関わらず,均衡における利得
を bound できる.
L
R
T
2, 1
0, 0
B
0, 0
-1, 2
35
Strictly Dominant Action Games
(2/3)
Player 1 がTをプレイし続けることが均衡になっ
ていることを示す.
 1 |ht ( B)  0 となる t と ht が存在すると仮定する.
 最初にこうなる期間を t0 とし,期間 t において,
 2 |ht (R)  0 となるとする.
 ある t’ において,t から t’ まで T をプレイし,
1 |ht ' (B)   となる.

36
Strictly Dominant Action Games
(3/3)




t1 = t’, ht1 = ht’ として,これを繰り返し,
{tn }n0 と {htn }n0 とする.
htn における行動は常に T
この時に,B をとる確率は0
無限に繰り返したのちに,player 2 が R をとる
確率が正になる.
37
アウトライン







16.1 The Basic Issue
16.2 Perfect Monitoring and Minmax-Action
Reputations
16.3 Weaker Reputations for Any Action
16.4 Imperfect Public Monitoring
16.5 Commitment Types Who Punish
16.6 Equal Discount Factors
16.7 Temporary Reputations
38
まとめ

2人の long-lived player の繰り返しゲームにお
いて reputation が機能するか





難しい. Punishment の恐れがあり,単純に best
response を返すことができない.
Conflicting Interests なら機能する.
Stackelberg payoff でなければ,reputation によって
利得を bound できる.
Imperfect なら少し楽. Player 1 の type を学習
δが同じなら,もっと強い条件が必要
39