Chapter 16 Reputations with Long
Download
Report
Transcript Chapter 16 Reputations with Long
Chapter 16
Reputations with Long-Lived
Players
上田 俊
1
概要
15章に引き続き,Reputation (評判,信認) につ
いて議論する.
Player 2 (相手) が Long-Lived であるとき,
Reputation が有効でなくなる
Stackelberg action を取り続けても,均衡における利
得を bound できない
Reputation が有効になるための条件を分析し,
均衡における利得の bound を示す.
2
アウトライン
16.1 The Basic Issue
16.2 Perfect Monitoring and Minmax-Action
Reputations
16.3 Weaker Reputations for Any Action
16.4 Imperfect Public Monitoring
16.5 Commitment Types Who Punish
16.6 Equal Discount Factors
16.7 Temporary Reputations
3
アウトライン
16.1 The Basic Issue
16.2 Perfect Monitoring and Minmax-Action
Reputations
16.3 Weaker Reputations for Any Action
16.4 Imperfect Public Monitoring
16.5 Commitment Types Who Punish
16.6 Equal Discount Factors
16.7 Temporary Reputations
4
Reputation は有効か? (1/3)
Player 1 に加えて,player 2 も long-lived
player であるとする.
Player 2 の立場にたって考える.
Player 1は Stackelberg action をプレイしそう.
Best response をプレイすべきか否か.
取らない場合,損する.
もし,player 1 が Stackelberg type であれば,この
損を取り返す機会がない.
Player 2 は best response をプレイする.
5
Reputation は有効か? (2/3)
Player 1 の立場にたって考える.
Player 2 は stackelberg action に対する best
response をプレイしてくれる.
Stackelberg action を取ることで,stackelberg payoff
を得ることができる.
Player 1 の利得を bound できる.
結論
Stackelberg action をプレイするという
reputation は有効…?
6
Reputation は有効か? (3/3)
次の可能性を見逃している.
Player 2 が stackelberg action に対する best
response をプレイすることで punishment を引き起こ
す可能性がある
Player 2 は stackelberg action がプレイされるのは
確認できるが,player 1 が stackelberg player か否
かはわからない.
Player 2 は punishment を恐れ,best
response をプレイしない可能性がある.
Reputation が機能しない!
7
Failure of reputation effects (1/2)
Prior distribution μ
Normal
L
C
R
T
10, 10
0, 0
-z, 9
B
0, 0
1, 1
1, 0
Stackelberg
L
C
R
T
10, 10
10, 0
10, 9
B
0, 0
0, 1
0, 0
Punishment
L
C
R
T
0, 10
0, 0
5, 9
B
1, 0
2, 1
0, 0
80%
10%
10%
ただし,z ∈ (0, 8)
8
Failure of reputation effects (2/2)
このゲームの均衡は TL と TR を交互にプレイ
すること.
Normal type player 1 が得る利得は
(10 – z) / 2 (ただし,δ → 1)
z = 8 のとき,期待利得は 1
Stackelberg action の利得 10 より小さい
むしろ,pure minmax payoff 1 に近い
Reputation によって期待利得を bound できて
いない
9
アウトライン
16.1 The Basic Issue
16.2 Perfect Monitoring and Minmax-Action
Reputations
16.3 Weaker Reputations for Any Action
16.4 Imperfect Public Monitoring
16.5 Commitment Types Who Punish
16.6 Equal Discount Factors
16.7 Temporary Reputations
10
Conflict Interests
v 2 : mixed-action minmax utility
v1* (a1 ) : one-shot bound on player 1’s payoff
μ : probability distribution
ξ0 : normal type of player 1
ξ( a1' ) : pure action a1' をプレイし続ける type
Definition 16.2.1
The stage game has conflicting interests if a pure
Stackelberg action a1* mixed-action minmaxes player 2.
11
Main Proposition and Corollary
Proposition 16.2.1
Suppose μ(ξ( a1' )) > 0 for some pure action a1' that
mixed-action minmaxes player 2. There exist a value k,
independent of δ1 (but δ2), such that
v1 ( 0 , , 1 , 2 ) 1k v1* (a1' ) (1 1k ) min u1 (a)
a
Corollary 16.2.1
Suppose μ(ξ( a1' )) > 0 for some pure action a1' that
mixed-action minmaxes player 2. For any ε > 0,
there exist a 1 (0,1) such that for all 1 (1,1) ,
v1 (0 , , 1 , 2 ) v1* (a1' )
12
Lemma 16.2.1
Lemma 16.2.1
'
Fix δ2 ∈ (0, 1), η > 0, and an action a1 A1. There exists
L and ε ∈ (0, 1] such that for all Nash equilibria σ, pure
~t
~t
~
~
strategies 2 satisfying 2 (h ) sup 2 (h )
~t
for all (h ) H , and histories (ht ) H with positive
probability under Ω’ if
E[U 2 ((1,~2 ) |ht ) | ' ] v2
then there is a period τ, t ≦ τ ≦ t + L, such that if
~
'
player 1 has always played a1 and player 2 follows 2 ,
then player 2’s posterior probability of player 1’s action
being a1' in period τ is less than 1 – ε.
13
Corollary 16.2.2
直感的には…
Player 1 が a1 をプレイし続けるとき,均衡戦略の
player 2 に与える利得が minmax payoff より小さけ
'
a
れば,player 2 は player 1 が 1 をプレイし続けるこ
とはないと予想している.
~ ) | ) | ' ] v
E
[
U
((
,
Corollary 16.2.2 として, 2 1 2 h
2
'
t
を ~2 (ht ) B(a1' ) にかえたものが得られる.
14
Proof of Proposition 16.2.1
k = L × (ln μ(ξ( a1' )) / ln (1 - ε))
'
a
Ω’: player 1 が 1 をプレイし続ける
Ωk: player 2 が k 回以上 a2t B(a1' ) をプレイす
る.
t
'
a2 B(a1 ) をプレイする任意の period t に対し
て, qτ < (1 - ε) となる period τ ∈ {t, …, t +
L} が存在 (Corollary 16.2.2)
つまり,毎 L 期間において,必ずqτ < (1 - ε) と
なる period が存在する.
15
Proof of Proposition 16.2.1
k 回以上 a2t B(a1' ) をプレイするなら,k / L =
ln μ(ξ( a1' )) / ln (1 - ε) 回以上 qt < (1 - ε) とな
る.
Lemma 15.3.1 より,P(Ω’∩Ωk) = 0.
16
Example - chain store game
以下のゲームはconflicting interestsの条件を
満たす.
Stackelberg action A の best response は Out をプ
レイすること
Player 2 の minmax payoff 0 を達成
Corollary 16.2.1 よりナッシュ均衡において,
payoff 5 に近い利得を得ることができる.
In
Out
A
2, 2
5, 0
F
-1, -1
5, 0
17
アウトライン
16.1 The Basic Issue
16.2 Perfect Monitoring and Minmax-Action
Reputations
16.3 Weaker Reputations for Any Action
16.4 Imperfect Public Monitoring
16.5 Commitment Types Who Punish
16.6 Equal Discount Factors
16.7 Temporary Reputations
18
任意の action に対する reputation
Reputation が有効であった理由
Stackelberg action が player 2 の利得を minmax
する場合,最適反応以外の行動をプレイする回数を
bound できた.
そうでない場合に,player 1 の利得を bound で
きるか?
Conflicting Interest がある場合ほどではないが,任
意の行動に対して,player 1 の利得を bound できる.
19
Main Proposition
†
'
'
v1 (a1 ) min' u1 (a1 , 2 )
2 D ( a1 )
ただし,D(a1' ) { 2 ( A2 ) | u2 (a1' , 2 ) v 2}
D は a1' に対して,少なくとも minmax utility を保証す
る行動の集合
Proposition 16.3.1
'
Fix δ2 ∈ [0, 1) and a1' ∈ A1 with μ(ξ( a))
1 > 0.
For any ε > 0, there exist a 1 1 such that
for all 1 (1,1) ,
v1 (0 , , 1, 2 ) v†1 (a1' )
20
Example – battle of the Sexes
Player 2 の minmax utility は 3/4
Player 1 の Stackelberg action T に対して 3/4
の利得を達成するために,player 2 は R を少な
くとも 3/4 以上の確率でプレイする.
よって,player 1 の利得の bound は 9/4
L
R
T
0, 0
3, 1
B
1, 3
0, 0
21
アウトライン
16.1 The Basic Issue
16.2 Perfect Monitoring and Minmax-Action
Reputations
16.3 Weaker Reputations for Any Action
16.4 Imperfect Public Monitoring
16.5 Commitment Types Who Punish
16.6 Equal Discount Factors
16.7 Temporary Reputations
22
Imperfect Public Monitoring
Example 16.1.1 では,player 1 の利得を
Stackelberg payoff で bound できなかった.
Player 2 が best response をプレイしない.
Normal type か punishment type のどちらと対峙し
ているのか区別できない.
Imperfect monitoring では,均衡上か否かの
はっきりとした区別が消える.
Player 1 の振る舞いを学習する機会がある.
23
仮定
Full support assumption
player 2 の混合戦略 α2 ∈ Δ(A2) に関して,
ρ(y | a) > 0, for all y ∈ Y and a ∈ A1 × A2
ρ(・| (α1, α2) ) = ρ(・| (α’1, α2) ) ⇒ α1 = α’1
これらの仮定において,以下の性質を満たす.
Player 2 の行動は不完全にしか player 1 に観測さ
れない.
Player 2 は player 1 の type に関する belief を観測
に対応して更新できる.
24
Payoff target
Player 1 の戦略に関して複雑な戦略を許す.
例えば,tit-for-tat 等
GN(δ2) : 完全観測でN回の繰り返しゲーム
UN1(σN) : 戦略σNをプレイした時の期待利得
BN(σN1; δ2) : に対する最適反応
σN1をプレイした後,記憶を消去してさらにσN1を
プレイするという戦略を考える.
V1(δ2, Ξ) : player 1 の payoff
25
Proposition 16.4.1
v ( 2 , ) sup V1 ( 2 , )
‡
1
Proposition 16.4.1
For any η > 0 and δ2, there exist a 1 1 such that
for all1 (1,1) ,
v1 (0 , , 1, 2 ) v‡1 ( 2 , )
26
アウトライン
16.1 The Basic Issue
16.2 Perfect Monitoring and Minmax-Action
Reputations
16.3 Weaker Reputations for Any Action
16.4 Imperfect Public Monitoring
16.5 Commitment Types Who Punish
16.6 Equal Discount Factors
16.7 Temporary Reputations
27
Punish を行う commitment type
(1/2)
再び perfect monitoring game において,
player 1 の利得を bound する.
適切に行動しない player 2 に対して punish を
行う commitment type を考える.
p
a2' が u2 (a1' , a2' ) v 2 となる player 1 の行動を a1' と
する.
aˆ12 を player 2 を (pure-action) minmax する
player 1 の行動とする.
(player 1 の punishment )
28
Punish を行う commitment type
(2/2)
次の strategy ˆ1 を考える.
Phase k: aˆ12 を k 回プレイする.その後は,a1' をプレイ
ˆ12 をプレイした後,player 2 が a2' をプレイしな
n 回 a
かった場合,次の phase (phase n + 1) に移る.
'
a
つまり, 2 をプレイしなかった場合,phase n で
あれば,n 回 punish するという戦略
29
Main Proposition
Proposition 16.5.1
Fix ε > 0. Let Ξ contains ˆ1 , for some action profile a’
p
with u2 (a' ) v2 . Then there exists a 2 1 such that
for all 2 ( 2 ,1), there exists a 1 such that for all1 (1,1),
v1 (0 , , 1 , 2 ) u1 (a' )
30
アウトライン
16.1 The Basic Issue
16.2 Perfect Monitoring and Minmax-Action
Reputations
16.3 Weaker Reputations for Any Action
16.4 Imperfect Public Monitoring
16.5 Commitment Types Who Punish
16.6 Equal Discount Factors
16.7 Temporary Reputations
31
Discount Factor に関する仮定
Player は異なる discount factor を持つと仮定
Player 2 は任意
Player 1 は player 2 より patient であれば任意
2人の player の discount factor が同じ場合に
reputation は有効となるか?
均衡における利得を bound するためには,より厳し
い条件が必要
32
Examples
Example 1: Common Interests
Example 2: Conflicting Interests
上と同様
Example 3: Strictly Dominant Action Games
Minmax payoff でしか bound できない
Stackelberg payoff で bound できる!
Example 4:Strictly Conflicting Interests
上と同様
33
Examples
Example 1: Common Interests
Example 2: Conflicting Interests
上と同様
Example 3: Strictly Dominant Action Games
Minmax payoff でしか bound できない
Stackelberg payoff で bound できる!
Example 4:Strictly Conflicting Interests
上と同様
34
Strictly Dominant Action Games
(1/3)
Stackelberg action が strict に他の action を
支配している.
Best response が純粋戦略の中で player 1 に
最も高い利得を実現する.
Conflicting interests である必要はない
Discount factor に関わらず,均衡における利得
を bound できる.
L
R
T
2, 1
0, 0
B
0, 0
-1, 2
35
Strictly Dominant Action Games
(2/3)
Player 1 がTをプレイし続けることが均衡になっ
ていることを示す.
1 |ht ( B) 0 となる t と ht が存在すると仮定する.
最初にこうなる期間を t0 とし,期間 t において,
2 |ht (R) 0 となるとする.
ある t’ において,t から t’ まで T をプレイし,
1 |ht ' (B) となる.
36
Strictly Dominant Action Games
(3/3)
t1 = t’, ht1 = ht’ として,これを繰り返し,
{tn }n0 と {htn }n0 とする.
htn における行動は常に T
この時に,B をとる確率は0
無限に繰り返したのちに,player 2 が R をとる
確率が正になる.
37
アウトライン
16.1 The Basic Issue
16.2 Perfect Monitoring and Minmax-Action
Reputations
16.3 Weaker Reputations for Any Action
16.4 Imperfect Public Monitoring
16.5 Commitment Types Who Punish
16.6 Equal Discount Factors
16.7 Temporary Reputations
38
まとめ
2人の long-lived player の繰り返しゲームにお
いて reputation が機能するか
難しい. Punishment の恐れがあり,単純に best
response を返すことができない.
Conflicting Interests なら機能する.
Stackelberg payoff でなければ,reputation によって
利得を bound できる.
Imperfect なら少し楽. Player 1 の type を学習
δが同じなら,もっと強い条件が必要
39