新ゲーム理論ゼミ 第5章 「繰り返しゲーム」

Download Report

Transcript 新ゲーム理論ゼミ 第5章 「繰り返しゲーム」

新ゲーム理論ゼミ 第5章
「繰り返しゲーム」
• M1 松村 草也
第5章 - 目次
1.有限繰り返しゲーム
2.無限繰り返しゲーム
1.囚人のジレンマの無限繰り返しゲーム
1.支配型固定型戦略
2.トリガー戦略(永久処罰引き金内蔵戦略)
3.反射戦略(しっぺ返し戦略)
4.仏の顔も3度まで戦略
2.錯誤と寛容
3.フォーク定理
1.繰り返しゲームの要素
2.フォーク定理
2
有限繰り返しゲーム
limited repeated
game
チェーンストア・パラドックスから
• 小売店が市場に参入してくる状況を想定する.1度なら
ば協調的行動をとった方が利得が大きいことが予想され
る.しかし,何度もそれを許すことは,チェーン店として
の牙城を危ぶませるものである.
• 同じゲームでも,1度きりなのか,大きな流れの中で
の1度なのかによって,プレイヤーが選択する行動は異
なってくるに違いない.
• この章では,同一のゲームが繰り返される場合につい
て考えてみる.
4
例1:囚人のジレンマの2回繰り返しゲーム
ペイオフマトリックス
協調行動C
競争行動D
協調行動C
2,2
0,3
競争行動D
3,0
1,1
ルール
1.1回目はプレイヤー1,2は互いに独立に自分の戦略を選択する。
2.2回目は1回目の各プレイヤーの戦略と得られた利益を知った上で互い
に独立に戦略を選択する。
3.繰り返しゲームにおけるプレイヤーの利得は2回の成分ゲームの合計。
4.各プレイヤーは2回で終了することを知っている。
5
例1:囚人のジレンマの2回繰り返しゲーム
Q:プレイヤーは純戦略をいくつもっている?
P1
P2
P1
P2
1度目のゲームでは情報集合は1
2度目のゲームでは情報集合は4
合わせて5つの情報集合が存在.
25 = 32 の純戦略をそれぞれ持っている.
(CCCCC),(CCCCD),(CCCDC),...,(DDDDD)
では,前回のゲームとの関連によって
戦略を分類するとどうなるか?
6
有限繰り返しゲーム - 戦略の組み合わせで考える
2回目ゲーム時の純戦略を4つに分類
1. 1回目の結果に無関係に常にCを取る。(CCCC)
2. 1回目に相手のプレイヤーが取った行動と同じ行動を取る。
3. 1回目に相手のプレイヤーが取った行動と違う行動を取る。
4. 1回目の結果に無関係に常にDを取る。(DDDD)
C1
C2
C3
C4
D1
D2
D3
D4
C1
4,4
4,4
2,5
2,5
2,5
2,5
0,6
0,6
C2
4,4
4,4
2,5
2,5
3,3
3,3
1,4
1,4
C3
5,2
5,2
3,3
3,3
2,5
2,5
0,6
0,6
C4
5,2
5,2
3,3
3,3
3,3
3,3
1,4
1,4
D1
5,2
3,3
5,2
3,3
3,3
1,4
3,3
1,4
D2
5,2
3,3
5,2
3,3
4,1
2,2
4,1
2,2
D3
6,0
4,1
6,0
4,1
3,3
1,4
3,3
1,4
D4
6,0
4,1
6,0
4,1
4,1
2,2
4,1
2,2*
C
D
均衡点は((D4),(D4))になる.つまり(DDDDD).
7
有限繰り返しゲーム - まとめ
• 最後のゲームについては,1回きりのゲームと同じように考
え,支配戦略を取る.
• 頂点から底点に向かって,逆戻り推論法を適用することが
出来るのが特徴.
• 有限回であるという共通認識がある限り同じことが起こ
る.
有限回ならチェー
ン店も許してくれ
るということか?
ん?
8
無限繰り返しゲーム
endless repeated
game
観測されている事実
• 囚人のジレンマの均衡利得はパレート最適ではないが,囚
人のジレンマ的状況が繰り返されるとプレーヤ間に暗黙
の協調が生まれ,協調的行動がとられ,パレート最適な
利得ベクトルが実現することが観察されている.
• 「無限に繰り返す」という状況下で行う意思決定を考えること
で,より現実的な考察が可能になるのではないだろうか?
10
例1:囚人のジレンマの無限繰り返しゲーム
ペイオフマトリックス
協調行動C
競争行動D
協調行動C
5,5
0,8
競争行動D
8,0
2,2
ルール
1. 1回目のプレイにおいて、プレイヤーは他のプレイヤーと
独立に自分の行動を選択。
2. t+1回目のプレイでは、これまでに各プレイヤーが取
った戦略と利益を知った上で独立に行動を選択。
3. プレイヤーのゲーム全体としての利益は毎回の利益の
平均とする。
11
無限繰り返しゲーム - 4つの戦略例
無限に繰り返すため,純戦略の列挙は不可能.
行動パターンも無限に存在するが,その中からいくつかを挙げて考える.
• α:支配戦略固定型戦略
• β:トリガー戦略
• γ:反射戦略(しっぺ返し戦略)
• δ:仏の顔も3度まで戦略
12
無限繰り返しゲーム - 戦略の内容比較
α
β
γ
δ
支配戦略固定型戦略
トリガー戦略
反射戦略
仏の顔も3度まで戦略
1回目
Dを選択
Cを選択
Cを選択
Cを選択
2回目以降
Dを選択
Cを選択
反射行動
Cを選択
相手がDを
選択したら
Dを選択
それ以降
Dを選択
反射行動
(次はD)
3回まではCを選択
それ以降は反射行動
13
無限繰り返しゲーム - 均衡点への到達
• 正確に戦略を保つならば,
(α,α),(β,β),(γ,γ),(δ,δ),(β,γ),(β,δ),(γ,δ)
の戦略組み合わせはどれも均衡点.
• 相手が裏切りを行った際の仕返しの方法が異なる.
⇒3回目のゲームで裏切りを行い,その後元の戦略に
戻ると仮定した場合の,戦略ごとの仕返し機能を比較
してみる.
14
無限繰り返しゲーム - 戦略の仕返し機能比較
【α:支配戦略固定型戦略】
【β:トリガー戦略】
【γ:反射戦略】
【δ:仏の顔も3度まで戦略】
15
シミュレーション
• 各プレイヤは10個ずつの戦略を持っている.
• 戦略が指示する行動と異なる行動を0.03の確
率で行う(偶然手番の導入)
• Dを行うべきときに確率pでCを行う.(混合戦
略)
• ゲームの繰り返し回数は200回
16
例3.1人vs不特定多数の繰り返しゲーム
• 警察官が不特定多数のドライバーに対して取り締まりを行う
状況を仮定する.
• 警察官はT:取り締まる,N:放置するの2つの行動をとり,
ドライバーはこれを知った上でS:慎重に運転する,D:無
法運転をするという選択を行う.
• ドライバーは慎重に運転していても過失をp(0<p<0.5)の確
率で行う(偶然手番と考える)
17
1回限りの取り締まりゲームの場合
ペイオフマトリックス
SS
SD
DS
DD
T:取り締まり
4-3p,3-2p
4-3p,3-2p
1,2
1,2
N:放置
4-p,3+p
2,4
4-p,3+p
2,4
0<p<0.5
(T,SD),(N,DD)という2つの均衡点は
警察が取り締まりを行うならば慎重に
運転を行い,行わなければ違法運転を
行うことを意味する.
18
繰り返し取り締まりゲームのシミュレーション
• ドライバーが過失を起こす確率をα=0.1とする.
• 警察は定常戦略T,Nの他に,状態反応戦略A(a)を有する.a
を超えたら取り締まる.
• 200回のシミュレーションを行った結果から平均利得を用い
る.
:ドライバーがt-1回目までに起こした交通違反回数
=
:ドライバーが慎重に運転してもt-1回目までに起こす交通違反回数の期待値
19
繰り返し取り締まりゲームのシミュレーション
シミュレーション結果の利得行列
SS
SD
DS
DD
T:取り締まり
3.73,2.82
3.73,2.82
1.00,2.00
1.00,2.00
A(1)
3.84,2.99
3.69,2.85
1.99,2.36
1.01,2.01
A(1.2)
3.91,3.09
3.67,2.87
1.99,2.36
1.01,2.01
A(3)
3.91,3.09
3.33,3.11
1.99,2.36
1.01,2.01
N:放置
3.91,3.09
2.00,4.00
3.91,3.09
2.00,4.00
• (A(1.2),SS)は実際の交通違反回数が期待値の
1.2倍を上回ったら取り締まりを行うという戦略.
• この時の均衡利得(3.91,3.09)はパレート最適で,
常に取り締まるか取り締まらないかよりも望ま
しい戦略となっている.
20
フォークの定理
fork theory
繰り返しゲームの表現方法
• 成分ゲームG=(N,S,F) ただしNはプレイヤー集合,Sは戦
略集合,Fは利得関数
• 繰り返される回数 成分ゲームGはT回繰り返される.
• 戦略 成分ゲームGの戦略を「行動」と,繰り返しゲームΓの
戦略と区別して呼ぶことが多い.
• ゲームの経歴 t回目のプレイの結果をまとめてベクトルで示
したもの(1≤t≤T)
• 平均利得と割引利得
平均利得
割引利得
rは割引率
22
フォークの定理
• 「1回限りの場合必ずしもパレート最適な
利得が得られないゲームでも,無限回繰
り返すことによって,パレート最適な利
得を実現する戦略が存在する.」
23
保留点(ミニマックス点)
保留点(ミニマックス点)を以下のように定義する.
• 相手に対して最小プレイヤーかのごとく振る舞った場合
に,相手の利得を抑えられうる最小の値.逆に言えばそ
のプレイヤーにとって最小限の利得として保留される値.
• なお,一般的にミニマックス値≥マックスミニ値になることが知
られている.
24
個人合理的実現可能集合
• 無限繰り返しゲームΓの利得ベクトルxが保留点vをパレート
支配するとき,xは個人合理的であるという.
• ゲームΓの実現可能集合に属しつつ,個人合理的な利得ベ
クトルの集合を,
個人合理的実現可能集合という.
25
図解
P2
P1
4,8
6,4
3,6
2,0
4,6
6,1
5,3
7,5
0,6
ゲームΓの成分ゲーム
v(5,6)
• 左のゲームの保留点はv=(5,6)であ
る.
• 左下の図の個人合理的実現可能集
合内の任意の点が,部分ゲーム完
全均衡点をつくる戦略の組によっ
て実現されることを保証するのが,
フォークの定理である.
個人合理的実現可能集合
ゲームΓの実現可能集合
26
補足 - フォークの定理の成立条件
• プレイヤーは将来の利得をあまり割り引かない.
(rは十分0にちかい)
• Siはユークリッド空間におけるコンパクトな部分
集合である
• FiはS上の連続な実数値関数である.
• 成分ゲームGにおいて,混合戦略の範囲で考
えた時の個人合理的集合はn次元である.この
条件はn人ゼロ和ゲームでは実現可能集合は
n-1次元だが,そのような場合を除くことを意味
している.
27