「ゲーム」の例 - 学習院大学 平野研究室

Download Report

Transcript 「ゲーム」の例 - 学習院大学 平野研究室

囚人のジレンマ
―― 裏切りのインセンティブ ――
宮野 哲史
平野研究室 2009年度 夏合宿
今日お話しすること
ゲーム理論
 複数の行為主体が各自の目的のために行動を起こすと
き、利害の対立と協力が生ずる(ゲーム的状況)
 ゲーム的状況において、どのような意思決定をすることが
合理的であるか?
囚人のジレンマ
 本日のメイントピック
 ゲーム理論における、ひとつの重要な帰結
 個々の最適な選択が、全体としての最適な選択とはなら
ない状況のこと
1
「ゲーム」の構成要素
 プレイヤー(Player)
合理的であり、自己の利得を最大化することを前提とする
 戦略(Strategy)
プレイヤーがとる行動のこと
 利得(Payoff)
ある戦略を実行したときに得られる結果を数値化
以下では、プレイヤーが2人の場合についてみていく。
2
「ゲーム」の例
AliceとBobは、トランプのKとQを一枚ずつもっています。
わたしがAliceです
^ω^
^o^
K
わたしがBobです
Q
K
Q
出したカードに応じて、お金がもらえるゲームです。
•
プレイヤー → 「Aさん」と「Bさん」
•
戦略
→ 「K」か「Q」か
•
利得
→もらえる金額
3
「ゲーム」の例
AliceとBobは、トランプのKとQを一枚ずつもっています。
わたしがAliceです
^ω^
^o^
K
わたしがBobです
Q
K
Q
出したカードに応じて、お金がもらえるゲームです。
•A=K, B=K → Aは5000円、Bは2000円もらえる
•A=K, B=Q → Aは7000円、Bは4000円もらえる
なんだか
わかりづらい。。。
•A=Q, B=K → Aは4000円、Bは7000円もらえる
•A=Q, B=Q → Aは3000円、Bは8000円もらえる
4
利得行列
 A,Bの戦略と、利得の関係を行列として表す
 行はAの戦略、列はBの戦略
 各成分は (Aの利得, Bの利得)
Bの戦略
K
Q
Aの戦略
K
(5000, 2000)
(7000, 4000)
Q
(4000, 7000)
(3000, 8000)
いまの例から利得行列をつくると、上記のようになる。
5
例)利得行列を使った分析 ――Aの立場に立って
Bの戦略
K
Q
Aの戦略
K
(5000,2000)
(7000,4000)
Q
(4000,7000)
(3000,8000)
 相手(B)の出方を予測
– Bはクイーンを出したほうが利得が高い
 自分(A)の利得を高める戦略を考える
– Aはキングを出したほうが利得が高い
相手の出方に対して、最も利得を高める戦略を選ぶ・・・最適反応
6
例)利得行列を使った分析 ――Bの立場に立って
Bの戦略
K
Q
Aの戦略
K
(5000,2000)
(7000,4000)
Q
(4000,7000)
(3000,8000)
 相手(A)の出方を予測
– Aはキングを出したほうが利得が高い
 自分(B)の利得を高める戦略を考える
– Bはクイーンを出したほうが利得が高い
最適反応が一致 →
この場合の支配戦略は、Alice:K, Bob:Q
7
ゲームの分類
各プレーヤーが事前に話
し合いを持たずに、各自
の戦略を自ら決定する
非協力ゲーム
ある1人の利益が、必ずし
も他者の損失にならない 非zero-sumゲーム
協力ゲーム
zero-sumゲーム
(Aの利得+Bの利得≠0)
プレーヤーは同時に戦略を
決定する
同時進行ゲーム
交互進行ゲーム
8
囚人のジレンマ 問題設定
強盗を犯した二人組(AliceとBob)が逮捕され、
別々の部屋で尋問されている。
わたしが やりました
アタシ 黙秘
ていうか やってないし
みたいな
 戦略・・・「自白」or「黙秘」のふたつ
 それぞれの戦略をとったときに、
二人とも黙秘・・・二人とも懲役2年
どちらかが自白・・・自白したほうは懲役1年、黙秘したほうは20年
二人とも自白・・・二人とも懲役5年
いま支配戦略は何だろうか?
9
囚人のジレンマ
 利得行列
Bの戦略
(懲役は損だからマイナスとして書いた)
自白
黙秘
Aの戦略
自白
(-5, -5)
(-1, -20)
黙秘
(-20, -1)
(-2, -2)
 Bobが自白を選ぶと仮定
→Aliceは自白したほうが得
 Bobが黙秘を選ぶと仮定
支配戦略は
ふたりとも自白
→Aliceは自白したほうがやっぱり得
10
囚人のジレンマ
 利得行列
Bの戦略
(懲役は損だからマイナスとして書いた)
自白
黙秘
Aの戦略
自白
(-5, -5)
黙秘
(-20, -1)
(-1, -20)
和=-10
和=-4
(-2, -2)
 支配戦略にしたがって、結果はふたりとも懲役5年
 しかし、ふたりとも黙秘していれば懲役2年で済んだ
全体の利得を最大にする方法があるのに、
自分の利得のみを追求した結果たがいに損をしてしまう!
11
囚人のジレンマ
 問題を一般化
Bの戦略
裏切り
協調
Aの戦略
裏切り
(P, P)
(T, S)
協調
(S, T)
(R, R)
利得の条件
S < P < R < T, 2 R > S + T
S : 裏切られて俺だけ大損
R : 信じあってみんな得
P : 裏切りあってみんな損
T : 裏切って俺だけウハウハ
12
例)軍拡競争における「囚人のジレンマ」
適用例
プレイヤー
S
P
R
T
軍拡競争
国家
弱小化
軍拡
国際緊張
軍縮協定
協定違反
強大化
 自国は軍縮せず、相手国は協定に誠実に軍縮している
状態がもっともいい(T)
 それに次ぐのは両国が軍縮している状態(R)、その次は
両国が軍縮しない状態である(P)
 最悪はその国は誠実に軍縮しているのに相手国はしてい
ない状態である(S)
結局、各国は軍拡を選択し、国際緊張に陥ってしまう
13
まとめ
 「自分だけ裏切れば得をする」という状況では、
誰もが裏切りのインセンティブ(動機、誘因)を持ち、
そして実行してしまう
こういった状況は現実社会にもよく見られる
適用例
プレイヤー
S
P
R
T
軍拡競争
国家
弱小化
軍拡
国際緊張
軍縮協定
協定違反
強大化
環境問題
企業
競争力低下
環境悪化
環境保護
競争力上昇
秩序問題
ヒト
生命の危機
自然状態
社会状態
優越
表の出典:計量社会科学ワークショップ(http://www.qmss.jp/qmss/)
14
参考文献
 J. von Neumann et.al. , “Theory of Games and
Economic Behavior”, 1944
まじめに勉強したい方はフォンノイマンの本を読んでみよう!
ぼくもいつか読んでみたいです
THE END
15