混合戦略1

Transcript 混合戦略1

混合戦略ナッシュ均衡とは？
（１）ナッシュ均衡が存在しないゲームが結構ある。
たとえば、コイン合わせゲーム。どの戦略の組
み合わせにも逸脱のインセンティブがある。
プレイヤー２
表を出す裏を出す
プレイヤー１
表を出す（１，－１）（－１，１）
裏を出す（－１，１）（１，－１）
戦略集合の拡張とは？
今までは表をだすか、あるいは裏を出すかという２
者択一の選択であったが、両方の戦略の混合を
考えることができる。たとえば、さいころを振り、出
た目によって戦略を決めるような方法もある。ただ
し、各戦略には自由に確率（あるいは確率分布）
を与えることができると考えます。すなわち、表を
出す戦略に確率ｐを、裏を出す戦略に確率１－ｐ
を与えると考えます。たとえば、表を出す戦略に
確率１／３（さいころの目が１と２が出たら）で、裏
を出す戦略に確率２／３（さいころの目が３，４，５，
６が出たら）で採用すると考えます。混合戦略と呼
ばれます。
期待値の考え方：具体例：くじA,B を考える
くじA：5％の確率で100 万円，95％の確率でハズレ
（0 万円）
くじB：20％の確率で8 万円，80％の確率で4 万円
・これらを比較する方法（の1 つ）として考えられるの
が，期待値（確率変数の平均値）を計算する方法で
ある。
期待値の公式
・確率的にあらわれる数値，あるいは確率的にあら
われる状態に対して数値を割り当てる関数を，確率
変数と呼ぶ。（例：サイコロの目）
・それぞれの確率変数に，それがどれくらいの確率
であらわれるかを掛けたものを合計して、
足したものを期待値（平均値）と呼ぶ。
上の具体例の期待値
くじA の期待値：100 万円×0.05＋0 万円
×0.95＝5 万円
くじB の期待値：8 万円×0.2＋4 万円×0.8
＝4.8 万円
サイコロの目（サイコロの目を賞金額とすれ
ば）の期待値(平均賞金額)
1×1/6＋2×1/6＋・・・＋6×1/6＝21/6＝3.5
ペナルティキック（コイン合わせゲーム
に代えて）
ペナルティキックはキッカーとキーパーの１対１。
キーパーはボールの方向を読む。キッカーは
キーパーの読みを外そうとする。
キッカー
左
右
キーパー
左
（１，－１）（－１，１）
右
（－１，１）（１，－１）
• キーパーの混合戦略は、
( p1,1  p1), 0  p1  1
• キッカーの混合戦略は、
( p2 ,1  p2 ), 0  p2  1
• たとえば、 p1  p2  1/ 2 ならば、キー
パーは確率１／２で左に、確率１／２で右に
飛ぶ。キッカーは確率１／２で左にけり、確
率１／２で右にける。
ペナルティキック‧ゲーム
各セルの確率の積は、そのセルが起きる
確率
キッカー
左
キーパー
左
右
p1 p2
右
p1(1  p2 )
(1  p1) p2 (1  p1)(1  p2 )
• 両プレイヤーが混合戦略を採用する場合は、各
プレイヤーは、自らの期待利得を最大にするよう
に、混合戦略を決める。キーパーの期待利得は、
Eキーパー(左)  p２ 1 ( 1  p２ ) (1)
 2 p２  1
• キーパーの期待利得は、
Eキーパー(右)  p２（  1）( 1  p２ )１
 1  2 p２
• しかし、キーパーの期待利得はキーパーの混合
戦略に依存していない。
• もし p２
、  1/ 2 （キッカーが左にキックする確
率）ならば、
Eキーパー(左)  2 p２  1＜１  2 p２
 Eキーパー(右)
キッカーが左にキックする確率が１／２より小さい
ので、キーパーは右に飛ぶ。ただし、１／２は
2 p２  1  1  2 p２すなわち、
４ p２ ２から計算される
• もし
p、２＞1/ 2 ならば、
Eキーパー(左)  2 p２ 1＞１  2 p２
 Eキーパー(右)
キッカーが左にキックする確率が１／２より大きい
ので、キーパーは左に飛ぶ。ただし、１／２は
2 p２ 1  1  2 p２すなわち、
４ p２ ２ 　p２ １／２
• もし
p２、  1/ 2 ならば、
Eキーパー(左)  2 p２  1＝１  2 p２
 Eキーパー(右)
• キッカーが左にキックする確率が１／２の
時、キーパーは左に飛ぶことと、右に飛ぶ
ことが無差別である。
• キーパーの最適反応関数（左に飛ぶ確率
）は、
 ０ 

Bキーパー
（ p2）＝ p：1 ０  p1 １

１



もし、 p2  1/ 2
もし、 p2  1/ 2
もし、 p2  1/ 2
p1
• もし
ば、
p、1  1/ 2（キッカーが左に蹴る確率）なら
Eキッカー(左) １－2 p１＞2 p1－１
 Eキッカー(右)
キーパーが左に飛ぶ確率が１／２より小さいので、
キッカーは左に蹴る。
もし、 p＞
1 1/ 2 ならば、
Eキッカー(左) １－2 p１＜2 p1－１
 Eキッカー(右)
キーパーが左に飛ぶ確率が１／２より大きいので、
キッカーは左に蹴る。
• キッカーの最適反応関数（左に蹴る確率）は、
 １

Bキッカー
（ p１）＝ p２：０  p ２ １

０



もし、 p１  1/ 2
もし、 p１  1/ 2
もし、 p１  1/ 2
p２
２人の最適反応関数の図示
キッカーの左へ蹴る確率
キッカーの反応関数
１
キーパーの反応関数
１/2
１/2
１
キーパーの
左へ飛ぶ
確率
p１
• 混合戦略ナッシュ均衡
( p1,1  p1) ( 1/ 2,1/ 2)
( p2 ,1  p2 ) ( 1/ 2,1/ 2)
• ナッシュ均衡の期待利得の最大化と予
想と実際に一致（予想の一貫性）を満足
している。また、混合戦略ナッシュ均衡
は２つの純戦略から得られる利得を等
しくすることによって得られている。
混合ナッシュ均衡（１／２，１／２）はナッシュ均
衡の定義２に一致する。
ナッシュ均衡は次のような性質を満たす戦略
*
のペア s  S  S 
である。

S
1
2
n
*
*
si  Bi (si )
for all i  N
ただし、
Bi (si )  si  Si : ui (si , si )  ui (si, si )
for all si  Si 
• もし
ば、
p1  1/ 2
（キーパーが左に飛ぶ確率）なら
Eキッカー(左) １－2 p１  1/ 2  2 p1－１
 1/ 2  Eキッカー(右)
キッカーはどのように戦略 p２を変更しても、利得は
変化しない。したがって、
uキッカー(si , si )  uキッカー(si, si )
を満足する。
• もし p
２
ば、
 1/ 2 （キッカーが左に蹴る確率）なら
Eキーパー(左)  2 p２  1＝１  2 p２
 Eキーパー(右)
キーパーはどのように戦略 p１を変更しても、利得
は変化しない。したがって、
uキーパー(si , si )  uキーパー(si, si )
を満足する。
恋愛ゲームの混合戦略ナッシュ均衡
計算を簡単にするために、前出の恋愛ゲームをよ
り簡単にしている。
女性
男性
野球観戦
野球観戦
（２，１）
ディズニー
ランド 1  p２
（０，０）
ディズニー
ランド
（０，０）
（１，２）
p1
1  p1
p２
• 両プレイヤーが混合戦略を採用する場合は、
各プレイヤーは自らの期待利得を最大にする
ように、混合戦略を決める。男性の期待利得は
E男性(野球観戦)  p２２ ( 1  p２ ) ０  2 p２
E男性 (ディズニーランド )  p２０ ( 1  p２ )１
 1  p２
ただし、 p1は女性が野球観戦に行く確率
• ２つの戦略が等しい期待利得を与える確率は
２ p２  1  p２  p２  1/ 3および1-p２  2 / 3
• 男性の最適反応関数（野球に行く確率）は
 ０ 

B男性
（ p2）＝ p：1 ０  p1 １

１



もし、 p2  1/ 3
もし、 p2  1/ 3
もし、 p2  1/ 3
• 女性の期待利得は、
E女性(野球観戦)  p１１ ( 1  p１ ) ０  p１
E女性 (ディズニーランド )  p１０ ( 1  p１ ) ２
２ ( 1  p１ )
２つの戦略が等しい期待利得を与える確率
は
p１ ２ ( 1  p１ )  p１  2 / 3および1-p１  2 / 3
• 女性の最適反応関数は、
 １

B女性
（ p１）＝ p２：０  p ２ １

０



もし、 p１ ２ /３
もし、 p１ ２ /３
もし、 p１ ２ /３
２人の最適反応関数の図示
p２女性の野球の確率
１
B女性
（ p１）
女性の反応関数
男性の反応関数
B男性
（ p2）
１/３
男性の野球の確率
２/３
１
p１
• 混合戦略ナッシュ均衡は２つの最適反応関
数混合戦略ナッシュ均衡の交点に対応する
。混合戦略ナッシュ均衡は、
( p1,1  p1) ( 1/３ ,２ /３ )
( p2 ,1  p2 ) ( ２ /３ ,1/３ )
• 恋愛ゲームではこの混合ナッシュ均衡と２つ
の純戦略ナッシュ均衡の合計３つある。すべ
て、２つの反応関数の交点に対応する。
他の２つの純戦略ナッシュ均衡は、
( p1,1  p1) ( １ ,０ )
( p2 ,1  p2 ) ( １ ,０ )
( p1,1  p1) ( ０ ,１ )
( p2 ,1  p2 ) ( ０ ,１ )
タカ‧ハトゲームの利得表
ハト
タカ
ハト
（２，２）
（１，３）
タカ
（３，１）
（０，０）
プレイヤー２
プレイヤー１
• プレイヤー１の期待利得は、
Eプレイヤー１ (ハト )  p２２ ( 1  p２ )１  p２ 1
Eプレイヤー１ (タカ)  p２３ ( 1  p２ ) ０ ３ p２
２つの戦略が等しい期待利得を与える確率
は
p２ +1  3 p２  p２  1/２および1-p２ １ /２
• プレイヤー１の最適反応関数（ハトをとる確
率）は、
０  すなわち、ハト

Bプレイヤー１
（ p2）＝
p：1 ０  p1 １
 １ すなわち、タカ

もし、 p2＞1/２
もし、 p2  1/２
もし、 p2＞1/２
• プレイヤー２の期待利得は、
Eプレイヤー2 (ハト )  p1 ２ ( 1  p1)１  p1 1
Eプレイヤー１ (タカ)  p1 ３ ( 1  p1 ) ０
３ p1
２つの戦略が等しい期待利得を与える確率は
p1+1  3 p1  p1  1/２および1-p1 １ /２
• プレイヤー２の最適反応関数は、
０  すなわち、ハト

Bプレイヤー２
（ p１）＝
０，１ 
 １ すなわち、タカ

もし、 p2＜1/２
もし、 p2  1/２
もし、 p2＞1/２
２人の最適反応関数の図示
p２
１
タカ
１/２
ハト
プレイヤー２の反応関数
プレイヤー１の反応関数
１/２
タカ１
p１
じゃんけんゲームにおける混合戦
略ナッシュ均衡。
純戦略ナッシュ均衡は存在しないが、混合戦略
ナッシュ均衡は存在する。
グー
チョキ
パー
グー
０，０
１，－１
－１，１
チョキ
１，－１
０，０
１．－１
パー
１，－１
－１，１
０，０
じゃんけんゲームにも純粋ナッシュ
均衡は存在しない。
グー
チョキ
パー
グー
０，０
１，－１
－１，１
チョキ
１，－１
０，０
１．－１
パー
１，－１
－１，１
０，０
• プレイヤー１は、 ( p1, p2 ,1  p1  p2 )
• プレイヤー２は、
( q1, q2 ,1  q1  q2 )
という混合戦略をとる。期待値は同じになる
Eプレイヤー１ (グー)  p1 0  p 2 1  (1) ( 1  p1  p 2 )
 1  p1
Eプレイヤー１ (チョキ)  p1 1  p 2 0  1( 1  p1 p 2 )
 2 p1 p 2 1
Eプレイヤー１ (パー)  p1 1  p 2 -1  0 ( 1  p1 p 2 )
 p1  p 2
• 混合戦略ナッシュ均衡は一つであり、
( p1, p2 ,1  p1  p2 ) ( 1/３ ,1/３ ,1/３ )
( q1, q2 ,1  q1  q2 ) ( 1/３ ,1/３ ,1/３ )
期待値は同じになる
1
1
1
Eプレイヤー１ (グー)  0  1  ( １ )  0
3
3
3
1
1
1
Eプレイヤー１ (チョキ)  (1)  0  ( -1)  0
3
3
3
1
1
1
Eプレイヤー１ (パー)  1  (1)  0  0
3
3
3
ナッシュは次の定理も証明した。
有限ゲームおいて、混合戦略ナッシュ
均衡の混合戦略を構成する純戦略は他
のプレイヤーの混合戦略に対して最適
戦略になっている。なぜなら、混合戦略
ナッシュ均衡を構成する純戦略は同じ
期待利得を与えるからです。
ナッシュは次の定理を証明した。
戦略の数が有限である有限ゲームお
いて、戦略集合を混合戦略まで含め
ると、この有限ゲームには必ずナッシ
ュ均衡が存在する。

混合戦略1

Transcript 混合戦略1

Directory