単貧民と偶然手番感度 電気通信大学 西野順二 西野哲朗

Download Report

Transcript 単貧民と偶然手番感度 電気通信大学 西野順二 西野哲朗

単貧民と偶然手番感度
電気通信大学
西野順二 ○西野哲朗
研究の背景
社会現象
プレイヤー人数
ソーシャルゲーム
多数
ポーカー(不完全情報
大貧民
ダイヤモンド
3人
ゲーム
[bowling2007]
ハーツ
ポーカー
ブリッジ
以上
2人
多人数[sturvant2000〜]
囲碁
将棋
完全情報
バックギャモン
不完全情報
The University of
Alberta GAMES Group
情報の不完全さ
多人数不完全情報ゲームはまだ未開拓の困難対象である
§1
目的
多人数不完全情報ゲームの新たな指標である
偶然手番感度の提案
「単貧民」を対象に全探索を行い
その偶然手番感度の計測と検討を行う
大貧民型ゲーム
不完全情報の源泉と遷移
多人数による情報の不完全性
偶然手番による情報の不完全性
徐々に情報が開示される
ポーカーと違う
以上の組み合わせ → 大貧民
最もシンプルにした形 → 単貧民
§2
第7回 UEC コンピュータ大貧民大会
UECda-2012
主催: UEC(電気通信大学)
共催: 情報オリンピック日本委員会
会場: 電気通信大学 東3号館 5階
日時: 2012年11月24日(土)10:30より
(シンポジウムは 12:00 開始)
• 対象: どなたでも御参加頂けます
• 参加費: 無料
•
•
•
•
5/84
情報系の学問に馴染みのない皆さん
には ...
• 頭の中にある大貧民のプレイの仕方を、アルゴリズム(問
題解決手順)として正確に書き下していただき、
• プログラム化していただくことで、
• 情報系の学問の基礎に親しんでいただきたい。
6/84
プログラミングの腕に覚えのある皆さん
には ...
• 会場で、ハイレベルな戦いを繰り広げていただきたい。
• 本大会ではプログラム同士の高速対戦を行う。
• 配布されたカードの善し悪しに左右されない、プレイのアル
ゴリズム本来の優劣を競うことができる。
7/84
大貧民とは?(1)
• 大貧民はトランプで遊ぶカードゲームのひとつ。
「ど貧民」、「大富豪」、「階級闘争」などとも
呼ばれる。
• カードを参加者にすべて配り、手持ちのカードを
順番に場に出して早く手札をなくすことを競うゲ
ーム。
• 1ゲームでの順位が次ゲーム開始時の有利不利に
影響する点が特徴で、勝者をより有利にするゲー
ム性から大富豪との名称がついた。
8/84
大貧民とは?(2)
• 地方ルールが数多く存在することも大きな特徴である。地
方ルールには、一度負け出すとなかなか逆転できないとい
う欠点を補正する方向に働くものが多い。
• 順位は、手持ちのカードのなくなった順に、大富豪、富豪、
平民、貧民、大貧民(ど貧民)となる(平民は複数存在し
うるが、存在しない場合もある)。
9/84
大貧民とは?(3)
• 第2ゲーム以降は、カードを配った後のゲーム開始時までに、
大貧民は大富豪に2枚、貧民は富豪に1枚、手持ちの最も強
いカードを差し出さなければならない。このカード交換を
「税金」または「献上」という。
10/84
大貧民のルール(1)
• ゲームの開始: ゲームはダイアの3を持っている人
から始まる。 必ずしもダイアの3を出さなくてもよい。
• パスについて: 場のカードと手札の関係上、カードを
出せない場合はパスとなる。 カードが出せる場合で
も戦略上パスすることができるが、 いったんパスする
と、場が流れるまで自分に順番が回ってくることはな
い。
• スペードの3: スペードの3はジョーカーよりも強い。
ジョーカーが一枚で出された場合、スペードの3で切
ることができる。
11/84
大貧民のルール(2)
• 場の流れ方: 全員がパスしたら場が流れ、最後にカ
ードを出した人が 場にカードがない状態からカードを
出すことができる。 仮に自分以外がパスした時、自
分がカードを出すことができれば 連続してカードを出
すことができる。
• 8切り: 8を含んだ手を出した場合、場のカードがクリ
アされ カードを出した人が任意のカードを出すことが
できる。 (権利をとることができる)
• 革命: 同じ番号のカードを4枚、もしくはジョーカーを
含んだ 5枚をセットで出すと、革命がおこる。 革命後
はカードの強さが逆転する。
12/84
大貧民のルール(3)
• 階段(シークエンス):同一マークの連番が3枚以上あ
る場合は、同時に出すことができる。5枚以上同時に
出すと革命がおこる。
• しばり(ロック): 場にあるカードと同じマークのカード
を出すと「しばり」状態となり、以後同じマークしか出
せない。
• あがり方: どんなカードでもあがることができる。
• カードの交換: 大富豪は2枚、カードをもらう。富豪は
1枚。 選び方は任意。強いカードをあげてもよい。 大
貧民は2枚、貧民は1枚強いカードを献上する。 カー
ドは自動的に選ばれ、選択できない。
13/84
本大会で使用したプログラム
• カードの配布や場の管理を行うサーバ・プログラム。
• プレイヤーに対応するクライアント・プログラム。
• 5人のプレイヤーに対応する 5つのクライアント・プロ
グラムを、サーバ・プログラムにつないで対戦を行う。
• 上記プログラムのソース・コードは、大会サイトからダ
ウンロード可能。
14/84
サーバー – クライアント システム
サーバー
サーバーに
やって貰おう
011010
① 送信
010010
011010
011001
010010
010001
011001
② 処理
100010
010001
クライアント
③ 返信
111001
100010
111001
 クライアントは、サーバーに処理を依頼します。
 サーバーは、クライアントの依頼を受け、結果を返信します。
15/84
システム構成図
大富豪サーバー
• 場の管理
• 状況のクライアントへの通知
通信
クライアント 5
• カードの
選択
• 提出されたカードの判定
クライアント 4
クライアント 1
クライアント 2
クライアント 3
• カードの
選択
• カードの
選択
• カードの
選択
• カードの
選択
16/84
単貧民
大貧民型ゲームの最小形で多人数不完全情報ゲーム
大貧民の基本ルールを継承している
カード順位を線形化(マーク、重複カードの省略)
1枚出しのみ、ペア、階段など役出しは無し
1〜12 の整数でカード強さを表す
(2が強いわけではない)
例 [[1 4 5] [2 3 6]] ←2人に3枚ずつ配布、初手は?
不完全情報ゲームの解法
モンテカルロサンプリング
52枚
状態を仮定して
シミュレーションや探索
のちに統合(期待利得最大化)
5つに配布
自手おなじ
10^33
U
様々な可能性
情報集合
多人数なので
不完全知覚
§2
偶然手番感度とは(1)
偶然手番と期待利得
利得G
情報集合
b 0.7-0.3= +0.4
A
偶然手番
0.3
a -0.7+0.3= -0.4
偶
B
実現確率
0.7
§3.2
偶然手番感度とは(2)
期待利得
0.3
A
G
j
-0.4
B
0.7
G
j
§3.2
偶然手番感度とは(3)
偶然手番感度
CNS=0 : pに関わらず
期待利得が一定
利得の偶然手番変化に対する
標本分散と同型
CNS
Σp = 1
正規化CNS CNS/Range
§3.2
偶然手番感度高い
G
A
偶然手番
0.3
AかBか
推定が
重要
偶
B
未知
0.7
§3.2
偶然手番感度低い
A
偶然手番
1
モンテカルロ
サンプリングで
A, Bの
どちらの状態を選んでも
最良着手
b
が見つかる
B
§3.2
単貧民の偶然手番感度
2〜5名 計2〜12枚
完全探索
最大36万通り
例 [ [145] [268] [379] ] どの手?
§3.5
例)
3人3枚ゲーム
( 計9枚)
84種の自手
[
]
[
]
[
]
[
]
[
]
[
]
[
]
[
]
[
]
各20種の情報集合
(相手パターン)
1680種の木を全て探索し
自手ごとに統合
§3.5
計12枚までの14種
最大36万通り
§3.5
§3.5
まとめ
単貧民 最小化した大貧民の全探索を行った
単貧民の偶然手番感度が低いことを示した
多人数不完全情報ゲームの性質を計る
新たな指標として偶然手番感度を提案した
§3.5
Thank You!
29/31