決断のための分布合算 京大(医)統計遺伝学分野 山田 亮 わからなくても

Download Report

Transcript 決断のための分布合算 京大(医)統計遺伝学分野 山田 亮 わからなくても

決断のための分布合算
京大(医)統計遺伝学分野
山田 亮
わからなくても決断する
• あなたは冒険旅行中
• 分かれ道があって、電光掲示板がある
– 『右の道を選んだ者、7名あり。4名は幸福に、3
名は不幸になった』
– 『左の道を選んだ者、3名あり。2名は幸福に、1
名は不幸になった』
• 11例目のあなたは、どちらの道を選ぶか
我を過ぐれば憂ひの都あり、
我を過ぐれば永遠の苦患あり、
我を過ぐれば滅亡の民あり
○
×
和
X
4
3
7
Y
2
1
3
○率をベータ分布で推定
(4+1)/(7+2) 4/7
道X
道Y
期待値
最頻値
2/3
○率
(2+1)/(3+2)
期待値で選択することは「悪くない」
• 方針
– 「期待値」が大きい方を選ぶ
– 「期待値」が同じなら、どちらかを選ぶ
X
X
Y
Y
X期待値 Y期待値
○
×
○
×
0
0
0
0
0.5
0.5
0
0
0
1
0.5
0.333333
0
1
0
1
0.333333
0.333333
0
1
1
1
0.333333
0.5
0
1
1
2
0.333333
0.4
0
1
1
3
0.333333
0.333333
0
1
1
4
0.333333
0.285714
0
2
1
4
0.25
0.285714
0
2
1
5
0.25
0.25
0
3
1
5
0.2
0.25
0
3
1
6
0.2
0.222222
0
3
1
7
0.2
0.2
0
3
2
7
0.2
0.272727
0
3
2
8
0.2
0.25
0
3
3
8
0.2
0.307692
0
3
3
9
0.2
0.285714
0
3
4
9
0.2
0.333333
0
3
5
9
0.2
0.375
0
3
5
10
0.2
0.352941
0
3
5
11
0.2
0.333333
Y×
Y○
X×
X○
本当にYばかりが
選ばれるようになるか
Sele
確率的な決断
• Multi-armed bandit 問題
– 複数のスロットマシンがあって、それぞれのマシ
ンには「当たり」の確率が決まっているが、その確
率が不明であるという
– マシンを1つずつ選んでは、勝負をして、各マシン
の当否結果を記録しながら、勝負を繰り返すこと
にする
– どんなルールで選ぶと、儲けが最大になりやすい
か、という問題
確率的な決断
• Multi-armed bandit 問題
• その状況でのThomson samplingとかの方が良い結果
が得られることが知られている。
• ごく大雑把に言うと、
• データを見ても、「100%、どのアームがよいとは言い
切れない」から、データから見て、「得策らしくないアー
ムも、ある程度(確率的に)は選ぼう」
• いったん、悪い方を選び勝ちになっても、判断を修正
するポテンシャルが「確率的な決断」によってもたらさ
れる
わからなくても決断する
• 分かれ道があって、電光掲示板がある
– 『確率的な決断が大事である』
– 『従って、この分かれ道に奇数回目に来た者には、
電光掲示板は点灯せず、偶数回目に来た者には、
点灯することとする』
• 11例目のあなたは、どうするか
– 1.適当に選ぶ
– 2.出直す
何を比較する?
• 「どちらの道を選ぶと○になる確率が高いの
か」
– これは○の期待値
– 「どちらの道の『○の期待値』が高いのか」
• 「どちらの道が『○率が高い』のか」
○
×
和
X
4
3
7
Y
2
1
3
期待値
(2+1)/(3+2)
期待値 (4+1)/(7+2)
○
×
和
X
4
3
7
Y
2
1
3
期待値 (4+1)/(7+2)
期待値
(2+1)/(3+2)
「どちらの道の『○の期待値』が高いのか」
○
×
和
X
4
3
7
Y
2
1
3
(4+1)/(7+2)
(2+1)/(3+2)
「どちらの道が『○率が高い』のか」
計算できる(式の導出は省略)
○率が高い確率応じて
X,Yを「確率的に」選択してみよう
• 『右の道を選んだ者、7名あり。4名は幸福に、
3名は不幸になった』
– その内訳は
• 男 5名。2名は幸福に、3名は不幸に
• 女 2名。2名とも幸福に
• 『左の道を選んだ者、3名あり。2名は幸福に、
1名は不幸になった』
– その内訳は
• 男 3名。2名は幸福に、1名は不幸に
• 女 は左の道を選んでおらぬ
男女合算 と 女のみ
女のみ
男女
合算
女のみ
男女
合算
• 「男女に違いなし」なら
– 男女合算の情報を使った方が正確
– 男女合算の情報に基づいて集計した方が、早く、
収束する
• 「男女に違いあり」なら
– 男女別々の情報を使った方が正確
女のみ
男女合算
0.58
0.25
0.42
0.75
男女合算 女のみ
道の選択確率が異なる
• 『道 X vs. 道 Y、どちらにしよう?』
– 確率的に選んだ
• 『男女合算 vs. 女のみ、どちらにしよう?』
– 確率的に選んでみる
(p_m,p_f)
『男女に違いがあって
もよい』という立場
女
X男
X
○
×
和
男
2
3
5
女
2
0
2
女
X男
X
○
×
和
X
○
×
和
男
0
0
0
男
2
3
5
女
0
0
0
女
2
0
2
X
○
×
和
X
○
×
和
男
0
0
0
男
2
3
5
女
0
0
0
女
2
0
2
X
○
×
和
X
○
×
和
男
0
0
0
男
2
3
5
女
0
0
0
女
2
0
2
1
1
1
0.5
1/(1+r)
0.5
r/(1+r)
=r
仮説の比率が決まれば
2つのベータ分布の
重みづけ混合分布
1/(1+r) Beta(a+c+1,b+d+1)
+ r/(1+r) Beta(c+1,d+1)
1→1000人
8割男、2割女
男 X:0.2, Y:0.4
女 X:0.4, Y:0.2
0.2 vs. 0.25
10000人
女
男
800
200
• 『右の道を選んだ者、7名あり。4名は幸福に、
3名は不幸になった』
– 幸福になった者の体重は67,53,86,71kg、不幸に
なった者の体重は48,52,51kgであった
• 『左の道を選んだ者、3名あり。2名は幸福に、
1名は不幸になった』
– 幸福になった者の体重は41,53,49kg、不幸になっ
た者の体重は88,68,64kgであった
帰結ごとにカーネル推定
• 説明変数(体重)における「みなし観測度数」を
推定
• 「みなし観測度数」に基づく「みなしベータ分
布」
• 「みなしベータ分布」をX,Y道間で比較
全250人
Xが良いはずの人
Yが良いはずの人
いくつかのこと
• 量的変数・多次元
– 帰結のカーネル分布推定が効かなくなる
– k-NN (k-nearest Neighbors)で代用できる??
• 多名義尺度における「仮説数」のハンドリング
– 2^k : k=10くらいまでは力技でも??