Transcript 第10回
論理生命学第10回:
経験ベイズ法と周辺尤度
渡辺一帆
内容
経験ベイズ法
周辺尤度最大化による事前分布の最適化
さらに事前分布を仮定する階層ベイズ法
対数周辺尤度と汎化誤差
経験ベイズ法(1)
ベイズ推定
学習モデル:
n
p(x | w ) p( xi | w )
n
i 1
x n {x1 ,..., xn }
w
パラメータ
学習データ
事前分布:
p(w | α)
w
パラメータ
α
ハイパーパラメータ
p(x n | w ) p(w | α)
事後分布: p(w | x , α)
p(x n | α)
n
x n に対する α の尤度
経験ベイズ法(2)
周辺尤度
n
Z (x ) p (x | α ) p ( xi | w ) p (w | α )dw
n
n
i 1
を最大にする
α
を探す
・経験ベイズ法
・タイプⅡ最尤推定法
☆(離散化した)
決まった
さらに
p (α )
α
α
の候補について Z ( x n ) を計算
を使って事後分布を計算
を仮定する場合もあり(階層ベイズ法)
ベイズ2値回帰(1)
n
n
バイナリ系列 x {xi }i 1
xi {0, 1}
各時刻において確率 ri [0 1] で 1
1 ri
10100011100101101…
で 0
r {ri }in1 生起確率
n
p (x | r ) ri xi (1 ri )1 xi
n
Ex) 神経細胞の発火率推定
i 1
e wi
ri
で変換
1 e wi
w {wi }in1
ri
n
p (x n | w ) exp{ xi wi log( 1 e wi )}
i 1
wi
ベイズ2値回帰(2)
n 1
事前分布 p(w | ) exp ( wi 1 wi ) 2
2 i 1
確率の変動は滑らか
:ハイパーパラメータ
大
周辺尤度の計算、最大化
Z (x n ) p(x n | w ) p (w | )dw
事後分布
EM法では、
Q( ; ~ ) p(w | x n , ~ ) log p(x n , w | )dw
周辺尤度:
解析的に計算できないことが多い
⇒ 近似法、MCMC法
小
階層ベイズ法(1)
例)
( y f ( x, w)) 2
1
p( y | x, w)
exp
2
2
2
d 2
|| w ||
1
1
p(w | )
exp
exp w j
2
2
2
2 j 1
D ( x1 , y1 ), ( x2 , y2 ),..., ( xn , yn )
n
事後分布:
p(w | D, ) p( yi | xi , w ) p(w | )
i 1
1 n
d 2
2
log p(w | D, ) ( yi f ( xi , w)) w j
2 i 1
2 j 1
二乗誤差
+(定数)
正則化項
:正則化パラメータ
階層ベイズ法(2)
p(w | α )
発展版
α { 1, 2 ,..., d }
j
d
1 d
2
exp
w
j
j
d
2
j
1
2
Automatic Relevance Determination(ARD)
j 1
1
p(α) p( j )
exp j j 1
j 1
j 1 ( )
d
さらに
d
ガンマ分布
超事前分布(hyperprior )
p( w
j
| j ) p( j )d j
,
ハイパーハイパーパラメータ
j
1
1
exp j w2j
exp j j 1d j
2
2
( )
1 / 2
1
( ) 2 1 w2j / 2
1/ 2
t分布
階層ベイズ法(3)
正規分布
t分布(一つのα)
t分布(α複数)
w2
w1
w
の推定結果はスパースになる
ほとんどの w j
0
、いくつかだけが値をもつ
スパース性の利点
計算効率(時間、メモリ)、結果の解釈(変数選択)
実際の解法・・・ w と
α についての積分
変分ベイズ法など
周辺尤度と汎化誤差(1)
事後分布
予測分布
p ( x | x n ) p ( x | w ) p (w |x n )dw
n
p
(
x
|
w
)
p
(
x
|
w
)
p0 (w )dw
i
i 1
n
p
(
x
|
w
)
p0 (w )dw
i
i 1
Z (x n 1 )
Z (x n )
汎化誤差
p( x | w 0 )
G (n) Ex n p( x | w 0 ) log
dx
n
p
(
x
|
x
)
x xn1 とみなした。
真の分布: p( x | w 0 )
真の分布から予測分布
がどれくらいずれたか
データセットの出方についての平均
G (n) F (n 1) F (n) S
F (n) Exn [ F (xn )] Exn [ log Z (xn )]
F (n) (自由エネルギー)は累積汎化誤差
S p( x | w 0 ) log p( x | w 0 )dx
はエントロピー
周辺尤度と汎化誤差(2)
nが十分大きいとき
F (n) nS log n
:学習モデルと事前分布によって決まる定数
汎化誤差
G ( n)
n
例題数が増えれば汎化誤差は減少
事後分布が平均 w 0 の正規分布に近づくとき
潜在変数モデルでは、一般に d だが、
2
いくつかのモデルで の値が調べられている。
(混合分布、隠れマルコフモデルなど)
d
2
d :パラメータ数
まとめ
経験ベイズ法
周辺尤度最大化
階層ベイズ法
周辺尤度と汎化誤差