Transcript 第10回

論理生命学第10回:
経験ベイズ法と周辺尤度
渡辺一帆
内容
経験ベイズ法
周辺尤度最大化による事前分布の最適化
さらに事前分布を仮定する階層ベイズ法
対数周辺尤度と汎化誤差
経験ベイズ法(1)
 ベイズ推定
学習モデル:
n
p(x | w )   p( xi | w )
n
i 1
x n  {x1 ,..., xn }
w
パラメータ
学習データ
事前分布:
p(w | α)
w
パラメータ
α
ハイパーパラメータ
p(x n | w ) p(w | α)
事後分布: p(w | x , α) 
p(x n | α)
n
x n に対する α の尤度
経験ベイズ法(2)
 周辺尤度
n
Z (x )  p (x | α )    p ( xi | w ) p (w | α )dw
n
n
i 1
を最大にする
α
を探す
・経験ベイズ法
・タイプⅡ最尤推定法
☆(離散化した)
決まった
さらに
p (α )
α
α
の候補について Z ( x n ) を計算
を使って事後分布を計算
を仮定する場合もあり(階層ベイズ法)
ベイズ2値回帰(1)
n
n
バイナリ系列 x  {xi }i 1
xi {0, 1}
各時刻において確率 ri  [0 1] で 1
1  ri
10100011100101101…
で 0
r  {ri }in1 生起確率
n
p (x | r )   ri xi (1  ri )1 xi
n
Ex) 神経細胞の発火率推定
i 1
e wi
ri 
で変換
1  e wi
w  {wi }in1
ri
n
p (x n | w )   exp{ xi wi  log( 1  e wi )}
i 1
wi
ベイズ2値回帰(2)
  n 1

事前分布 p(w |  )  exp   ( wi 1  wi ) 2 
 2 i 1

確率の変動は滑らか
 :ハイパーパラメータ
大
周辺尤度の計算、最大化
Z (x n )   p(x n | w ) p (w |  )dw
事後分布
EM法では、
Q( ; ~ )   p(w | x n , ~ ) log p(x n , w |  )dw
周辺尤度:
解析的に計算できないことが多い
⇒ 近似法、MCMC法
小
階層ベイズ法(1)
例)
 ( y  f ( x, w)) 2 
1
p( y | x, w) 
exp 

2
2


2
  d 2
  || w || 
1
1
p(w |  ) 
exp 
exp   w j 

2 
2
2

 2 j 1 
D  ( x1 , y1 ), ( x2 , y2 ),..., ( xn , yn )
n
事後分布:
p(w | D,  )   p( yi | xi , w ) p(w |  )
i 1
1 n
 d 2
2
log p(w | D,  )    ( yi  f ( xi , w))   w j
2 i 1
2 j 1
二乗誤差
+(定数)
正則化項

:正則化パラメータ
階層ベイズ法(2)

p(w | α ) 
発展版
α  { 1,  2 ,...,  d }
j
d
 1 d

2
exp


w


j
j 
d
2
j

1
2


Automatic Relevance Determination(ARD)
j 1
1
p(α)   p( j )  
  exp   j  j 1
j 1
j 1 (  )
d
さらに
d
ガンマ分布
超事前分布(hyperprior )
 p( w
j
|  j ) p( j )d j  
, 
ハイパーハイパーパラメータ
j
 1
 1
exp   j w2j 
  exp   j  j 1d j
2
 2
 (  )
  1 / 2
1

(  ) 2 1  w2j / 2


 1/ 2
t分布
階層ベイズ法(3)
正規分布
t分布(一つのα)
t分布(α複数)
w2
w1

w
の推定結果はスパースになる
ほとんどの w j
0
、いくつかだけが値をもつ
 スパース性の利点
計算効率(時間、メモリ)、結果の解釈(変数選択)
 実際の解法・・・ w と
α についての積分
変分ベイズ法など
周辺尤度と汎化誤差(1)
事後分布
 予測分布
p ( x | x n )   p ( x | w ) p (w |x n )dw
 n

p
(
x
|
w
)
p
(
x
|
w
)

 p0 (w )dw
i


 i 1


 n

p
(
x
|
w
)

 p0 (w )dw
i
  
i 1

Z (x n 1 )

Z (x n )
 汎化誤差

p( x | w 0 ) 
G (n)  Ex n   p( x | w 0 ) log
dx 
n
p
(
x
|
x
)


x  xn1 とみなした。
真の分布: p( x | w 0 )
真の分布から予測分布
がどれくらいずれたか
データセットの出方についての平均
G (n)  F (n  1)  F (n)  S
F (n)  Exn [ F (xn )]  Exn [ log Z (xn )]
F (n) (自由エネルギー)は累積汎化誤差
S    p( x | w 0 ) log p( x | w 0 )dx
はエントロピー
周辺尤度と汎化誤差(2)
 nが十分大きいとき
F (n)  nS   log n
 :学習モデルと事前分布によって決まる定数
 汎化誤差
G ( n) 

n
例題数が増えれば汎化誤差は減少
 事後分布が平均 w 0 の正規分布に近づくとき

 潜在変数モデルでは、一般に   d だが、
2
いくつかのモデルで  の値が調べられている。
(混合分布、隠れマルコフモデルなど)
d
2
d :パラメータ数
まとめ
経験ベイズ法
周辺尤度最大化
階層ベイズ法
周辺尤度と汎化誤差