カルバック情報量の分割による特異モデルの学習係数の

Download Report

Transcript カルバック情報量の分割による特異モデルの学習係数の

カルバック情報量の分割による
特異モデルの学習係数計算アルゴリズム
00-1736-0 永田賢二
東京工業大学 工学部 情報工学科
渡辺澄夫 研究室
1
背景


統計的正則モデル
⇒AIC,SIC,BIC,MDLなどを用いた
アルゴリズムが考案されている
特異モデル
⇒学習係数を求める必要があるが
計算するのが非常に困難
2
目的


カルバック情報量を分割することにより、
特異モデルにおける学習係数を計算する
方法を提案
その有効性をいくつかの実験により検証
3
 (w)
ベイズ学習
q(x)


事後分布:
X  ( X 1 , X 2 , , X n )
p( x | w)
n
p(w | X ) 
n
n
1
n
Z(X )
ベイズ予測分布: p ( x | X ) 
n
 ( w ) p ( X i | w )
i 1
 p( x | w) p(w | X
n
) dw
予測分布と真の分布の違いは、サンプルが増え
るにつれて、どのような早さで小さくなってゆくか
4
カルバック情報量

カルバック情報量
H (w) 

 q ( x ) log
q( x)
dx
p( x | w)
汎化誤差
G ( n )  E X n [  q ( x ) log


1
 o( )
n
n
q( x)
n
dx ]
p(x | X )
(  :学習係数)
5
提案方法と基礎定理

提案方法
H (w)  H 1(w)  H 2 (w)
 ?

 1は既知数
定理
  1  lim
n 
 log
 exp(  nH
2
( w ))  n ( w ) dw
log n
[  n ( w )  exp(  nH 1 ( w ))  ( w )]
6
計算アルゴリズム
1、n として幾つかの値を設定する。
2、  n (w ) に従うサンプル{ w k : k  1, 2 ,  , K } を取り出す
⇒メトロポリス法
3、 y ( n )   log{
1
K
exp(  nH

K
2
( w k ))} を計算する。
k 1
4、幾つかの n について組み合わせ (log n , y ( n )) を求めて
回帰曲線
y  2 x bを最小二乗法で当てはめることにより
 2 を求める。
5、     を目的の値とする。
1
2
7
実験(1)
<条件>
H (a, b, c, d )  H 1 (a, b, c, d )  H 2 (a, b, c, d )
H 1 ( a , b , c , d )  ( ab  cd )
2
H 2 ( a , b , c , d )  ( ab  cd )
3
3
2
<理論値>
  2 / 3, 1  1 / 2
  2  1 / 6  0 . 1666
<結果>
y  0 . 1358 log n  0 . 2821
8
実験(2)
<条件>
H (a , b, c, d , e, f )  H 1 (a , b, c, d , e, f )  H 2 ( a , b, c, d , e, f )
H 1 ( a , b , c , d , e , f )  ( ab  cd  ef )
2
H 2 ( a , b , c , d , e , f )  ( ab  cd  ef )  ( ab  cd  ef )
3
3
3
2
5
5
5
2
<理論値>
  5 / 6 , 1  1 / 2
  2  1 / 3  0 . 3333
<結果>
y  0 . 2817 log n  0 . 5071
9
結論


カルバック情報量を分割して、学習係数を
計算するアルゴリズムを提案し、その有効
性を実験的に確認
今後の課題として、より正確な学習係数が
求められるようなカルバック情報量の分割
の仕方の最適化の問題がある。
10