カルバック情報量の分割による特異モデルの学習係数の
Download
Report
Transcript カルバック情報量の分割による特異モデルの学習係数の
カルバック情報量の分割による
特異モデルの学習係数計算アルゴリズム
00-1736-0 永田賢二
東京工業大学 工学部 情報工学科
渡辺澄夫 研究室
1
背景
統計的正則モデル
⇒AIC,SIC,BIC,MDLなどを用いた
アルゴリズムが考案されている
特異モデル
⇒学習係数を求める必要があるが
計算するのが非常に困難
2
目的
カルバック情報量を分割することにより、
特異モデルにおける学習係数を計算する
方法を提案
その有効性をいくつかの実験により検証
3
(w)
ベイズ学習
q(x)
事後分布:
X ( X 1 , X 2 , , X n )
p( x | w)
n
p(w | X )
n
n
1
n
Z(X )
ベイズ予測分布: p ( x | X )
n
( w ) p ( X i | w )
i 1
p( x | w) p(w | X
n
) dw
予測分布と真の分布の違いは、サンプルが増え
るにつれて、どのような早さで小さくなってゆくか
4
カルバック情報量
カルバック情報量
H (w)
q ( x ) log
q( x)
dx
p( x | w)
汎化誤差
G ( n ) E X n [ q ( x ) log
1
o( )
n
n
q( x)
n
dx ]
p(x | X )
( :学習係数)
5
提案方法と基礎定理
提案方法
H (w) H 1(w) H 2 (w)
?
1は既知数
定理
1 lim
n
log
exp( nH
2
( w )) n ( w ) dw
log n
[ n ( w ) exp( nH 1 ( w )) ( w )]
6
計算アルゴリズム
1、n として幾つかの値を設定する。
2、 n (w ) に従うサンプル{ w k : k 1, 2 , , K } を取り出す
⇒メトロポリス法
3、 y ( n ) log{
1
K
exp( nH
K
2
( w k ))} を計算する。
k 1
4、幾つかの n について組み合わせ (log n , y ( n )) を求めて
回帰曲線
y 2 x bを最小二乗法で当てはめることにより
2 を求める。
5、 を目的の値とする。
1
2
7
実験(1)
<条件>
H (a, b, c, d ) H 1 (a, b, c, d ) H 2 (a, b, c, d )
H 1 ( a , b , c , d ) ( ab cd )
2
H 2 ( a , b , c , d ) ( ab cd )
3
3
2
<理論値>
2 / 3, 1 1 / 2
2 1 / 6 0 . 1666
<結果>
y 0 . 1358 log n 0 . 2821
8
実験(2)
<条件>
H (a , b, c, d , e, f ) H 1 (a , b, c, d , e, f ) H 2 ( a , b, c, d , e, f )
H 1 ( a , b , c , d , e , f ) ( ab cd ef )
2
H 2 ( a , b , c , d , e , f ) ( ab cd ef ) ( ab cd ef )
3
3
3
2
5
5
5
2
<理論値>
5 / 6 , 1 1 / 2
2 1 / 3 0 . 3333
<結果>
y 0 . 2817 log n 0 . 5071
9
結論
カルバック情報量を分割して、学習係数を
計算するアルゴリズムを提案し、その有効
性を実験的に確認
今後の課題として、より正確な学習係数が
求められるようなカルバック情報量の分割
の仕方の最適化の問題がある。
10