発表資料(ppt形式)

Download Report

Transcript 発表資料(ppt形式)

完全2部グラフ型ボルツマンマシンにおける
平均場近似自由エネルギーの
漸近的挙動
東京工業大学総合理工学研究科
知能システム科学専攻 渡辺研究室
西山 悠
背景
現実的なシステム
確率を利用した学習モデル
混合正規分布
制御
神経回路網
パターン認識
隠れマルコフモデル
ベイジアンネット
応用
時系列予測
(フィッシャー情報行列が正則な)
一対一対応
パラメータ
特異モデル
確率分布
統計的正則モデル
の漸近論
ベイズ自由エネルギー,ベイズ汎化誤差
が正則モデルよりも優れている
ベイズ学習が有効
With 代数幾何学的手法
問題点:ベイズ事後分布を含む計算は実現困難
平均場近似
ハミルトニアン
ベイズ事後分布
近似
近似
相互作用
のない系
パラメータごとに
独立に計算
パラメータごとに
独立な分布
カルバック距離として最も近く
(自由エネルギーを最小にする)
平均場近似アルゴリズム
(変分ベイズ)
実問題への有効性
~平均場近似自由エネルギーの漸近形~
縮小ランク回帰モデル[Nakajima]
混合正規分布[K.Watanabe]
隠れマルコフモデル[Hosino, K.Watanabe]
確率文脈自由文法[Hosino, K.Watanabe]
ニューラルネットワーク[Nakano]
で求められている.
目的

完全2部グラフ型ボルツマンマシンにおいて,平
均場近似自由エネルギーの漸近形の上界を解
析的に導出する.
ベイズ学習
データ
真の分布
確率的に
q(x)
揺らぐ対象
X1 X 2  X n
独立
設計者
p( x |  )
 ( )
予
測
:学習モデル
:事前分布
(事前知識)
n
p( | X n ) 
 ( ) p( X i |  )
i 1
Z(X n )
p( x | X n )   p( x |  ) p( | X n )d
:ベイズ事後分布
(事後知識)
:ベイズ予測分布
学習における自由エネルギー
ベイズ事後分布
は
p( | X n ) 
n
 ( ) p( X i |  )
i 1
Z(X n)
~
exp{nH n ( )}

Z (X n)
ボルツマン分布
表現
ここで,
1
~
Hn ( )  Hn ( )  log( )
n
H n ( )
F (n)  EX n { log Z ( X n )}
:経験カルバック情報量
:ベイズ自由エネルギー
汎化誤差との関係
F (n 1)  F (n)  G(n)
*ベイズ自由エネルギーは,汎化誤差の導出,モデル選択等に重要
学習における平均場近似(1)
試験分布 f ( ) に対して
~
F (n)  EX n [ f ( ) log f ( )d  n f ( )Hn ( )d ]
f ( ) として特に
エントロピー項
(1)
エネルギー項
d
f ( )   fi (i )
i 1
に制限したとき (1) 式右辺を最小にする
f ( ) を平均場近似と呼ぶ.
EX n [min{ f ( ) log f ( )d  n
f ( )
を平均場近似自由エネルギーと呼ぶ.
~
f ( )Hn ( )d}]  F (n)
学習における平均場近似(2)
平均場近似自由エネルギー F (n) について
F (n)  EX n [min{ f ( ) log f ( )d  n
f ( )
 min{ f ( ) log f ( )d  n
f ( )
~
f ( )Hn ( )d}]
~
f ( )EX n [Hn ( )]d}
~
 min{ f ( ) log f ( )d  n f ( )H ( )d}
f ( )
~
 F(n)
~
以上から
~
F (n)  F (n)  F (n)
ベイズ自由エネ
ルギー
1
n
ただし, H ( )  H ( )  log( )
平均場近似
自由エネルギー
本発表で考察
学習モデル
K個
学習モデル: 完全二部グラフ型ボルツマンマシン
p( x | w) 
K

exp(

y

x

学
習
モ
デ
ル
i 1
yi

i 1
j i
y2
y3
yK
隠れ素子
M
 w x y)
j 1
ij
j i
wij
wKM
M
exp( wij x j yi )
j 1
Z (w)
K

exp(

ij
j 1
K

y
K
i 1
 w x y)
i 1

y1
M
入出力素子
x1 x2
xM
M
cosh( wij x j )
j 1
Z (w)
全パラメータ数: KM 個
M個
{xi }iM1 {yi }iK1 はそれぞれ,
{1,1} の2値をとるとする.
真の確率分布
K 個
wij  0

for i {1,2, K }
wij  0
for i {K  1,, K}
このとき真の確率分布は
K
p( x | w ) 

i 1
M
cosh( wij x j )
yK
wij  0
w 0
j 1

x1
Z (w )
ˆ )}
{wˆ ; p( x | w )  p( x | w
yK  1

ij
*真の分布が学習モデルに含まれる場合 ( K 
 K)
{wˆ ; H (wˆ )  0}
必要十分
複数存在
yK
y1
特異モデル
x2
M個
xM
問題設定
~
F (n)  F (n)
 min{ f (w) log f (w)dw  n
平均場近似
自由エネルギー
f ( w)
(2)
学習モデル由来
正規分布族
K
f (w)  
i 1
K
0 (w)  
i 1
*
~
f (w)H (w)]dw}
M

j 1
M

j 1
1
exp{Lij (wij  wˆ ij )2}
Z ( Lij )
完全2部グラフ型
ボルツマンマシン
2
ˆ
(
w

w
)
1
exp{ ij 2 ij }
21
2 1
{Lij } {wˆ ij } を (2) 式右辺が最小になるように最適化
結果・定理
完全2部グラフ型ボルツマンマシンにおいて
平均場近似自由エネルギー F (n) は以下の上界を持つ.
K M  KM
F (n) 
log n  C
4
ここで
M :入出力素子の個数
K :学習モデルの隠れ素子の個数
K  :隠れ素子の真の個数
C :定数
である.
証明の概要
[補題]
  Rd
とし,一般のカルバック情報量 H ( ) において
H (ˆ)  0 を満たす ˆ
 2 H ( )
に対して {i;
 0} が r 個以下のとき
2
i  ˆ
平均場近似自由エネルギー F (n) は,
r d
F (n) 
log n  O(1)
4
{ˆ; H (ˆ)  0}
 (1)  r (1)
の上界を持つ.
   r
真のパラメータ集合
 ( 2)  r ( 2)
*カルバック情報量の二階微分の計算のみで,上の上界が得られる.
[補題]を利用
完全二部グラフ型ボルツマンマシンのとき,カルバック情報量 H (w) は
K
K
H (w)  


i 1
M

cosh( wij x j )

x
j 1

Z (w )

i 1
ln
M
cosh( wij  x j )
j 1

Z (w )
K

i 1
M
cosh( wij x j )
j 1
Z (w)
ŵ における二階微分係数は,
 2 H (w)

2
w wwˆ
(t  t
2
)
wˆ
wˆ
分散
ここで
M
t  tanh( wj x j ) x
j 1
f ( x | w)
wˆ
  p( x | wˆ ) f ( x | w)

x
学習モデル
特に
ŵ  w のときを考えると
ˆ ; H (w
ˆ )  0}
{w
wˆ (1)  r (1)
w  0 for  {1,2, K }


for


{
K
1,, K}
w  0


であることから
2 H (w)

2
w ww
w  r*
ˆ ( 2)  r ( 2)
w
t  0
(t  t
が成立して,[補題]において

w
)2


w
0
r  K M、 d  KM
K M  KM
F (n) 
log n  C
4
for
 {K  1,, K}
であることから,
(定理の証明終了)
考察①
統計的正則モデル
KM

log n  O(1)
2
F (n)
代数幾何学的手法
[Yamazaki]
上
界
上
界
導出した自由エネルギー
KM  K *M

log n  O(1)
4
平均場近似
ベイズ学習
非漸近
領域
n :学習サンプル数
漸近論
適用可能領域
考察②

事前分布
(w)  c0 (w)
正規分布

試験分布を正規分布, ŵ  w のときの下界
結論

完全二部グラフ型ボルツマンマシンにおいて,平
均場近似自由エネルギーの上界を与えた.
今後の課題

平均場近似自由エネルギーの下界の導出

一般のボルツマンマシンへの拡張

導出した自由エネルギーと実験との比較
Sing IC [Yamazaki. et al]
  h (K, K* )
F (n)
平均場近似アルゴリズム
 1 log n  (m1 1) log log n
ベイズ学習
 2 log n  (m2 1) log log n
n
非漸近
領域
m  hm (K, K * )
+
真の
隠れ素子
の個数
y  g(, m)
学習サンプル数
観測可能量
漸近論
適用可能領域
学習モデル
学習アルゴリズム に依存
*観測できない
関数
h hm
K
*
を推測
を導出するのは重要
理論的な研究の意義

平均場近似アルゴリズムと(ベイズ学習,統計的
正則モデル)との漸近論の比較.

平均場近似アルゴリズムにおいて,局所解 or
最小解の判定基準.

特異モデルにおけるモデル選択,
SingICへの基礎
学習における平均場近似(1)

試験分布 f ( ) に対して



F (n)  EX n [ f ( ) log f ( )d  n

f ( ) として特に

 ~  
f ( )Hn ( )d ] (1)
エントロピー項
エネルギー項
d
f ( )   fi (i )
i 1

に制限したとき (1) 式右辺を最小にする f ( ) を平均場近似と呼ぶ

 
 ~  
EX n [min
f ( ) log f ( )d  n f ( )Hn ( )d }]  F (n)
 {
f ( )
平均場近似アルゴリズム
を平均場近似自由エネルギーと呼ぶ。
stationary

f ( )
*局所解 or 最小解 の判定基準
ベイズ汎化誤差
G(n)
真
の
分
布
代数幾何学的手法 [Watanabe]
q(x)

へ
の
近
さ
 m 1

n log n
n
ベイズ予測分布と、真の分布とのカルバック距離
G(n)  EX n {



q( x)
q( x) log  n dx} :ベイズ汎化誤差
p( x | X )
本学習モデルの性質
 
p( x | w)
学習モデル
1
K
 
p( x | w) 

i 1
M
cosh( wij x j )
j 1

Z (w)

x
は,入出力素子 {xi }iM1 が {1,1} をとることから
離散分布であり,全事象は2M 通り.
(i) 隠れ素子数 K は, KM
(ii)
M
全事象 2
 2M 1 を満たす範囲で十分
M  1 のとき
仮
定
K
 
p( x | w) 
パラメータ

i 1
通り
cosh(wi1 )
1


Z (w)
2M
 に依存せず意味をなさない.
M 2
w
の場合を考える