Transcript 発表資料(ppt形式)
完全2部グラフ型ボルツマンマシンにおける
平均場近似自由エネルギーの
漸近的挙動
東京工業大学総合理工学研究科
知能システム科学専攻 渡辺研究室
西山 悠
背景
現実的なシステム
確率を利用した学習モデル
混合正規分布
制御
神経回路網
パターン認識
隠れマルコフモデル
ベイジアンネット
応用
時系列予測
(フィッシャー情報行列が正則な)
一対一対応
パラメータ
特異モデル
確率分布
統計的正則モデル
の漸近論
ベイズ自由エネルギー,ベイズ汎化誤差
が正則モデルよりも優れている
ベイズ学習が有効
With 代数幾何学的手法
問題点:ベイズ事後分布を含む計算は実現困難
平均場近似
ハミルトニアン
ベイズ事後分布
近似
近似
相互作用
のない系
パラメータごとに
独立に計算
パラメータごとに
独立な分布
カルバック距離として最も近く
(自由エネルギーを最小にする)
平均場近似アルゴリズム
(変分ベイズ)
実問題への有効性
~平均場近似自由エネルギーの漸近形~
縮小ランク回帰モデル[Nakajima]
混合正規分布[K.Watanabe]
隠れマルコフモデル[Hosino, K.Watanabe]
確率文脈自由文法[Hosino, K.Watanabe]
ニューラルネットワーク[Nakano]
で求められている.
目的
完全2部グラフ型ボルツマンマシンにおいて,平
均場近似自由エネルギーの漸近形の上界を解
析的に導出する.
ベイズ学習
データ
真の分布
確率的に
q(x)
揺らぐ対象
X1 X 2 X n
独立
設計者
p( x | )
( )
予
測
:学習モデル
:事前分布
(事前知識)
n
p( | X n )
( ) p( X i | )
i 1
Z(X n )
p( x | X n ) p( x | ) p( | X n )d
:ベイズ事後分布
(事後知識)
:ベイズ予測分布
学習における自由エネルギー
ベイズ事後分布
は
p( | X n )
n
( ) p( X i | )
i 1
Z(X n)
~
exp{nH n ( )}
Z (X n)
ボルツマン分布
表現
ここで,
1
~
Hn ( ) Hn ( ) log( )
n
H n ( )
F (n) EX n { log Z ( X n )}
:経験カルバック情報量
:ベイズ自由エネルギー
汎化誤差との関係
F (n 1) F (n) G(n)
*ベイズ自由エネルギーは,汎化誤差の導出,モデル選択等に重要
学習における平均場近似(1)
試験分布 f ( ) に対して
~
F (n) EX n [ f ( ) log f ( )d n f ( )Hn ( )d ]
f ( ) として特に
エントロピー項
(1)
エネルギー項
d
f ( ) fi (i )
i 1
に制限したとき (1) 式右辺を最小にする
f ( ) を平均場近似と呼ぶ.
EX n [min{ f ( ) log f ( )d n
f ( )
を平均場近似自由エネルギーと呼ぶ.
~
f ( )Hn ( )d}] F (n)
学習における平均場近似(2)
平均場近似自由エネルギー F (n) について
F (n) EX n [min{ f ( ) log f ( )d n
f ( )
min{ f ( ) log f ( )d n
f ( )
~
f ( )Hn ( )d}]
~
f ( )EX n [Hn ( )]d}
~
min{ f ( ) log f ( )d n f ( )H ( )d}
f ( )
~
F(n)
~
以上から
~
F (n) F (n) F (n)
ベイズ自由エネ
ルギー
1
n
ただし, H ( ) H ( ) log( )
平均場近似
自由エネルギー
本発表で考察
学習モデル
K個
学習モデル: 完全二部グラフ型ボルツマンマシン
p( x | w)
K
exp(
y
x
学
習
モ
デ
ル
i 1
yi
i 1
j i
y2
y3
yK
隠れ素子
M
w x y)
j 1
ij
j i
wij
wKM
M
exp( wij x j yi )
j 1
Z (w)
K
exp(
ij
j 1
K
y
K
i 1
w x y)
i 1
y1
M
入出力素子
x1 x2
xM
M
cosh( wij x j )
j 1
Z (w)
全パラメータ数: KM 個
M個
{xi }iM1 {yi }iK1 はそれぞれ,
{1,1} の2値をとるとする.
真の確率分布
K 個
wij 0
for i {1,2, K }
wij 0
for i {K 1,, K}
このとき真の確率分布は
K
p( x | w )
i 1
M
cosh( wij x j )
yK
wij 0
w 0
j 1
x1
Z (w )
ˆ )}
{wˆ ; p( x | w ) p( x | w
yK 1
ij
*真の分布が学習モデルに含まれる場合 ( K
K)
{wˆ ; H (wˆ ) 0}
必要十分
複数存在
yK
y1
特異モデル
x2
M個
xM
問題設定
~
F (n) F (n)
min{ f (w) log f (w)dw n
平均場近似
自由エネルギー
f ( w)
(2)
学習モデル由来
正規分布族
K
f (w)
i 1
K
0 (w)
i 1
*
~
f (w)H (w)]dw}
M
j 1
M
j 1
1
exp{Lij (wij wˆ ij )2}
Z ( Lij )
完全2部グラフ型
ボルツマンマシン
2
ˆ
(
w
w
)
1
exp{ ij 2 ij }
21
2 1
{Lij } {wˆ ij } を (2) 式右辺が最小になるように最適化
結果・定理
完全2部グラフ型ボルツマンマシンにおいて
平均場近似自由エネルギー F (n) は以下の上界を持つ.
K M KM
F (n)
log n C
4
ここで
M :入出力素子の個数
K :学習モデルの隠れ素子の個数
K :隠れ素子の真の個数
C :定数
である.
証明の概要
[補題]
Rd
とし,一般のカルバック情報量 H ( ) において
H (ˆ) 0 を満たす ˆ
2 H ( )
に対して {i;
0} が r 個以下のとき
2
i ˆ
平均場近似自由エネルギー F (n) は,
r d
F (n)
log n O(1)
4
{ˆ; H (ˆ) 0}
(1) r (1)
の上界を持つ.
r
真のパラメータ集合
( 2) r ( 2)
*カルバック情報量の二階微分の計算のみで,上の上界が得られる.
[補題]を利用
完全二部グラフ型ボルツマンマシンのとき,カルバック情報量 H (w) は
K
K
H (w)
i 1
M
cosh( wij x j )
x
j 1
Z (w )
i 1
ln
M
cosh( wij x j )
j 1
Z (w )
K
i 1
M
cosh( wij x j )
j 1
Z (w)
ŵ における二階微分係数は,
2 H (w)
2
w wwˆ
(t t
2
)
wˆ
wˆ
分散
ここで
M
t tanh( wj x j ) x
j 1
f ( x | w)
wˆ
p( x | wˆ ) f ( x | w)
x
学習モデル
特に
ŵ w のときを考えると
ˆ ; H (w
ˆ ) 0}
{w
wˆ (1) r (1)
w 0 for {1,2, K }
for
{
K
1,, K}
w 0
であることから
2 H (w)
2
w ww
w r*
ˆ ( 2) r ( 2)
w
t 0
(t t
が成立して,[補題]において
w
)2
w
0
r K M、 d KM
K M KM
F (n)
log n C
4
for
{K 1,, K}
であることから,
(定理の証明終了)
考察①
統計的正則モデル
KM
log n O(1)
2
F (n)
代数幾何学的手法
[Yamazaki]
上
界
上
界
導出した自由エネルギー
KM K *M
log n O(1)
4
平均場近似
ベイズ学習
非漸近
領域
n :学習サンプル数
漸近論
適用可能領域
考察②
事前分布
(w) c0 (w)
正規分布
試験分布を正規分布, ŵ w のときの下界
結論
完全二部グラフ型ボルツマンマシンにおいて,平
均場近似自由エネルギーの上界を与えた.
今後の課題
平均場近似自由エネルギーの下界の導出
一般のボルツマンマシンへの拡張
導出した自由エネルギーと実験との比較
Sing IC [Yamazaki. et al]
h (K, K* )
F (n)
平均場近似アルゴリズム
1 log n (m1 1) log log n
ベイズ学習
2 log n (m2 1) log log n
n
非漸近
領域
m hm (K, K * )
+
真の
隠れ素子
の個数
y g(, m)
学習サンプル数
観測可能量
漸近論
適用可能領域
学習モデル
学習アルゴリズム に依存
*観測できない
関数
h hm
K
*
を推測
を導出するのは重要
理論的な研究の意義
平均場近似アルゴリズムと(ベイズ学習,統計的
正則モデル)との漸近論の比較.
平均場近似アルゴリズムにおいて,局所解 or
最小解の判定基準.
特異モデルにおけるモデル選択,
SingICへの基礎
学習における平均場近似(1)
試験分布 f ( ) に対して
F (n) EX n [ f ( ) log f ( )d n
f ( ) として特に
~
f ( )Hn ( )d ] (1)
エントロピー項
エネルギー項
d
f ( ) fi (i )
i 1
に制限したとき (1) 式右辺を最小にする f ( ) を平均場近似と呼ぶ
~
EX n [min
f ( ) log f ( )d n f ( )Hn ( )d }] F (n)
{
f ( )
平均場近似アルゴリズム
を平均場近似自由エネルギーと呼ぶ。
stationary
f ( )
*局所解 or 最小解 の判定基準
ベイズ汎化誤差
G(n)
真
の
分
布
代数幾何学的手法 [Watanabe]
q(x)
へ
の
近
さ
m 1
n log n
n
ベイズ予測分布と、真の分布とのカルバック距離
G(n) EX n {
q( x)
q( x) log n dx} :ベイズ汎化誤差
p( x | X )
本学習モデルの性質
p( x | w)
学習モデル
1
K
p( x | w)
i 1
M
cosh( wij x j )
j 1
Z (w)
x
は,入出力素子 {xi }iM1 が {1,1} をとることから
離散分布であり,全事象は2M 通り.
(i) 隠れ素子数 K は, KM
(ii)
M
全事象 2
2M 1 を満たす範囲で十分
M 1 のとき
仮
定
K
p( x | w)
パラメータ
i 1
通り
cosh(wi1 )
1
Z (w)
2M
に依存せず意味をなさない.
M 2
w
の場合を考える