ポスター

Transcript ポスター

最急降下法による情報量規準WBICの安定的計算法
渡辺研究室玉井雄介
1.背景
3.数値実験
学習＝データに様々な確率分布を当てはめ，最適なものを探す．
学習データの生成＝ 𝑥𝑖 , 𝑦𝑖
500
𝑖=1
事前に確率分布の集合を用意する．
⇒ その集合を学習モデルと呼ぶ．
通常 𝒑(𝒙|𝒘)
𝒘
のように，パラメータ付き 𝑝(𝑥|𝑤) の集合として表記．
自由エネルギー:
𝑛
1
𝐹𝑛 1 = − log
𝛽
𝜑 𝑤
𝑝 𝑋𝑖 𝑤 𝑑𝑤.
𝑖=1
自由エネルギーを小さくするモデルほど，与えられた学習データ 𝑥𝑖 を得る
実験＝上記[↑]のモデルを選択できるか？
確率が高い(I. J. Good, 1965)．⇒モデルの評価．
ベイズ事後分布を正規近似できる場合，自由エネルギーはBICによって
実験1 … 従来法99回提案法100回全てで真のモデルを選択
近似できる(G. Schwarz, 1978) ．
•
𝑛
𝑖=1 log 𝑝
定義：BIC = −
𝑋𝑖 𝑤 +
𝑑
log 𝑛 .
2
WBIC:
BICの導出は，漸近正規性の使用を前提としている．
1回目 … 従来法70回，提案法100回
実験2
 𝑛 → ∞ のとき，ベイズ事後分布が正規分布に収束すること．
そのため,（ 𝑛 が充分大きいときでも）事後分布を正規分布で近似でき
ない場合，BICの利用は適切ではない．
これに対し、漸近正規性を前提としない規準WBICを導入する．
•

定義：WBIC =
𝛽
𝔼𝑤
−
𝑛
𝑖=1 log 𝑝
𝑋𝑖 𝑤 , 𝛽 =
1
.
log 𝑛
WBIC値の計算には，事後分布による平均操作が必要．
2回目 … 従来法，提案法ともに100回全て
を再度生成．
2.問題と提案手法
WBICの利用:
WBIC値の計算には，事後分布による平均操作が必要．
実験3 … 従来法96回提案法99回真のモデルを選択
事後分布が正規でない場合，この平均を解析的に計算することは困難．
そこで，離散平均で近似．
𝛽
𝔼𝑤
1
𝑔 ≈
𝐾
𝐾
𝑔 𝑤𝑘 .
𝑘=1
ここで𝑤𝑘 は, (逆温度𝛽 の)事後分布に従うサンプル．⇒MCMC
学習データを減らした場合
真のモデルを選択した回数
バーンイン:
MCMCでは，初期値によって
結果が大きく変動してしまう．
𝑛
従来法
提案法
50
83回
97回
100
92回
100回
300
96回
99回
500
96回
99回
∵ 裾野では高低差が小さく，停滞．
そのため，開始から一定回数分の
サンプルを破棄し，そこから再度
混合正規分布での実験でも，似た結果を得られた．
サンプリングする．
⇒ どの程度破棄すればよいか不明
提案手法＝より確実に初期値の影響を排除．
 そこで，バーンイン → 最適化と置換える．
 初期値を変えて複数回の最急降下を行い，尤度最大のものを選択．
⇒この点からメトロポリス法によるサンプリング．
4.まとめ
提案手法が安定した計算精度をもたらすことを，実験において示した．
学習モデルと真の情報源が一致しているとき，従来法は不安定になる傾
向があり，提案法が特に有効と考えられる．
真のパラメータ値によって，必要となるバーンインの長さが大きく変動し得る．
これに対し，提案法はある程度まで安定した精度を実現可能と考えられる．

ポスター

Transcript ポスター

Directory