当日使用 OHP Powerpoint 版

Download Report

Transcript 当日使用 OHP Powerpoint 版

広義統計物理学
と特異点論
渡辺澄夫
東京工業大学
Statistical Physics and Singularity
Theory
1
統計物理学とは・・・
興味のない自由度に
ついて和を取る
微視的な方程式
ハミルトニアン
V
PV
=nRT
P
W
S=logW
Statistical Physics and Singularity
Theory
巨視的な量
が従う法則
2
真の分布 と 学習モデル
真の分布
p(x|w*)
si
例
学習者
si
wij
p(x|w)
sj
*
wij
sj
推測
y: 隠れ部分
x: 見える
x: 見える
W* = {w; p(x|w*)=p(x|w) (∀x) } ⊂ W
Statistical Physics and Singularity
Theory
W
y: 隠れ部分
W*
3
特異点の問題
*)
p(x|w
D(w*||w) = ∫p(x|w*) log
dx
p(x|w)
相対エントロピー
D(w*||w) =0
: 解析的集合
W
特異点
事後分布も最尤推定量の分布も正規分布には漸近しません。
Statistical Physics and Singularity
Theory
4
学習の統計力学(1)
真: q(x)
n 個の例
Dn={xi}
学習者 : p(x|w) , 事前 φ(w)
n
1
q(xi)
ランダム
Hn(w) =
∑ log
n i=1
p(xi|w)
ハミルトニアン
E[ Hn(w) ] = D(q||pw) =H(w)
W 上の
ボルツマン分布
1
p(w|Dn) dw =
Z
e
Statistical Physics and Singularity
Theory
-n Hn(w)
φ(w) dw
5
学習の統計力学(2)
予測分布
マクロ変数
p(x|Dn) = ∫p(x|w) p(w|Dn) dw
G(n) = E[∫q(x) log
q(x)
dx
p(x|Dn)
]
G(n)
学習曲線
n
Statistical Physics and Singularity
Theory
6
自由エネルギーと経験過程
自由エネルギー
F (n) = -E [ log
と定義すると
∫e -n Hn(w) φ(w) dw ]
G(n) = F(n+1) - F(n)
n Hn(w) = n H (w) + {nH(w)}
σn(w) →σ(w)
1/2
σn(w)
H(w)=0が正規交差特異点なら
Well-defined : 正規確率過程へ
Statistical Physics and Singularity
Theory
7
特異点のエントロピー
H(w) = D(w*||w)
分配関数
Z(n) =
∫e
-nH(w)
φ(w) dw
ラプラス変換
状態密度
v(t) =
∫ δ(t – H(w) )φ(w) dw
メーリン変換
ゼータ関数
ζ(z) =
∫ H(w)z
φ(w) dw
Statistical Physics and Singularity
Theory
8
特異点解消定理
0
H(w)
W
W0
a(u)>0
正規交差点
H(g(u))=a(u) u1s1 u2s2 ・・・ udsd
g
U
locally
U0
Statistical Physics and Singularity
Theory
9
学習曲線
Neural Computation,13(4),899-933,2001.
ある w* ∈ W があって q(x) = p(x|w*) のとき
ゼータ関数
ζ(z) =
z
∫H(w) φ(w) dw
(-λ): ζ(z) の一番大きな極、m:位数
F(n) = λlog n – (m-1)loglog n
Statistical Physics and Singularity
Theory
10
学習係数
NIPS, 13,329-335,2002
(1) det I(w*)>0, φ(w)>0ならば
λ=d/2
(d: wの次元)
(2) det I(w*)=0,φ(w)>0 ならば
λ<< d/2
(3) φ(w): ジェフリーズならば
λ≧ d/2
パラメータ空間
Statistical Physics and Singularity
Theory
11
統計的正則モデルと特異モデル
正則モデル
正規分布、指数分布、多項式回帰
特異モデル
神経回路網 (Watanabe,2001)
混合正規分布 (Yamazaki&Watanabe,2002)
ベイズネットワーク (Rusakov&Geiger,2002)
縮小ランク回帰 (Watanabe&Watanabe,2002)
その他、隠れマルコフモデル、ボルツマンマシンなど
Statistical Physics and Singularity
Theory
12
真の分布がモデルの外にあるとき
Neural Networks, 14(8),1049-1060.
真の分布
パラメータ空間
G(n)
n:学習例数
Statistical Physics and Singularity
Theory
13
もっと詳しく見たい!
G(n)
ここでは何が起こっているか?
n:学習例数
Statistical Physics and Singularity
Theory
14
相転移点の解析
Watanabe,S.&Amari,S.NIPS,15,to appear.
エネルギー 対 エントロピー
関数近似誤差 対 統計的推測誤差
D (特異点|| 真の分布) = c/n
モデルの選択・検定
Statistical Physics and Singularity
Theory
15
a=0
真
具体例
b=0
特異点 : {(a,b):a=0 or b=0}
Kullback = |a*|2|b*|2/n
真: q(y|x) =
1
2π
exp[ -
1
(y –
2
N
1
2
a* ∑ bj* ej(x) )
n
j=1
]
N
x ∈R , y ∈R1
N
a ∈R1 , b ∈R
学習者: p(y|x,a,b) =
例題
推測
N
1
1
2
exp[ (y – a∑ bj ej(x) )
j=1
2π
2
Statistical Physics and Singularity
Theory
]
16
汎化誤差と学習誤差
G(n) = λ/ 2n + o(1/n) ,
T(n) = μ/ 2n + o(1/n) ,
ここで
λ= 1 + Eg[ (a*2 b*2+a*b*・g)YN(g)/YN-2(g)]
μ = λ–2N+ Eg[ (2a* b*・g+2g2) YN(g)/YN-2(g)]
YN(g)=∫0
π/2
N
sin t exp(-|a*b*+g|2 sin2t /2) dt
g ~ N次元の標準正規分布
Statistical Physics and Singularity
Theory
17
漸近展開
|a*| |b*|→∞ のとき
λ(a*,b*) = N - (N-1)(N-3) / |a*|2 |b*|2,
2
μ(a*,b*) = - N + (N-1) / |a*|2 |b* |2.
N : b の次元
(N-1)(N-3), (N-1)2 : 特異点の指標?
Statistical Physics and Singularity
Theory
18
対応する正則モデル
真: q(y|x) = 同じ
学習者: p(y|x,b) =
1
2π
N
1
2
exp[ (y – a∑ bj ej(x) )
2
j=1
G(n) = N/2n +o(1/n)
]
真の場所に依存しない
T(n) = - N/2n +o(1/n)
Statistical Physics and Singularity
Theory
19
モデルと確率分布
外在的な定義 R
d
d
R /~
内在的な定義
W
Statistical Physics and Singularity
Theory
20
外在的なものの意義
数学 ー 内在的なもの
物理 ー 座標不変
神経回路網の有用性は
ある特別な外在的な定義が
実世界では有用であることを
述べているのではないだろうか?
Statistical Physics and Singularity
Theory
21
統計的な有効性と
座標不変性は両立するか?
最急降下
途中停止
一般アルゴリズム
双有理不変
アルゴリズム
最尤推定法
微分同相不変
アルゴリズム
有界ジェフリーズ分布
Statistical Physics and Singularity
Theory
事前分布
最適化
ベイズ法
22
結論
(1) 学習モデルにおける特異点の重要性
(2) 特異点の数学的解析 ー 代数幾何、代数解析
(3) 数理から見た神経回路網の研究の目的とは?
Statistical Physics and Singularity
Theory
23