情報幾何入門

Transcript 情報幾何入門

情報幾何入門
赤穂昭太郎
産業技術総合研究所
脳神経情報研究部門
情報幾何
情報処理を幾何的に（図で）理解する
世の中
データ
情報処理
結果
モデル
情報幾何から導かれる結論
• 多くのモデルは「平ら」である
• 多くのアルゴリズムは平らなモデルに
「まっすぐ」射影を下ろしたものになっている
• ただし，「平ら」「まっすぐ」は普通と違って
２種類ある（eとm：双対構造)
共通言語としての情報幾何
• 確率モデルやその周辺分野
– 統計学
– システム制御
– 符号理論
– 最適化理論
– 統計物理
それぞれ独自の理論・
アルゴリズムがあるが
関係がよくわからない
情報幾何で統一的に理解しよう
世の中＝確率モデル
• 情報幾何の出発点：
確率モデル f ( x;  )
  ( ,  ,,  )
1
2
3
• 座標系
f ( x; )
1
2
n
例：離散分布
Pr[x=xi]
0 .6
q0
0 .5
0 .4
0 .3
0 .2
(0.2,0.5,0.3)
0 .1
q2
0
x0
x1
x2
q1
例：正規分布




空間の構造
• ユークリッド空間ではダメ？
1
A
1
B
2
2
C
1
2
D

1
A
B
2
C
D
1
2
• ユークリッドではA-B と C-D の隔たりが同じになる

空間の構造
• 空間の構造は何で決まるか？
– 点の近く：線形空間（計量）
– 空間全体：線形空間のつながり方を決める

（接続）
2
• 設計方針
– 統計的に自然なもの
– パラメータの取り方によらない
1
点の近くの構造：線形空間
• 線形空間（接空間）
2
e2
p
• 接空間の構造は
基底の間の内積で
決まる（リーマン計量）
1
e1
gij  ei , e j

情報幾何での計量
• 統計的不変性⇒フィッシャー情報行列
gij ( )  E [i log p(x, ) j log p(x, )]

i 
i
E [ f ( x)]   f ( x) p( x; )dx
なぜフィッシャー情報量か？
• クラメール・ラオの不等式
N個のサンプルからの  の推定量 ˆ の分
散の下限
1 1
ˆ
Var[ ]  G  
N
• G が  のまわりでの散らばり具合を表す
1
1
⇔ G が大きいところはきめが粗い
例：正規分布
 ( x  ) 1
2

p( x; , )  exp 

log
2

2

2
2


2
1  1 0

G  2 
  0 2
• d, d だけ微小に動かしたときの変化は
(d 2  2d 2 )  2
⇒分散の小さいところは少し動かしただけで
大きくずれる
計量と座標変換
• 計量は（一般に非線形な）座標変換に対して
線形に変換される（テンソル）
  
i
     
a
gij   J ia J bj gab
a ,b

J  i

2
2
p
1
a
a
i
1
ユークリッド空間をつなぐ
• 各点ごとにバラバラの接空間
 ( ~p)   ( p)  d
⇒接空間をつなぐ（接続）
j
p
• 接ベクトルe jの平行移動
 
k
i~
~
d e j  e j   ij d ek
i ,k
•
ijk を（アファイン）接続係数と呼ぶ
ej
~
ej
d
~
p
j
ijk d i~
ek
d ej
測地線：まっすぐな線
• ある接ベクトルの方向 d の自分自身への
平行移動 d d 
をつなげたものを測地線という
（直線の概念の一般化）
d   d d
d
d  dd
接続をどう決めるか？
• 二つの接ベクトルを平行移動したとき，
普通（物理等）はその間の内積を保存したい
d d1 , d d2   d1, d2
• これを満たす接続は計量から一意的に決
まってしまう⇒レビ・チビタ接続
• ところが情報幾何ではそれ以外の接続も考え
る
α接続
• 統計的な不変性⇒パラメータαをもつ接続係
数に限られる

1
 
 ( )  E  i  j l 
il j l  k l 
2
 


h
ij,k  ij ghk
il 
log p( x; )
i
h
( )
ij ,k
• 特にα＝０のときがレビ・チビタ接続
• 情報幾何ではα＝±１のときが最重要！
平坦な空間
• 接続はテンソルではない（座標系に依存）
• 逆に言えば，うまく座標系を取れば，=0に
できる(まっすぐな空間)
• このような座標系がもし存在するとき
αアファイン座標系といい，その座標系に
ついてα平坦であるという．
• 平坦な座標系の測地線（α測地線）はαアファイン座標
系での直線になっている．
  (1  t )0  t1
重要な分布族
• α＝±１は特別な意味がある：
確率分布の分布族で，α平坦になるのは
「指数分布族(exponential family)」と
「混合分布族(mixture family)」の
二つだけで，それぞれα＝±１に対応する
指数分布族
• 情報幾何で最も基本的な分布族
 n i

p( x; )  exp  Fi ( x)  ( )  C( x) 
 i 1

• 指数分布族は  をアファイン座標系として
1-平坦
• 指数分布族は特別なので1-平坦や1-接続の
ことをe-平坦とかe-接続という
(e=exponential)
混合分布族
• 確率分布の線形和
n
p( x; )   Fi ( x)   F0 ( x)
i
i 1
0
n
 0  1   i
i 1
• パラメータθをアファイン座標系として
－１平坦
• 混合分布族は特別なのでー１平坦，－１接続
のことをm平坦，m接続という(m:mixture)
離散分布は混合かつ指数
• 混合分布族としては
n
p( x; )   qi ( x  i)  q0 ( x)
i 1
• 指数分布族としては
 n

p( x; )  exp  ri ( x  i)  (r ) 
 i 1

ri  log qi  log q0
 (r)   log q0
正規分布は指数分布族
 ( x   )2 1
2
p( x; , )  exp 
 log 2 
2
2
2


 n i

p( x; )  exp  Fi ( x)  ( )  C( x) 
 i 1


1


F1(x)  x
2
2
2

 1 2
F2 ( x)  x
2 
2 1
 ( )  2  log 2 2
2 2
C( x)  0
双対平坦と双対座標
• 実はα平坦なら，別の座標系が存在して
ーα平坦になる
• α平坦な座標系：θ，－α平坦な座標系：η
• ルジャンドル変換：ポテンシャル関数  ，
 ( )  ()   i  0
i
 ( )
()




i
双対性
• θに対する計量： gij ηに対する計量：
i
 i
ij

g

g
ij
j
 j

g
ij
• 計量が座標変換のヤコビ行列になっている
• θ座標での基底： ei η座標での基底： e j
双対直交：
ei , e  i
j
j
指数分布族の場合
• θ座標系は1平坦
 n i

p( x; )  exp  Fi ( x)  ( )  C( x) 
 i 1

• 双対座標は i  E Fi ( x)
• ポテンシャルはψそのもの
• 混合分布族も双対平坦だが双対座標が
単純な形で書けないので，結局
指数分布族が唯一重要な分布族
離散分布の場合
• e座標系
 n

p( x; )  exp  ri ( x  i)  (r ) 
 i 1

 i  ri  log qi  log q0
確率値の対数の線形空間
• m座標系
i  E [ ( x  i)]  qi
確率値の線形空間
例：正規分布
1  
1
A
2
1
  1
B
2
2
2
C
2
1

A
2
C
1
2 
2
C
D

2
B
D
A
B
B
2
2  E x2    2   2
1
D
A
1
1  E x  
2
D
C
1
部分空間と射影
• 情報幾何的世界観
世の中
指数分布族S
データ
十分統計量η
情報処理
射影
結果
モデル
部分空間M
平坦な部分空間
• α平坦な線形部分空間：双対平坦な空間Sの
α座標系での線形部分空間
双対平坦空間S
α平坦な部分空間M
α座標系
• 注意：α平坦な部分空間はーα平坦な部分空
間とは限らない c.f. S自身はどちらも平坦
ダイバージェンス
• 射影を導入する前に．．．
• αダイバージェンス
D( ) ( p || q)  ( ( p))  ((q))   i ( p)i (q)
c.f. ルジャンドル変換
i
i
 ( )  ()   i  0
i
• 対称律以外は距離の性質を満たす
• p≒q なら距離に一致する
• 双対性 D( ) ( p || q)  D( ) (q || p)
指数分布族の場合
• α＝１（e接続）でのダイバージェンスは
カルバックダイバージェンスに一致する
f ( x)
KL( f || g)   f ( x) log
dx
g( x)
• α＝－１（ｍ接続）でのダイバージェンスは
KL( g || f )
距離の分解
• ユークリッド空間で部分空間への射影を取る
のがなぜ簡単か？
• ある点から部分空間への距離が
直交成分と水平成分に簡単に分解
できるから（ピタゴラスの定理）
( x  y)2  ( x  y  )2  ( y  y  )2
拡張ピタゴラスの定理
双対平坦空間S
p
α測地線
q
( )
ーα測地線
( )
r
( )
D ( p || r)  D ( p || q)  D (q || r)
射影定理
• α測地線で引いた直交射影は
αダイバージェンス D( ) ( p || q)の停留点
p
双対平坦空間S
α測地線
q
α射影
• 特にMがーα平坦なら
部分空間M
( )
min D ( p || q)
q
混合座標系：全部まっすぐに見える
• α射影とーα部分空間の組み合わせが一番単純←
双対性から
ei , e j   i j
• Mの中と外とでα座標系とーα座標系を分けて使え
ばまっすぐな図が描け，射影も陽に表現できる
II
p  ( I ;II )
ˆII
q  ( ;ˆII )
I
M

I
統計的推定
• データは空間のどの点に配置するか？
• i  E Fi ( x) なので，N個のデータの十分統


1 N
( j)
r

F
(
x
)をη座標とすればよい
計量 i

i
N j 1
 r
指数分布族S
m射影
ˆ
モデルM
統計的推定（つづき）
(1)
(N)
max
p
(
x

,
x
; )N
• 最尤推定

( j)
 maxlog p( x ; )
• 最尤推定はm射影と等価
M
j 1
q( x)
KL(q( x) || p( x; ))   q( x) log
dx  min
M
p( x; )
• モデルが平らなときは推定が易しい．
推定の質についてはモデルの曲がり具合
（曲率）に関係⇒統計的漸近理論
線形システム
• 線形システム  (t )  N (0,1)

x(t )   hi (t  i) H ( z) (t )
i 0
伝達関数

H ( z)   hi z i
i 0
H (z)
x(t )
パワースペクトラム
S () | H (ei ) |2
• システムの例：ARモデル，MAモデル,
ARMAモデルなど
• 最小位相推移→HとSが１対１に対応
線形システム（つづき）
• 確率モデル：信号x(t)の周波数成分X(ω)
2
 1 | X () |

p( X ; S )  exp  
 (S ) 
 2 S ()

• 実はすべてのαについてα平坦になる
線形ステム全体S（α平坦）
MAモデル（m平坦）
ARMAモデル
ARモデル(e平坦)
潜在変数モデル
• x だけが観測される p( x, z;  )
例：隠れマルコフモデル(HMM)
xt 1
xt
xt 1
p( xt | zt )
zt 1
zt
p( zt 1 | zt )
zt 1
em アルゴリズム
• em (exponential and mixture)
S
観測データの空間
（m平坦が多い）
m射影
e射影
モデルM (e平坦が多い)
• 実はこれがEMアルゴリズム(ExpectationMaximization/Baum-Welch) とほぼ等価
集団学習
• 三人寄れば文殊の知恵？
• バギング・ブースティング
y
多数決
1 
2
h1 ( x)
h2 ( x)
x
3
h3 ( x)
集団学習（つづき）
~
拡張空間 S
~
拡張空間 S
初期解 q0  M
e射影
経験分布p
m射影
モデルM(拡張指
数分布族：e平坦)
双
対
問
題
モデルQ(モーメン
ト制約：m平坦)
グラフィカルモデルとベイズ推定
• 変数間の依存関係をグラフであらわす
• HMM, カルマンフィルタもその一種
p( X )  p( X1 )
p( X 2 | X1 ) p( X 3 | X1 )
p( X 4 | X 2 , X 3 ) p( X 5 | X 3 )
X1
X2
X3
X4
X5
ベイズ推定
• 一部が観測されたときに残りの変数を推定
事後分布
p( X )
p( X )
p( X1, X 2 , X 3 | X 4 , X 5 ) 
p( X 4 , X 5 )
• ノード数が増えると総和計算
（or 積分）が大変！（特に木でないとき）
• ⇒近似計算
（平均場近似・変分ベイズ）
（マルコフ連鎖モンテカルロ・
パーティクルフィルタ）

 p( X )
X1 , X 2 , X 3
X1
X2
X3
X4
X5
平均場近似・変分ベイズ法
p( X1, X 2 , X 3 | X 4 , X 5 )  q1 ( X1 )q2 ( X 2 )q3 ( X 3 ) モデルM(e平坦)
min KLq1 ( X1 )q2 ( X 2 )q3 ( X 3 ) || p( X1, X 2 , X 3 | X 4 , X 5 )
e射影
X1
X2
S
X3
X4
X5
真の分布p
e射影
初期解
モデルM(e平坦)
マルコフ連鎖モンテカルロ
• 乱数発生により事後分布からのサンプルを生成す
る
p( X1(t1) | X 2(t ) , X3(t ) ; X 4 , X5 )
• ギブスサンプラー
X1
X2
p( X
(t 1)
2
(t )
3
(t 1)
1
| X ,X
; X 4 , X5 )
X3
(t 1)
(t 1)
(t 1)
p
(
X
|
X
,
X
; X 4 , X5 )
X
3
1
2
X
• どのような初期値から始めても，
p( X1, X 2 , X 3 | X 4 , X 5 ) に分布収束する
4
5
ギブスサンプラーの幾何
• １ステップに一つの変数を更新するマルコフ
連鎖モンテカルロを考える．
目的の定常分布
ギブスサンプラー
１ステップに一つの
（e射影)
変数を更新して動
ける範囲（m平坦）
現在の状態分布
さらなる発展
• 有限次元のパラメータ空間から無限次元の
空間の幾何へ（セミパラメトリック幾何）
• 特異点の問題（ニューラルネットなどの階層
的なモデル：代数幾何の高みへ）
• 新たな情報処理へ．．．
参考文献
• 赤穂：情報幾何と機械学習
（「計測と制御」２００５年５月号）
• 甘利：情報幾何とその応用
（「システム・制御・情報」連載
２００４年６月～）
• 公文：推定と検定への幾何学的アプローチ，
（「統計科学のフロンティア２
統計学の基礎II」，岩波書店）

情報幾何入門

Transcript 情報幾何入門

Directory