Transcript Document

「データ学習アルゴリズム」
報告者 佐々木 稔
2003年8月1日
第3章 複雑な学習モデル
3.2 競合学習
3.2.1 確率競合モデル
3.2.2 混合正規モデルの推論
3.2.3 混合分布の最急降下法
3.2.4 確率競合モデルとEMアルゴリズム
3.2.5 EMアルゴリズム
3.2.6 ノンパラメトリック学習
3.2.7 自己組織化写像
一般的なモデルでのEMアルゴリズム
確率モデル p(x, u | w)
競合的な確率変数 U は観測されない
確率変数 X はモデルから観測される
観測データ x1, x2, ・・・, xn
最適な分布となるパラメータを学習する
EMアルゴリズムの概略図
山の形(分散)は同じで中心(分布の平均)が最適な場所に移動
学習データ
中心の初期値
から
に
中心移動が繰り
返される
損失関数
n
nL n ( w )    log p ( x i | w )
i 1
損失関数を最小にするパラメータを見つける
w を固定したとき、u の関数 f(u) の平均
E u  f (u ) | x , w 

f ( u ) p ( u | x , w ) du
u は 0 と 1 だけとるので、
n
G  w1 , w 2     E u log p ( x i , u | w 2 ) | x i , w1 
i 1
EMアルゴリズム
n
G  w1 , w 2     E u log p ( x i , u | w 2 ) | x i , w1 
i 1
1. w1 を初期化
2. w1 を固定して G(w1, w2) が
最小となるように w2 を定める。(Eステップ)
3. w1 := w2 として 2. に戻り、以降 2. 3. を
適当な回数だけ繰り返す。(Mステップ)
n
G  w1 , w 2     E u log  p ( x i | w 2 ) p ( u | x i , w 2 )  | x i , w1 
i 1
n
   log p ( x i | w 2 ) 
i 1
n
n
 E log
u
p ( u | x i , w 2 ) | x i , w1 
i 1
 nL n ( w 2 )   E u log p ( u | x i , w 2 ) | x i , w1 
i 1
w2 における損失関数
n
G
*
 w1 , w 2   G  w1 , w 2    E u log
p ( u | x i , w1 ) | x i , w1 
i 1
n
 nL n ( w 2 ) 

i 1


p ( u | x i , w1 )
E u  log
| x i , w1 
p (u | xi , w 2 )


右辺第2項はカルバックの擬距離
G*(w1, w2) は、
「w2 が Ln(w2) を最小にし、かつ w1=w2」
のとき最小で、最小値は「nLn(w2) の最小値」と等しい
1. w1 を固定し、G(w1, w2) を最小にする w2 を見つける
n
G
*
 w1 , w 2   G  w1 , w 2    E u log
p ( u | x i , w 1 ) | x i , w1 
i 1
最小値
G*(w1, w2) の値は減少する
w2 には関係ない定数
2. w1 に w2 を代入する
n
G
*
 w1 , w 2   nL n ( w 2 )  
i 1


p ( u | x i , w1 )
E u  log
| x i , w1 
p (u | xi , w 2 )


w1、w2 が同じ値なので、擬距離は 0
G*(w1, w2) の値は、最適化したい
損失関数 nLn(w2) に等しくなる
Ln(w2) を小さくするパラメータ w2 が見つかる
[注27]
局所解に落ちた場合
• その局所解に収束してしまうかどうか
• 繰り返しで局所解から脱出するのかどうか
詳しい動作はまだ明らかになっていない
「だいたいよい推定量」を探すことも多い
理論的にも実用的にも重要な問題
確率競合モデルのEMアルゴリズム
パラメータ w :
H


H
w  a h , b h h 1 ;  a h  1, a h  0 
h 1


確率変数 X, U
n
p ( xi , u | w2 ) 
 a
q ( x i | b h )
uh
h
h 1
n
log p ( x i , u | w 2 ) 
 u log
h
a h  log q ( x i | b h )
h 1
ここで、パラメータ bh での確率分布 q(x | bh)
q ( x | bh ) 
1
2 
2
h
M
2

x h

exp 
2

2 h

2




固定したパラメータ w1 = w = (ah, bh), bh = (ξh, σh)
最適化するパラメータ w2 = w = (ah, bh), bh = (ξh, σh)
w に固定したときの uh の平均 Ei(h)
E i ( h )  E u {u h | x i , w } 
u
u h  0 ,1
h
p (u | xi , w ) 
a h q ( xi | bh )
p ( xi | w )
u の平均値 Ei(h) をすべての xi に関して和を求める
n
G n (w, w) 
H
E
i 1 h 1
i
( h )log a h  log q ( x i | b h )
Gn(w, w) が最小となる w を求める
ah 
n
1
E

n
i
(係数)
(h)
i 1


n
h 
i 1
n
( h ) 
2
E i ( h ) xi
i 1

(正規分布の平均)
Ei (h)
n
i 1
M
E i ( h ) xi   h

n
i 1
Ei (h)
(正規分布の分散)
[注28]
与えられたデータをいくつかのクラスタに分類
K-means 法
データ {xi ∈ RM; i = 1, 2, ・・・, n}
データを H 個のクラスタに分類する
クラスタ Ch の重心 ξh
データ xi を距離 || xi – ξh|| が最小になる
クラスタ Ch に分類し、重心 ξh を再計算
h 


i C h
i C h
xi
1
クラスタの重心 {ξh} を繰返し求めて最適化
[注28]の続き
EMアルゴリズムを使う場合の注意
• クラスタの大きさに偏りがある場合、
偏りを緩和させる必要
• クラスタの個数 H を最適化する際、
 情報量規準を使うことはできない
 損失関数の2次近似をすることができない
比較的大きめな H を決めて、EMアルゴリズムを
少ない回数で停止させるとクラスタの偏りが緩和
例46 確率競合型モデルと3層パーセプトロンの比較
10人が描いた 8×8 ピクセルの ○、△、× の
画像 600 例を学習
同じく10人が描いた 8×8 ピクセルの
画像 600 例をテストに用いる
確率競合型モデル
K-means法で初期化したパラメータを最急降下法で学習
3層パーセプトロン
誤差逆伝播法で学習
中間ユニット数 20 までの場合の認識率
確率競合型モデル
96~98.5%
3層パーセプトロン
98~98.5%
中間ユニット数 20 までの場合の認識率
確率競合型モデル
98.5~99%
3層パーセプトロン
98~98.5%