Transcript oshiro5

わかりやすいパターン認識
第9章 学習アルゴリズムとベイズ決定則
9.1 最小二乗法による学習
[1] 最小二乗解
平成15年6月27日(金)
大城 亜里沙
最小二乗解

最小二乗法による学習と判別法との関係、さらにベイズ
決定則との関係を明らかにする。
最小二乗法による学習とは、8・2節[1]で示したように
L( )  E{  ( x)  ti
c
2
}
  P(i )  ( x)  ti
i 1
2
p( x | i )dx ―(9.1)
L( ) を最小化する決定規則を求める学習法
識別関数(多クラスの場合)

多クラスの場合
A  [w1, w2 ,・・・, wd~ ] により規定される線形写像は
 ( x)  Atx  (1, 2 ,・・・, d~ )t
~
( i  wx i i  1, 2, ・・・, d )
t
i
となる。
この場合の最適解は2クラスの場合と同じように導出できる。
識別関数(2クラスの場合)
簡単のため2クラスの線形モデルについて考える。
識別関数 g (x ) を

g (x )  g1 (x )  g2 (x )  w tx
と定義すればよい。これは、式(8・9)において
 ( x)  w tx
としたことに相当するので、識別規則は
 ( x)  0  x 1 
 ( x)  0  x 2
ここでは、  として線形モデル、非線形モデルのおのおのについてその
解析解を導出する。
線形モデル(1)
これらより、式(9.1)は
L( )  L(w)
 P(1 ) E {(w tx  b1 )2 | 1}
x|1
 P(2 ) E {(w tx  b2 )2 | 2 }
x|2
と書ける。
{(w tx  b1 )2 | 1} は x 1 を
ここで、 xE
|1
知った下での (w tx  b1 )2 の x に関する期待値を表す。
線形モデル(2)
さらに計算を進めていくと
L(w )  P(1 ) E {wt xx t w  2w t xb1  b12 | 1}
x|1
 P(2 ) E {w t xx t w  2wt xb2  b2 2 | 2}
x|2
 wt Rw  2wt r  const
となる。ただし、R は自己相関行列であり、
R  E{xx t }
x
 1 xt   1
  
 E 
t
x
 x xx   m
が成り立つ。


t
 T mm 
R 自己相関行列 と
Σ 共分散行列 との関係
1
  n (x  m)(x  m)t
 R  mmt
mt
-(9.9)
線形モデル(3)
またrは、
r  P(1 )b1 E {x | 1}  P(2 )b2 E {x | 2}
x|1
x|2
1  
1  
 P(1 )b1 E   | 1   P(2 )b2 E   | 2 
x|1
x|2
 x  
 x  
 P(1 )b1  P(2 )b2 

 
 P(1 )b1m1  P(2 )b2m2 
-(9.10)
である。 const はwに依存しない項を表すものとすると、wによる偏微
分をゼロと置くことにより、
L(w)
 2Rw  2r  0
w
Rw  r
-(9.12)
線形モデル(4)
式(9.9) 、(9.10)を式(9.12)に代入すると
 mt w  w0
  P(1 )b1  P(2 )b2 




t
  T w  m(m w  w0 )   P(1 )b1m1  P(2 )b2 m2 


を得る。上式と m  P(1 )m1  P(2 )m2 の関係を用いると

T
w  ( P(1 )b1  P(2 )b2 )m  P(1 )b1m1  P(2 )b2 m2
 k1m1  k2 m2
が導かれる。
-(9.14)
線形モデル(5)
ただし
k1  P(1 )2 b1  P(1 ) P(2 )b2  P(1 )b1
k2  P(2 )2 b2  P(1 ) P(2 )b1  P(2 )b2
とする。ここで P(1)  P(2 )  1 を用いることにより
k1  P(1 ) P(2 )(b1  b2 )
k2  P(1 ) P(2 )(b1  b2 )
を得る。これらを式(9.14)に代入し w について解くことにより
w  P(1 ) P(2 )(b1  b2 ) T1 (m1  m2 )
w0  P(1 ) P(2 )(b1  b2 )mt  T1 (m1  m2 )  P(1 )b1  P(2 )b2
線形モデル(6)
以上から解析解は
 (x)  wt x  w0
として得られる。ここで
w   T1 (m1  m2 )
w の向きは b1,b2 のとり方によらない。
w0 は b1,b2 に依存する点に注意!!
教師ベクトルのとり方によって決定境界の位置が変化する。
各クラスの教師信号として b1  1, b2  1 とすると、上記結果から
w  2P(1 ) P( 2 ) T1 (m1  m2 )
w0  2P(1 ) P( 2 )mt  T1 (m1  m2 )  P(1 )  P( 2 )
非線形モデル(1)
 を非線形モデルにまで拡大すると、式(9.1)を最小化する
最適解  を変分法を用いて導出できる。
すなわち、式(9.1)の最小化は、  を変換数とする汎関数
L( ) の極値問題となる。
def
F ( x, ( x)) 
2
c
 P( )  ( x)  t
i 1
i
i
p( x | i )
と置くと
L( )   F ( x, ( x))dx
-(9.24)
汎関数
ある領域内の x に対しある数y が対応するとき、 yは
変数 x の関数と呼ばれる。
これに対し、ある関数族の中の一つの関数 u(x) にある数
v が対応するとき、 u(x) は変関数と呼ばれ、 v は変関数
u(x) に依存する汎関数と呼ばれ、v  v[u( x)] と書かれる。
非線形モデル(2)
式(9.24)の停留解はオイラー方程式

F ( x, ( x))  0

を満足しなければならない。具体的に計算すると
c
2 P(i )( ( x)  ti ) p( x | i )  0
i 1
*
を得る。これを、 について解くと最適解  ( x)
c
P(1 ) p( x | i )
 ( x)  
ti   P(i | x)ti
p( x)
i 1
i 1
c
*
ベイズの定理より
最小二乗法による学習の下での非線形モデルの最適解は、教師ベクトル
のベイズ事後確率
ti
P(i | x)を重み係数とする線形結合で表されることが
わかる。