Transcript oshiro5
わかりやすいパターン認識
第9章 学習アルゴリズムとベイズ決定則
9.1 最小二乗法による学習
[1] 最小二乗解
平成15年6月27日(金)
大城 亜里沙
最小二乗解
最小二乗法による学習と判別法との関係、さらにベイズ
決定則との関係を明らかにする。
最小二乗法による学習とは、8・2節[1]で示したように
L( ) E{ ( x) ti
c
2
}
P(i ) ( x) ti
i 1
2
p( x | i )dx ―(9.1)
L( ) を最小化する決定規則を求める学習法
識別関数(多クラスの場合)
多クラスの場合
A [w1, w2 ,・・・, wd~ ] により規定される線形写像は
( x) Atx (1, 2 ,・・・, d~ )t
~
( i wx i i 1, 2, ・・・, d )
t
i
となる。
この場合の最適解は2クラスの場合と同じように導出できる。
識別関数(2クラスの場合)
簡単のため2クラスの線形モデルについて考える。
識別関数 g (x ) を
g (x ) g1 (x ) g2 (x ) w tx
と定義すればよい。これは、式(8・9)において
( x) w tx
としたことに相当するので、識別規則は
( x) 0 x 1
( x) 0 x 2
ここでは、 として線形モデル、非線形モデルのおのおのについてその
解析解を導出する。
線形モデル(1)
これらより、式(9.1)は
L( ) L(w)
P(1 ) E {(w tx b1 )2 | 1}
x|1
P(2 ) E {(w tx b2 )2 | 2 }
x|2
と書ける。
{(w tx b1 )2 | 1} は x 1 を
ここで、 xE
|1
知った下での (w tx b1 )2 の x に関する期待値を表す。
線形モデル(2)
さらに計算を進めていくと
L(w ) P(1 ) E {wt xx t w 2w t xb1 b12 | 1}
x|1
P(2 ) E {w t xx t w 2wt xb2 b2 2 | 2}
x|2
wt Rw 2wt r const
となる。ただし、R は自己相関行列であり、
R E{xx t }
x
1 xt 1
E
t
x
x xx m
が成り立つ。
t
T mm
R 自己相関行列 と
Σ 共分散行列 との関係
1
n (x m)(x m)t
R mmt
mt
-(9.9)
線形モデル(3)
またrは、
r P(1 )b1 E {x | 1} P(2 )b2 E {x | 2}
x|1
x|2
1
1
P(1 )b1 E | 1 P(2 )b2 E | 2
x|1
x|2
x
x
P(1 )b1 P(2 )b2
P(1 )b1m1 P(2 )b2m2
-(9.10)
である。 const はwに依存しない項を表すものとすると、wによる偏微
分をゼロと置くことにより、
L(w)
2Rw 2r 0
w
Rw r
-(9.12)
線形モデル(4)
式(9.9) 、(9.10)を式(9.12)に代入すると
mt w w0
P(1 )b1 P(2 )b2
t
T w m(m w w0 ) P(1 )b1m1 P(2 )b2 m2
を得る。上式と m P(1 )m1 P(2 )m2 の関係を用いると
T
w ( P(1 )b1 P(2 )b2 )m P(1 )b1m1 P(2 )b2 m2
k1m1 k2 m2
が導かれる。
-(9.14)
線形モデル(5)
ただし
k1 P(1 )2 b1 P(1 ) P(2 )b2 P(1 )b1
k2 P(2 )2 b2 P(1 ) P(2 )b1 P(2 )b2
とする。ここで P(1) P(2 ) 1 を用いることにより
k1 P(1 ) P(2 )(b1 b2 )
k2 P(1 ) P(2 )(b1 b2 )
を得る。これらを式(9.14)に代入し w について解くことにより
w P(1 ) P(2 )(b1 b2 ) T1 (m1 m2 )
w0 P(1 ) P(2 )(b1 b2 )mt T1 (m1 m2 ) P(1 )b1 P(2 )b2
線形モデル(6)
以上から解析解は
(x) wt x w0
として得られる。ここで
w T1 (m1 m2 )
w の向きは b1,b2 のとり方によらない。
w0 は b1,b2 に依存する点に注意!!
教師ベクトルのとり方によって決定境界の位置が変化する。
各クラスの教師信号として b1 1, b2 1 とすると、上記結果から
w 2P(1 ) P( 2 ) T1 (m1 m2 )
w0 2P(1 ) P( 2 )mt T1 (m1 m2 ) P(1 ) P( 2 )
非線形モデル(1)
を非線形モデルにまで拡大すると、式(9.1)を最小化する
最適解 を変分法を用いて導出できる。
すなわち、式(9.1)の最小化は、 を変換数とする汎関数
L( ) の極値問題となる。
def
F ( x, ( x))
2
c
P( ) ( x) t
i 1
i
i
p( x | i )
と置くと
L( ) F ( x, ( x))dx
-(9.24)
汎関数
ある領域内の x に対しある数y が対応するとき、 yは
変数 x の関数と呼ばれる。
これに対し、ある関数族の中の一つの関数 u(x) にある数
v が対応するとき、 u(x) は変関数と呼ばれ、 v は変関数
u(x) に依存する汎関数と呼ばれ、v v[u( x)] と書かれる。
非線形モデル(2)
式(9.24)の停留解はオイラー方程式
F ( x, ( x)) 0
を満足しなければならない。具体的に計算すると
c
2 P(i )( ( x) ti ) p( x | i ) 0
i 1
*
を得る。これを、 について解くと最適解 ( x)
c
P(1 ) p( x | i )
( x)
ti P(i | x)ti
p( x)
i 1
i 1
c
*
ベイズの定理より
最小二乗法による学習の下での非線形モデルの最適解は、教師ベクトル
のベイズ事後確率
ti
P(i | x)を重み係数とする線形結合で表されることが
わかる。