Transcript wakisaka6
分かりやす いパターン認識
このうえなく
くな
発表日:7月4日
担当:脇坂恭志郎
第8章 学習アルゴリズムとベイズ決定則
9.2 最小二乗法と各種学習法
[1] 最小二乗法とWidrow-Hoffの学習規則
[2] 最小二乗法と誤差逆伝播法
パーセプトロンの学習規則
線形識別関数によるパターン識別では、クラス iの識別関数
giを
i 0
1
ただし、 x , wi
i
x
gi ( x) w x
t
i
とし、クラス iのパターン
x に対して
gi ( x) g j ( x) j i
となるように、パラメータ
wi (i 1,, c) を決定する。
しかし、各クラスの分布が線形分離不可能な場合には完全に上式
を実現する事ができず、パーセプトロン学習規則は収束しない。
Widrow-hoffの学習規則①
・入力される各学習パターンに対し望ましい出力値(教師信号)
を予め定め、実際に得られる識別関数の値とその教師信号の
値との二乗誤差を最小化する学習法。
1 c
J ( w1 , w2 ,, wc ) Xwi bi
2 i 1
2
…(9・42)
上式の最小化として、Widrow-Hoffの学習規則が導出される。
ただし、
X (x 1 ,x 2 ,,x n )t
bi (bi1 , bi 2 ,, bin )t
nはパターン総数である。
(i 1,2,, c)
Widrow-hoffの学習規則②
ここで、
( x) (w1tx , w2tx ,, wctx )t
とし、さらに ti (0,,0,1,0,,0) というc次元座標単位ベクトル
をおくと、式の(9・42)は若干の式変形により、次のように書き換え
ることができる。
t
2
1 n c
J ( ) ( x p ) ti 1( x p i )
2 p1 i 1
…(9・45)
1 if x i
0 othrwise
Widrow-hoffの学習規則③
一方、経験損失
Le ( ) において、損失 li ( x p ; ) として、
li ( x p ; ) ( x p ) ti
2
1 n c
Le ( ) li ( x p ; )1( x p i )
n p1 i 1
とすると、式(9・45)は識別機の設計に無関係な定数倍を除き、
経験損失の式と一致する。
すなわち、二乗誤差を損失関数とした期待損失を、学習パターンに
基づく経験損失で近似したものとなっている。
以上から、この学習規則が最小二乗法に基づく線形判別写像を
実現するための規則である事が分かる。
最小二乗法と誤差逆伝播法
cクラスのパターン識別問題に対して多層ニューラルネットワークを
用いた場合の入力ベクトル x に対する出力は、
y f ( x, v)
という非線形ベクトル値関数となる。
( v は全ての重みからなるパラメータベクトル、
yはc次元ベクトル)
・誤差逆伝播法に基づくニューラルネットワークの学習では、c次元
座標単位ベクトル t i と f ( x, v )の二乗誤差を最小化するように重み
を修正する。
決定規則を ( x) f ( x, v)とした場合の最小二乗法の学習
・ニューラルネットワークはベイズ識別関数を最良近似しうる。
二つの手法
・ニューラルネットワークの分散を低減し安定化を図る
実用的手法として、最近以下の二つが提案されている。
・weight decay パラメータの導入
・アンサンブル学習
weight decay パラメータ
ニューラルネットワークで推定される関数を滑らかにする事により分散
を抑えようとする、正則化手法の一種。安定化の度合いを制御する。
c
J ( ) f ( x, v) ti v
2
2
i 1 x i
上式の右辺第2項が正則化項で、 がweight decay パラメータ。
2
この項は出来るだけ重みのノルム v が小さくなるように学習させる
役割を果たす。
の値が大きいほどニューラルネットワークモデルの自由度
が減少し、その結果、より滑らかな識別境界を生成する。
アンサンブル学習
同一タスクに対し、M個のニューラルネットワーク f1 ( x, v),, f M ( x, v)
を、学習パターンを用いて独立に学習。そして、ある入力に対する出力
として、ニューラルネットワーク出力の(重みつき)平均値を用いる方法。
M
fens( x, v ) m f m ( x, v )
m 1
x に対する出力
f ensを、線形重み m (m 1,, M ) を用いて表す。