第3章 誤差評価に基づく学習

Download Report

Transcript 第3章 誤差評価に基づく学習

第3章
誤差評価に基づく学習
3.2 誤差評価とパーセプトロン
[1] 2値の誤差評価
[2] 超平面からの距離による評価
発表日 2003/4/25
製作者 脇坂
[1] 2値の誤差評価
・Widrow-Hoffの学習規則とパーセプトロンの
学習規則を比較
図2・3における gi ( x p )をしきい値関数Tiに
よる処理を施したもので改めると、その出力
は 1 または 0 の2値となる。
1 ( u  0)
Ti (u)
0 ( u  0)
( i  1,2,, c )
この処理によって得られる単位を
しきい値論理ユニットと呼ぶ。
・しきい値論理ユニット
x0 入
力

xi
 i 0
 ij 
xd
gi
 id 
t
i
wx
1
0
Ti (u)
最
gi (x) 大
値
選
0 / 1 択
機
(図3・1)
ここで、
w it x  0 ( x  w i )
w x  0 ( x  w i )
t
i
( i  1,2,, c )
となるよう重みベクトルを設定すれば
gi ( x )  1 gi ( x )  0 ( j  i )
( i , j  1,2,, c )
となるから、図3・1の最大値選択機により
正しい識別が可能となる。
教師信号 bipを、正解の時は1、不正解の時は0とすると、
パターン x p   i を  i と誤認識した時、
g i ( x )  0, bip  1
g i ( x )  1, b jp  0
( j  i)
であるから、
w 'i  w i    x p w' j  w j    x p となる。
→識別結果が正しい時は修正が起こらない。
[2] 超平面からの距離による評価
• それぞれの学習規則の特徴
パーセプトロン
⇔
Widrow-Hoff
・識別関数、教師信号が共に2
値である。
・識別関数の出力を連続値、教師信号
との二乗和差を最小化するのがねらい
である。
・全学習パターンに対して出力と教
師信号が一致するまで重みの修正
を繰り返す。
・個々の学習パターンにとってみれば、
得られた重みによる出力と教師信号と
の差が小さいとは限らない。
・線形分離可能であれば、必ず
誤識別0の重みに到達。(収束)
・線形分離可能、不可能どちらの場
合でも、収束が保障されている。
・線形分離不可能な場合は収束
しない。
・線形分離可能の場合に得られる重み
は、必ずしも誤識別0の重みとは限らな
い。
• パーセプトロンの学習規則を、評価関数最小化の枠組み
で別の側面から導く。(2クラス問題)
t
g
(
x
)

w
xとおくと、
識別関数を
重みベクトルwと超平面との距離rは、
w1
w
r
wt x
x
x
r 
t
w x
x
w0
と求められる。
t
g( x )  w x  0
「誤識別を生じたときの r の値」
「重みベクトルの正しい位置からのずれの度合い」
よって、 r の値を評価関数として用いるのは妥当である。
すなわち、
J (w)  
x
wt x
x
分母がwに関して定数なので…
J 0 (w)  w t x
新たな評価関数として定義
ただし、xが正しく認識された時は、J 0 ( w)  0 と定義。
先の J 0 ( w ) を用い、重みwの修正式
J 0
w'  w  
w
を得る。
一方 J 0 ( w ) は、
J 0 (w) 
 w t x ( x   1か つw t x  0)
w t x ( x   2か つw t x  0)
0 (そ の 他 の 時)
これらの結果より、重みの修正手順は
w'  w    x ( 1のパター ン を  2と 間 違 った 時 )
w'  w    x ( 2のパター ン を  1と 間 違 った 時 )
w'  w (正 しく 識 別 され た 時 )
・パーセプトロンの学習規則が J 0 ( w )を
最急降下法によって最小化する手順と
等価であることが分かる。