Transcript tokita1
わかりやすいパターン認識
発表日:平成15年4月25日
担当者:時田 陽一
担当箇所:第3章 誤差評価に基づく学習
3.1 Widrow-Hoffの学習規則
[1] 学習のための評価関数
パーセプトロンの学習規則の欠点
線形分離可能であることが必要
(誤識別を0にする線形識別関数が
存在することを前提としなくてはならない)
一般に、線形分離可能か不可能かを
事前に確認することは困難
線形分離不可能な学習パターンでは、
誤り訂正の手続きを無限に繰り返し解に到達することができない。
途中で打ち切ってもそのときの重みが最適であるとは限らない。
[1] 学習のための評価関数
学習パターン: x1 , x 2 , , x p , , x n
C個の識別関数の出力:g
, g 2 x p , , g c x p
1 xp
C:クラス数
教師ベクトル(教師信号): b1 p , b 2 p , , bcp
t
t
クラスωiに属する全ての全てのパターンに対して同一の教師ベクトルを
割り当てるとすると教師ベクトルti はc個用意すればよい
t
例. t i 0 , , 0 ,1, 0 , , 0 ・・・・・(3.2)
x
・・・・・・・
・・・・・・・・・
ω1
教師ベクトル
t1
ωi
ti
ωc
tc
[1] 学習のための評価関数
入力xpに対する誤差: ip
g i ( x p ) bip
誤差の二乗和を評価関数Jpとする(重みベクトルwiの関数)
J p ( w1 , w 2 , w c )
1
2
1
2
1
2
c
ip
2
i 1
g
b ip
x p b ip
c
i 1
i( xp )
c
w
t
i
2
2
i 1
xpに対する拡張特徴ベクトル
[1] 学習のための評価関数
全パターンに対する二乗誤差J
J ( w1 , w 2 , , w c )
n
J
p
( w1 , w 2 , , w c )
p 1
g
2
1
n
c
p 1 i 1
n
i( xp )
c
w
2
1
p 1 i 1
最適な重みベクトルwはこれが最小となるもの
t
i
b ip
2
x p b ip ・・・(3.9)
2
[1] 学習のための評価関数
b 1p
g
・
・
・
・
g
入力 xp
ε 1p
u
識別関数i
g
x0
xj
xd
1(x)
1
b ip
i
W i0
Σ
W ij
g
i(x)
ε ip
u
W id
・
・
・
・
・
・
b cp
g
g
c
c(x)
ε cp
u
Σ
[1] 学習のための評価関数
C=2(2クラス)の場合重みベクトルは一つでよい
Jp
1
1
2
2
g ( x
w
bpの設定例
1 (x p 1)
bp
1 ( x p 2 )
t
) bp
p
xp bp
2
2
[2]閉じた形の解
J(w)に対しての勾配ベクトル(gradient vector)
J J
J
J
,
, ,
w w 0 w1
wd
J
2乗誤差 J ( w1 , w 2 , , w c ) の最小解を求める方法
J
wi
iJ 0
n
p 1
J p
wi
( i 1, 2 , , c )
n
w
t
i
x p b ip x p 0
p 1
これを解けばよい
勾配=0
t
勾配≠0
[2]閉じた形の解
パターン行列(n×(d+1)型行列) X:
def
t
x
,
x
,
,
x
n
1 2
X
クラスiの教師信号(i=1,2,・・・,c):
def
bi
t
b
,
b
,
,
b
in
i1 i 2
このように定義すると
J ( w1 , w 2 , , w c )
J
wi
X
t
1
2
c
Xw i bi
2
i 1
Xw i bi 0 ・・・・・・・・・・・・・(3.20)
[2]閉じた形の解
式(3.20)より
X Xw i X b i
t
t
(i=1,2,・・・,c)
t
X X が正則であるとすると
wi X X
t
1
t
X bi
・式(3.2)(教師ベクトルの例)は異なるクラスには互いに
区別のしやすい教師ベクトルを対応させることを示している
・全パターンに対する2乗誤差(式(3.9))を最小化することは、
同じクラスのパターンを同じ教師ベクトルの近傍に集中させることを示している
線形判別法の特殊な場合と解釈できる
[3]逐次近似による解
閉じた形の解では
X t X が正則でない場合には適用できない
dが大きいと計算量が膨大 ( d 3に比例する )
あまり実用的ではない
逐次近似により重みを決定する方法(最急降下法)
[3]逐次近似による解
重みベクトル
wi wi
'
J
逐次更新
される
wi
wi i J
ρ:刻み幅(正定数)
最終的にJの最小解に到達
以降はパターンが示されるたびに修正を行うことにする
w wi
'
i
J p
wi
(i=1,2,・・・,c)
[3]逐次近似による解
J p
wi
J p
g ip
g ip
wi
(gi(xp)をgipと略記する)
・右辺第1項
J p
g ip
g ip bip ip
・右辺第2項
g ip
wi
J p
wi
g ip bip x p ip x p
wi x p
wi
xp
[3]逐次近似による解
w i w i ip x p
'
w i g ip bip x p
w i w i x p b ip x p
t
( i 1, 2 , , c )
重みベクトルはこのように逐次更新されていく
Widrow-Hoff の学習規則(Widrow-Hoff learning rule)
デルタルール(delta rule)、直交化学習、最小二乗学習などとも呼ばれる