Transcript tokita1

わかりやすいパターン認識
発表日:平成15年4月25日
担当者:時田 陽一
担当箇所:第3章 誤差評価に基づく学習
3.1 Widrow-Hoffの学習規則
[1] 学習のための評価関数
パーセプトロンの学習規則の欠点
線形分離可能であることが必要
(誤識別を0にする線形識別関数が
存在することを前提としなくてはならない)
一般に、線形分離可能か不可能かを
事前に確認することは困難
線形分離不可能な学習パターンでは、
誤り訂正の手続きを無限に繰り返し解に到達することができない。
途中で打ち切ってもそのときの重みが最適であるとは限らない。
[1] 学習のための評価関数

学習パターン:   x1 , x 2 ,  , x p ,  , x n
C個の識別関数の出力:g 
, g 2 x p ,  , g c x p 
1 xp 
C:クラス数
教師ベクトル(教師信号): b1 p , b 2 p ,  , bcp 


t
t
クラスωiに属する全ての全てのパターンに対して同一の教師ベクトルを
割り当てるとすると教師ベクトルti はc個用意すればよい
t
例. t i  0 ,  , 0 ,1, 0 ,  , 0  ・・・・・(3.2)
x
・・・・・・・
・・・・・・・・・
ω1
教師ベクトル
t1
ωi
ti
ωc
tc
[1] 学習のための評価関数
入力xpに対する誤差:  ip
 g i ( x p )  bip
誤差の二乗和を評価関数Jpとする(重みベクトルwiの関数)
J p ( w1 , w 2 ,  w c ) 

1
2
1
2

1
2
c
  ip
2
i 1
 g
 b ip

x p  b ip

c
i 1
i( xp )
c
 w
t
i
2
2
i 1
xpに対する拡張特徴ベクトル
[1] 学習のための評価関数
全パターンに対する二乗誤差J
J ( w1 , w 2 ,  , w c ) 
n
J
p
( w1 , w 2 ,  , w c )
p 1

g


2
1
n
c
p 1 i 1

n
i( xp )
c
w


2
1
p 1 i 1
最適な重みベクトルwはこれが最小となるもの
t
i
 b ip

2
x p  b ip  ・・・(3.9)
2
[1] 学習のための評価関数
b 1p
g
・
・
・
・
g
入力 xp








ε 1p
u
識別関数i
g
 x0

 
 xj

 

 xd
1(x)
1
b ip
i
W i0
Σ
W ij
g
i(x)
ε ip
u
W id
・
・
・
・
・
・
b cp
g
g
c
c(x)
ε cp
u
Σ
[1] 学習のための評価関数
C=2(2クラス)の場合重みベクトルは一つでよい
Jp 
1

1
2
2
g ( x
w
bpの設定例

 1 (x p  1)
bp  

 1 ( x p   2 )
t
)  bp 
p
xp  bp
2

2
[2]閉じた形の解
J(w)に対しての勾配ベクトル(gradient vector)
 J J
J

J 

,
, ,
 w   w 0  w1
wd
J
2乗誤差 J ( w1 , w 2 ,  , w c ) の最小解を求める方法
J
wi
 iJ  0
n


p 1
J p
wi
( i  1, 2 ,  , c )
n

 w
t
i

x p  b ip x p  0
p 1
これを解けばよい
勾配=0




t
勾配≠0
[2]閉じた形の解
パターン行列(n×(d+1)型行列) X:
def
t


x
,
x
,

,
x
n
 1 2
X
クラスiの教師信号(i=1,2,・・・,c):
def
bi
t


b
,
b
,

,
b
in
 i1 i 2
このように定義すると
J ( w1 , w 2 ,  , w c ) 
J
wi
 X
t
1
2
c

Xw i  bi
2
i 1
 Xw i  bi   0 ・・・・・・・・・・・・・(3.20)
[2]閉じた形の解
式(3.20)より
X Xw i  X b i
t
t
(i=1,2,・・・,c)
t
X X が正則であるとすると

wi  X X
t

1
t
X bi
・式(3.2)(教師ベクトルの例)は異なるクラスには互いに
区別のしやすい教師ベクトルを対応させることを示している
・全パターンに対する2乗誤差(式(3.9))を最小化することは、
同じクラスのパターンを同じ教師ベクトルの近傍に集中させることを示している
線形判別法の特殊な場合と解釈できる
[3]逐次近似による解
閉じた形の解では
 X t X が正則でない場合には適用できない
dが大きいと計算量が膨大 ( d 3に比例する )
あまり実用的ではない
逐次近似により重みを決定する方法(最急降下法)
[3]逐次近似による解
重みベクトル
wi  wi  
'
J
逐次更新
される
wi
 wi    i J
ρ:刻み幅(正定数)
最終的にJの最小解に到達
以降はパターンが示されるたびに修正を行うことにする
w  wi  
'
i
J p
wi
(i=1,2,・・・,c)
[3]逐次近似による解
J p
wi

J p
 g ip

 g ip
wi
(gi(xp)をgipと略記する)
・右辺第1項
J p
 g ip
 g ip  bip   ip
・右辺第2項
 g ip
wi
J p
 wi
  g ip  bip x p   ip x p

wi x p
 wi
 xp
[3]逐次近似による解
w i  w i   ip x p
'
 w i    g ip  bip x p


 w i   w i x p  b ip x p
t
( i  1, 2 ,  , c )
重みベクトルはこのように逐次更新されていく
Widrow-Hoff の学習規則(Widrow-Hoff learning rule)
デルタルール(delta rule)、直交化学習、最小二乗学習などとも呼ばれる