Transcript tokita1
わかりやすいパターン認識 発表日:平成15年4月25日 担当者:時田 陽一 担当箇所:第3章 誤差評価に基づく学習 3.1 Widrow-Hoffの学習規則 [1] 学習のための評価関数 パーセプトロンの学習規則の欠点 線形分離可能であることが必要 (誤識別を0にする線形識別関数が 存在することを前提としなくてはならない) 一般に、線形分離可能か不可能かを 事前に確認することは困難 線形分離不可能な学習パターンでは、 誤り訂正の手続きを無限に繰り返し解に到達することができない。 途中で打ち切ってもそのときの重みが最適であるとは限らない。 [1] 学習のための評価関数 学習パターン: x1 , x 2 , , x p , , x n C個の識別関数の出力:g , g 2 x p , , g c x p 1 xp C:クラス数 教師ベクトル(教師信号): b1 p , b 2 p , , bcp t t クラスωiに属する全ての全てのパターンに対して同一の教師ベクトルを 割り当てるとすると教師ベクトルti はc個用意すればよい t 例. t i 0 , , 0 ,1, 0 , , 0 ・・・・・(3.2) x ・・・・・・・ ・・・・・・・・・ ω1 教師ベクトル t1 ωi ti ωc tc [1] 学習のための評価関数 入力xpに対する誤差: ip g i ( x p ) bip 誤差の二乗和を評価関数Jpとする(重みベクトルwiの関数) J p ( w1 , w 2 , w c ) 1 2 1 2 1 2 c ip 2 i 1 g b ip x p b ip c i 1 i( xp ) c w t i 2 2 i 1 xpに対する拡張特徴ベクトル [1] 学習のための評価関数 全パターンに対する二乗誤差J J ( w1 , w 2 , , w c ) n J p ( w1 , w 2 , , w c ) p 1 g 2 1 n c p 1 i 1 n i( xp ) c w 2 1 p 1 i 1 最適な重みベクトルwはこれが最小となるもの t i b ip 2 x p b ip ・・・(3.9) 2 [1] 学習のための評価関数 b 1p g ・ ・ ・ ・ g 入力 xp ε 1p u 識別関数i g x0 xj xd 1(x) 1 b ip i W i0 Σ W ij g i(x) ε ip u W id ・ ・ ・ ・ ・ ・ b cp g g c c(x) ε cp u Σ [1] 学習のための評価関数 C=2(2クラス)の場合重みベクトルは一つでよい Jp 1 1 2 2 g ( x w bpの設定例 1 (x p 1) bp 1 ( x p 2 ) t ) bp p xp bp 2 2 [2]閉じた形の解 J(w)に対しての勾配ベクトル(gradient vector) J J J J , , , w w 0 w1 wd J 2乗誤差 J ( w1 , w 2 , , w c ) の最小解を求める方法 J wi iJ 0 n p 1 J p wi ( i 1, 2 , , c ) n w t i x p b ip x p 0 p 1 これを解けばよい 勾配=0 t 勾配≠0 [2]閉じた形の解 パターン行列(n×(d+1)型行列) X: def t x , x , , x n 1 2 X クラスiの教師信号(i=1,2,・・・,c): def bi t b , b , , b in i1 i 2 このように定義すると J ( w1 , w 2 , , w c ) J wi X t 1 2 c Xw i bi 2 i 1 Xw i bi 0 ・・・・・・・・・・・・・(3.20) [2]閉じた形の解 式(3.20)より X Xw i X b i t t (i=1,2,・・・,c) t X X が正則であるとすると wi X X t 1 t X bi ・式(3.2)(教師ベクトルの例)は異なるクラスには互いに 区別のしやすい教師ベクトルを対応させることを示している ・全パターンに対する2乗誤差(式(3.9))を最小化することは、 同じクラスのパターンを同じ教師ベクトルの近傍に集中させることを示している 線形判別法の特殊な場合と解釈できる [3]逐次近似による解 閉じた形の解では X t X が正則でない場合には適用できない dが大きいと計算量が膨大 ( d 3に比例する ) あまり実用的ではない 逐次近似により重みを決定する方法(最急降下法) [3]逐次近似による解 重みベクトル wi wi ' J 逐次更新 される wi wi i J ρ:刻み幅(正定数) 最終的にJの最小解に到達 以降はパターンが示されるたびに修正を行うことにする w wi ' i J p wi (i=1,2,・・・,c) [3]逐次近似による解 J p wi J p g ip g ip wi (gi(xp)をgipと略記する) ・右辺第1項 J p g ip g ip bip ip ・右辺第2項 g ip wi J p wi g ip bip x p ip x p wi x p wi xp [3]逐次近似による解 w i w i ip x p ' w i g ip bip x p w i w i x p b ip x p t ( i 1, 2 , , c ) 重みベクトルはこのように逐次更新されていく Widrow-Hoff の学習規則(Widrow-Hoff learning rule) デルタルール(delta rule)、直交化学習、最小二乗学習などとも呼ばれる