Transcript yuuki5
わかりやすいパターン認識
第8章 学習アルゴリズムの一般化
8・3確率的降下法
2003年6月27日
結城 隆
確率的降下法
8.1,8.2節では期待損失最小化学習につ
いて詳述したが、ここでは がパラメータ
を用いて x; として表されているとき、期
待損失最小化を実現するための の設計法,
すなわち の推定法について述べる。
損失L
l x; | i
簡略化
li x;
L E li x;
x ,i
li x; Pi | x pxdx
c
i 1
最適な は L /
0 の解として得られる。
しかし、n個のパターンのみが与えられる実際の応用で
は P x や P i | x が未知なので L / を直接
計算できない。そこで経験損失の最小化を考える。
経験損失の最小化(1)
近似
P x
Pi | x
ここで経験損失Le
n個のパターン分布を表す経験分布
1 n
px x xP
n p 1
与えられたクラスラベルに基づいて置くと
c nは
x i
1 if
P i | x
0 otherwise
1
Le li x; 1 x i x x p dx
n i 1 p 1
1 n c
1
li x p ; 1x p i 1x i
n p 1 i 1
0
if
x i
otherwise
経験損失の最小化(2)
li
を微分可能と仮定すると,Le の に関する微分は
Le 1 n c li x p ;
1x p i
n p 1 i 1
最急降下法
Le
t 1 t t
1 n c
t t li x p ; t 1x p i
n p 1 i 1
として逐次推定できる。ここにtは第t回目の反復を示す
指標 t は学習レートである。
確率的降下法(1)
Le の減少方向に
確率的降下法では Le に関する期待値 E
修整されるものである。
確率的降下法による の逐次推定アルゴ
リズムは以下のステップのようになる。
1.
2.
0 を適当に定める。 t 0 (初期化)
適当な首足条件を満たすまで以下を反復する。
t 1 t t C li xt ; t 1xt i
c
i 1
t
t 1
2
t
かつ
t
の条件を満たすとき、
t がt 0
t 0
の局所最小値を与える に収束することが理論的に保証される。
はLe
確率的降下法(2)
t
いま,t回目の反復における の推定値を t とし, x
ときに, t 1 回目で だけ修整したとする。
が提示された
t 1 t t
t が微小とし, t に伴う Le
の変化分
Le t Le t t Le t
2
Le t t Le t t Le t
t Le t
また
Le
Le t
t
def
|
とする。
確率的降下法(3)
前の式の両辺の x と
i に関する期待値をとると
E Le t E t Le t
t
x ,i
x ,i
確率的な降下を実現するためには,E Le t 0
であればよい。そのためには、E t が任意の正
定値行列Cを用いて
E t t CLe t
t
E t E t Le t
t
t CLe t 0
は正定数である。
確率的降下法(4)
式 L E li x; より
x , i
Le t Eli xt ; t
代入
E t t CLe t
E t t CEli xt ; t
xt i に対しては
t t Cli xt ; t
となる。したがって,
と修正する。
確率的近似法
Robbins-Monro(RM)アルゴリズムに集約される。
w があったとし, f w 0 の根を求める場
w, hw の対の集合が与えられ
Ehw f w が成り立つと仮定する。
また, hw の値は求まるが, f w の値は未知とする。
hw f w noise かつ Enoise 0
f w は hw の回帰関数とよばれRMアルゴリズムに従えば,
f w 0 の根は
wt 1 wt t hwt なる反復により推定される。
いま, w の関数 f w , h
合を考えてみる。ここで
等
価