Transcript yuuki5
わかりやすいパターン認識 第8章 学習アルゴリズムの一般化 8・3確率的降下法 2003年6月27日 結城 隆 確率的降下法 8.1,8.2節では期待損失最小化学習につ いて詳述したが、ここでは がパラメータ を用いて x; として表されているとき、期 待損失最小化を実現するための の設計法, すなわち の推定法について述べる。 損失L l x; | i 簡略化 li x; L E li x; x ,i li x; Pi | x pxdx c i 1 最適な は L / 0 の解として得られる。 しかし、n個のパターンのみが与えられる実際の応用で は P x や P i | x が未知なので L / を直接 計算できない。そこで経験損失の最小化を考える。 経験損失の最小化(1) 近似 P x Pi | x ここで経験損失Le n個のパターン分布を表す経験分布 1 n px x xP n p 1 与えられたクラスラベルに基づいて置くと c nは x i 1 if P i | x 0 otherwise 1 Le li x; 1 x i x x p dx n i 1 p 1 1 n c 1 li x p ; 1x p i 1x i n p 1 i 1 0 if x i otherwise 経験損失の最小化(2) li を微分可能と仮定すると,Le の に関する微分は Le 1 n c li x p ; 1x p i n p 1 i 1 最急降下法 Le t 1 t t 1 n c t t li x p ; t 1x p i n p 1 i 1 として逐次推定できる。ここにtは第t回目の反復を示す 指標 t は学習レートである。 確率的降下法(1) Le の減少方向に 確率的降下法では Le に関する期待値 E 修整されるものである。 確率的降下法による の逐次推定アルゴ リズムは以下のステップのようになる。 1. 2. 0 を適当に定める。 t 0 (初期化) 適当な首足条件を満たすまで以下を反復する。 t 1 t t C li xt ; t 1xt i c i 1 t t 1 2 t かつ t の条件を満たすとき、 t がt 0 t 0 の局所最小値を与える に収束することが理論的に保証される。 はLe 確率的降下法(2) t いま,t回目の反復における の推定値を t とし, x ときに, t 1 回目で だけ修整したとする。 が提示された t 1 t t t が微小とし, t に伴う Le の変化分 Le t Le t t Le t 2 Le t t Le t t Le t t Le t また Le Le t t def | とする。 確率的降下法(3) 前の式の両辺の x と i に関する期待値をとると E Le t E t Le t t x ,i x ,i 確率的な降下を実現するためには,E Le t 0 であればよい。そのためには、E t が任意の正 定値行列Cを用いて E t t CLe t t E t E t Le t t t CLe t 0 は正定数である。 確率的降下法(4) 式 L E li x; より x , i Le t Eli xt ; t 代入 E t t CLe t E t t CEli xt ; t xt i に対しては t t Cli xt ; t となる。したがって, と修正する。 確率的近似法 Robbins-Monro(RM)アルゴリズムに集約される。 w があったとし, f w 0 の根を求める場 w, hw の対の集合が与えられ Ehw f w が成り立つと仮定する。 また, hw の値は求まるが, f w の値は未知とする。 hw f w noise かつ Enoise 0 f w は hw の回帰関数とよばれRMアルゴリズムに従えば, f w 0 の根は wt 1 wt t hwt なる反復により推定される。 いま, w の関数 f w , h 合を考えてみる。ここで 等 価