Transcript pps
Slide 1
ABSTRACT
Online learning with an ensemble of
nonlinear perceptrons is analyzed. It decides
an output by using the majority vote of K
students. It is shown that the AdaTron
learning is superior to the Hebbian learning
and the perceptron learning in generalization
performance as an ensemble.
非線形パーセプトロンによるアンサンブル
学習をオンライン学習の枠組みで議論する.
K人の生徒が多数決により集団の出力を決定
する場合を考える.「生徒の多様性維持」と
いうアンサンブル学習との相性において,
アダトロン学習がパーセプトロン学習やヘ
ブ学習よりもすぐれていることが明らかに
なった.
1
Slide 2
背
景
• 精度の低いルールや学習機械(生徒)を
組み合わせて精度の高い予測や分類を行
うことはアンサンブル学習と呼ばれ近年
注目されている.
• 生徒が線形パーセプトロンの場合につい
ては理論的な解析が行われ明快な結果が
得られている(原&岡田,2002.)
• 非線形パーセプトロンの学習則としては
ヘブ学習、パーセプトロン学習、アダト
ロン学習がよく知られており,これらを
アンサンブル学習に適用した場合の違い
はたいへん興味深い課題であるが,この
点に着目した解析は行われていない.
2
Slide 3
目
的
• 符号関数を出力関数とするよう
な非線形パーセプトロンによる
アンサンブル学習をオンライン
学習の枠組みで解析する.
モデル
Teacher
Students
1
2
K
3
Slide 4
モデル (続き)
• 同じ入力 x が同じ順序で提示される
• 一度使った入力 x は廃棄される(オンライン学習)
• 生徒は独立に学習
• 集団としての出力は多数決で決定
入力:
教師:
生徒:
生徒の長さ
4
Slide 5
汎化誤差
新たな入力に対して教師と異なる答を出す確率
教師の内部状態
生徒の内部状態
5
Slide 6
Rとq
教師と生徒の類似度
生徒間の類似度
B
Jk
Rk R
Jk' J
k
k'
B
J k'
q k k'
6
Slide 7
R と q (続き)
B
Jk
B
J k'
q kk'
qが小さい→
アンサンブル効果大
Jk
J k'
qが大きい→
アンサンブル効果小
アンサンブル学習において
は生徒の多様性が維持さ
れていることが重要
→ R と q の関係が本質的
7
Slide 8
l と R を記述する微分方程式 (先行研究)
q を記述する微分方程式の導出 (新)
8
Slide 9
ヘブ学習
(先行研究)
(新)
9
Slide 10
パーセプトロン学習
(先行研究)
(新)
10
Slide 11
アダトロン学習
(先行研究)
(新)
11
Slide 12
R と q のダイナミクス
ヘブ学習
O ve rlap
1
0.8
q
0.6
R
0.4
0.2
0
0
2
4
6
8
10
8
10
Time
パーセプトロン学習
O verlap
1
0.8
0.6
R
q
0.4
0.2
0
0
2
6
4
Time
アダトロン学習
O ve rlap
1
0.8
R
0.6
q
0.4
0.2
0
0
2
4
6
Time
8
10
12
Slide 13
1
ヘブ
0.8
パーセプトロン
q
0.6
0.4
アダトロン
0.2
0
0
0.2 0.4 0.6 0.8
1
R
13
Slide 14
ヘブ学習
G en e raliza t io n E rro r
汎化誤差のダイナミクス
Theory (K=1)
Theory (K=3)
Simulation (K=3)
0.5
0.4
0.3
0.2
0.1
パーセプトロン学習
G en e raliza tio n E rro r
0
2
4
6
8
10
Time
Theory (K=1)
Theory (K=3)
Simulation (K=3)
0.5
0.4
0.3
0.2
0.1
0
2
4
6
8
10
アダトロン学習
Gen e raliza tio n E rro r
Time
Theory (K=1)
Theory (K=3)
Simulation (K=3)
0.5
0.4
0.3
0.2
0.1
0
2
4
6
Time
8
10
14
Slide 15
ヘブ学習
G en e ra liza tio n E rro r
汎化誤差のダイナミクス
1
0.1
0.01
0.001
0.0001
0.1
K=1,Theory
K=1
K=3
K=11
K=31
1
10
100
1000
10000
1000
10000
パーセプトロン学習
G en e ra liza tio n E rro r
Time
1
0.1
0.01
0.001
0.0001
0.1
K=1,Theory
K=1
K=3
K=11
K=31
1
10
100
アダトロン学習
G en e raliza tio n E rro r
Time
1
K=1,Theory
K=1
K=3
K=11
K=31
0.1
0.01
0.001
0.0001
0.1
1
10
100
Time
1000
10000
15
Slide 16
G en e raliza tio n E rro r
統合方法による汎化誤差の違い
(アダトロン学習,理論)
K=1
K=3 (Majority Vote)
K=3 (|u| max.)
K=3 (Average of J)
0.5
0.4
0.3
0.2
0.1
0
2
4
6
8
10
Time
「各生徒にアナログ値を出してもらって足
す(Jの平均)のがもちろん一番いいけれ
ど,強い意見を主張している生徒の言うこ
とだけを尊重するという方法(|u|最大)もそ
れよりちょっと悪いだけで多数決よりは
ずっといい」
16
Slide 17
まとめ
非線形パーセプトロンによるアン
サンブル学習をオンライン学習
の枠組みで議論
ヘブ学習,パーセプトロン学習,
アダトロン学習は「生徒の多様性
維持」という点で異なった性質を
有しており,アダトロン学習がもっ
とも優れている
17
ABSTRACT
Online learning with an ensemble of
nonlinear perceptrons is analyzed. It decides
an output by using the majority vote of K
students. It is shown that the AdaTron
learning is superior to the Hebbian learning
and the perceptron learning in generalization
performance as an ensemble.
非線形パーセプトロンによるアンサンブル
学習をオンライン学習の枠組みで議論する.
K人の生徒が多数決により集団の出力を決定
する場合を考える.「生徒の多様性維持」と
いうアンサンブル学習との相性において,
アダトロン学習がパーセプトロン学習やヘ
ブ学習よりもすぐれていることが明らかに
なった.
1
Slide 2
背
景
• 精度の低いルールや学習機械(生徒)を
組み合わせて精度の高い予測や分類を行
うことはアンサンブル学習と呼ばれ近年
注目されている.
• 生徒が線形パーセプトロンの場合につい
ては理論的な解析が行われ明快な結果が
得られている(原&岡田,2002.)
• 非線形パーセプトロンの学習則としては
ヘブ学習、パーセプトロン学習、アダト
ロン学習がよく知られており,これらを
アンサンブル学習に適用した場合の違い
はたいへん興味深い課題であるが,この
点に着目した解析は行われていない.
2
Slide 3
目
的
• 符号関数を出力関数とするよう
な非線形パーセプトロンによる
アンサンブル学習をオンライン
学習の枠組みで解析する.
モデル
Teacher
Students
1
2
K
3
Slide 4
モデル (続き)
• 同じ入力 x が同じ順序で提示される
• 一度使った入力 x は廃棄される(オンライン学習)
• 生徒は独立に学習
• 集団としての出力は多数決で決定
入力:
教師:
生徒:
生徒の長さ
4
Slide 5
汎化誤差
新たな入力に対して教師と異なる答を出す確率
教師の内部状態
生徒の内部状態
5
Slide 6
Rとq
教師と生徒の類似度
生徒間の類似度
B
Jk
Rk R
Jk' J
k
k'
B
J k'
q k k'
6
Slide 7
R と q (続き)
B
Jk
B
J k'
q kk'
qが小さい→
アンサンブル効果大
Jk
J k'
qが大きい→
アンサンブル効果小
アンサンブル学習において
は生徒の多様性が維持さ
れていることが重要
→ R と q の関係が本質的
7
Slide 8
l と R を記述する微分方程式 (先行研究)
q を記述する微分方程式の導出 (新)
8
Slide 9
ヘブ学習
(先行研究)
(新)
9
Slide 10
パーセプトロン学習
(先行研究)
(新)
10
Slide 11
アダトロン学習
(先行研究)
(新)
11
Slide 12
R と q のダイナミクス
ヘブ学習
O ve rlap
1
0.8
q
0.6
R
0.4
0.2
0
0
2
4
6
8
10
8
10
Time
パーセプトロン学習
O verlap
1
0.8
0.6
R
q
0.4
0.2
0
0
2
6
4
Time
アダトロン学習
O ve rlap
1
0.8
R
0.6
q
0.4
0.2
0
0
2
4
6
Time
8
10
12
Slide 13
1
ヘブ
0.8
パーセプトロン
q
0.6
0.4
アダトロン
0.2
0
0
0.2 0.4 0.6 0.8
1
R
13
Slide 14
ヘブ学習
G en e raliza t io n E rro r
汎化誤差のダイナミクス
Theory (K=1)
Theory (K=3)
Simulation (K=3)
0.5
0.4
0.3
0.2
0.1
パーセプトロン学習
G en e raliza tio n E rro r
0
2
4
6
8
10
Time
Theory (K=1)
Theory (K=3)
Simulation (K=3)
0.5
0.4
0.3
0.2
0.1
0
2
4
6
8
10
アダトロン学習
Gen e raliza tio n E rro r
Time
Theory (K=1)
Theory (K=3)
Simulation (K=3)
0.5
0.4
0.3
0.2
0.1
0
2
4
6
Time
8
10
14
Slide 15
ヘブ学習
G en e ra liza tio n E rro r
汎化誤差のダイナミクス
1
0.1
0.01
0.001
0.0001
0.1
K=1,Theory
K=1
K=3
K=11
K=31
1
10
100
1000
10000
1000
10000
パーセプトロン学習
G en e ra liza tio n E rro r
Time
1
0.1
0.01
0.001
0.0001
0.1
K=1,Theory
K=1
K=3
K=11
K=31
1
10
100
アダトロン学習
G en e raliza tio n E rro r
Time
1
K=1,Theory
K=1
K=3
K=11
K=31
0.1
0.01
0.001
0.0001
0.1
1
10
100
Time
1000
10000
15
Slide 16
G en e raliza tio n E rro r
統合方法による汎化誤差の違い
(アダトロン学習,理論)
K=1
K=3 (Majority Vote)
K=3 (|u| max.)
K=3 (Average of J)
0.5
0.4
0.3
0.2
0.1
0
2
4
6
8
10
Time
「各生徒にアナログ値を出してもらって足
す(Jの平均)のがもちろん一番いいけれ
ど,強い意見を主張している生徒の言うこ
とだけを尊重するという方法(|u|最大)もそ
れよりちょっと悪いだけで多数決よりは
ずっといい」
16
Slide 17
まとめ
非線形パーセプトロンによるアン
サンブル学習をオンライン学習
の枠組みで議論
ヘブ学習,パーセプトロン学習,
アダトロン学習は「生徒の多様性
維持」という点で異なった性質を
有しており,アダトロン学習がもっ
とも優れている
17