Transcript pps

Slide 1

ABSTRACT
Online learning with an ensemble of
nonlinear perceptrons is analyzed. It decides
an output by using the majority vote of K
students. It is shown that the AdaTron
learning is superior to the Hebbian learning
and the perceptron learning in generalization
performance as an ensemble.
非線形パーセプトロンによるアンサンブル
学習をオンライン学習の枠組みで議論する.
K人の生徒が多数決により集団の出力を決定
する場合を考える.「生徒の多様性維持」と
いうアンサンブル学習との相性において,
アダトロン学習がパーセプトロン学習やヘ
ブ学習よりもすぐれていることが明らかに
なった.

1


Slide 2





• 精度の低いルールや学習機械(生徒)を
組み合わせて精度の高い予測や分類を行
うことはアンサンブル学習と呼ばれ近年
注目されている.
• 生徒が線形パーセプトロンの場合につい
ては理論的な解析が行われ明快な結果が
得られている(原&岡田,2002.)
• 非線形パーセプトロンの学習則としては
ヘブ学習、パーセプトロン学習、アダト
ロン学習がよく知られており,これらを
アンサンブル学習に適用した場合の違い
はたいへん興味深い課題であるが,この
点に着目した解析は行われていない.

2


Slide 3





• 符号関数を出力関数とするよう
な非線形パーセプトロンによる
アンサンブル学習をオンライン
学習の枠組みで解析する.

モデル
Teacher

Students

1

2

K

3


Slide 4

モデル (続き)
• 同じ入力 x が同じ順序で提示される
• 一度使った入力 x は廃棄される(オンライン学習)
• 生徒は独立に学習

• 集団としての出力は多数決で決定

入力:
教師:
生徒:

生徒の長さ

4


Slide 5

汎化誤差
新たな入力に対して教師と異なる答を出す確率

教師の内部状態

生徒の内部状態

5


Slide 6

Rとq
教師と生徒の類似度
生徒間の類似度

B
Jk

Rk R

Jk' J
k
k'

B

J k'

q k k'

6


Slide 7

R と q (続き)
B

Jk

B

J k'

q kk'

qが小さい→
アンサンブル効果大

Jk

J k'

qが大きい→
アンサンブル効果小

アンサンブル学習において
は生徒の多様性が維持さ
れていることが重要
→ R と q の関係が本質的
7


Slide 8

l と R を記述する微分方程式 (先行研究)

q を記述する微分方程式の導出 (新)

8


Slide 9

ヘブ学習

(先行研究)

(新)

9


Slide 10

パーセプトロン学習

(先行研究)

(新)

10


Slide 11

アダトロン学習

(先行研究)

(新)
11


Slide 12

R と q のダイナミクス
ヘブ学習

O ve rlap

1
0.8

q

0.6

R

0.4
0.2

0
0

2

4

6

8

10

8

10

Time

パーセプトロン学習

O verlap

1

0.8
0.6

R

q

0.4
0.2
0
0

2

6

4

Time

アダトロン学習

O ve rlap

1

0.8

R

0.6

q

0.4

0.2
0

0

2

4

6

Time

8

10
12


Slide 13

1

ヘブ

0.8

パーセプトロン

q

0.6

0.4

アダトロン

0.2
0

0

0.2 0.4 0.6 0.8

1

R

13


Slide 14

ヘブ学習

G en e raliza t io n E rro r

汎化誤差のダイナミクス
Theory (K=1)
Theory (K=3)
Simulation (K=3)

0.5
0.4

0.3
0.2
0.1

パーセプトロン学習

G en e raliza tio n E rro r

0

2

4

6

8

10

Time
Theory (K=1)
Theory (K=3)
Simulation (K=3)

0.5
0.4

0.3
0.2
0.1
0

2

4

6

8

10

アダトロン学習

Gen e raliza tio n E rro r

Time
Theory (K=1)
Theory (K=3)
Simulation (K=3)

0.5
0.4
0.3
0.2
0.1
0

2

4

6

Time

8

10
14


Slide 15

ヘブ学習

G en e ra liza tio n E rro r

汎化誤差のダイナミクス
1

0.1

0.01

0.001

0.0001
0.1

K=1,Theory
K=1
K=3
K=11
K=31

1

10

100

1000

10000

1000

10000

パーセプトロン学習

G en e ra liza tio n E rro r

Time
1

0.1

0.01

0.001

0.0001
0.1

K=1,Theory
K=1
K=3
K=11
K=31

1

10

100

アダトロン学習

G en e raliza tio n E rro r

Time
1
K=1,Theory
K=1
K=3
K=11
K=31

0.1

0.01

0.001

0.0001
0.1

1

10

100

Time

1000

10000

15


Slide 16

G en e raliza tio n E rro r

統合方法による汎化誤差の違い
(アダトロン学習,理論)
K=1
K=3 (Majority Vote)
K=3 (|u| max.)
K=3 (Average of J)

0.5
0.4
0.3

0.2
0.1
0

2

4

6

8

10

Time
「各生徒にアナログ値を出してもらって足
す(Jの平均)のがもちろん一番いいけれ
ど,強い意見を主張している生徒の言うこ
とだけを尊重するという方法(|u|最大)もそ
れよりちょっと悪いだけで多数決よりは
ずっといい」

16


Slide 17

まとめ
非線形パーセプトロンによるアン
サンブル学習をオンライン学習
の枠組みで議論
ヘブ学習,パーセプトロン学習,
アダトロン学習は「生徒の多様性
維持」という点で異なった性質を
有しており,アダトロン学習がもっ
とも優れている

17