P3-12 教師が真の教師のまわりをまわる場合のオンライン学習 三好 誠司(P)(神戸高専) 岡田 真人(東大,理研,さきがけ) あらまし オンライン学習において,教師機械と 学習機械の構造の相違,雑音の影 響などにより汎化誤差がゼロになら ないモデルでは,学習機械が教師機 械のまわりを動き続ける場合がある. この動き続ける学習機械を教師とす るような新たな生徒を考え,その汎化 能力を統計力学的手法で解析した. 真の教師,動く教師,生徒のいずれ もがノイズ有りの線形なパーセプトロ ンであるモデルについて汎化誤差を 解析的に求めた結果,生徒が動く教 師の入出力だけを例題として使用す るにもかかわらず,動く教師よりも生 徒の方が賢くなりうることが明らかに なった. 背 景 (1/2) • バッチ学習 – 与えられたいくつかの例題を繰り返し 使用 – すべての例題に正しく答えられる – 長い時間が必要 – 例題を蓄えておくメモリが必要 • オンライン学習 – 一度使った例題は捨ててしまう – 過去の例題に必ず正しく答えられると は限らない – 例題を蓄えておくメモリが不要 – 時間的に変化する教師にも追随 背 景 (2/2) • 教師機械と生徒機械の構造の違い等によ り汎化誤差がゼロにならない場合がある →学習不能な場合 (例) – 教師がコミティマシンで生徒が単純パーセプト ロン – 教師が非単調パーセプトロンで生徒が単純 パーセプトロン –

Download Report

Transcript P3-12 教師が真の教師のまわりをまわる場合のオンライン学習 三好 誠司(P)(神戸高専) 岡田 真人(東大,理研,さきがけ) あらまし オンライン学習において,教師機械と 学習機械の構造の相違,雑音の影 響などにより汎化誤差がゼロになら ないモデルでは,学習機械が教師機 械のまわりを動き続ける場合がある. この動き続ける学習機械を教師とす るような新たな生徒を考え,その汎化 能力を統計力学的手法で解析した. 真の教師,動く教師,生徒のいずれ もがノイズ有りの線形なパーセプトロ ンであるモデルについて汎化誤差を 解析的に求めた結果,生徒が動く教 師の入出力だけを例題として使用す るにもかかわらず,動く教師よりも生 徒の方が賢くなりうることが明らかに なった. 背 景 (1/2) • バッチ学習 – 与えられたいくつかの例題を繰り返し 使用 – すべての例題に正しく答えられる – 長い時間が必要 – 例題を蓄えておくメモリが必要 • オンライン学習 – 一度使った例題は捨ててしまう – 過去の例題に必ず正しく答えられると は限らない – 例題を蓄えておくメモリが不要 – 時間的に変化する教師にも追随 背 景 (2/2) • 教師機械と生徒機械の構造の違い等によ り汎化誤差がゼロにならない場合がある →学習不能な場合 (例) – 教師がコミティマシンで生徒が単純パーセプト ロン – 教師が非単調パーセプトロンで生徒が単純 パーセプトロン –

P3-12
教師が真の教師のまわりをまわる場合のオンライン学習
三好 誠司(P)(神戸高専)
岡田 真人(東大,理研,さきがけ)
あらまし
オンライン学習において,教師機械と
学習機械の構造の相違,雑音の影
響などにより汎化誤差がゼロになら
ないモデルでは,学習機械が教師機
械のまわりを動き続ける場合がある.
この動き続ける学習機械を教師とす
るような新たな生徒を考え,その汎化
能力を統計力学的手法で解析した.
真の教師,動く教師,生徒のいずれ
もがノイズ有りの線形なパーセプトロ
ンであるモデルについて汎化誤差を
解析的に求めた結果,生徒が動く教
師の入出力だけを例題として使用す
るにもかかわらず,動く教師よりも生
徒の方が賢くなりうることが明らかに
なった.
背 景 (1/2)
• バッチ学習
– 与えられたいくつかの例題を繰り返し
使用
– すべての例題に正しく答えられる
– 長い時間が必要
– 例題を蓄えておくメモリが必要
• オンライン学習
– 一度使った例題は捨ててしまう
– 過去の例題に必ず正しく答えられると
は限らない
– 例題を蓄えておくメモリが不要
– 時間的に変化する教師にも追随
背 景 (2/2)
• 教師機械と生徒機械の構造の違い等によ
り汎化誤差がゼロにならない場合がある
→学習不能な場合
(例)
– 教師がコミティマシンで生徒が単純パーセプト
ロン
– 教師が非単調パーセプトロンで生徒が単純
パーセプトロン
– 教師や生徒にノイズがのっている
• 学習不能な場合には生徒が教師のまわり
を動き続ける場合がある
目 的
• 真の教師のまわりを動き続ける学習
機械を教師とするような新たな生徒
を考え,この生徒の汎化能力を理論
的に調べる.
モデル (1/3)
真の教師
A
•
•
•
•
動く教師
生徒
B
J
BはAの入出力を学習
JはBの入出力を学習
Jは直接にはAの入出力は見えない
A,B,Jはノイズがのった線形パーセ
プトロン
モデル (2/3)
• 真の教師の出力
• 動く教師の出力
• 生徒の出力
•
•
•
•
•
入力:
真の教師:
動く教師:
生徒:
N→∞(熱力学的極限)
動く教師の長さ
生徒の長さ
モデル (3/3)
二乗誤差
勾配法
g
f
汎化誤差
• 統計的学習理論の目的のひとつは汎化誤差を理
論的に計算することである
• 汎化誤差=未知の入力に関する誤差の平均
多重ガウス分布 誤差
巨視的変数のダイナミクスを記述する決定論的
な連立微分方程式を熱力学的極限における
自己平均性に基づいて導出する方法
1.解析を容易にするため補助的な巨視的変数を導入
2.
Bm+1 = Bm + gm xm
の両辺にAをかける
3.
NrBm+1 = NrBm
+ gmym
NrBm+2 = NrBm+1
+ gm+1ym+1
Ndt個
+
NrBm+Ndt = NrBm+Ndt-1 + gm+Ndt-1ym+Ndt-1
NrBm+Ndt = NrBm
N(rB+drB) = NrB
drB / dt = <gy>
+ Ndt <gy>
+ Ndt <gy>
巨視的変数のダイナミクスを記述する
決定論的連立微分方程式
巨視的変数の解析解
ηJ=1.2
G en e raliza tio n E rro r
汎化誤差のダイナミクス
B- J
2
1.5
J
1
B
0.5
0
5
10
15
20
ηJ=0.3
G en e raliza tio n E rro r
t=m/N
1.5
1
B- J
B
0.5
J
0
教師より生徒が賢くなる
5
10
t=m/N
15
20
Rとlのダイナミクス
2.0
1.8
1.6
1.4
1.2
1.0
0.8
0.6
0.4
0.2
0
R, l
ηJ=1.2
lJ
lB
RB
RJ
RBJ
0
5
10
15
20
t=m/N
1.2
lB
1.0
ηJ=0.3
lJ
R, l
0.8
0.6
RJ
RB
RBJ
0.4
0.2
0
0
5
10
15
20
t=m/N
R<0 (生徒がいったん
出遅れる)
生徒が教師より内側に入る
定常解析 (1/2)
G en e raliza tio n E rro r
η→2で汎化誤差が発散
10
B-J
J
1
B
0.1
0.0
0.5
1.0
ηJ
ηが小さいとき生徒は
教師より賢くなる
1.5
2.0
定常解析 (2/2)
ηが小さいとき生徒は
教師より真の教師に
近くなる
η→0でR→1
1.0
RB
R
0.8
0.6
η=2で
相転移
RJ
0.4
R BJ
0.2
0
0.0
0.5
1.0
1.5
2.0
ηJ
4
3.5
l
3
η→2で長さが
発散
lJ
2.5
2
lB
1.5
1
0.0
η→0で長さ1
0.5
1.0
ηJ
1.5
2.0
ηJが2に近いとき
ηJ を小さくすると生徒
が教師より内側に入る
ηJ → 0で生徒は長さ
・方向とも真の教師と
完全に一致
B
A J
B
J
B
J
B
J
まとめ
• 真の教師,動く教師,生徒が
ノイズ有りの線形なパーセプ
トロンである場合を考え,統計
力学的手法により汎化誤差を
解析的に求めた.
• 生徒が動く教師の入出力だけ
を使用するにもかかわらず,
生徒が動く教師よりも賢くなり
うるという興味深い結果が明
らかになった.