P3-12 教師が真の教師のまわりをまわる場合のオンライン学習三好誠司(P)（神戸高専）岡田真人（東大，理研，さきがけ）あらましオンライン学習において，教師機械と学習機械の構造の相違，雑音の影響などにより汎化誤差がゼロにならないモデルでは，学習機械が教師機械のまわりを動き続ける場合がある．この動き続ける学習機械を教師とするような新たな生徒を考え，その汎化能力を統計力学的手法で解析した．真の教師，動く教師，生徒のいずれもがノイズ有りの線形なパーセプトロンであるモデルについて汎化誤差を解析的に求めた結果，生徒が動く教師の入出力だけを例題として使用するにもかかわらず，動く教師よりも生徒の方が賢くなりうることが明らかになった．背景 (1/2) • バッチ学習 – 与えられたいくつかの例題を繰り返し使用 – すべての例題に正しく答えられる – 長い時間が必要 – 例題を蓄えておくメモリが必要 • オンライン学習 – 一度使った例題は捨ててしまう – 過去の例題に必ず正しく答えられるとは限らない – 例題を蓄えておくメモリが不要 – 時間的に変化する教師にも追随背景 (2/2) • 教師機械と生徒機械の構造の違い等により汎化誤差がゼロにならない場合がある →学習不能な場合（例） – 教師がコミティマシンで生徒が単純パーセプトロン – 教師が非単調パーセプトロンで生徒が単純パーセプトロン –

Transcript P3-12 教師が真の教師のまわりをまわる場合のオンライン学習三好誠司(P)（神戸高専）岡田真人（東大，理研，さきがけ）あらましオンライン学習において，教師機械と学習機械の構造の相違，雑音の影響などにより汎化誤差がゼロにならないモデルでは，学習機械が教師機械のまわりを動き続ける場合がある．この動き続ける学習機械を教師とするような新たな生徒を考え，その汎化能力を統計力学的手法で解析した．真の教師，動く教師，生徒のいずれもがノイズ有りの線形なパーセプトロンであるモデルについて汎化誤差を解析的に求めた結果，生徒が動く教師の入出力だけを例題として使用するにもかかわらず，動く教師よりも生徒の方が賢くなりうることが明らかになった．背景 (1/2) • バッチ学習 – 与えられたいくつかの例題を繰り返し使用 – すべての例題に正しく答えられる – 長い時間が必要 – 例題を蓄えておくメモリが必要 • オンライン学習 – 一度使った例題は捨ててしまう – 過去の例題に必ず正しく答えられるとは限らない – 例題を蓄えておくメモリが不要 – 時間的に変化する教師にも追随背景 (2/2) • 教師機械と生徒機械の構造の違い等により汎化誤差がゼロにならない場合がある →学習不能な場合（例） – 教師がコミティマシンで生徒が単純パーセプトロン – 教師が非単調パーセプトロンで生徒が単純パーセプトロン –

P3-12
教師が真の教師のまわりをまわる場合のオンライン学習
三好誠司(P)（神戸高専）
岡田真人（東大，理研，さきがけ）
あらまし
オンライン学習において，教師機械と
学習機械の構造の相違，雑音の影
響などにより汎化誤差がゼロになら
ないモデルでは，学習機械が教師機
械のまわりを動き続ける場合がある．
この動き続ける学習機械を教師とす
るような新たな生徒を考え，その汎化
能力を統計力学的手法で解析した．
真の教師，動く教師，生徒のいずれ
もがノイズ有りの線形なパーセプトロ
ンであるモデルについて汎化誤差を
解析的に求めた結果，生徒が動く教
師の入出力だけを例題として使用す
るにもかかわらず，動く教師よりも生
徒の方が賢くなりうることが明らかに
なった．
背景 (1/2)
• バッチ学習
– 与えられたいくつかの例題を繰り返し
使用
– すべての例題に正しく答えられる
– 長い時間が必要
– 例題を蓄えておくメモリが必要
• オンライン学習
– 一度使った例題は捨ててしまう
– 過去の例題に必ず正しく答えられると
は限らない
– 例題を蓄えておくメモリが不要
– 時間的に変化する教師にも追随
背景 (2/2)
• 教師機械と生徒機械の構造の違い等によ
り汎化誤差がゼロにならない場合がある
→学習不能な場合
（例）
– 教師がコミティマシンで生徒が単純パーセプト
ロン
– 教師が非単調パーセプトロンで生徒が単純
パーセプトロン
– 教師や生徒にノイズがのっている
• 学習不能な場合には生徒が教師のまわり
を動き続ける場合がある
目的
• 真の教師のまわりを動き続ける学習
機械を教師とするような新たな生徒
を考え，この生徒の汎化能力を理論
的に調べる．
モデル (1/3)
真の教師
A
•
•
•
•
動く教師
生徒
B
J
BはAの入出力を学習
JはBの入出力を学習
Jは直接にはAの入出力は見えない
A,B,Jはノイズがのった線形パーセ
プトロン
モデル (2/3)
• 真の教師の出力
• 動く教師の出力
• 生徒の出力
•
•
•
•
•
入力：
真の教師：
動く教師：
生徒：
N→∞（熱力学的極限）
動く教師の長さ
生徒の長さ
モデル (3/3)
二乗誤差
勾配法
g
f
汎化誤差
• 統計的学習理論の目的のひとつは汎化誤差を理
論的に計算することである
• 汎化誤差＝未知の入力に関する誤差の平均
多重ガウス分布誤差
巨視的変数のダイナミクスを記述する決定論的
な連立微分方程式を熱力学的極限における
自己平均性に基づいて導出する方法
１．解析を容易にするため補助的な巨視的変数を導入
２．
Bm+1 = Bm + gm xm
の両辺にAをかける
３．
NrBm+1 = NrBm
+ gmym
NrBm+2 = NrBm+1
+ gm+1ym+1
Ndt個
+
NrBm+Ndt = NrBm+Ndt-1 + gm+Ndt-1ym+Ndt-1
NrBm+Ndt = NrBm
N(rB+drB) = NrB
drB / dt = <gy>
+ Ndt <gy>
+ Ndt <gy>
巨視的変数のダイナミクスを記述する
決定論的連立微分方程式
巨視的変数の解析解
ηJ＝1.2
G en e raliza tio n E rro r
汎化誤差のダイナミクス
B- J
2
1.5
J
1
B
0.5
0
5
10
15
20
ηJ＝0.3
G en e raliza tio n E rro r
t=m/N
1.5
1
B- J
B
0.5
J
0
教師より生徒が賢くなる
5
10
t=m/N
15
20
Rとlのダイナミクス
2.0
1.8
1.6
1.4
1.2
1.0
0.8
0.6
0.4
0.2
0
R, l
ηJ＝1.2
lJ
lB
RB
RJ
RBJ
0
5
10
15
20
t=m/N
1.2
lB
1.0
ηJ＝0.3
lJ
R, l
0.8
0.6
RJ
RB
RBJ
0.4
0.2
0
0
5
10
15
20
t=m/N
R<0 （生徒がいったん
出遅れる）
生徒が教師より内側に入る
定常解析 (1/2)
G en e raliza tio n E rro r
η→2で汎化誤差が発散
10
B-J
J
1
B
0.1
0.0
0.5
1.0
ηJ
ηが小さいとき生徒は
教師より賢くなる
1.5
2.0
定常解析 (2/2)
ηが小さいとき生徒は
教師より真の教師に
近くなる
η→0でR→1
1.0
RB
R
0.8
0.6
η＝2で
相転移
RJ
0.4
R BJ
0.2
0
0.0
0.5
1.0
1.5
2.0
ηJ
4
3.5
l
3
η→2で長さが
発散
lJ
2.5
2
lB
1.5
1
0.0
η→0で長さ1
0.5
1.0
ηJ
1.5
2.0
ηJが２に近いとき
ηJ を小さくすると生徒
が教師より内側に入る
ηJ → 0で生徒は長さ
・方向とも真の教師と
完全に一致
B
A J
B
J
B
J
B
J
まとめ
• 真の教師，動く教師，生徒が
ノイズ有りの線形なパーセプ
トロンである場合を考え，統計
力学的手法により汎化誤差を
解析的に求めた．
• 生徒が動く教師の入出力だけ
を使用するにもかかわらず，
生徒が動く教師よりも賢くなり
うるという興味深い結果が明
らかになった．

Directory