Transcript 講義10 - 東京工業大学
情報学習理論
渡辺澄夫 東京工業大学
教師なしデータ
学習データ
X 1 , X 2 , …, X n
真の情報源
情報源の何を知りたいのか
テストデータ
X
q(x)
教師なし学習
「くだもの」の 空間の構造? p(x|w) Mathematical Learning Theory 概念の 自動生成 3 2020/4/28
競合学習
x i i=1,2,3,…,n (1) b k ; k=1,2,…,K
初期化
(2) x i
に一番近い
b k
を選ぶ
(3) b k := b k + ε( x i – b k ) (2), (3)
を繰り返す (
ε→
0)
x i b k b k 2020/4/28 Mathematical Learning Theory 4
競合学習の様子 初期値
2020/4/28 Mathematical Learning Theory k-means とは異なる アルゴリズムであるが 目標とする学習結果は ほぼ同じである 5
教師なし学習の目標の例
高次元空間にたくさんの例が与えられたとき (1) 代表例をあげる K-Means, 競合学習 (2) 空間の地図を作る 自己組織化写像 (3) 情報源の確率分布を推測する 混合正規分布 ボルツマンマシン 2020/4/28 Mathematical Learning Theory 6
2020/4/28 高次元空間を地図にする Mathematical Learning Theory 7
高次元空間内のデータ
2020/4/28 高次元空間 のデ ー タが 低次元多様体 に おおよそ 乗 っていることは よく 起 こる Mathematical Learning Theory 8
自己組織化写像
Self Organizing Map (SOM) 2020/4/28
「となり同志」の 情報があるもの の学習
Mathematical Learning Theory 9
SOM
学習法
x i i=1,2,3,…,n b 1 , b 2 , …, b (1) b k ; k=1,2,…,K 初期化 (2) x i に一番近い b k を選ぶ (3) b k-1 b k b k+1 := b k-1 + ε( x i – b k-1 ) := b k + ε( x i – b k ) := b k+1 + ε( x i – b k+1 ) (2), (3) を繰り返す ( ε→ 0) 2020/4/28 Mathematical Learning Theory k x i b k-1 b k b k+1 10
学習の様子
2020/4/28 Mathematical Learning Theory 11
z
高次元化
x 2020/4/28 y Mathematical Learning Theory 「となりどうし」を 縦横として 学習する 12
3
次元以上でもできるが・・・
2020/4/28 球面やトーラスやメビウスの帯でも できるが・・・ Mathematical Learning Theory 13
データの密度 データが密集している ところには、比例して 多くの点が自動的に集まる
2020/4/28 Mathematical Learning Theory 14
次元が異なると
2 次元を 1 次元で 埋めると このように なる データに 相応しい次元 を知る方法は 確立していない 2020/4/28 Mathematical Learning Theory 15
問題1
次の情報に 1 次元の SOM をあてはめるとどのような 学習結果が得られるか。二つ以上の異なる結果が 得られたときには両方を描きなさい。 (1) (2) 2020/4/28 Mathematical Learning Theory 16
2020/4/28 地図を見て世界を考える Mathematical Learning Theory 17
x 2020/4/28
どんな役にたつか?
z 高次元空間 に 埋 め 込 まれた 曲 がった 地図 情報解析 y Mathematical Learning Theory 低次元空間なので 人間が理解できる 18
情報工学への応用
48 48 48 × 48 次元の空間 2020/4/28 認識 中間の自体の生成 Mathematical Learning Theory 19
発見科学への応用
ジープ 自動車の空間 ( 車高 , 車幅 ,CC, 馬力 ,…) 10次元の空間 ワゴン 乗用車 ミニバン これに昨年と今年の売上を 重ね合わせると流行の変化がわかる → 商品プラン支援 2020/4/28 Mathematical Learning Theory 20
時系列予測への応用
x(t) t=1,2,…,10000 10 次元の空間 (x(t),x(t+1),…,x(t+9)) x(t) 2020/4/28 t 起こりやすい時系列と 変化の具合がわかる 現在がどれに近いかわかれば 明日が予測できる? Mathematical Learning Theory 21
2020/4/28
神経科学への応用
ライオン トラ ? 外界に対応する 脳内情報地図が存在? Mathematical Learning Theory 22
夢・神話・伝説・ 物語に出てくる 女性像の地図 夢 のシリ ー ズが 地図内 変化 で どのように するかを 調 べて 夢見手 の 心 の 変化 を 考 える 2020/4/28
心理学への応用
狂わ せる ( 魔女 雪女 育てる デーメーテル 白雪姫) 山姥 マリア ソフィア 知恵を 与える 魔女 ( お菓子の家) カーリー 飲み込む Mathematical Learning Theory 23
重要注意1
SOM などの低次元空間への写像は 人間との Visual なインターフェースに適し データからの知識発見に役立つが パターン認識・予測・制御において 高精度なシステムには結びつかないことが多い。 ⇔ 高精度なものは高次元になることが多く、 完全に言語化・知識化することは難しい。 2020/4/28 Mathematical Learning Theory 24
予測 誤差
重要注意2
「構造の発見」と 「最高の予測」は両立しない
数理情報学の基礎的な事実 2020/4/28 人間が 理解できる 構造の発見 精度のよい 予測ができる Mathematical Learning Theory 表現次元 25
問題2
市区町村 1 2 3 4 5 6 ・ ・ 人口 3000 100 5000 2000 3000 1000 3000 転入 200 500 100 200 100 200 結婚 60 10 30 20 10 20 SOM学習結果を見て できた地図について 基本となる2軸の意味は 何かを考察せよ。 3 00 2 0 謝辞: 独立行政法人統計センターのデータを用いた。 http://www.e-stat.go.jp/SG1/estat/eStatTopPortal.do
データの著作権は独立行政法人統計センターのページをご覧ください。 このデータは2012年の市区町村の人口等である。 2020/4/28 Mathematical Learning Theory 26
沖縄市 渋谷区 音威子府村 会津若松市 阿波市 町田市 永平寺町 香美市 枚方市 1人口 2子供 3労働者 4老人 5出生 6死亡 7転入 8転出 9昼人口 10結婚 11離婚