講義10 - 東京工業大学

Download Report

Transcript 講義10 - 東京工業大学

情報学習理論

渡辺澄夫 東京工業大学

教師なしデータ

学習データ

X 1 , X 2 , …, X n

真の情報源

情報源の何を知りたいのか

テストデータ

X

q(x)

教師なし学習

「くだもの」の 空間の構造? p(x|w) Mathematical Learning Theory 概念の 自動生成 3 2020/4/28

競合学習

x i i=1,2,3,…,n (1) b k ; k=1,2,…,K

初期化

(2) x i

に一番近い

b k

を選ぶ

(3) b k := b k + ε( x i – b k ) (2), (3)

を繰り返す (

ε→

0)

x i b k b k 2020/4/28 Mathematical Learning Theory 4

競合学習の様子 初期値

2020/4/28 Mathematical Learning Theory k-means とは異なる アルゴリズムであるが 目標とする学習結果は ほぼ同じである 5

教師なし学習の目標の例

高次元空間にたくさんの例が与えられたとき (1) 代表例をあげる K-Means, 競合学習 (2) 空間の地図を作る 自己組織化写像 (3) 情報源の確率分布を推測する 混合正規分布 ボルツマンマシン 2020/4/28 Mathematical Learning Theory 6

2020/4/28 高次元空間を地図にする Mathematical Learning Theory 7

高次元空間内のデータ

2020/4/28 高次元空間 のデ ー タが 低次元多様体 に おおよそ 乗 っていることは よく 起 こる Mathematical Learning Theory 8

自己組織化写像

Self Organizing Map (SOM) 2020/4/28

「となり同志」の 情報があるもの の学習

Mathematical Learning Theory 9

SOM

学習法

x i i=1,2,3,…,n b 1 , b 2 , …, b (1) b k ; k=1,2,…,K 初期化 (2) x i に一番近い b k を選ぶ (3) b k-1 b k b k+1 := b k-1 + ε( x i – b k-1 ) := b k + ε( x i – b k ) := b k+1 + ε( x i – b k+1 ) (2), (3) を繰り返す ( ε→ 0) 2020/4/28 Mathematical Learning Theory k x i b k-1 b k b k+1 10

学習の様子

2020/4/28 Mathematical Learning Theory 11

z

高次元化

x 2020/4/28 y Mathematical Learning Theory 「となりどうし」を 縦横として 学習する 12

3

次元以上でもできるが・・・

2020/4/28 球面やトーラスやメビウスの帯でも できるが・・・ Mathematical Learning Theory 13

データの密度 データが密集している ところには、比例して 多くの点が自動的に集まる

2020/4/28 Mathematical Learning Theory 14

次元が異なると

2 次元を 1 次元で 埋めると このように なる データに 相応しい次元 を知る方法は 確立していない 2020/4/28 Mathematical Learning Theory 15

問題1

次の情報に 1 次元の SOM をあてはめるとどのような 学習結果が得られるか。二つ以上の異なる結果が 得られたときには両方を描きなさい。 (1) (2) 2020/4/28 Mathematical Learning Theory 16

2020/4/28 地図を見て世界を考える Mathematical Learning Theory 17

x 2020/4/28

どんな役にたつか?

z 高次元空間 に 埋 め 込 まれた 曲 がった 地図 情報解析 y Mathematical Learning Theory 低次元空間なので 人間が理解できる 18

情報工学への応用

48 48 48 × 48 次元の空間 2020/4/28 認識 中間の自体の生成 Mathematical Learning Theory 19

発見科学への応用

ジープ 自動車の空間 ( 車高 , 車幅 ,CC, 馬力 ,…) 10次元の空間 ワゴン 乗用車 ミニバン これに昨年と今年の売上を 重ね合わせると流行の変化がわかる → 商品プラン支援 2020/4/28 Mathematical Learning Theory 20

時系列予測への応用

x(t) t=1,2,…,10000 10 次元の空間 (x(t),x(t+1),…,x(t+9)) x(t) 2020/4/28 t 起こりやすい時系列と 変化の具合がわかる 現在がどれに近いかわかれば 明日が予測できる? Mathematical Learning Theory 21

2020/4/28

神経科学への応用

ライオン トラ ? 外界に対応する 脳内情報地図が存在? Mathematical Learning Theory 22

夢・神話・伝説・ 物語に出てくる 女性像の地図 夢 のシリ ー ズが 地図内 変化 で どのように するかを 調 べて 夢見手 の 心 の 変化 を 考 える 2020/4/28

心理学への応用

狂わ せる ( 魔女 雪女 育てる デーメーテル 白雪姫) 山姥 マリア ソフィア 知恵を 与える 魔女 ( お菓子の家) カーリー 飲み込む Mathematical Learning Theory 23

重要注意1

SOM などの低次元空間への写像は 人間との Visual なインターフェースに適し データからの知識発見に役立つが パターン認識・予測・制御において 高精度なシステムには結びつかないことが多い。 ⇔ 高精度なものは高次元になることが多く、 完全に言語化・知識化することは難しい。 2020/4/28 Mathematical Learning Theory 24

予測 誤差

重要注意2

「構造の発見」と 「最高の予測」は両立しない

数理情報学の基礎的な事実 2020/4/28 人間が 理解できる 構造の発見 精度のよい 予測ができる Mathematical Learning Theory 表現次元 25

問題2

市区町村 1 2 3 4 5 6 ・ ・ 人口 3000 100 5000 2000 3000 1000 3000 転入 200 500 100 200 100 200 結婚 60 10 30 20 10 20 SOM学習結果を見て できた地図について 基本となる2軸の意味は 何かを考察せよ。 3 00 2 0 謝辞: 独立行政法人統計センターのデータを用いた。 http://www.e-stat.go.jp/SG1/estat/eStatTopPortal.do

データの著作権は独立行政法人統計センターのページをご覧ください。 このデータは2012年の市区町村の人口等である。 2020/4/28 Mathematical Learning Theory 26

沖縄市 渋谷区 音威子府村 会津若松市 阿波市 町田市 永平寺町 香美市 枚方市 1人口 2子供 3労働者 4老人 5出生 6死亡 7転入 8転出 9昼人口 10結婚 11離婚