発表資料 - 東京工業大学

Download Report

Transcript 発表資料 - 東京工業大学

ICML2006勉強会
2006年7月29日
局所フィッシャー判別分析
東京工業大学 計算工学専攻
杉山 将
次元削減
次元の呪い:高次元データは扱いにくい
次元数を削減したい
本発表では以下の設定を考える

線形次元削減:

教師付き次元削減:
2
クラス内多峰性
あるクラスのデータが多峰性である
クラス1(青)
クラス2(赤)
医療データ:
ホルモンアンバランス(多い・少ない)vs.正常
数字認識:
偶数(0,2,4,6,8)vs.奇数(1,3,5,7,9)
多クラス分類:
一クラスvs.残りのクラス (one vs. rest)
3
4
本研究の目的
多峰性のデータをうまく埋め込みたい!
クラス間分離性を最大化
 クラス内多峰性を保存

クラス間分離性:OK
クラス内多峰性:NG
クラス間分離性:NG
クラス内多峰性:OK
クラス間分離性:OK
クラス内多峰性:OK
フィッシャー判別分析 (FDA)
クラス内散布行列:
クラス間散布行列:
FDA規準:
クラス内散布を小さく
 クラス間散布の度合いを大きく

Fisher (1936)
5
FDAの解釈
Pair-wise表現:
同じクラスの標本は近くに埋め込む
違うクラスの標本は遠くに埋め込む
6
:クラス の標本数
:全標本数
7
FDAの例
単純
ラベル混合クラスタ
多峰性
近く
近く
遠く
近く
遠く
遠く
FDA はクラス内多峰性を考慮していない
注意:
のため,FDAはC-1個
の特徴しか取り出せない
:クラス数
局所性保存射影(LPP)
He & Niyogi (NIPS2003)
局所性行列:
類似度行列:
例)
LPP規準:
元の空間で近くにある標本は近くに埋め込む
 拘束条件は
を避けるため

8
9
LPPの例
単純
ラベル混合クラスタ
多峰性
近く
近く
近く
LPPはクラス間分離性を考慮していない
(教師無し)
10
本研究のアプローチ
FDAとLPPを組み合わせる!
同じクラスの近くの標本は
近くに埋め込む
同じクラスでも遠くの標本
は近づけない
異なるクラスの標本は遠く
に埋め込む
遠く
近く
条件無し
局所フィッシャー判別分析(LFDA)
局所クラス内散布行列:
局所クラス間散布行列:
11
埋め込み行列の求め方
LFDA規準はFDA規準と同じ形式なので,
一般化固有値問題を解くだけで埋め込み
行列を求めることができる!
12
13
LFDAの例
単純
ラベル混合クラスタ
多峰性
LFDAは3種類全てのデータに対してうまくいく!
注意:通常は
が成り立つため,
LFDAではC個以上の特徴が取り出せる
近傍成分分析(NCA)
14
Goldberger, Roweis, Hinton & Salakhutdinov (NIPS2004)
確率的最近傍分類機のクロスバリデーション
エラーを最小化する
求まる埋め込みは分離性が高い
NCAは非凸最適化問題を含む
局所最適解が存在
解の解析形は知られていない
遅い繰り返しアルゴリズム
LFDAは最適解が解析的に求まる
最大縮退座標系学習(MCML)
Globerson & Roweis (NIPS2005)
考え方はFDAと同様
同じクラスの標本は近くに(一点に)
 異なるクラスの標本は遠くに

MCMLは非凸最適化問題を含む
しかし凸近似が存在する
近似解しか求まらない
近似解の解析形は知られていない
遅い繰り返しアルゴリズム
15
16
実験
UCIデータの可視化:
Letter recognition (D=16)
 Segment (D=18)
 Thyroid disease (D=5)
 Iris (D=4)

元のデータから3つのクラスを取り出す
その内2つのクラスをくっつける
クラス1(青)
クラス2(赤)
実験結果のまとめ
Lett Segm Thyr Iris
コメント
FDA
非多峰性
LPP
非分離性
LFDA
NCA
遅い,局所解
MCML
遅い,非多峰性
クラス間分離性OK,クラス内多峰性OK
クラス間分離性OK,クラス内多峰性NG
クラス間分離性NG,クラス内多峰性OK
17
18
Letter Recognition
FDA
LPP
NCA
青
vs.
赤
LFDA
MCML
19
Segment
FDA
LPP
NCA
青
vs.
赤
LFDA
MCML
20
Thyroid Disease
FDA
LPP
NCA
青
vs.
赤
LFDA
MCML
21
Iris
FDA
LPP
NCA
青
vs.
赤
LFDA
MCML
カーネル化
22
LFDAはカーネルを使うことにより非線形に
拡張できる
Mika et al. (NNSP1999)
FDA: Kernel FDA
LPP: Laplacian eigenmap Belkin & Niyogi (NIPS2001)
MCML: Kernel MCML Globerson & Roweis (NIPS2005)
NCA: できない?
結論
23
LFDAはFDAとLPPの良い所を組み合わせる
LFDAは多峰性データの埋め込みに向いている
埋め込み行列が解析的に求まるため計算が速い
LFDAは類似度行列を定める必要がある
本発表では,局所スケーリング法を用いて類似度
Zelnik-Manor & Perona (NIPS2004)
行列を定めた.
局所スケーリング法はチューニングパラメータを
含まないので使いやすいが,有効性の理論的な
裏づけはない.