発表資料 - 東京工業大学
Download
Report
Transcript 発表資料 - 東京工業大学
ICML2007勉強会,東京工業大学,東京
2007年8月20日
カーネル法のトレンド:
非線形化から統計的検定へ
杉山 将
東京工業大学 計算工学専攻
http://sugiyama-www.cs.titech.ac.jp/~sugi/
[email protected]
ヒルベルト空間
2
ヒルベルト空間:完備な内積空間
完備:距離空間における任意のコーシー列がその空間内の
点に収束する
距離空間:任意の2点間の距離が定められた集合
コーシー列:十分先の方でほとんど値が変化しない数列
内積空間:内積の定義されたベクトル空間
ベクトル空間:和とスカラー倍が定義された集合
ヒルベルト空間の利点:
いつでも射影(最良近似)が存在する.
コーシー・シュワルツの不等式が使える.
再生核ヒルベルト空間(RKHS)
再生核ヒルベルト空間:
再生核を持つ関数ヒルベルト空間
関数ヒルベルト空間:
関数を要素に持つヒルベルト空間
再生核ヒルベルト空間 の再生核
任意の固定した に対して,
は
の元
の任意の元 と任意の に対して,
(再生性,または,“カーネルトリック”)
3
RKHSの使い方1:非線形化
入力点
4
に対する特徴ベクトルを次式で定義:
線形の学習アルゴリズムが入力ベクトルの内積
のみで表現できるとき,特徴空間でそのアルゴリ
ズムを実行すると,もとの空間では非線形になる.
入力空間
特徴空間
応用例
回帰・分類
サポートベクターマシン
カーネルフィッシャー判別分析
カーネル最近傍法
クラスタリング
カーネルK平均法
外れ値検出
1クラスSVM,
SVデータ記述
次元削減
カーネル主成分分析
5
RKHSの使い方2:統計的検定
6
普遍(universal)RKHS:厳密な定義は省略
Steinwart (JMLR2001)
ガウシアンRKHSは普遍RKHS
普遍RKHSを用いた統計的検定の例
分布の違い:最大平均相違
独立性: 相互共分散作用素,相互相関作用素
Gretton et al. (NIPS2006)
Bach & Jordan (JMLR2002)
Fukumizu et al. (JMLR2004)
Gretton et al. (JMLR2005, ALT2005)
分布の違いの検定
二つの分布
が同じかどうか調べたい.
古典: コルモゴロフ・スミルノフ検定
高次元では難しい.
7
最大平均相違(MMD)
8
Gretton et al. (NIPS2006)
普遍RKHS内の単位超球
に対して,
直感的な解釈:全ての積率が一致すれば,
二つの分布は等しい.
:期待値
:分散
再生核を用いたMMDの陽表現
9
(再生性)
(コーシー・シュワルツの不等式)
よって
MMDの経験近似
10
i.i.d.標本が与えられると仮定:
このとき,MMDの二乗の経験近似は
この統計量の分布を調べれば,
同じ分布かどうか検定できる.
が
MMDの応用例
11
バイオインフォマティックスにおける分布の違い
Borgwardt et al. (Bioinformatics2006)
の検定
共変量シフトにおける重要度の推定(カーネル
平均適合)
Huang et al. (NIPS2006)
と
が一致するように
:重要度
を決定.
独立性の検定
二つの確率変数
12
が独立かどうか調べたい.
古典:相互情報量
密度推定を行なう必要があるため,高次元では
うまくいかない.
相互共分散作用素
13
相互共分散作用素:
:
への特徴変換
:
への特徴変換
Bach & Jordan (JMLR2002)
Fukumizu et al. (JMLR2004)
Gretton et al. (JMLR2005, ALT2005)
普遍RKHS
に対して,
は独立
作用素の“大きさ”の評価の仕方
14
作用素ノルム:最大固有値
カーネル正準相関分析
Bach & Jordan (JMLR2002)
カーネル拘束分散
Gretton et al. (JMLR2005)
行列式:固有値の積
カーネル一般化分散
Bach & Jordan (JMLR2002)
Fukumizu et al. (JMLR2004)
カーネル相互情報量
Gretton et al. (JMLR2005)
ヒルベルト・シュミットノルム:固有値の和
ヒルベルト・シュミット独立性規準
(HSIC)
Gretton et al. (ALT2005)
再生核を用いたHSICの陽表現
15
より,
:
の再生核
:
の再生核
HSICの経験近似
標本
が与えられると仮定.
このとき,HSICの二乗の経験近似は
この統計量の分布を調べれば,
が
独立かどうか検定できる.
カーネルの選び方によって,様々な従来法
が再現できる.
16
応用例
独立成分分析
17
Bach & Jordan (JMLR2002)
Gretton et al. (JMLR2005)
分解後の成分同士が最も独立になるようにする.
次元削減・特徴選択
Song et al. (ICML2007b)
入力と出力の独立性を調べ
最も独立なものを取り除いていく.
最も従属なものを選んでいく.
クラスタリング
Fukumizu et al. (JMLR2004)
Song et al. (ICML2007a)
入力と最も従属になるようなラベルを付与する.
まとめ
18
カーネル・トリックの応用は,アルゴリズムの非線形化
から,統計的検定に広がっている.
カーネル統計的検定において,ガウシアンの幅はどう
やって決めればよいか?
相互共分散作用素は正規化していないため,次元削
減やクラスタリングでは相互相関作用素を使うべき?
次元削減では,条件付き相関を使うべき?
理論的に面白く汎用性はあるが,本当に実用的か?