fujii4

Transcript fujii4

わかりやすいパターン認識
第６章特徴空間の変換
６．５ KL展開の適用法
〔１〕 KL展開と線形判別法
〔２〕 KL展開と学習パターン数
平成１５年６月６日（金）
発表者藤井丈明
〔1〕ＫＬ展開と線形判別法
X
D
2
1
2
P
ＫＬ展開の軸
線
形
判
別
法
の
軸
0
X1
表現のための次元削減と判別のための次元削減
ＫＬ展開と線形判別法の違い
• KL展開ｰ表現、圧縮のための次元削減
• 線形判別法ｰ判別のための次元削減
線形判別法はクラスの分布の分離度を考
慮している
ＫＬ展開の有用性
・KL展開の有用性
1）高次元の特徴ベクトルを必要とする高度
な認識（文字認識、音声認識ｅｔｃ）の、次
元の呪いを防ぐために次元削減が必要
2）相関の高い特徴がある時、次元削減によ
り冗長な情報を減らす。また計算誤差が
大きくなるのを防ぐことができる
ＫＬ展開の問題点
ＫＬ展開の問題点
・ＫＬ展開によって特徴空間の次元数を減ら
すことは識別に必要な情報を落としてしま
う危険性を常にはらんでいる
〔2〕ＫＬ展開と学習パターン数
学習パターンから共分散行列を求め、その
固有値と固有ベクトルを求める
ＫＬ展開の計算に学習パターン数がどのよ
うな影響を及ぼすか次の２つの実験で調
べる
実験
• 実験1－16次元の特徴空間上に多次元正規分
布をするパターンを人工的に発生させ､KL展開
によって定まる主軸と正しい主軸とのずれが､パ
ターン数の増加とともにどのように変化するか調
べ､二つの軸のなす角を  とし､ずれを cos  で評
価する
• 実験２－人口的な特徴ベクトルではなく、実際の
文字パターンから得られた特徴を用いて上と同
様の実験を行う。文字として手書き数字の｢５｣を
400パターン収集、Glucksmanの特徴を加工して
得られる16次元特徴を用いた

実験１グラフ
1
cos 
0 .5
(a )
(a) 多次元正規分布パターン
0
150
パターン数
パターン数と主軸方向の精度
300
実験１、結果
• パターン数が次元数に等しい時
求められた主軸は63.7のずれがある
• パターン数が次元数の4倍の時
求められた主軸は50.5のずれがある
次元数に比して十分なパターン数を用意す
る必要がある
実験２グラフ
1
(b )
cos 
(a )
0 .5
(a) 多次元正規分布パターン
(b) 実文字パターン
0
150
パターン数
パターン数と主軸方向の精度
300
実験２、結果
• パターン数が比較的少なくても、ほぼ正しい主
軸が得られた
実際、互いに独立な特徴を用意する
事は困難であり、必ず相関を持ってしまう
この例も、Glucksmanの特徴上、特徴間で相関を
持つものがかなりの部分を占めていると考えら
れる
累積寄与率
（cumulative proportion）
• 固有値を大きい順にある個数まで加算し
た値が、固有値の総和に対して占める割
合。ある限られた主成分だけで元の分布
をどの程度忠実に記述できるかという目
安になる
累積寄与率グラフ
1
(b )
累
積
寄
与
率
(a )
0 .5
(a) 多次元正規分布パターン
(b) 実文字パターン
0
1
8
特徴数
特徴数と累積寄与率
16
累積寄与率、結果
（実文字パターン）
• 最初の8個でほぼ99％に達した
実際には8次元程度の部分空間にパターン
が分布している
見かけ上の次元数は大きくても、実際はよ
り小さな次元の空間にパターンが分布し
ているとき、この実際上の次元数を固有
次元数（intrinsic dimensionality）と呼ぶ
累積寄与率、結果
（多次元正規分布パターン）
累積寄与率が途中で急激に増大し、飽和する事
はない
・用いたものは人工的なパターン
・16個の特徴間の独立性が高いため
固有次元数も16に近いと考えられる
よって必要とされるパターン数ははるかに多くなる
まとめ
結果的にパターンが少数次元の部分空間
にしか分布していないとしても、その事実
を確認するには次元数に比べて大量の
パターンが必要であることに注意する必
要がある

fujii4

Transcript fujii4

Directory