Transcript yatsu1

Data Clustering: A Review
A.K. Jain, M.N. Murty, P.J. Flynn
~5.Clustering techniques~
院生ゼミ ‘04年4月27日(火曜日)
谷津 哲平
クラスタリング手法の分類
階層型
分割型
※クラスタリングのためのアルゴリズムの仕様は柔軟性がある
Agglomerative vs. divisive
アルゴリズムの構造と操作
agglomerative(集塊性の)
各パターンが異なったクラスタにある状態で始まって,
停止基準を満たすまで連続するクラスタを結合させる
ボトムアップ
divisive(分析的な)
すべてのパターンが単一のクラスタにある状態で始まって,
停止基準が満たされるまで分かれながら働く
トップダウン
Monothetic vs. polythetic
分類
monothetic
一連の二者択一的選択肢を当てはめて,それぞれ
固有の形質,特徴を持った個々の構成要素に細分して
ゆく分類体系
polythetic
すべての特徴においてパターンの間の距離の計算を
し,その距離に基づいて決定
※ほとんどのアルゴリズムはpolythetic
Monothetic vs. polythetic
monotheticの例
特徴X1によって2つのグループ
に分ける (分割線V)
特徴X2によってさらに分割
(破線H1,H2)
問題点:2のd乗のクラスタを発生させる(d:パターンの次元数)
dが大きい場合,クラスタ数が非常に大きくなる
Hard vs. fuzzy
出力
hard(確かな)
fuzzy(ぼやけた)
操作の間の単一のクラスタと
その出力における各パターン
を割り当てる
数個のクラスタのメンバー
シップの度合いをそれぞれの
入力パターンに割り当てる
変換できる
(メンバーシップの最も大きい基準で各パターンをクラスタに割り当てる)
Deterministic vs. stochastic
分割型手法
deterministic(決定論の)
「伝統的テクニック」
stochastic(確率的な)
+
「ランダムサーチ」
2乗された誤差関数を最適化
Incremental vs. non-incremental
データの数
incremental(増加的な)
Non-incremental(非増加的な)
クラスタリングするように設定されたパターンが大きいと問題
実行時間やメモリースペースの制約がアルゴリズムの構造
に影響する
Incremental vs. non-incremental
初期のクラスタリング方法論
大きいデータセットでは働かない
データマイニング到来後
パターンセットを通るスキャンの
数を最小にする
実行の間に調べられたパターン
の数を減らす
アルゴリズムの操作に使用される
データ構造のサイズを減らす
クラスタリング
アルゴリズムの
開発を促進